Báo Cáo Khai Phá Dữ Liệu Phân Tích Quan Điểm Phân Tích Mạng Xã Hội TWITTER

THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER. Trích chọn thông tin phim ảnh Trích chọn thông tin nhà hàng, quán ăn Crawling dữ liệu diễn đàn Crawling dữ liệu Facebook Phân loại tin tức trực đtuyến Lọc spam email Khai phá luật kết hợp Phát hiện tự động chủ đề nóng trên mạng Chuẩn hoá ngôn ngữ teen trên Web Xây dựng hệ thống gợi ý theo lọc cộng đối tác báo cáo hướng dẫn môn khai phá dữ liệu

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Đào Quốc Vương

THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin

HÀ NỘI - 2013

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy

Cán bộ đồng hướng dẫn:NCS Vũ Ngọc Trình

Trang 3

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Dao Quoc Vuong

OPINION RETRIEVALABOUT ENTITY

IN TWITTER

Major: Information technology

Supervisor: Assoc Prof Ha Quang Thuy

Co-Supervisor: Masters Vu Ngoc Trinh

HA NOI-2013

Trang 4

Khóa QH-2009-I/CQ, ngành công nghệ thông tin

Tóm tắt khóa luận:

Thu hồi quan điểm (opinion retrieval) là bài toán tiến hành thu hồi các quan điểm trong một nguồn tài liệu, trong đó có các mạng xã hội, chẳng hạn như Twitter Thu hồi quan điểm có nhiều ứng dụng và được dựa trên các giải pháp công nghệ tiên tiến vì vậy thu hút sự quan tâm đặc biệt của nhiều nhóm nghiên cứu trên thế giới Nhiều công trình nghiên cứu về thu hổi quan điểm đã được công bố [1,6,9,12,15,16,22] Trong một vài năm gần đây, một số nghiên cứu về thu hồi quan điểm từ mạng Twitter đã được công bố Trên cơ sở tìm hiểu và phân tích các công trình nghiên cứu liên quan, đặc biệt là các công trình [1,2,6,22], khóa luận khảo sát các phương pháp thu hồi quan điểm trên nhiều miền, nhiều lịch vực Trên cơ sở các phân tích nói trên, khóa luận đề nghị một mô hình thu hồi quan điểm trên mạng xã hội Twitter

Đồng thời, khóa luận xây dựng hệ thống thử nghiệm thi hành mô hình nói trên và hành thực nghiệm với bộ dữ liệu (253711 tweet) được lấy bằng Twitter Search API Kết quả thực nghiệm đạt độ chính xác phân lớp chủ quan khoảng 76.7% và phân lớp phân cực khoảng hơn 81%, cho thấy tính hiệu quả của mô hình đề xuất

Từ khóa: Opinion, retrieval, twitter

Trang 5

OPINION RETRIEVAL ABOUT ENTITY IN TWITTER

Dao Quoc Vuong

QH-2009-I/CQ course, information technology faculty

Abstract thesis:

Opinion retrieval is problem to recover the perspective of a resource, including social networking sites, such as Twitter Opinion retrieval is a problem with many applications, has attracted the special attention of many research group around the world Many research works were recovered announced [1,6,9,12,15,16,22] In particular, there have been some studies on the recovery from Twitter for a few years

On the basis of understanding and comparison of research works related above, especially the works [1,2,6,22], thesis explored methods perspective on recovery multiple domains, many tourist areas, through the process of understanding and analysis, the thesis proposed model recovery perspective on social network twitter

With the flourish of online social network such as Twitter, Facebook, social data network is becoming a more and more useful and important information and resource for people and organization This flourishing is not only a chance but also a challenge to build an opinion search and retrieval system This thesis study and propose an opinion retrieval on Twitter The experimental results show the effectiveness of the proposed system

At the same time, the implementation of the thesis mentioned above with a model experimental system and conducted experimental evaluation of the model on data taken over twitter with Twitter Search API The experimental results achieved subjective classification of about 76.7%, classification accuracy of about 81.% polarization showed the effectiveness of the proposed model

Keyword: Opinion, retrieval, twitter

Trang 6

Lời cảm ơn

Lời đầu tiên, khóa luận xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS

Hà Quang Thụy, NCS Vũ Ngọc Trình đã tận tình hướng dẫn và chỉ bảo khóa luận trong suốt quá trình thực hiện khóa luận tốt nghiệp

Khóa luận xin chân thành cảm ơn các thầy, cô trong trường đại học Công Nghệ - đại học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho khóa luận học tập và nghiên cứu Khóa luận cũng xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phòng thí nghiệm KT-Lab đã hỗ trợ khóa luận rất nhiều về kiến thức chuyên môn trong quá trình thực hiện khóa luận Khóa luận xin cảm ơn các bạn trong lớp K54CLC đã ủng

hộ và khuyến khích khóa luận trong suốt suốt quá trình học tập tại trường

Cuối cùng, khóa luận xin được gửi cám ơn vô hạn tới gia đình và bạn bè, những người đã luôn bên cạnh, giúp và động viên khóa luận trong quá trình học tập cũng như trong suốt quá trình thực hiện khóa luận này

Khóa luận xin chân thành cảm ơn!

Hà Nội, ngày 13 tháng 05 năm 2013

Sinh viên

Trang 7

Lời cam đoan

Khóa luận xin cam đoan phương pháp thu hồi quan điểm về thực thể trên mạng xã hội twitter và thực nghiệm được trình bày trong khóa luận này là do khóa luận thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và NCS Vũ Ngọc Trình

Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng

từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà Nội, ngày 13 tháng 05 năm 2015

Sinh viên

Trang 8

Mục lục Lời mở đầu 1

Chương 1 Khái quát bài toán thu hồi quan điểm về thực thể trên mạng xã hội Twitter 3

1.1 Mạng xã hội twitter 3

1.1.1.Mạng xã hội 3

1.1.2.Giới thiệu về mạng xã hội twitter 4

1.1.3.Dữ liệu trên twitter 8

1.2 Phát biểu bài toán 9

1.2.1.Bài toán thu hồi quan điểm 9

1.2.2.Bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter 9

1.2.3.Ý nghĩa của bài toán thu hồi quan điểm về thực thể trên mang xã hội 10

1.2.4.Khó khăn và thách thức 11

1.3 Tóm tắt chương 1 11

Chương 2 Cơ sở lý thuyết và các ngiên cứu liên quan 12

2.1 Hệ thống phân lớp quan điểm 12

2.1.1.Các đặc trưng phân lớp quan điểm 12

2.1.2.Phân lớp quan điểm chủ quan/khách quan 15

2.1.3.Phân lớp quan điểm phân cực 16

2.2 Thuật toán SVM 17

2.2.1.Giới thiệu thuật toán 17

2.2.2.Cách áp dụng thuật toán SVM vào bài toán phân lớp quan điểm 18

2.3 Độ tương đồng 19

Trang 9

2.4 Áp dụng độ tương đồng cho bài toán thu hồi quan điểm về thực thể trên

mạng xã hội twitter 22

2.5 Twitter Search API 23

Chương 3 Mô hình đề xuất 28

3.1 Mô hình giải quyết bài toán 28

3.2 Giải quyết chi tiết các pha 30

3.2.1.Crawler dữ liệu tweet liên quan đến thực thể (query), tiền xử lý và chuẩn hóa dữ liệu tweet 30

3.2.2.Xây dựng bộ phân lớp chủ quan/khách quan, sử dụng bộ phân lớp chủ quan/khách quan để phân lớp cho dữ liệu tweet mới đã được chuẩn hóa 33

3.2.3.Xây dựng bộ phân phân cực, sử dụng bộ phân lớp phân cực để phân lớp các dữ liệu tweet chủ quan 34

3.2.4.Trực quan hóa kết quả từ dữ liệu tweet đã được gán nhãn phân cực 35

Chương 4 Thực nghiệm và đánh giá 37

4.1 Hướng tiếp cận thực nghiệm 37

4.2 Môi trường thực nghiệm 38

4.2.1 Cấu hình phần cứng 38

4.2.2 Công cụ phân mềm 38

4.3.Dữ liệu 38

4.4 Thực nghiệm 39

4.4.1.Xây dựng bộ phâp lớp chủ quan/khách quan 39

4.4.2 Sử dụng bộ phân lớp chủ quan/ khách quan với dữ liệu đã được chuẩn hóa 40

4.4.3 Xây dựng bộ phân lớp phân cực 40

Trang 10

4.4.4 Sử dụng bộ phân lớp phân cực 40

4.4.5 Trực quan hóa kết quả 41

4.5 Đánh giá hệ thống 44

Kết luận và định hướng tiếp theo 46

Tài liệu tham khảo 47

Trang 11

Danh sách bảng

Bảng 1 Cách sử dung Search API 26

Bảng 2 Các từ mã hóa HTML 31

Bảng 3 Ví dụ về biểu tượng cảm xúc trong từ điển 31

Bảng 4 Ví dụ từ điển chuẩn hóa 32

Bảng 5 Ví dụ về từ điển viết tắt 32

Bảng 6 Các đặc trưng sử dụng trong bộ phân lớp chủ quan/ khách quan 33

Bảng 7 Một số từ mang quan điểm trong từ điển quan điểm 34

Bảng 8 Các đặc trưng sử dụng trong bộ phân lớp phân cực 35

Bảng 9 Cấu hình phần cứng 38

Bảng 10 Công cụ phần mềm sử dụng 38

Bảng 11 Kết quả sử dụng bộ phân lớp chủ quan/ khách quan 40

Bảng 12 Kết quả sử dụng bộ phân lớp phân cực 41

Trang 12

Danh sách hình vẽ

Hình 1 Những hình ảnh thể hiện mạng xã hội năm 2012 4

Hình 2 Rút gọn link trên tweet 5

Hình 3 Kiến trúc ứng dụng sử dụng mô hình Rest API 8

Hình 4 Kiến trúc ứng dụng sử dụng mô hình Stream API 9

Hình 5 Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm 18

Hình 6 Mô hình giải quyết bài toán 28

Hình 7 Dữ liệu thực nghiệm 39

Hình 8 Biểu diễn tổng quan các thực thể về quan điểm 41

Hình 9 Biểu diễn quan điểm về Iphone5 theo phần trăm 42

Hình 10 Biểu diễn số lượng quan điểm về Iphone5 42

Hình 11 Biểu diễn quan điểm về Iphone5 theo thời gian biểu đồ cột 43

Hình 12 Biểu diễn quan điểm về Iphone5 theo thời gian biểu đồ đường 44

Trang 13

Danh sách các từ viết tắt

Từ viết tắt Cụm từ

API Application programming interface

ASCII American Standard Code for Information Interchange

TF-IDF term frequency–inverse document frequency

JSON JavaScript Object Notatio

Trang 14

Lời mở đầu

Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho các tổ chức, cá nhân thu thập, tìm kiếm thông tin cũng như xử lý chúng và nhiều bài toán được đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội

Thu hồi quan điểm là một trong các bài toán khai thác thông tin, giúp người dùng có thể có được những thông tin mong muốn về quan điểm Tương tự như bài toán thu hồi web thông thường, thu hồi quan điểm giúp người dùng tìm được những tài liệu quan điểm liên quan đến truy vấn Tuy nhiên, điều khác biệt quan trọng hơn là thu hồi quan điểm còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu hồi được

Với sự phát triển nhanh chóng cùng với các API hỗ trợ, mạng xã hội Twitter đã trở thành một nguồn cung cấp nhiều thông tin quan điểm cho những người nghiên cứu về mạng xã hội

Đã có nhiều công trình nghiên cứu, chẳng hạn[1,6,9,12,15,22], liên quan đến bài toán thu hồi quan điểm theo các phương pháp khác nhau từ nhiều nguồn dữ liệu Nói riêng, nhiều công trình nghiên cứu về thu hồi quan điểm trên twitter đã được công bố[2,3,7,13,22]

Thông quan tìm hiểu và phân tích các phương pháp khai phá quan điểm trên các miền dữ liệu khác nhau[5,14,19,20], khóa luận “Thu hồi quan điểm về thực thể từ mạng Twitter” tập trung nghiên cứu bài toán thu hồi quan điểm về thực thể trên mạng xã hội Twitter và đề xuất một mô hình giải quyết bài toán Khóa luận gồm 4 chương:

Chương 1 trình bày về bài toán thu hồi quan điểm về thực thể trên mạng xã hội

Chương này bắt đầu bằng việc giới thiệu về mạng xã hội, mạng xã hội twitter với dữ liệu của nó Sau đó bài toán thu hồi quan điểm về thực thể trên mạng xã hội được phát biểu; cùng với nó là những trình bày về ý nghĩa của bài toán cũng như các khó khăn thách thức trong việc giải nó

Trong Chương 2, khóa luận trình bày tóm tắt khái quát các công trình nghiên cứu

liên quan, đồng thởi trình bày những ưu điểm, nhược điểm của các phương pháp của các

Trang 15

Chương 3 đưa ra mô hình giải quyết bài toán thu hồi quan điểm về thực thể trên

mạng xã hội twitter Các pha trong mô hình và phương pháp giải quyết chi tiết ở từng pha được mô tả Khóa luận cũng giới thiệu dữ liệu, từ điển được dùng cho bài toán

Chương 4 Thực nghiệm và đánh giá Chương này chỉ ra từng bước khóa luận tiến

hành thực nghiệm và đánh giá kết quả thực nghiệm đối với kết quả thực nghiệm

Phần Kết luận và sự định hướng tiếp theo của khóa luận tổng kết kết quả đạt

được của khóa luận, chỉ ra hạn chế và hướng khắc phục hạn chế

Trang 16

Chương 1 Khái quát bài toán thu hồi quan điểm về thực thể trên mạng xã hội Twitter

Để có thể tổng hợp đánh giá hay xem xét về một sản phẩm hay dịch vụ, thu hồi quan điểm là một cách giúp chúng ta có thể có cái nhìn tổng quan về những thông tin của người dùng đã thể hiện quan điểm

1.1 Mạng xã hội twitter

1.1.1 Mạng xã hội

Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối kết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian

Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file, blog và xã luận Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví

dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán

Hiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau, với MySpace và Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và Tây Âu; Orkut và Hi5 tại Nam Mỹ;Friendster tại Châu Á và các đảo quốc Thái Bình Dương Mạng xã hội khác gặt hái được thành công đáng kể theo vùng miền như Bebo tại Anh Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại Việt Nam xuất hiện rất nhiều các mạng xã hội như: Zing

Me, YuMe,Tamtay

Một cái nhìn tổng quan về số lượng đang sử dụng mạng xã hội, thành phần, giới tính, lứa tuổi, thời gian sử dụng … được thể hiện một cách sơ lược qua các hình ảnh trong hình 1

Trang 17

Hình 1 Những hình ảnh thể hiện mạng xã hội năm 20121

1.1.2 Giới thiệu về mạng xã hội twitter

Mạng xã hội twitter ra đời vào ngày 21/3/2006 bởi Jack Dorsey và July, tính đến tháng 4 năm 2013, Twitter có hơn 500 triệu người dùng, hơn 170 tỉ tweet, có hơn 200 triệu người dùng tích cực trong tháng và trung bình trên mỗi người dùng có 208 người theo dõi Trung bình có hơn 400 triệu tweet được tạo ra trên một ngày, 307 tweet trên một người dùng, mỗi tháng trung bình một người dùng 170 phút trên twitter, có đến hơn 60% là sử dụng trên điện thoại2

Dưới đây là một số khái niệm trong twitter:

Twitter là 1 trang micro-blog và cũng là một mạng nhắn tin

Tweet là một đoạn văn (một SMS) của người dùng tạo ra

1 Nguồn http://expandedramblings.com/index.php/user-demographics-of-the-major-social-networks-infographic/

2 Nguồn http://expandedramblings.com/index.php/march-2013-by-the-numbers-a-few-amazing-twitter-stats/

Trang 18

Follow theo dõi

Follower của bạn là số người đang theo dõi bạn

Following của bạn là số người bạn đang theo dõi

Mention (hoặc reply) là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “@”, là hành động tag tên người dùng để trả lời hoặc đề cập đến người đó

Hashtag là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “#” được gọi là biểu tượng băm, nó là một hình thức thẻ siêu dữ liệu, các tweets có thể được gắn thẻ bằng một hay nhiều từ Ví dụ “#Wikipedia is an #encyclopedia”

Hashtag cung cấp một phương tiện của nhóm các tín nhắn như vậy, vì thể ta có thể tìm kiếm các hashtag và nhận được tập hợp các tin nhắn đó

Url (link) trên các tweets đều được rút gọn lại để tránh các kiểu lợi dụng đường link nhằm lừa đảo hay pháy tán phần mềm độc hại và để giúp hiện thị tốt trên tweet (vì tweet chỉ có 140 ký tự) Công cụ của twitter rút gọn link nhưng vẫn hiện thị tên miền đầy đủ để người dùng có thể biết họ bấm vào đường link nào

Một ví dụ về rút gọn link http://www.twitlonger.com/show/hppk6c thành tl.gd/hppk6c

Hình 2 Rút gọn link trên tweet

Trang 19

Cơ chế kết nối 3

Người dùng Việt Nam có lẽ đã quá quen thuộc với mạng xã hội Facebook và quen với hình thức tương tác của Facebook Ý nghĩa chính của mạng xã hội Facebook từ những ngày đầu chính là tìm kiếm và kết nối bạn bè, cập nhật các thông tin cá nhân về mình và chia sẻ những thông tin hay Cho dù bạn có bạn bè ở xa bất kỳ đâu vẫn có thể biết được

họ đang như thế nào, cuộc sống ra sao thông qua việc cập nhật trạng thái hàng ngày

Do đó, cơ chế của mạng xã hội Facebook là cơ chế kết nối hai chiều Có nghĩa là một người kết bạn với bạn thì cần phải có sự xác nhận của bạn Còn cơ chế của mạng xã hội Twitter thì lại khác hoàn toàn là cơ chế một chiều Một người theo (follow) bạn thì không cần phải chờ sự xác nhận từ bạn

Sau khi một người follow bạn thì họ sẽ nhận được các thông tin mà bạn tweet trên

đó, tweet cũng giống như hình thức cập nhật trạng thái của Facebook Nhưng nếu bạn không follow lại người đó thì bạn sẽ không thấy những cập nhật của họ Hay nói cách khác là bạn muốn nhìn thấy được những cập nhật từ ai đó, bạn phải follow người đó Điểm mạnh của Twitter là số người follow bạn không giới hạn, còn số lượng người kết nối bạn bè trong Facebook thì giới hạn với con số 5000 Do đó, Twitter thường được

ưa thích sử dụng bởi các doanh nghiệp, thương hiệu, hay những ngôi sao nổi tiếng nhằm cập nhật những thông tin về mình cho những người quan tâm Vì vậy, những diễn viên, ca

sĩ, ngôi sao bóng đá… trên thế giới thường sử dụng mạng xã hội này

Thời gian sau này thì Facebook đã cho ra đời hình thức Fan page tương tự như cơ chế một chiều để đáp ứng việc theo dõi

Cơ chế cập nhật

Có một điểm đặc biệt và khác với nhiều mạng xã hội khác ở Twitter chính là việc chỉ cho phép tweet với 140 ký tự Đây cũng là một trong những lý do tại sao đa số người Việt Nam không thích sử dụng mạng xã hội này Thế nhưng tại sao lại như vậy?

Đó là vì nếu như bạn ở Mỹ và một số nước mà Twitter phát triển, bạn có thể nhận được những cập nhật từ người mà bạn quan tâm thông qua tin nhắn SMS Mà đa phần các thiết bị di động chỉ giới hạn số ký tự cho một tin nhắn là 160 ký tự

3 Nguồn http://www.babywolfvn.com/mang-xa-hoi-2/y-nghia-cua-mang-xa-hoi-twitter

Trang 20

Vậy vì sao lại không phải là 160 ký tự mà là 140 ký tự? Đó là vì 20 ký tự kia được dành để hiển thị cho tên người cập nhật

Mặt khác, việc cập nhật một status với số lượng ký tự ít ỏi này cũng tạo nên một thói quen cho người dùng Nhất là đối với thời buổi bận rộn hiện nay

Tuy nhiên, hiện nay Twitter chưa hỗ trợ phần gửi tin nhắn SMS ở Việt Nam Đó cũng là một trong những lý do chính khiến cho Twitter không thể phát triển được ở Việt Nam

Từ những gì đã nêu ở trên, các bạn sẽ dễ dàng nhận thấy rằng Twitter rất tiện lợi trong ba vấn đề sau:

 Đối với bạn bè quan tâm đến bạn: Khi bạn đang ở đâu đó, bạn đi đâu đó, bạn chỉ

cần tweet lên twitter thì bạn bè thân của bạn sẽ biết được mà không cần phải gọi điện thoại hay nhắn tin Ví dụ như khóa luận sắp đi Hà Nội khóa luận có thể tweet lên “Chuẩn

bị đi Hà Nội” Những bạn bè thân của khóa luận sẽ nhận được thông điệp này một cách nhanh chóng và có thể sắp xếp để gặp bạn

 Đối với doanh nghiệp & người dùng: Các doanh nghiệp sẽ dễ dàng cung cấp

thông tin đến với người tiêu dùng của họ thông qua việt tweet lên Twitter Người dùng cũng dễ dàng nhận được các thông tin hỗ trợ và những chương trình khuyến mãi, hay các thông tin về sản phẩm mới

 Đối với các ngôi sao có nhiều fan hâm mộ: Các ngôi sao có thể cập nhật những

gì mình đang làm, những chương trình mà mình tham gia, các buổi biểu diễn… Các fan hâm mộ cũng có thể nhận được thông tin này một cách nhanh nhất trực tiếp từ chính thần tượng của họ

Qua đó, các bạn cũng thấy rằng không cần phải thông qua các báo đài, bạn vẫn có thể nhận được thông tin một cách nhanh nhất một cách trực tiếp từ người bạn cần theo dõi

Ngoài ra, Twitter còn có cơ chế retweet, tức là tweet lại thông tin từ người khác đã tweet Đây cũng chính là một trong những điểm mạnh của Twitter, thông tin lan truyền một cách nhanh chóng

Trang 21

1.1.3 Dữ liệu trên twitter

Dữ liệu trên twitter chủ yếu là tiếng anh, dữ liệu mỗi tweet có độ dài tối đa là 140 ký

tự Các tweet thường rất ngắn, nhiều từ viết tắt, thiếu hoặc sai chính tả

Tweets thường chứa thêm reply (“@”), hashtag (“#”), URL(link)

Twitter cũng cấp rất nhiều API giúp người dùng dễ dàng có thể lấy dữ liệu như Rest

Hình 3 Kiến trúc ứng dụng sử dụng mô hình Rest API

4 Nguồn https://dev.twitter.com/docs/streaming-apis

Trang 22

Hình 4 Kiến trúc ứng dụng sử dụng mô hình Stream API

1.2 Phát biểu bài toán

1.2.1 Bài toán thu hồi quan điểm

Bài toán thu hồi quan điểm (hay còn gọi là bài toán tìm kiếm quan điểm) là một trong các bài toán khai thác thông tin, giúp người dùng có thể có được những thông tin mong muốn về quan điểm:[6]

Thu hồi được những câu, những tài liệu liên quan đến truy vấn, tương tự công việc của tìm kiếm (thu hồi) web

Phân lớp câu, tài liệu được thu hồi về theo quan điểm tích cực hay tiêu cực đây chính là nhiệm vụ chính của phần này

Bài toán thu hồi quan điểm:

Đầu vào: Truy vấn (tên một thực thể, một người dùng, một câu nói …)

Đầu ra: Các tài liệu mang quan điểm liên quan đến truy vấn

Trang 23

Bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter:

Đầu vào: Tên thực thể (ví dụ iphone5, samsung, acer …)

Đầu ra: Đánh giá quan điểm về thực thể

Bài toán này được thực hiện trên miền dữ liệu tiếng anh trên Twitter

Mạng xã hội ngày càng lớn mạnh, twitter là một trong top 15 mạng xã hội phổ biến nhất (twitter có số lượng người dùng đứng thứ 2)5 và Twitter cung cấp nhiều API giúp chúng ta có thể sử dụng

Do twitter hạn chế số lượng ký tự (tối đa 140) và chưa hỗ trợ gửi tin nhắn ở việt nam nên lượng người dùng twitter ở Việt Nam tương đối ít

Do vậy khóa luận chọn thu hồi quan điểm về thực thể trên mạng xã hội twitter với

dữ liệu là tiếng anh

1.2.3 Ý nghĩa của bài toán thu hồi quan điểm về thực thể trên mang xã hội

Ta đã biết ý nghĩa góp to lớn của việc tìm kiếm web, cũng tương tự như vậy, thu hồi (tìm kiếm) quan điểm có tầm quan trọng trong xã hội CNTT ngày càng phát triển

Cùng với sự lớn mạnh của mạng xã hội twitter, việc thu hồi quan điểm về thực thể trên nó càng có nhiều ý nghĩa Thu hồi quan điểm về thực thể từ người sử dụng twitter cho thấy quan điểm chung của cộng đồng về thực thể đó

Khảo sát quan điểm rất có ích, ví dụ nếu một người dùng muốn mua 1 chiếc điện thoại Iphone5 nhưng họ chưa có kinh nghiệm sử dụng chiếc điện thoại đó, họ có thể hỏi hoặc tham khảo quan điểm từ gia đình, bạn bè … Ngoài ra họ có thể lên các diễn đàn, các trang xã hội để tìm hiểu quan điểm của những người đã dùng chiếc điện thoại đó

Nếu có khảo sát quan điểm về chiếc điện thoại Iphone5 theo thời gian Người dùng

có thể thấy được một cách nhìn nhận quan điểm của cộng đồng về chiếc điện thoại Iphone Xu hướng và sự thay đổi quan điểm cộng động về điện thoại Iphone5 Theo thời gian, Iphone5 (thực thể) cũng có sự thay đổi nên quan điểm của cộng đồng người dùng cũng thay đổi theo

5 Nguồn http://www.ebizmba.com/articles/social-networking-websites

Trang 24

1.2.4 Khó khăn và thách thức

Dữ liệu tweets rất ngắn (tối đa là 140 ký tự), có rất nhiều từ viết tắt, từ lóng, từ sai chính tả và viết không đúng cú pháp, chất lượng và độ tin cậy thấp Những yếu tố này làm giảm hiệu quả khai thác quan điểm dựa trên NLP truyền thống [20]

Twitter cũng trình bày những cơ hội thú vị để thu hồi Môi trường phong phú thông tin giúp chúng ta có khả năng cải thiện hiệu suất thu hồi.[20]

1.3 Tóm tắt chương 1

Chương 1 khóa luận đã giới thiệu về mạng xã hội twitter và bài toán thu hồi quan điểm, giới thiệu bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter, lý do sử dụng twitter để thu hồi quan điểm, cho biết tầm quan trọng của bài toán và những khó khăn thách thức gặp phải khi giải quyết bài toán

Chương tiếp theo khóa luận sẽ trình bày về các cơ sở lý thuyết và các ngiên cứu liên quan đến bài toán này

Trang 25

Chương 2 Cơ sở lý thuyết và các ngiên cứu liên quan

Đã có rất nhiều công trình nghiên cứu của các tác giả[1,6,9,12,15,16,22] liên quan đến việc thu hồi quan điểm từ nhiều nguồn dữ liệu với các phương pháp khác nhau Sự phát triển nhanh chóng của mạng xã hội twitter, thu hồi quan điểm trên twitter đã được nhiều sự quan tâm của tác giả[2,3,7,13,22] Bên cạnh đó khóa luận cũng tham khảo các phương pháp khai phá quan điểm của nhiều tác giả[5,14,19,20] trên các dữ liệu khác để

có thể học hỏi và nâng cao kết quả Chương này khóa luận sẽ trình bày khái quát những phương pháp của các tác giả đã thực hiện

2.1 Hệ thống phân lớp quan điểm

2.1.1 Các đặc trưng phân lớp quan điểm

Đặc trưng dựa trên từ và n-gram

Mỗi từ xuất hiện trong câu phục vụ như một đặc trưng nhị phân với trọng số bằng đảo ngược số từ trong tập dữ liệu twitter Davidov và cộng sự[7] đã từng sử dụng từ 2-5

từ liên tiếp để làm đặc trưng với trọng số tương tự, do đó trọng số của đặc trưng n-gram luôn cao hơn trọng số các đặc trưng thành phần của nó, các từ hiếm có trọng số cao hơn các tự thông thường Các từ hoặc n-gram xuất hiện chưa đầy 0.5% trong tập huấn luyện không phải là một đặc trưng Các biểu tượng mặt cười ASCII và các dấu chấm khác có chứa hai hoặc nhiều hơn các biểu tượng dấu chấm câu liên tiếp được sử dụng như một đặc trưng, từ đặc trưng này gồm từ thay siêu từ trong link, nguồn(references) và hashtag

Đặc trưng từ loại

Đặc trưng từ loại ((Part of speech)) là một đặc trưng phổ biển được rất nhiều các tác

giả như Agarwal và cộng sự[1], Alec Go và cộng sự[2]sử dụng và nó góp phần tăng hiệu suất cao trong việc phân lớp chủ quan/khách quan, phân lớp tích cực/tiệu cực

Đặc trưng từ loại thể hiện được từ loại trong câu với trọng số là tổng số từ loại đó xuất hiện trong câu

Theo Agarwal và cộng sự[1], việc sử dụng kết hợp POS với các đặc trưng khác cho nâng cao hiệu suất phân loại

Theo Alec Go và cộng sự[2]cảm thấy các đặc trưng POS sẽ là một đặc trưng hữu ích

kể từ khi bạn sử dụng một từ cụ thể Ví dụ, từ “Over” như một động từ mang ý nghĩ tiêu cực “Over” là danh từ Việc sử dụng phân loại Stanford Classifier chúng mang lại độ

Trang 26

chính các tăng 6% Trong quá trình trên họ quan sát thấy rằng nó chỉ giảm độ chính xác xuống trong trường hợp NB

Đặc trưng từ mang quan điểm

Từ mang quan điểm cũng được các tác giả[1,11] sử dụng làm đặc trưng cho phân lớp

Dùng từ điển quan điểm được gán nhãn tích cực, tích cực mạnh, tiêu cực, tiêu cực mạnh hoặc từ điển được đánh điểm số mang quan điểm trong phạm vi từ 1- 10 với càng thấp thì càng tiêu cực và ngược lại càng cao thì càng tích cực

Đặc trưng mạng xã hội (twitter)

Trong một tweet người ta thường sử dụng “@” trước tên người dùng để trả lời người dùng khác Nội dung của tweet này có nhiều khả năng là “nội dung cá nhân”(personal content) Các nghiên cứu trước cho thấy “nội dung các nhân” trên toàn bộ chứa quan điểm nhiều hơn “nội dung chính thức”(personal content) (Gerani et al 2011) [22] Vì thế dùng đặc trưng “@username” là một đặc trưng nhị phân (có hoặc không)

Chia sẻ link trong tweet là rất phổ biến trên twitter Hầu hết các tweet chứa link thường có mục đích giới thiệu đến các liên kết (ví dụ tweet của quý vị được đăng bởi BBC News) Ngoài ra, spam trong twitter thường chứa link Do đó sử dụng đặc trưng chứa link là một đặc trưng để xây dựng mô hình

Hashtag là người dùng đánh dấu các chủ đề và bắt đầu bằng ký tự “#” Sử dụng đặc trưng chứa hashtag là một đặc trưng để xây dựng mô hình

Retweet (“RT”): chính là một trong những điểm mạnh của Twitter, thông tin lan truyền một cách nhanh chóng Sử dụng retweet như một đặc trưng nhị phân

Đặc trưng biểu tượng cảm xúc

Biểu tượng cảm xúc được sử dụng rất nhiều trong mạng xã hội, twitter cũng vậy, người dùng thường dùng các biểu tượng cảm xúc để thể hiện quan điểm

Tác giả Agarwal và cộng sự [1] sử dụng bộ từ điển biểu tượng cảm xúc6, họ phân

Trang 27

tượng cảm xúc mang quan điểm tích cực mạnh, biểu tượng cảm xúc mang quan điểm tiêu cực, biểu tượng cảm xúc mang quan điểm tiêu cực mạnh, biểu tượng cảm xúc mang quan điểm trung lập

Tùy theo phân lớp chủ quan/khách quan hay phân lớp quan điểm phân cực mà họ sử dụng các biểu tượng cảm xúc khác nhau

Phân lớp chủ quan/khách quansử dụng các biểu tượng cảm xúc mang quan điểm không trung lập(tích cực, tích cực mạnh, tiêu cực, tiêu cực mạnh) thành một đặc trưng và biểu tượng cảm xúc trung lập thành đặc trưng

Phân lớp quan điểm phân cực sử dụng các biểu tượng cảm xúc tích cực, tích cực mạnh, tiêu cực, tiêu cực mạnh mỗi loại là một đặc trưng

Đặc trưng từ kéo dài

Trong twitter: chữ viết hoa, giữa 2 dấu ‘*’, lặp lại chữ cái (Coooooooooooolllll !!!)

Và theo Samuel Brody- Nicholas Diakopoulos đã chứng minh từ kéo dài trên twitter là phổ biến và có sự liên quan đến thể hiện quan điểm[14]

Đặc trưng từ phủ định (not)

Bằng cách sử dụng phân loại Stanford và phân loại SVM cơ sở, theo Alec Go và cộng sự[1,2] quan sát thấy rằng việc xác định lớp tiêu cực dường như khó khăn hơn so với lớp tích cực, chỉ bằng cách nhìn vào độ chính xác, độ hồi tưởng và độ đô F1 cho lớp này Đây là lý do tại sao khóa luận quyết định thêm phủ nhận như một đặc trưng cụ thể được thêm vào khi "no" hoặc "n't" được quan sát thấy trong các bộ dữ liệu Tuy nhiên

Trang 28

chúng ta chỉ quan sát thấy một sự gia tăng trong tổng thể chính xác trong khoảng 2% trong các phân loại học Stanford và khi được sử dụng kết hợp với một số tính năng khác,

nĩ mang lại độ chính xác tổng thể xuống và do đĩ khĩa luận loại bỏ nĩ Tính năng chồng chéo cĩ thể cĩ được độ chính xác NB xuống, vì vậy khĩa luận khơng quá quan tâm về sự sụt giảm với NB Tuy nhiên nĩ đã khơng cung cấp bất kỳ thay đổi mạnh mẽ với OpenNLP khác

2.1.2 Phân lớp quan điểm chủ quan/khách quan

Xác định quan điểm của đối tượng cần phân lớp cĩ mang quan điểm hay khơng mang quan điểm gọi là phân lớp chủ quan Nếu đối tượng cĩ thể hiện quan điểm sẽ thuộc vào lớp chủ quan, ngược lại nếu đối tượng khơng thể hiện quan điểm thì nĩ sẽ được phân vào lớp khách quan Dưới đây là một số phương pháp và hướng tiếp cận của một số nghiên cứu về phân lớp chủ quan điển hình:

Yu và Hatzivassiloglou, 2003[20] thực hiện phân lớp chủ quan sử dụng câu tương tự

và phân lớp nạve Bayes Phương thức câu tương tự là dựa trên giả sử rằng các câu chủ quan hay câu quan điểm là thường cĩ sự giống nhau hơn là các câu thực tế Họ sứ dụng

hệ thống SIMFNDER để đo độ tương tự của các câu dựa trên các từ, cụm từ và từ điển WordNet Phân lớp nạve Bayes họ đã sử dụng unigram, bigrams, trigrams, gán nhãn (part to speech), các từ thể hiện quan điểm, số các từ định hướng cĩ quan điểm của chuỗi các từ mang quan điểm (ví dụ “++” cho hai từ liên tiếp cĩ định hướng mang quan điểm tích cực ) và số lượng các nhãn kết hợp với thơng tin mang quan điểm (ví dụ “JJ+” cho tính từ tích cực)

Trong nghiên cứu của Wiebe and Riloff (2005) [19], họ dựa trên luật để phân lớp chủ quan dựa trên nguyên tắc phân loại một câu là chủ quan nếu nĩ cĩ chứa hai hoặc nhiều hơn đầu mối chủ quan (nếu khơng nĩ khơng cĩ nhãn câu) Ngược lại, phân lớp khách quan dựa trên luật nếu nĩ khơng cĩ đầu mối chủ quan trong câu và một vài điều kiện khác Hệ thống của họ được mơ hình mới từ các câu khách quan sử dụng thơng tin trích xuất từ hệ thống AutoSlog-TS, nĩ tìm ra các mơ hình dựa trên các mẫu cú pháp cố định

Trang 29

và dấu chấm hỏi Họ đã sử dụng các tính năng đặc biệt đó để phân loại quan điểm chủ quan của các tweets

Cũng trên dữ liệu Twiter, nhóm tác giả Pak và cộng sự 2010[13] đã thử nghiệm bộ phân lớp chủ quan/ khách quan với các đặc trưng từ loại Trong quá trình lựa chọn đặc trưng, họ thấy rằng các từ loại không phân bố đều hai tập mang quan điểm và không mang quan điểm.Họ chỉ ra rằng các tweet khách quan thì thường chứa các danh từ riêng (NPS, NP, NNS), các động từ ở ngôi thứ 3 và thì quá khứ, các tính từ so sánh hơn Trong khi đó trong các tweet chủ quan thì thường chứa các danh từ riêng (PP, PP$), động từ ở dạng nguyên thể

2.1.3 Phân lớp quan điểm phân cực

Trong hệ thống phân tích quan điểm, phân lớp quan điểm phân cực là một bước quan trọng để xác định quan điểm được thể hiện là tích cực hay tiêu cực Ví dụ như câu:

“The picture quality of this camera is amazing.” thì hệ thống sẽ cần phải xác định được quan điểm mà nó thể hiện

Trong nghiên cứu của Turney [2002] [17] đã thực hiện việc xác định quan điểm được thể hiện của mỗi văn bản là tích cực hay tiêu cực Tác giả sử dụng học máy bán giám sát để phân lớp các đánh giá tích cực hay tiêu cực Họ thực hiện việc phân lớp qua

ba bước: đầu tiên họ gán nhãn cho các từ để xác định các tính từ hoặc các trạng từ Bước

2 là họ sử dụng thuật toán PMI-IR (PMI-IR là đo độ tương tự giữa các từ hoặc cụm từ) để

áp dụng cho việc ước lượng hướng quan điểm của mỗi cụm đã được trích xuất Cuối cùng

họ sẽ phân lớp từng quan điểm dựa vào giá trị trung bình hướng ngữ nghĩa (Semantic Orientation - SO) của các cụm từ được trích xuất ra từ các đánh giá và phân lớp các đánh giá đó vào các lớp quan điểm tích cực hay tiêu cực Hướng tiếp cận sử dụng độ đo PMI để phân lớp các đánh giá đạt được độ chính xác khá cao, tuy nhiên độ đo PMI chỉ đo được

độ tương tự của 2 từ vậy vấn đề đặt ra là chỉ dựa vào hai từ thì có thể xác định chính xác hướng quan điểm của các đánh giá Trong nghiên cứu này, tác giả vẫn chưa giải quyết được vấn đề đó

Nghiên cứu có hiệu quả tốt trên miền dữ liệu Twitter của Davidov, Tsur và Rappoport,2010[7] đã thực hiện phân loại quan điểm các bài đăng trên Twitter Mỗi tweet

về cơ bản thường là một câu đơn Các tác giả sử dụng hướng tiếp cận học có giám sát để phân loại các tweets vào ba loại tích cực, tiêu cực và trung lập Ngoài các tính năng

Trang 30

truyền thống, phương pháp này còn sử dụng các tính năng đặc biệt có trên tweet như hashtags, biểu tượng cảm xúc, các dấu câu đặc biệt Hướng tiếp cận này của họ khá hiệu quả đối với dữ liệu trên Twitter

2.2 Thuật toán SVM

2.2.1 Giới thiệu thuật toán

Support vector machines (SVMs) là một tập hợp các phương pháp học có giám sát bao gồm phân tích dữ liệu và phát hiện mẫu, được sử dụng cho phân lớp và phân tích hồi quy Thuật toán SVM lần đầu tiên được Vladimir Vapnik đề xuất vào năm 1995 và Corinna Cortes cùng với Vladimir Vapnik đã đề xuất hình thức chuẩn hiện nay

Ý tưởng chính của thuật toán này là cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một mặt siêu phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành các lớp riêng biệt tương Chất lượng của mặt siêu phẳng này được quyết định bởi khoảng cách của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác Mục đích của thuật toán SVM là tìm ra được khoảng cách biên lớn nhất để tạo ra kết quả phân lớp tốt

Xét bài toán phân loại đơn giản nhất – phân loại hai phân lớp với tập dữ liệu mẫu:

{( , )| i = 1, 2, , N, }

Trong đó mẫu là các vector đối tượng được phân loại thành các mẫu dương và mẫu âm:

− Các mẫu dương là các mẫu thuộc lĩnh vực quan tâm và được gán nhãn = 1

− Các mẫu âm là các mẫu không thuộc lĩnh vực quan tâm và được gán nhãn

= −1

Trang 31

Hình 5 Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm

Trong trường hợp này, bộ phân loại SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch cực đại, trong đĩ độ chênh lệch này gọi là lề (margin) xác định bằng khoảng cách mẫu dương và mẫu âm gần mặt siêu phẳng nhất (hình 5) Mặt phẳng này được gọi là mặt siêu phẳng lề tối ưu

Các mặt siêu phẳng trong khơng gian đối tượng cĩ phương trình là:

f(x)= w x +b=0, trong đĩ w là vector trọng số, b là độ dịch Khi thay đổi w và b thì

hướng và khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi

Bộ phân lớp nhị phân được xác định thơng qua dấu của f(x):

= {

Nếu = +1 thì thuộc về lớp dương (lĩnh vực được quan tâm), ngược lại,

Nếu = -1thì thuộc về lớp âm (lĩnh vực khơng được quan tâm)

Học máy SVM là một họ các mặt siêu phẳng phụ thuộc vào các tham số w và b Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hĩa lề giữa các lớp dương và âm Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau

2.2.2 Cách áp dụng thuật tốn SVM vào bài tốn phân lớp quan điểm

Sử dụng Nạve Bayes, MaxEnt và support Vector Machines(SVM) và họ thấy kết quả là SVM phân lớp tốt hơn những loại cịn khác.[22]

Định dạng
Số trang	62
Dung lượng	1,65 MB