THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER. Trích chọn thông tin phim ảnh Trích chọn thông tin nhà hàng, quán ăn Crawling dữ liệu diễn đàn Crawling dữ liệu Facebook Phân loại tin tức trực đtuyến Lọc spam email Khai phá luật kết hợp Phát hiện tự động chủ đề nóng trên mạng Chuẩn hoá ngôn ngữ teen trên Web Xây dựng hệ thống gợi ý theo lọc cộng đối tác báo cáo hướng dẫn môn khai phá dữ liệu
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đào Quốc Vương
THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin
HÀ NỘI - 2013
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đào Quốc Vương
THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn:NCS Vũ Ngọc Trình
Trang 3VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Dao Quoc Vuong
OPINION RETRIEVALABOUT ENTITY
IN TWITTER
Major: Information technology
Supervisor: Assoc Prof Ha Quang Thuy
Co-Supervisor: Masters Vu Ngoc Trinh
HA NOI-2013
Trang 4THU HỒI QUAN ĐIỂM VỀ THỰC THỂ TRÊN MẠNG XÃ HỘI TWITTER
Đào Quốc Vương
Khóa QH-2009-I/CQ, ngành công nghệ thông tin
Tóm tắt khóa luận:
Thu hồi quan điểm (opinion retrieval) là bài toán tiến hành thu hồi các quan điểm trong một nguồn tài liệu, trong đó có các mạng xã hội, chẳng hạn như Twitter Thu hồi quan điểm có nhiều ứng dụng và được dựa trên các giải pháp công nghệ tiên tiến vì vậy thu hút sự quan tâm đặc biệt của nhiều nhóm nghiên cứu trên thế giới Nhiều công trình nghiên cứu về thu hổi quan điểm đã được công bố [1,6,9,12,15,16,22] Trong một vài năm gần đây, một số nghiên cứu về thu hồi quan điểm từ mạng Twitter đã được công bố Trên cơ sở tìm hiểu và phân tích các công trình nghiên cứu liên quan, đặc biệt là các công trình [1,2,6,22], khóa luận khảo sát các phương pháp thu hồi quan điểm trên nhiều miền, nhiều lịch vực Trên cơ sở các phân tích nói trên, khóa luận đề nghị một mô hình thu hồi quan điểm trên mạng xã hội Twitter
Đồng thời, khóa luận xây dựng hệ thống thử nghiệm thi hành mô hình nói trên và hành thực nghiệm với bộ dữ liệu (253711 tweet) được lấy bằng Twitter Search API Kết quả thực nghiệm đạt độ chính xác phân lớp chủ quan khoảng 76.7% và phân lớp phân cực khoảng hơn 81%, cho thấy tính hiệu quả của mô hình đề xuất
Từ khóa: Opinion, retrieval, twitter
Trang 5OPINION RETRIEVAL ABOUT ENTITY IN TWITTER
Dao Quoc Vuong
QH-2009-I/CQ course, information technology faculty
Abstract thesis:
Opinion retrieval is problem to recover the perspective of a resource, including social networking sites, such as Twitter Opinion retrieval is a problem with many applications, has attracted the special attention of many research group around the world Many research works were recovered announced [1,6,9,12,15,16,22] In particular, there have been some studies on the recovery from Twitter for a few years
On the basis of understanding and comparison of research works related above, especially the works [1,2,6,22], thesis explored methods perspective on recovery multiple domains, many tourist areas, through the process of understanding and analysis, the thesis proposed model recovery perspective on social network twitter
With the flourish of online social network such as Twitter, Facebook, social data network is becoming a more and more useful and important information and resource for people and organization This flourishing is not only a chance but also a challenge to build an opinion search and retrieval system This thesis study and propose an opinion retrieval on Twitter The experimental results show the effectiveness of the proposed system
At the same time, the implementation of the thesis mentioned above with a model experimental system and conducted experimental evaluation of the model on data taken over twitter with Twitter Search API The experimental results achieved subjective classification of about 76.7%, classification accuracy of about 81.% polarization showed the effectiveness of the proposed model
Keyword: Opinion, retrieval, twitter
Trang 6Lời cảm ơn
Lời đầu tiên, khóa luận xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS
Hà Quang Thụy, NCS Vũ Ngọc Trình đã tận tình hướng dẫn và chỉ bảo khóa luận trong suốt quá trình thực hiện khóa luận tốt nghiệp
Khóa luận xin chân thành cảm ơn các thầy, cô trong trường đại học Công Nghệ - đại học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho khóa luận học tập và nghiên cứu Khóa luận cũng xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phòng thí nghiệm KT-Lab đã hỗ trợ khóa luận rất nhiều về kiến thức chuyên môn trong quá trình thực hiện khóa luận Khóa luận xin cảm ơn các bạn trong lớp K54CLC đã ủng
hộ và khuyến khích khóa luận trong suốt suốt quá trình học tập tại trường
Cuối cùng, khóa luận xin được gửi cám ơn vô hạn tới gia đình và bạn bè, những người đã luôn bên cạnh, giúp và động viên khóa luận trong quá trình học tập cũng như trong suốt quá trình thực hiện khóa luận này
Khóa luận xin chân thành cảm ơn!
Hà Nội, ngày 13 tháng 05 năm 2013
Sinh viên
Đào Quốc Vương
Trang 7Lời cam đoan
Khóa luận xin cam đoan phương pháp thu hồi quan điểm về thực thể trên mạng xã hội twitter và thực nghiệm được trình bày trong khóa luận này là do khóa luận thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và NCS Vũ Ngọc Trình
Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng
từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Hà Nội, ngày 13 tháng 05 năm 2015
Sinh viên
Đào Quốc Vương
Trang 8Mục lục Lời mở đầu 1
Chương 1 Khái quát bài toán thu hồi quan điểm về thực thể trên mạng xã hội Twitter 3
1.1 Mạng xã hội twitter 3
1.1.1.Mạng xã hội 3
1.1.2.Giới thiệu về mạng xã hội twitter 4
1.1.3.Dữ liệu trên twitter 8
1.2 Phát biểu bài toán 9
1.2.1.Bài toán thu hồi quan điểm 9
1.2.2.Bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter 9
1.2.3.Ý nghĩa của bài toán thu hồi quan điểm về thực thể trên mang xã hội 10
1.2.4.Khó khăn và thách thức 11
1.3 Tóm tắt chương 1 11
Chương 2 Cơ sở lý thuyết và các ngiên cứu liên quan 12
2.1 Hệ thống phân lớp quan điểm 12
2.1.1.Các đặc trưng phân lớp quan điểm 12
2.1.2.Phân lớp quan điểm chủ quan/khách quan 15
2.1.3.Phân lớp quan điểm phân cực 16
2.2 Thuật toán SVM 17
2.2.1.Giới thiệu thuật toán 17
2.2.2.Cách áp dụng thuật toán SVM vào bài toán phân lớp quan điểm 18
2.3 Độ tương đồng 19
Trang 92.4 Áp dụng độ tương đồng cho bài toán thu hồi quan điểm về thực thể trên
mạng xã hội twitter 22
2.5 Twitter Search API 23
2.6 Tóm tắt chương 2 27
Chương 3 Mô hình đề xuất 28
3.1 Mô hình giải quyết bài toán 28
3.2 Giải quyết chi tiết các pha 30
3.2.1.Crawler dữ liệu tweet liên quan đến thực thể (query), tiền xử lý và chuẩn hóa dữ liệu tweet 30
3.2.2.Xây dựng bộ phân lớp chủ quan/khách quan, sử dụng bộ phân lớp chủ quan/khách quan để phân lớp cho dữ liệu tweet mới đã được chuẩn hóa 33
3.2.3.Xây dựng bộ phân phân cực, sử dụng bộ phân lớp phân cực để phân lớp các dữ liệu tweet chủ quan 34
3.2.4.Trực quan hóa kết quả từ dữ liệu tweet đã được gán nhãn phân cực 35
3.3 Tóm tắt chương 3 35
Chương 4 Thực nghiệm và đánh giá 37
4.1 Hướng tiếp cận thực nghiệm 37
4.2 Môi trường thực nghiệm 38
4.2.1 Cấu hình phần cứng 38
4.2.2 Công cụ phân mềm 38
4.3.Dữ liệu 38
4.4 Thực nghiệm 39
4.4.1.Xây dựng bộ phâp lớp chủ quan/khách quan 39
4.4.2 Sử dụng bộ phân lớp chủ quan/ khách quan với dữ liệu đã được chuẩn hóa 40
4.4.3 Xây dựng bộ phân lớp phân cực 40
Trang 104.4.4 Sử dụng bộ phân lớp phân cực 40
4.4.5 Trực quan hóa kết quả 41
4.5 Đánh giá hệ thống 44
4.5 Tóm tắt chương 4 45
Kết luận và định hướng tiếp theo 46
Tài liệu tham khảo 47
Trang 11Danh sách bảng
Bảng 1 Cách sử dung Search API 26
Bảng 2 Các từ mã hóa HTML 31
Bảng 3 Ví dụ về biểu tượng cảm xúc trong từ điển 31
Bảng 4 Ví dụ từ điển chuẩn hóa 32
Bảng 5 Ví dụ về từ điển viết tắt 32
Bảng 6 Các đặc trưng sử dụng trong bộ phân lớp chủ quan/ khách quan 33
Bảng 7 Một số từ mang quan điểm trong từ điển quan điểm 34
Bảng 8 Các đặc trưng sử dụng trong bộ phân lớp phân cực 35
Bảng 9 Cấu hình phần cứng 38
Bảng 10 Công cụ phần mềm sử dụng 38
Bảng 11 Kết quả sử dụng bộ phân lớp chủ quan/ khách quan 40
Bảng 12 Kết quả sử dụng bộ phân lớp phân cực 41
Trang 12Danh sách hình vẽ
Hình 1 Những hình ảnh thể hiện mạng xã hội năm 2012 4
Hình 2 Rút gọn link trên tweet 5
Hình 3 Kiến trúc ứng dụng sử dụng mô hình Rest API 8
Hình 4 Kiến trúc ứng dụng sử dụng mô hình Stream API 9
Hình 5 Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm 18
Hình 6 Mô hình giải quyết bài toán 28
Hình 7 Dữ liệu thực nghiệm 39
Hình 8 Biểu diễn tổng quan các thực thể về quan điểm 41
Hình 9 Biểu diễn quan điểm về Iphone5 theo phần trăm 42
Hình 10 Biểu diễn số lượng quan điểm về Iphone5 42
Hình 11 Biểu diễn quan điểm về Iphone5 theo thời gian biểu đồ cột 43
Hình 12 Biểu diễn quan điểm về Iphone5 theo thời gian biểu đồ đường 44
Trang 13Danh sách các từ viết tắt
Từ viết tắt Cụm từ
API Application programming interface
ASCII American Standard Code for Information Interchange
TF-IDF term frequency–inverse document frequency
JSON JavaScript Object Notatio
Trang 14Lời mở đầu
Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho các tổ chức, cá nhân thu thập, tìm kiếm thông tin cũng như xử lý chúng và nhiều bài toán được đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội
Thu hồi quan điểm là một trong các bài toán khai thác thông tin, giúp người dùng có thể có được những thông tin mong muốn về quan điểm Tương tự như bài toán thu hồi web thông thường, thu hồi quan điểm giúp người dùng tìm được những tài liệu quan điểm liên quan đến truy vấn Tuy nhiên, điều khác biệt quan trọng hơn là thu hồi quan điểm còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu hồi được
Với sự phát triển nhanh chóng cùng với các API hỗ trợ, mạng xã hội Twitter đã trở thành một nguồn cung cấp nhiều thông tin quan điểm cho những người nghiên cứu về mạng xã hội
Đã có nhiều công trình nghiên cứu, chẳng hạn[1,6,9,12,15,22], liên quan đến bài toán thu hồi quan điểm theo các phương pháp khác nhau từ nhiều nguồn dữ liệu Nói riêng, nhiều công trình nghiên cứu về thu hồi quan điểm trên twitter đã được công bố[2,3,7,13,22]
Thông quan tìm hiểu và phân tích các phương pháp khai phá quan điểm trên các miền dữ liệu khác nhau[5,14,19,20], khóa luận “Thu hồi quan điểm về thực thể từ mạng Twitter” tập trung nghiên cứu bài toán thu hồi quan điểm về thực thể trên mạng xã hội Twitter và đề xuất một mô hình giải quyết bài toán Khóa luận gồm 4 chương:
Chương 1 trình bày về bài toán thu hồi quan điểm về thực thể trên mạng xã hội
Chương này bắt đầu bằng việc giới thiệu về mạng xã hội, mạng xã hội twitter với dữ liệu của nó Sau đó bài toán thu hồi quan điểm về thực thể trên mạng xã hội được phát biểu; cùng với nó là những trình bày về ý nghĩa của bài toán cũng như các khó khăn thách thức trong việc giải nó
Trong Chương 2, khóa luận trình bày tóm tắt khái quát các công trình nghiên cứu
liên quan, đồng thởi trình bày những ưu điểm, nhược điểm của các phương pháp của các
Trang 15Chương 3 đưa ra mô hình giải quyết bài toán thu hồi quan điểm về thực thể trên
mạng xã hội twitter Các pha trong mô hình và phương pháp giải quyết chi tiết ở từng pha được mô tả Khóa luận cũng giới thiệu dữ liệu, từ điển được dùng cho bài toán
Chương 4 Thực nghiệm và đánh giá Chương này chỉ ra từng bước khóa luận tiến
hành thực nghiệm và đánh giá kết quả thực nghiệm đối với kết quả thực nghiệm
Phần Kết luận và sự định hướng tiếp theo của khóa luận tổng kết kết quả đạt
được của khóa luận, chỉ ra hạn chế và hướng khắc phục hạn chế
Trang 16Chương 1 Khái quát bài toán thu hồi quan điểm về thực thể trên mạng xã hội Twitter
Để có thể tổng hợp đánh giá hay xem xét về một sản phẩm hay dịch vụ, thu hồi quan điểm là một cách giúp chúng ta có thể có cái nhìn tổng quan về những thông tin của người dùng đã thể hiện quan điểm
1.1 Mạng xã hội twitter
1.1.1 Mạng xã hội
Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối kết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian
Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file, blog và xã luận Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví
dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán
Hiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau, với MySpace và Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và Tây Âu; Orkut và Hi5 tại Nam Mỹ;Friendster tại Châu Á và các đảo quốc Thái Bình Dương Mạng xã hội khác gặt hái được thành công đáng kể theo vùng miền như Bebo tại Anh Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại Việt Nam xuất hiện rất nhiều các mạng xã hội như: Zing
Me, YuMe,Tamtay
Một cái nhìn tổng quan về số lượng đang sử dụng mạng xã hội, thành phần, giới tính, lứa tuổi, thời gian sử dụng … được thể hiện một cách sơ lược qua các hình ảnh trong hình 1
Trang 17Hình 1 Những hình ảnh thể hiện mạng xã hội năm 20121
1.1.2 Giới thiệu về mạng xã hội twitter
Mạng xã hội twitter ra đời vào ngày 21/3/2006 bởi Jack Dorsey và July, tính đến tháng 4 năm 2013, Twitter có hơn 500 triệu người dùng, hơn 170 tỉ tweet, có hơn 200 triệu người dùng tích cực trong tháng và trung bình trên mỗi người dùng có 208 người theo dõi Trung bình có hơn 400 triệu tweet được tạo ra trên một ngày, 307 tweet trên một người dùng, mỗi tháng trung bình một người dùng 170 phút trên twitter, có đến hơn 60% là sử dụng trên điện thoại2
Dưới đây là một số khái niệm trong twitter:
Twitter là 1 trang micro-blog và cũng là một mạng nhắn tin
Tweet là một đoạn văn (một SMS) của người dùng tạo ra
1 Nguồn http://expandedramblings.com/index.php/user-demographics-of-the-major-social-networks-infographic/
2 Nguồn http://expandedramblings.com/index.php/march-2013-by-the-numbers-a-few-amazing-twitter-stats/
Trang 18Follow theo dõi
Follower của bạn là số người đang theo dõi bạn
Following của bạn là số người bạn đang theo dõi
Mention (hoặc reply) là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “@”, là hành động tag tên người dùng để trả lời hoặc đề cập đến người đó
Hashtag là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “#” được gọi là biểu tượng băm, nó là một hình thức thẻ siêu dữ liệu, các tweets có thể được gắn thẻ bằng một hay nhiều từ Ví dụ “#Wikipedia is an #encyclopedia”
Hashtag cung cấp một phương tiện của nhóm các tín nhắn như vậy, vì thể ta có thể tìm kiếm các hashtag và nhận được tập hợp các tin nhắn đó
Url (link) trên các tweets đều được rút gọn lại để tránh các kiểu lợi dụng đường link nhằm lừa đảo hay pháy tán phần mềm độc hại và để giúp hiện thị tốt trên tweet (vì tweet chỉ có 140 ký tự) Công cụ của twitter rút gọn link nhưng vẫn hiện thị tên miền đầy đủ để người dùng có thể biết họ bấm vào đường link nào
Một ví dụ về rút gọn link http://www.twitlonger.com/show/hppk6c thành tl.gd/hppk6c
Hình 2 Rút gọn link trên tweet
Trang 19Cơ chế kết nối 3
Người dùng Việt Nam có lẽ đã quá quen thuộc với mạng xã hội Facebook và quen với hình thức tương tác của Facebook Ý nghĩa chính của mạng xã hội Facebook từ những ngày đầu chính là tìm kiếm và kết nối bạn bè, cập nhật các thông tin cá nhân về mình và chia sẻ những thông tin hay Cho dù bạn có bạn bè ở xa bất kỳ đâu vẫn có thể biết được
họ đang như thế nào, cuộc sống ra sao thông qua việc cập nhật trạng thái hàng ngày
Do đó, cơ chế của mạng xã hội Facebook là cơ chế kết nối hai chiều Có nghĩa là một người kết bạn với bạn thì cần phải có sự xác nhận của bạn Còn cơ chế của mạng xã hội Twitter thì lại khác hoàn toàn là cơ chế một chiều Một người theo (follow) bạn thì không cần phải chờ sự xác nhận từ bạn
Sau khi một người follow bạn thì họ sẽ nhận được các thông tin mà bạn tweet trên
đó, tweet cũng giống như hình thức cập nhật trạng thái của Facebook Nhưng nếu bạn không follow lại người đó thì bạn sẽ không thấy những cập nhật của họ Hay nói cách khác là bạn muốn nhìn thấy được những cập nhật từ ai đó, bạn phải follow người đó Điểm mạnh của Twitter là số người follow bạn không giới hạn, còn số lượng người kết nối bạn bè trong Facebook thì giới hạn với con số 5000 Do đó, Twitter thường được
ưa thích sử dụng bởi các doanh nghiệp, thương hiệu, hay những ngôi sao nổi tiếng nhằm cập nhật những thông tin về mình cho những người quan tâm Vì vậy, những diễn viên, ca
sĩ, ngôi sao bóng đá… trên thế giới thường sử dụng mạng xã hội này
Thời gian sau này thì Facebook đã cho ra đời hình thức Fan page tương tự như cơ chế một chiều để đáp ứng việc theo dõi
Cơ chế cập nhật
Có một điểm đặc biệt và khác với nhiều mạng xã hội khác ở Twitter chính là việc chỉ cho phép tweet với 140 ký tự Đây cũng là một trong những lý do tại sao đa số người Việt Nam không thích sử dụng mạng xã hội này Thế nhưng tại sao lại như vậy?
Đó là vì nếu như bạn ở Mỹ và một số nước mà Twitter phát triển, bạn có thể nhận được những cập nhật từ người mà bạn quan tâm thông qua tin nhắn SMS Mà đa phần các thiết bị di động chỉ giới hạn số ký tự cho một tin nhắn là 160 ký tự
3 Nguồn http://www.babywolfvn.com/mang-xa-hoi-2/y-nghia-cua-mang-xa-hoi-twitter
Trang 20Vậy vì sao lại không phải là 160 ký tự mà là 140 ký tự? Đó là vì 20 ký tự kia được dành để hiển thị cho tên người cập nhật
Mặt khác, việc cập nhật một status với số lượng ký tự ít ỏi này cũng tạo nên một thói quen cho người dùng Nhất là đối với thời buổi bận rộn hiện nay
Tuy nhiên, hiện nay Twitter chưa hỗ trợ phần gửi tin nhắn SMS ở Việt Nam Đó cũng là một trong những lý do chính khiến cho Twitter không thể phát triển được ở Việt Nam
Từ những gì đã nêu ở trên, các bạn sẽ dễ dàng nhận thấy rằng Twitter rất tiện lợi trong ba vấn đề sau:
Đối với bạn bè quan tâm đến bạn: Khi bạn đang ở đâu đó, bạn đi đâu đó, bạn chỉ
cần tweet lên twitter thì bạn bè thân của bạn sẽ biết được mà không cần phải gọi điện thoại hay nhắn tin Ví dụ như khóa luận sắp đi Hà Nội khóa luận có thể tweet lên “Chuẩn
bị đi Hà Nội” Những bạn bè thân của khóa luận sẽ nhận được thông điệp này một cách nhanh chóng và có thể sắp xếp để gặp bạn
Đối với doanh nghiệp & người dùng: Các doanh nghiệp sẽ dễ dàng cung cấp
thông tin đến với người tiêu dùng của họ thông qua việt tweet lên Twitter Người dùng cũng dễ dàng nhận được các thông tin hỗ trợ và những chương trình khuyến mãi, hay các thông tin về sản phẩm mới
Đối với các ngôi sao có nhiều fan hâm mộ: Các ngôi sao có thể cập nhật những
gì mình đang làm, những chương trình mà mình tham gia, các buổi biểu diễn… Các fan hâm mộ cũng có thể nhận được thông tin này một cách nhanh nhất trực tiếp từ chính thần tượng của họ
Qua đó, các bạn cũng thấy rằng không cần phải thông qua các báo đài, bạn vẫn có thể nhận được thông tin một cách nhanh nhất một cách trực tiếp từ người bạn cần theo dõi
Ngoài ra, Twitter còn có cơ chế retweet, tức là tweet lại thông tin từ người khác đã tweet Đây cũng chính là một trong những điểm mạnh của Twitter, thông tin lan truyền một cách nhanh chóng
Trang 211.1.3 Dữ liệu trên twitter
Dữ liệu trên twitter chủ yếu là tiếng anh, dữ liệu mỗi tweet có độ dài tối đa là 140 ký
tự Các tweet thường rất ngắn, nhiều từ viết tắt, thiếu hoặc sai chính tả
Tweets thường chứa thêm reply (“@”), hashtag (“#”), URL(link)
Twitter cũng cấp rất nhiều API giúp người dùng dễ dàng có thể lấy dữ liệu như Rest
Hình 3 Kiến trúc ứng dụng sử dụng mô hình Rest API
4 Nguồn https://dev.twitter.com/docs/streaming-apis
Trang 22Hình 4 Kiến trúc ứng dụng sử dụng mô hình Stream API
1.2 Phát biểu bài toán
1.2.1 Bài toán thu hồi quan điểm
Bài toán thu hồi quan điểm (hay còn gọi là bài toán tìm kiếm quan điểm) là một trong các bài toán khai thác thông tin, giúp người dùng có thể có được những thông tin mong muốn về quan điểm:[6]
Thu hồi được những câu, những tài liệu liên quan đến truy vấn, tương tự công việc của tìm kiếm (thu hồi) web
Phân lớp câu, tài liệu được thu hồi về theo quan điểm tích cực hay tiêu cực đây chính là nhiệm vụ chính của phần này
Bài toán thu hồi quan điểm:
Đầu vào: Truy vấn (tên một thực thể, một người dùng, một câu nói …)
Đầu ra: Các tài liệu mang quan điểm liên quan đến truy vấn
Trang 23Bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter:
Đầu vào: Tên thực thể (ví dụ iphone5, samsung, acer …)
Đầu ra: Đánh giá quan điểm về thực thể
Bài toán này được thực hiện trên miền dữ liệu tiếng anh trên Twitter
Mạng xã hội ngày càng lớn mạnh, twitter là một trong top 15 mạng xã hội phổ biến nhất (twitter có số lượng người dùng đứng thứ 2)5 và Twitter cung cấp nhiều API giúp chúng ta có thể sử dụng
Do twitter hạn chế số lượng ký tự (tối đa 140) và chưa hỗ trợ gửi tin nhắn ở việt nam nên lượng người dùng twitter ở Việt Nam tương đối ít
Do vậy khóa luận chọn thu hồi quan điểm về thực thể trên mạng xã hội twitter với
dữ liệu là tiếng anh
1.2.3 Ý nghĩa của bài toán thu hồi quan điểm về thực thể trên mang xã hội
Ta đã biết ý nghĩa góp to lớn của việc tìm kiếm web, cũng tương tự như vậy, thu hồi (tìm kiếm) quan điểm có tầm quan trọng trong xã hội CNTT ngày càng phát triển
Cùng với sự lớn mạnh của mạng xã hội twitter, việc thu hồi quan điểm về thực thể trên nó càng có nhiều ý nghĩa Thu hồi quan điểm về thực thể từ người sử dụng twitter cho thấy quan điểm chung của cộng đồng về thực thể đó
Khảo sát quan điểm rất có ích, ví dụ nếu một người dùng muốn mua 1 chiếc điện thoại Iphone5 nhưng họ chưa có kinh nghiệm sử dụng chiếc điện thoại đó, họ có thể hỏi hoặc tham khảo quan điểm từ gia đình, bạn bè … Ngoài ra họ có thể lên các diễn đàn, các trang xã hội để tìm hiểu quan điểm của những người đã dùng chiếc điện thoại đó
Nếu có khảo sát quan điểm về chiếc điện thoại Iphone5 theo thời gian Người dùng
có thể thấy được một cách nhìn nhận quan điểm của cộng đồng về chiếc điện thoại Iphone Xu hướng và sự thay đổi quan điểm cộng động về điện thoại Iphone5 Theo thời gian, Iphone5 (thực thể) cũng có sự thay đổi nên quan điểm của cộng đồng người dùng cũng thay đổi theo
5 Nguồn http://www.ebizmba.com/articles/social-networking-websites
Trang 241.2.4 Khó khăn và thách thức
Dữ liệu tweets rất ngắn (tối đa là 140 ký tự), có rất nhiều từ viết tắt, từ lóng, từ sai chính tả và viết không đúng cú pháp, chất lượng và độ tin cậy thấp Những yếu tố này làm giảm hiệu quả khai thác quan điểm dựa trên NLP truyền thống [20]
Twitter cũng trình bày những cơ hội thú vị để thu hồi Môi trường phong phú thông tin giúp chúng ta có khả năng cải thiện hiệu suất thu hồi.[20]
1.3 Tóm tắt chương 1
Chương 1 khóa luận đã giới thiệu về mạng xã hội twitter và bài toán thu hồi quan điểm, giới thiệu bài toán thu hồi quan điểm về thực thể trên mạng xã hội twitter, lý do sử dụng twitter để thu hồi quan điểm, cho biết tầm quan trọng của bài toán và những khó khăn thách thức gặp phải khi giải quyết bài toán
Chương tiếp theo khóa luận sẽ trình bày về các cơ sở lý thuyết và các ngiên cứu liên quan đến bài toán này
Trang 25Chương 2 Cơ sở lý thuyết và các ngiên cứu liên quan
Đã có rất nhiều công trình nghiên cứu của các tác giả[1,6,9,12,15,16,22] liên quan đến việc thu hồi quan điểm từ nhiều nguồn dữ liệu với các phương pháp khác nhau Sự phát triển nhanh chóng của mạng xã hội twitter, thu hồi quan điểm trên twitter đã được nhiều sự quan tâm của tác giả[2,3,7,13,22] Bên cạnh đó khóa luận cũng tham khảo các phương pháp khai phá quan điểm của nhiều tác giả[5,14,19,20] trên các dữ liệu khác để
có thể học hỏi và nâng cao kết quả Chương này khóa luận sẽ trình bày khái quát những phương pháp của các tác giả đã thực hiện
2.1 Hệ thống phân lớp quan điểm
2.1.1 Các đặc trưng phân lớp quan điểm
Đặc trưng dựa trên từ và n-gram
Mỗi từ xuất hiện trong câu phục vụ như một đặc trưng nhị phân với trọng số bằng đảo ngược số từ trong tập dữ liệu twitter Davidov và cộng sự[7] đã từng sử dụng từ 2-5
từ liên tiếp để làm đặc trưng với trọng số tương tự, do đó trọng số của đặc trưng n-gram luôn cao hơn trọng số các đặc trưng thành phần của nó, các từ hiếm có trọng số cao hơn các tự thông thường Các từ hoặc n-gram xuất hiện chưa đầy 0.5% trong tập huấn luyện không phải là một đặc trưng Các biểu tượng mặt cười ASCII và các dấu chấm khác có chứa hai hoặc nhiều hơn các biểu tượng dấu chấm câu liên tiếp được sử dụng như một đặc trưng, từ đặc trưng này gồm từ thay siêu từ trong link, nguồn(references) và hashtag
Đặc trưng từ loại
Đặc trưng từ loại ((Part of speech)) là một đặc trưng phổ biển được rất nhiều các tác
giả như Agarwal và cộng sự[1], Alec Go và cộng sự[2]sử dụng và nó góp phần tăng hiệu suất cao trong việc phân lớp chủ quan/khách quan, phân lớp tích cực/tiệu cực
Đặc trưng từ loại thể hiện được từ loại trong câu với trọng số là tổng số từ loại đó xuất hiện trong câu
Theo Agarwal và cộng sự[1], việc sử dụng kết hợp POS với các đặc trưng khác cho nâng cao hiệu suất phân loại
Theo Alec Go và cộng sự[2]cảm thấy các đặc trưng POS sẽ là một đặc trưng hữu ích
kể từ khi bạn sử dụng một từ cụ thể Ví dụ, từ “Over” như một động từ mang ý nghĩ tiêu cực “Over” là danh từ Việc sử dụng phân loại Stanford Classifier chúng mang lại độ
Trang 26chính các tăng 6% Trong quá trình trên họ quan sát thấy rằng nó chỉ giảm độ chính xác xuống trong trường hợp NB
Đặc trưng từ mang quan điểm
Từ mang quan điểm cũng được các tác giả[1,11] sử dụng làm đặc trưng cho phân lớp
Dùng từ điển quan điểm được gán nhãn tích cực, tích cực mạnh, tiêu cực, tiêu cực mạnh hoặc từ điển được đánh điểm số mang quan điểm trong phạm vi từ 1- 10 với càng thấp thì càng tiêu cực và ngược lại càng cao thì càng tích cực
Đặc trưng mạng xã hội (twitter)
Trong một tweet người ta thường sử dụng “@” trước tên người dùng để trả lời người dùng khác Nội dung của tweet này có nhiều khả năng là “nội dung cá nhân”(personal content) Các nghiên cứu trước cho thấy “nội dung các nhân” trên toàn bộ chứa quan điểm nhiều hơn “nội dung chính thức”(personal content) (Gerani et al 2011) [22] Vì thế dùng đặc trưng “@username” là một đặc trưng nhị phân (có hoặc không)
Chia sẻ link trong tweet là rất phổ biến trên twitter Hầu hết các tweet chứa link thường có mục đích giới thiệu đến các liên kết (ví dụ tweet của quý vị được đăng bởi BBC News) Ngoài ra, spam trong twitter thường chứa link Do đó sử dụng đặc trưng chứa link là một đặc trưng để xây dựng mô hình
Hashtag là người dùng đánh dấu các chủ đề và bắt đầu bằng ký tự “#” Sử dụng đặc trưng chứa hashtag là một đặc trưng để xây dựng mô hình
Retweet (“RT”): chính là một trong những điểm mạnh của Twitter, thông tin lan truyền một cách nhanh chóng Sử dụng retweet như một đặc trưng nhị phân
Đặc trưng biểu tượng cảm xúc
Biểu tượng cảm xúc được sử dụng rất nhiều trong mạng xã hội, twitter cũng vậy, người dùng thường dùng các biểu tượng cảm xúc để thể hiện quan điểm
Tác giả Agarwal và cộng sự [1] sử dụng bộ từ điển biểu tượng cảm xúc6, họ phân
Trang 27tượng cảm xúc mang quan điểm tích cực mạnh, biểu tượng cảm xúc mang quan điểm tiêu cực, biểu tượng cảm xúc mang quan điểm tiêu cực mạnh, biểu tượng cảm xúc mang quan điểm trung lập
Tùy theo phân lớp chủ quan/khách quan hay phân lớp quan điểm phân cực mà họ sử dụng các biểu tượng cảm xúc khác nhau
Phân lớp chủ quan/khách quansử dụng các biểu tượng cảm xúc mang quan điểm không trung lập(tích cực, tích cực mạnh, tiêu cực, tiêu cực mạnh) thành một đặc trưng và biểu tượng cảm xúc trung lập thành đặc trưng
Phân lớp quan điểm phân cực sử dụng các biểu tượng cảm xúc tích cực, tích cực mạnh, tiêu cực, tiêu cực mạnh mỗi loại là một đặc trưng
Đặc trưng từ kéo dài
Trong twitter: chữ viết hoa, giữa 2 dấu ‘*’, lặp lại chữ cái (Coooooooooooolllll !!!)
Và theo Samuel Brody- Nicholas Diakopoulos đã chứng minh từ kéo dài trên twitter là phổ biến và có sự liên quan đến thể hiện quan điểm[14]
Đặc trưng từ phủ định (not)
Bằng cách sử dụng phân loại Stanford và phân loại SVM cơ sở, theo Alec Go và cộng sự[1,2] quan sát thấy rằng việc xác định lớp tiêu cực dường như khó khăn hơn so với lớp tích cực, chỉ bằng cách nhìn vào độ chính xác, độ hồi tưởng và độ đô F1 cho lớp này Đây là lý do tại sao khóa luận quyết định thêm phủ nhận như một đặc trưng cụ thể được thêm vào khi "no" hoặc "n't" được quan sát thấy trong các bộ dữ liệu Tuy nhiên
Trang 28chúng ta chỉ quan sát thấy một sự gia tăng trong tổng thể chính xác trong khoảng 2% trong các phân loại học Stanford và khi được sử dụng kết hợp với một số tính năng khác,
nĩ mang lại độ chính xác tổng thể xuống và do đĩ khĩa luận loại bỏ nĩ Tính năng chồng chéo cĩ thể cĩ được độ chính xác NB xuống, vì vậy khĩa luận khơng quá quan tâm về sự sụt giảm với NB Tuy nhiên nĩ đã khơng cung cấp bất kỳ thay đổi mạnh mẽ với OpenNLP khác
2.1.2 Phân lớp quan điểm chủ quan/khách quan
Xác định quan điểm của đối tượng cần phân lớp cĩ mang quan điểm hay khơng mang quan điểm gọi là phân lớp chủ quan Nếu đối tượng cĩ thể hiện quan điểm sẽ thuộc vào lớp chủ quan, ngược lại nếu đối tượng khơng thể hiện quan điểm thì nĩ sẽ được phân vào lớp khách quan Dưới đây là một số phương pháp và hướng tiếp cận của một số nghiên cứu về phân lớp chủ quan điển hình:
Yu và Hatzivassiloglou, 2003[20] thực hiện phân lớp chủ quan sử dụng câu tương tự
và phân lớp nạve Bayes Phương thức câu tương tự là dựa trên giả sử rằng các câu chủ quan hay câu quan điểm là thường cĩ sự giống nhau hơn là các câu thực tế Họ sứ dụng
hệ thống SIMFNDER để đo độ tương tự của các câu dựa trên các từ, cụm từ và từ điển WordNet Phân lớp nạve Bayes họ đã sử dụng unigram, bigrams, trigrams, gán nhãn (part to speech), các từ thể hiện quan điểm, số các từ định hướng cĩ quan điểm của chuỗi các từ mang quan điểm (ví dụ “++” cho hai từ liên tiếp cĩ định hướng mang quan điểm tích cực ) và số lượng các nhãn kết hợp với thơng tin mang quan điểm (ví dụ “JJ+” cho tính từ tích cực)
Trong nghiên cứu của Wiebe and Riloff (2005) [19], họ dựa trên luật để phân lớp chủ quan dựa trên nguyên tắc phân loại một câu là chủ quan nếu nĩ cĩ chứa hai hoặc nhiều hơn đầu mối chủ quan (nếu khơng nĩ khơng cĩ nhãn câu) Ngược lại, phân lớp khách quan dựa trên luật nếu nĩ khơng cĩ đầu mối chủ quan trong câu và một vài điều kiện khác Hệ thống của họ được mơ hình mới từ các câu khách quan sử dụng thơng tin trích xuất từ hệ thống AutoSlog-TS, nĩ tìm ra các mơ hình dựa trên các mẫu cú pháp cố định
Trang 29và dấu chấm hỏi Họ đã sử dụng các tính năng đặc biệt đó để phân loại quan điểm chủ quan của các tweets
Cũng trên dữ liệu Twiter, nhóm tác giả Pak và cộng sự 2010[13] đã thử nghiệm bộ phân lớp chủ quan/ khách quan với các đặc trưng từ loại Trong quá trình lựa chọn đặc trưng, họ thấy rằng các từ loại không phân bố đều hai tập mang quan điểm và không mang quan điểm.Họ chỉ ra rằng các tweet khách quan thì thường chứa các danh từ riêng (NPS, NP, NNS), các động từ ở ngôi thứ 3 và thì quá khứ, các tính từ so sánh hơn Trong khi đó trong các tweet chủ quan thì thường chứa các danh từ riêng (PP, PP$), động từ ở dạng nguyên thể
2.1.3 Phân lớp quan điểm phân cực
Trong hệ thống phân tích quan điểm, phân lớp quan điểm phân cực là một bước quan trọng để xác định quan điểm được thể hiện là tích cực hay tiêu cực Ví dụ như câu:
“The picture quality of this camera is amazing.” thì hệ thống sẽ cần phải xác định được quan điểm mà nó thể hiện
Trong nghiên cứu của Turney [2002] [17] đã thực hiện việc xác định quan điểm được thể hiện của mỗi văn bản là tích cực hay tiêu cực Tác giả sử dụng học máy bán giám sát để phân lớp các đánh giá tích cực hay tiêu cực Họ thực hiện việc phân lớp qua
ba bước: đầu tiên họ gán nhãn cho các từ để xác định các tính từ hoặc các trạng từ Bước
2 là họ sử dụng thuật toán PMI-IR (PMI-IR là đo độ tương tự giữa các từ hoặc cụm từ) để
áp dụng cho việc ước lượng hướng quan điểm của mỗi cụm đã được trích xuất Cuối cùng
họ sẽ phân lớp từng quan điểm dựa vào giá trị trung bình hướng ngữ nghĩa (Semantic Orientation - SO) của các cụm từ được trích xuất ra từ các đánh giá và phân lớp các đánh giá đó vào các lớp quan điểm tích cực hay tiêu cực Hướng tiếp cận sử dụng độ đo PMI để phân lớp các đánh giá đạt được độ chính xác khá cao, tuy nhiên độ đo PMI chỉ đo được
độ tương tự của 2 từ vậy vấn đề đặt ra là chỉ dựa vào hai từ thì có thể xác định chính xác hướng quan điểm của các đánh giá Trong nghiên cứu này, tác giả vẫn chưa giải quyết được vấn đề đó
Nghiên cứu có hiệu quả tốt trên miền dữ liệu Twitter của Davidov, Tsur và Rappoport,2010[7] đã thực hiện phân loại quan điểm các bài đăng trên Twitter Mỗi tweet
về cơ bản thường là một câu đơn Các tác giả sử dụng hướng tiếp cận học có giám sát để phân loại các tweets vào ba loại tích cực, tiêu cực và trung lập Ngoài các tính năng
Trang 30truyền thống, phương pháp này còn sử dụng các tính năng đặc biệt có trên tweet như hashtags, biểu tượng cảm xúc, các dấu câu đặc biệt Hướng tiếp cận này của họ khá hiệu quả đối với dữ liệu trên Twitter
2.2 Thuật toán SVM
2.2.1 Giới thiệu thuật toán
Support vector machines (SVMs) là một tập hợp các phương pháp học có giám sát bao gồm phân tích dữ liệu và phát hiện mẫu, được sử dụng cho phân lớp và phân tích hồi quy Thuật toán SVM lần đầu tiên được Vladimir Vapnik đề xuất vào năm 1995 và Corinna Cortes cùng với Vladimir Vapnik đã đề xuất hình thức chuẩn hiện nay
Ý tưởng chính của thuật toán này là cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một mặt siêu phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành các lớp riêng biệt tương Chất lượng của mặt siêu phẳng này được quyết định bởi khoảng cách của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác Mục đích của thuật toán SVM là tìm ra được khoảng cách biên lớn nhất để tạo ra kết quả phân lớp tốt
Xét bài toán phân loại đơn giản nhất – phân loại hai phân lớp với tập dữ liệu mẫu:
{( , )| i = 1, 2, , N, }
Trong đó mẫu là các vector đối tượng được phân loại thành các mẫu dương và mẫu âm:
− Các mẫu dương là các mẫu thuộc lĩnh vực quan tâm và được gán nhãn = 1
− Các mẫu âm là các mẫu không thuộc lĩnh vực quan tâm và được gán nhãn
= −1
Trang 31Hình 5 Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm
Trong trường hợp này, bộ phân loại SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch cực đại, trong đĩ độ chênh lệch này gọi là lề (margin) xác định bằng khoảng cách mẫu dương và mẫu âm gần mặt siêu phẳng nhất (hình 5) Mặt phẳng này được gọi là mặt siêu phẳng lề tối ưu
Các mặt siêu phẳng trong khơng gian đối tượng cĩ phương trình là:
f(x)= w x +b=0, trong đĩ w là vector trọng số, b là độ dịch Khi thay đổi w và b thì
hướng và khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi
Bộ phân lớp nhị phân được xác định thơng qua dấu của f(x):
= {
Nếu = +1 thì thuộc về lớp dương (lĩnh vực được quan tâm), ngược lại,
Nếu = -1thì thuộc về lớp âm (lĩnh vực khơng được quan tâm)
Học máy SVM là một họ các mặt siêu phẳng phụ thuộc vào các tham số w và b Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hĩa lề giữa các lớp dương và âm Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau
2.2.2 Cách áp dụng thuật tốn SVM vào bài tốn phân lớp quan điểm
Sử dụng Nạve Bayes, MaxEnt và support Vector Machines(SVM) và họ thấy kết quả là SVM phân lớp tốt hơn những loại cịn khác.[22]