MỞ ĐẦU Tính hạng đối tượng là một trong một số các bài toán quan trọng điển hình trong các hệ thống ứng dụng trên Internet, đặc biệt trong các hệ thống tìm kiếm, từ tính hạng trang Web t
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ NGỌC LAN
TÍNH HẠNG ĐỐI TƯỢNG TRONG MẠNG XÃ HỘI TWITTER
Hà Nội – 2013
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ NGỌC LAN
TÍNH HẠNG ĐỐI TƯỢNG TRONG MẠNG XÃ HỘI TWITTER
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS HÀ QUANG THỤY
Hà Nội – 2013
Trang 3Mục lục
Chương 1 7
GIỚI THIỆU CHUNG VỀ MẠNG XÃ HỘI VÀ TWITTER 7
1.1 Mạng xã hội 7
1.1.1 Định nghĩa 7
1.1.2 Một số tác động của mạng xã hội 9
1.1.3 Phân tích mạng xã hội 9
1.1.4 Mô hình biểu diễn mạng xã hội 10
1.2 Mạng xã hội Twitter 12
1.2.1 Đặc điểm 12
1.2.2 Đối tượng trong mạng xã hội Twitter 13
1.2.3 Tính hạng trên mạng xã hội Twitter 14
1.3 Tóm tắt chương 1 16
Chương 2 17
TÍNH HẠNG TWEET BẰNG PHƯƠNG PHÁP XÉT ĐỘ TIN CẬY VÀ ĐỘ LIÊN QUAN 17
2.1 Mô hình hóa hệ thống Twitter 17
2.2 Tính toán sự tương đồng 18
2.3 Đánh giá 20
2.3.1 Ưu điểm 20
2.3.2 Nhược điểm 21
2.4 Tóm tắt chương 2 21
Chương 3 22
TÍNH HẠNG TWEET DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT 22
3.1 Thuật toán Co – HITS 22
3.2 Mạng thông tin 26
3.3 TextRank: Phương pháp tiếp cận cơ bản 27
Trang 43.4 Loại bỏ dư thừa 27
3.5 Các giả thuyết 28
3.6 Mô hình xếp hạng các Tweet: Tri - HITS 28
3.6.1 Giới thiệu chung 28
3.6.2 Lọc ra các Tweet nhiễu hoặc không chứa thông tin 30
3.6.3 Khởi tạo các điểm xếp hạng 30
3.6.4 Xây dựng mạng không đồng nhất 31
3.6.5 Lặp lan truyền 32
3.7 Tóm tắt chương 3 34
Chương 4 35
THỰC NGHIỆM 35
4.1 Mô hình thực nghiệm 35
4.2 Môi trường thực nghiệm 36
4.3 Dữ liệu 37
4.3.1 Thu thập dữ liệu 37
4.3.2 Lọc dữ liệu 39
4.4 Độ đo đánh giá 39
4.5 Các tham số 42
4.6 Kết quả đánh giá 42
KẾT LUẬN 43
Trang 5DANH SÁCH HÌNH VẼ
Hình 1.1: Mô hình một mạng xã hội giữa các cá nhân 7
Hình 1.2: Sự phát triển của mạng xã hội trực tuyến Facebook và Twitter 8
Hình 1.3: Biểu diễn một mạng xã hội 11
Hình 2.1: Mô hình ba lớp của hệ thống Twitter gồm lớp user, lớp tweet và lớp web 18
Hình 2.2 Mô hình giải thích trực giác sự tương đồng bao gồm độ liên quan và độ tin cậy 19
Hình 3.1: Ví dụ một đồ thị hai phía 23
Hình 3.2: Lan truyền điểm trên đồ thị hai phía: 25
Hình 3.3: Mạng không đồng nhất Web – Tweet – User 27
Hình 3.4 : Mô hình Tri - HITS 29
Hình 4.1: Mô hình thực nghiệm tính hạng Tweet dựa vào mạng không đồng nhất 35
DANH SÁCH BẢNG BIỂU Bảng 4.1 Môi trường thực nghiệm.……… 36
Bảng 4.2 Công cụ phần mềm.………36
Bảng 4.3 Các slang-words.………39
Bảng 4.4 Kết quả đánh giá thực nghiệm……… 42
Trang 6MỞ ĐẦU
Tính hạng đối tượng là một trong một số các bài toán quan trọng điển hình trong các
hệ thống ứng dụng trên Internet, đặc biệt trong các hệ thống tìm kiếm, từ tính hạng trang Web trong tìm kiếm web đến tính hạng thực thể trong tìm kiếm thực thể, tính hạng ảnh trong tìm kiếm ảnh Một số thuật toán xếp hạng trang web đã trở nên rất nổi tiếng như PageRank [23], HITS [17] Tính hạng trang đã và đang là nội dung nghiên cứu và triển khai thời sự Chẳng hạn, theo Google Scholar, có khoảng 1100 bài báo có chứa cụm
"PageRank" ở tiêu đề, trong đó có trên 230 bài báo công bố sau năm năm 2009
Trong một vài năm gần đây, khai phá dữ liệu mạng xã hội trực tuyến đã trở thành một chủ đề khoa học và công nghệ nổi bật [15, 14, 16] bởi mạng xã hội trực tuyến là nguồn tài nguyên dữ liệu do người sử dụng sinh ra (GUC), phản ánh ngày càng phong phú đời sống xã hội và tinh thần trong xã hội loài người Mạng xã hội trực tuyến Twitter cho thấy khả năng phục vụ điều tra xã hội [4] vì vậy thu hút sự quan tâm đặc biệt của nhiều tổ chức, nhiều nhóm nghiên cứu trên thế giới, chẳng hạn dãy hội nghị hàng năm TREC tại Viện chuẩn và khoa học Mỹ [microblog-track]
Luận văn “Tính hạng đối tượng trên mạng xã hội Twitter” tập trung nghiên cứu
đặc trưng của mạng xã hội – tập trung vào mạng Twitter, các thuật toán tính hạng Twitter
đã được công bố và đề nghị một mô hình thực nghiệm tính hạng các Tweet sử dụng mạng không đồng nhất
Luận văn gồm 4 chương được mô tả như sau:
Chương 1 Giới thiệu chung về mạng xã hội và Twitter: những nội dung liên quan
để phân tích mạng xã hội, phát biểu bài toán tính hạng đối tượng trên mạng xã hội Twitter, một số nghiên cứu liên quan và các phương pháp giải quyết bài toán
Chương 2 Phương pháp tính hạng dựa vào độ tin cậy và độ liên quan, đưa ra mô
hình ba lớp của hệ thống tính hạng Twitter gồm lớp user, lớp tweet, lớp web và đánh giá
ưu, nhược điểm của phương pháp này
Chương 3 Trình bày phương pháp tính hạng dựa vào mạng không đồng nhất Giới
thiệu mô hình Tri – HITS, cách xây dựng mạng không đồng nhất trong hệ thống Twitter
và phương pháp lan truyền điểm xếp hạng trong mạng này
Chương 4 Mô hình thực nghiệm tiến hành quyết bài toán tính hạng đối tượng trong
mạng xã hội Twitter, thực nghiệm và đánh giá kết quả thu được
Trang 7đích giao lưu kết bạn theo sở thích
Hình 1.1: Mô hình một mạng xã hội giữa các cá nhân Thời gian gần đây, sự xuất hiện của một loạt các cộng đồng ảo (Virtual Community)
đã làm xuất hiện một ngành nghiên cứu mới liên quan đến mạng xã hội trực tuyến Năm
2004, MySpace ra đời với các tính năng như phim ảnh (embedded video) nhanh chóng thu
hút hàng chục ngàn thành viên mới mỗi ngày MySpace trở thành mạng xã hội đầu tiên có
Trang 8nhiều lượt xem hơn cả Google và được tập đoàn News Corporation mua lại với giá 580 triệu USD Năm 2006, sự ra đời của Facebook đánh dấu bước ngoặt mới cho hệ thống mạng xã hội trực tuyến với nền tảng lập trình "Facebook Platform" cho phép thành viên
tạo ra những công cụ (apps) mới cho cá nhân mình cũng như các thành viên khác dùng
Sự phát triển của các mạng xã hội trực tuyến, đặc biệt là Facebook và Twitter được minh họa trong biểu đồ hình 1.2 [4]
Hình 1.2: Sự phát triển của mạng xã hội trực tuyến Facebook và Twitter
Trang 91.1.2 Một số tác động của mạng xã hội
Mạng xã hội ra đời đã thúc đẩy sự phát triển của xã hội, nhiều ngành kinh doanh mới ra đời, có thể kể đến trong số đó là kinh doanh qua mạng xã hội Thành viên tham gia mạng xã hội sử dụng các liên kết bạn bè trong mạng xã hội để quảng bá, tiếp thị và kinh doanh sản phẩm Rõ ràng, mạng xã hội đã thúc đẩy sự phát triển của nền kinh tế với phương thức tiếp cận mới, làm tăng lợi nhuận trong kinh doanh Theo Homero Gil de Zúnĩga và cộng sự [13], mạng xã hội góp phần tăng cường nguồn vốn xã hội cho quốc gia, tuy nhiên đôi khi cũng cản trở sự phát triển của xã hội
Như đã đề cập ở trên, mạng xã hội hiện nay có ảnh hưởng rất lớn đến vấn đề kinh tế, văn hóa, chính trị Con người có thể dùng mạng xã hội như một công cụ hữu ích để tiếp thị, tuyên truyền, quảng bá thông tin Ví dụ, Facebook đã góp phần rất lớn trong phong trào “Mùa xuân Ả rập” [22, 9] Trong phong trào này, những người tổ chức đã sử dụng Facebook như một công cụ để kêu gọi, tuyên truyền, cổ động cho người dân ủng hộ phong trào “Mùa xuân Ả rập”
Bên cạnh đó, các mạng xã hội còn tham gia vào rất nhiều các hoạt động khác như: Facebook với cuộc bạo loạn tại Anh năm 2011[5] Mạng xã hội với chống quyền lợi Mỹ 9/2012 Twitter với sự kiện thảm họa kép “Động đất – Sóng thần” ở Nhật Bản 3/2011 Lúc này người dân được coi như “Phóng viên nhân dân” [2] và họ đưa thông tin về thảm họa sóng thần, các khu trại tị nạn, các trung tâm khẩn cấp…lên Twiter để thông báo cho các thành viên trong mạng Theo nghiên cứu của Sakaki và các cộng sự, mô hình xác suất
dự báo và lan truyền thông tin động đất thông qua Twitter nhanh hơn cơ quan khí tượng thủy văn Nhật Bản [26] Cuối cùng, mạng xã hội có thể được sử dụng là công cụ tư vấn sau thảm họa [21]
Với các ngành khoa học như xã hội học hay khoa học máy tính, mạng xã hội trở thành một lĩnh vực nghiên cứu mới Theo Wilson và cộng sự [27], cùng với sự phát triển của mạng xã hội thì ngành xã hôi học đã ra đời năm nhóm chủ đề nghiên cứu dựa trên Facebook: phân tích mô tả người sử dụng, động lực sử dụng Facebook, trình bày danh tính, vai trò của Facebook trong tương tác xã hội, tính riêng tư và việc tiết lộ thông tin Hơn nữa, mạng xã hội cung cấp những nguồn tài nguyên lý tưởng cho ngành khoa học máy tính và khai phá dữ liệu do có nguồn tài nguyên phong phú và miền ứng dụng rộng lớn
1.1.3 Phân tích mạng xã hội
Phân tích mạng xã hội xem xét các liên kết bên trong, bao gồm các nút (nodes) biểu diễn các tác nhân (có thể là con người, các tổ chức,…) và các liên kết biểu diễn mối quan
Trang 10hệ giữa các tác nhân, như liên kết bạn bè, mối quan hệ họ hàng, vị trí các tổ chức, các liên kết giới tính,…[6, 24] Các mạng này thường được miêu tả trong một biểu đồ mạng xã hội, nơi mà các nút được biểu diễn như các điểm và các liên kết được biểu diễn bởi các đường nối các điểm
Theo M Jamali và cộng sự [11], phân tích mạng xã hội là ánh xạ và đo các quan hệ
và các luồng giữa con người, các nhóm, các tổ chức, động vật, các máy tính hoặc các thực thể xử lý thông tin khác Số lượng, kích thước, và các quan hệ giữa các nhóm nhỏ trong mạng có thể nói cho chúng ta biết nhiều thông tin về hành vi các thực thể tham gia mạng Theo P Zaphiris và cộng sự [31], phân tích mạng xã hội tập trung trên các mẫu của các liên kết giữa các tác nhân Nó xem xét mô tả về liên kết mạng một cách đầy đủ nhất
có thể Nó bao gồm nghiên cứu về các mẫu nổi bật trong mạng, theo dấu các luồng thông tin, và khám phá những tác động của liên kết và mạng trên các thực thể tham gia mạng
Do đó, nó có thể được sử dụng để nghiên cứu các mô hình mạng của các thực thể được kết nối thông qua môi trường trực tuyến
Như vậy, phân tích mạng xã hội đa phần tập trung vào nghiên cứu các cấu trúc bên trong của mạng xã hội (các liên kết, luồng thông tin,…) để khám phá ra những tri thức có
ý nghĩa
1.1.4 Mô hình biểu diễn mạng xã hội
Mạng xã hội thường được biểu diễn bởi các đồ thị xã hội, ở đó các thực thể được biểu diễn như là một nút (điểm) và các quan hệ được biểu diễn là các đường nối hai nút
Do đó, mô hình mạng xã hội có mối quan hệ chặt chẽ với lý thuyết đồ thị Khi xem xét một mạng xã hội thì coi nó tương đương với một đồ thị (có hướng/vô hướng) G = <V, E>,
Trang 11Hình 1.3: Biểu diễn một mạng xã hội Trong phân tích mạng xã hội, nghiên cứu về liên kết giữa hai thực thể thường tập trung vào ba loại chính: liên kết đôi (dyads) – là kiểu liên kết giữa hai thực thể, liên kết ba (triads) – là kiểu liên kết giữa ba thực thể và các hệ thống lớn (large systems) – là liên kết giữa các nhóm nhỏ hoặc toàn bộ mạng
Hình 1.4: Liên kết dyads, triads và nhóm Trong các nghiên cứu về phân tích mạng xã hội, đôi khi các nhà nghiên cứu vẫn dùng biểu diễn đồ thị mạng dưới dạng ma trận kề Giả sử đồ thị G = <V, E> có n đỉnh, khi
đó chúng ta sẽ tạo ra một ma trận A kích thước n*n để biểu diễn đồ thị G trên Khi đó, hai
đỉnh u, v có liên kết thì giá trị tại vị trí A[u, v] = 1, ngược lại bằng 0 Tùy trường hợp có thể thay 1 bằng trọng số liên kết giữa hai đỉnh u, v Minh họa việc biểu diễn mạng xã hội
bằng ma trận kề được trong hình 1.5
Trang 12Hình 1.5: Biểu diễn đồ thị mạng bằng ma trận kề
Rõ ràng, trong phân tích mạng xã hội, lý thuyết đồ thị giữ một vai trò quan trọng Đặc biệt là một số khái niệm như đồ thị liên thông, các thành phần liên thông, đường đi giữa hai đỉnh bất kỳ, các phương pháp duyệt đồ thị Breath-first-Search (BFE) và Deep-first-Search (DFS) được áp dụng rộng rãi Bên cạnh đó, sự kết hợp của một số ngành khoa học như xã hội học, nhân chủng học, toán học,…đã tạo nên sức mạnh cho lĩnh vực phân tích mạng xã hội
1.2 Mạng xã hội Twitter
Twitter là dịch vụ mạng xã hội ra đời năm 2006, một dạng micro-blog được phát triển bởi Twitter Inc cung cấp một dịch vụ mạng miễn phí cho phép người dùng sử dụng gửi và nhận các tin nhắn, gọi là các tweet Sau đó Twitter đã trở thành một hiện tượng phổ biến toàn cầu Nó đã thể hiện ưu điểm so với các dịch vụ truyền thông truyền thống trong việc cập nhật tin tức kịp thời hơn, ví dụ trong việc đưa tin về trận động đất ở Chile [18] Tính đến tháng 12 năm 2012, số lượng thànbh viên của Twitter lên tới gần 500 triệu người dùng [4], đứng sau Facebook Twitter chứa lượng thông tin rất lớn và thông tin lan rộng khá nhanh Ngày 14/8/2012, khi Olympic London kết thúc, đã có hơn 150 triệu tweet được chia sẻ về các môn thi đấu cũng như những sự kiện, nhân vật trong kì thế vận hội này Ngày 1/8/2012, theo CNNMoney, Twitter đã trở thành nhân vật đóng vai trò quan trọng nhất trong việc truyền thông của Olympic London 2012 Đây là lần đầu tiên nhiều kết quả thi đấu của các môn thi xuất hiện trên mạng xã hội trước cả TV
1.2.1 Đặc điểm
Cơ chế kết nối của Twitter là cơ chế một chiều Khi muốn nhận các thông tin của các thành viên khác, mỗi thành viên (user) chỉ cần thực hiện following thành viên đó mà không cần sự đồng ý của người được follow Các user follow một user khác được gọi là follower, hai user follow với nhau được gọi là friend Điểm mạnh của Twitter là số người
Trang 13follow không giới hạn, còn số lượng người kết nối bạn bè trong Facebook thì giới hạn với con số 5000 Do đó, Twitter thường được ưa thích sử dụng bởi các doanh nghiệp, thương hiệu, hay những ngôi sao nổi tiếng nhằm cập nhật những thông tin về mình cho những người quan tâm
Các tweet có độ dài 144 kí tự, như tin nhắn SMS, hiển thị trên trang cá nhân của mỗi người Số lượng kí tự hạn hẹp là một trong các yếu tố làm cho tweet lan nhanh hơn trên mạng xã hội Một số hoạt động trên Twitter:
Reply: trả lời cho một tweet
Retweet: tweet lại Nếu một tweet được một người sử dụng retweet thì nó sẽ được xuất hiện trên trang của tất cả follower của người sử dụng đó Một tweet có thể được retweet nhiều lần bởi nhiều người sử dụng
Mention: Tên một user có thể được nhắc đến trong một tweet Hành động này được gọi là mention Một mention thường được bắt đầu bằng kí tự “@”
Hashtag: Thường được bắt đầu bằng ký tự “#” Các dịch vụ tìm kiếm trên Twitter thường sử dụng đặc trưng này để xác định chủ đề và độ quan trọng cho truy vấn tìm kiếm
Hơn nữa, Twitter hỗ trợ API đầy đủ cho mọi thành viên có thể sử dụng để lập trình ứng dụng Cung cấp một API giúp người sử dụng có thể lấy được các thông tin về các người dùng trong mạng xã hội như tên truy cập, ID, số lượng bạn bè, số lượng tweet mỗi ngày…
1.2.2 Đối tượng trong mạng xã hội Twitter
Twitter có nhiều đối tượng, trong đó nổi bật là người (thành viên), tài liệu, tổ chức, quốc gia Đối tượng người và tài liệu là những đối tượng cá thể, trong khi đối tượng tổ chức, quốc gia là đối tượng tập hợp
Mỗi đối tượng đều có những đặc điểm khác nhau, như sau:
Người: Đối tượng chỉ thành viên tham gia Twitter Họ có các thông tin thể hiện trong trang cá nhân của mình: tên, tuổi, địa chỉ, nơi công tác, bạn bè,… Đối tượng này thực hiện tất cả các hoạt động trên Twitter: following, đăng tweet, retweet,… Các tweet sẽ được gửi tới những người thực hiện following người đăng tweet
Tài liệu: Đối tượng này chứa đựng các thông tin, kể cả thông tin chính xác hay không chính xác; thông tin phê bình hay khen ngợi,… Đối tượng tài liệu trên Twitter chính là tweet
Trang 14 Tổ chức: Đối tượng tập hợp của các đối tượng người trong cùng một lớp, một trường hay một khu tập thể, một cơ quan,… Trong cùng một tổ chức, mọi người thường có chung quan điểm và các tweet được biết đến khá nhanh
Quốc gia: Đối tượng tập hợp tất cả các đối tượng người có cùng quốc tịch Đối tượng này thường thể hiện tiếng nói dân tộc như văn hóa, tôn giáo,… và
cả những tư tưởng, quan điểm của quốc gia đó
Với mục tiêu xếp hạng các đối tượng chứa thông tin về tin tức, sự kiện,… luận văn nghiên cứu thực hiện xếp hạng các đối tượng tài liệu (tweet)
1.2.3 Tính hạng trên mạng xã hội Twitter
Ngày càng nhiều các dữ liệu do người sử dụng tạo ra trên các blog cá nhân, dịch vụ microblogging, các website xã hội và thương mại Tuy nhiên, các nội dung được tạo ra có thể là nội dung có chất lượng, chứa những thông tin hữu ích nhưng cũng có rất nhiều các nội dung spam như quảng cáo, tự quảng bá bản thân, những điều vô nghĩa, hoặc thông tin sai lệch Vì vậy, việc đánh giá chất lượng của thông tin đã trở thành một thách thức cho các hệ thống truy hồi thông tin và trả lời câu hỏi [10]
Vì một số lượng lớn các tweet được đăng mỗi ngày, các chiến lược xếp hạng ngày càng quan trọng với người sử dụng để tìm kiếm thông tin nhanh và hiệu quả hơn Chiến lược xếp hạng hiện tại của Twitter xem xét sự liên quan với câu truy vấn đầu vào, thông tin gần nhất (các tweet cuối cùng), và sự phổ biến (số lần retweet bởi người sử dụng khác) [1]
Một trong những bài toán điển hình của khai phá dữ liệu trên mạng Twitter là bài toán tính hạng các tweet Các phương pháp nghiên cứu xếp hạng lại các tweet được trả về bởi một chủ đề đã cho nhằm tăng hiệu quả của phương pháp xếp hạng hiện thời
Input: Tập các Tweet (T), user (U) và tài liệu web (D) của một chủ đề đã cho Output: Danh sách các Tweet theo thứ tự giảm dần
Có nhiều phương pháp xếp hạng các tweet được đưa ra nhằm làm tăng hiệu quả của phương pháp xếp hạng hiện thời với hai hướng chủ yếu Hướng thứ nhất tập trung vào việc tìm ra, phân tích và kết hợp các đặc trưng của Twitter nhằm rút ra những đặc trưng quan trọng góp phần nâng hiệu quả xếp hạng Hướng thứ hai ngoài kết hợp các đặc trưng còn tập trung vào việc khai thác các mối quan hệ và các liên kết tiềm ẩn giữa các đối tượng trên toàn mạng Twitter
Trang 15Duan và cộng sự tại Hội nghị quốc tế lần thứ 23 về Ngôn ngữ học tính toán năm
2010 [7] đề xuất phương pháp xếp hạng bằng cách phân tích các đặc trưng nội dung và các đặc trưng độ tin cậy của tweet và tìm ra các đặc trưng hiệu quả Các đặc trưng dùng
để xếp hạng gồm điểm số BM25, độ tương tự cosine giữa các cặp tweet, số các từ trong một tweet Nhóm thứ hai là các đặc trưng đặc biệt của Twitter: URL, số lần retweet, reply, hashtag Nhóm thứ ba là các đặc trưng độ tin cậy tài khoản gồm: điểm PageRank, điểm Follower, điểm Mention, Kỹ thuật RankSVM được sử dụng để kết hợp các đặc trưng để xếp hạng Thực nghiệm cũng tìm ra được một tập các đặc trưng quan trọng đối với việc xếp hạng là: tổng số mention, người follower quan trọng, chiều dài của tweet và tweet có chứa URL Đặc biệt tweet có chứa URL có ý nghĩa quan trọng trong việc làm tăng hiệu quả xếp hạng
Huang và cộng sự tại Hội nghị quốc tế lần thứ 5 về xử lý ngôn ngữ tự nhiên năm
2011 [14] đề xuất phương pháp xếp hạng thiên về chất lượng các tweet bằng cách đưa ra một mô hình hồi quy để kết hợp các đặc trưng khác nhau của Twitter như đặc trưng về nội dung tweet, độ tin cậy của user, đặc trưng tình cảm trong tweet, các đặc trưng đặc biệt của Twitter Ngoài ra, nhóm tác giả còn đưa ra giả thuyết phù hợp về nội dung (các tài liệu có nội dung tương tự với càng nhiều tài liệu khác thì càng có chất lượng cao) và xây dựng nó thành một yếu tố chính quy của mô hình hồi quy tuyến tính
Gupta và cộng sự tại Hội thảo lần thứ nhất về Bảo mật và an ninh trong mạng truyền thông xã hội năm 2012 [10] áp dụng phân tích hồi quy tuyến tính để xác định các đặc trưng nổi bật (dựa trên nội dung và user) có thể giúp đánh giá độ tin cậy các tweet Các đặc trưng dựa trên nội dung như độ dài của tweet, số từ, số ký tự đặc biệt, số hashtag, số retweet, số mention, các đại từ, các biểu tượng cảm xúc trong một tweet,… Các đặc trưng dựa trên user như số follower, số friend, thời gian đã đăng kí của user, độ dài mô tả user,
độ dài của username… Kỹ thuật RankSVM được sử dụng để xếp hạng các tweet và xếp hạng lại kết quả bằng phương pháp xét độ liên quan (sử dụng điểm số BM25) giữa các tweet để đánh giá độ tin cậy của thông tin chứa trong tweet Kết quả thực tế cho thấy không chỉ “bạn là ai” khi bạn tweet mới quan trọng mà chất lượng “bạn post gì” cũng rất quan trọng Kết quả cũng cho thấy việc kết hợp cả các đặc trưng về nội dung và các đặc trưng về user góp phần làm tăng đáng kể hiệu quả xếp hạng so với phương pháp xếp hạng hiện thời
Năm 2012, tại Hội nghị quốc tế lần thứ IX về tích hợp thông tin trên Web,
Ravikumar và cộng sự [25] đã đề xuất mô hình tính hạng Tweet theo phương pháp xét độ tin cậy và độ liên quan bằng cách đưa ra mô hình 3 lớp thể hiện mối quan hệ giữa người
Trang 16sử dụng Twitter, các tweet và các tài liệu Web Tuy nhiên nhóm tác giả chỉ mới khai thác mối quan hệ giữa các Tweet Tại hội nghị Coling 2012, Huang và cộng sự đã đưa ra phương pháp tính hạng Tweet dựa trên mạng không đồng nhất [15] Trong luận văn, chúng tôi nghiên cứu và áp dụng phương pháp của Huang và cộng sự vào bài toán trên
1.3 Tóm tắt chương 1
Trong chương 1, luận văn đã giới thiệu chung về mạng xã hội, mạng xã hội Twitter, những nội dung liên quan để phân tích mạng xã hội Luận văn cũng phát biểu được bài toán tính hạng đối tượng trên mạng xã hội Twitter, một số nghiên cứu liên quan và phương pháp giải quyết bài toán này
Chương tiếp theo chúng tôi trình bày phương pháp tính hạng đối tượng trên mạng xã hội Twitter bằng xét độ tin cậy và độ liên quan giữa các tweet
Trang 17Chương 2
TÍNH HẠNG TWEET BẰNG PHƯƠNG PHÁP XÉT ĐỘ TIN CẬY VÀ ĐỘ LIÊN QUAN
Twitter đang ngày càng được sử dụng như một nguồn tin tức và xu hướng mới nhất
Vì tính mở của nó, Twitter đã trở thành một phương tiện tuyệt vời để phổ biến thông tin cho cộng đồng người sử dụng lớn trong thời gian ngắn nhất Tuy nhiên, tính mở này làm cho các thông tin trên Twitter không thể kiểm soát và có nhiều thông tin sai lệch Do vậy việc chọn và đưa ra các tweet có độ tin cậy và độ liên quan với truy vấn cao là rất quan trọng Tính hạng Tweet bằng phương pháp xét độ tin cậy và độ liên quan được Ravikumar
và cộng sự đưa ra năm 2012 [25]
Trong phương pháp này, nhóm tác giả đề xuất mô hình hóa hệ thống Twitter như một đồ thị ba lớp bao gồm: (i) users (ii) tweets và (iii) web pages
2.1 Mô hình hóa hệ thống Twitter
Hệ thống Twitter được mô hình hóa như một đồ thị ba lớp được chỉ ra ở hình 2.1
Mô hình ba lớp bao gồm: lớp Twitter user (người sử dụng Twitter), lớp tweet và lớp web Ngoài các liên kết rõ ràng, các liên kết tiềm ẩn trong một lớp và giữa các lớp cũng được khai thác để xếp hạng Trong lớp Twitter user, nếu user ui là follower của user uj thì sẽ có một liên kết từ ui đến uj Trong lớp tweet, ngoài các liên kết retweet ,các liên kết tiềm ẩn được xây dựng dựa trên sự tương đồng về nội dung Tầng web khai thác các liên kết giữa các trang web
Trang 18Hình 2.1: Mô hình ba lớp của hệ thống Twitter gồm lớp user, lớp tweet và lớp web Các cạnh trong một lớp và giữa các lớp thể hiện mối quan hệ giữa các thành phần Phương pháp này tập trung chủ yếu vào việc tăng hiệu quả xếp hạng các tweet bằng cách xem xét sự tương đồng về nội dung của các tweet trong lớp Tweet
2.2 Tính toán sự tương đồng
Balakrishnan và cộng sự với thuật toán SourceRank [3] đã chỉ ra rằng sự liên quan
và độ tin cậy của nguồn các trang web dựa trên sự tương đồng về nội dung bên trong nó Cho một truy vấn người sử dụng, vấn đề đặt ra là phải chọn một tập các nguồn cung cấp câu trả lời có độ liên quan với truy vấn cao và đáng tin cậy Bằng quan sát ta thấy: Nhiều nguồn cùng được trả về trong các truy vấn tương tự nhau Việc so sánh ngữ nghĩa của các câu trả lời được hỗ trợ bởi cấu trúc của các bộ dữ liệu Từ đó có thể đưa ra ý tưởng tính toán độ liên quan và độ tin cậy của các nguồn dựa trên sự tương đồng của các câu trả lời được trả về
Các kết quả quan trọng và có độ liên quan cao có xu hướng được trả về bởi một số lượng lớn các nguồn Ví dụ, đối với truy vấn Godfather thì bộ phim cổ điển The Godfather được trả về bởi hàng trăm nguồn trong khi phim Little Godfather chỉ được trả
về bởi một vài nguồn Hai nguồn độc lập có xu hướng không đồng ý với các câu trả lời không đáng tin cậy Ví dụ, một cuốn sách với tên tác giả sai ( ví dụ tác giả của Godfather
là “Nino Rota”) sẽ không tương đồng với các nguồn khác
Trang 19Hình 2.2 Mô hình giải thích trực giác sự tương đồng bao gồm độ liên quan và độ tin cậy Trong hình 2.2 đặt RT là tập các bộ dữ liệu có liên quan và đáng tin cậy của một truy vấn, U là không gian tìm kiếm Đặt PA (r1, r2) biểu thị xác suất mà hai bộ dữ liệu độc lập được chọn từ RT
1 2
1 ( , )
R2 và R3 là tập các kết quả được trả về bởi ba nguồn độc lập Bộ kết quả từ các nguồn đơn
sẽ có chứa một phần nhỏ của bộ dữ liệu có liên quan và đáng tin cậy từ RT, và một phần nhỏ của bộ dữ liệu liên quan từ U – RT Từ trên ta thấy bộ dữ liệu từ RT có thể sẽ tương đồng với xác suất cao hơn nhiều so với bộ dữ liệu từ U – RT Điều này cho thấy càng
Trang 20nhiều bộ dữ liệu có liên quan được trả về, thì càng nhiều nguồn khác đồng ý với kết quả của nó
Tương tự đối với các tweet, một tweet có sự tương đồng với một số lượng lớn các tweet thì có khả năng là nổi tiếng và liên quan với truy vấn nhiều hơn Nếu hai user độc lập có chung quan điểm về một sự việc nào đó thì các tweet đó là đáng tin cậy
Sự tương đồng giữa các cặp tweet được tính bằng điểm số Soft-TFIDF [20] với độ tương tự Jaro-Winkler Soft-TFIDF tương tự như TFIDF nhưng xem xét cả các token tương tự trong các véctơ tài liệu được so sánh ngoài các token giống hệt nhau
số các cung liên kết với nó
2.3 Đánh giá
2.3.1 Ưu điểm
Phương pháp này đã đề xuất một mô hình ba lớp: User – Tweet – Web có ý nghĩa lớn trong việc khai thác các mối quan hệ trong từng lớp và giữa các lớp nhằm làm tăng chất lượng xếp hạng
Theo Ravikumar S và cộng sự [25], “Khai thác được mối quan hệ giữa các tweet trong lớp Tweet dựa trên độ tương đồng làm tăng hiệu quả xếp hạng do đã tính đến sự liên quan và độ tin cậy của các tweet với câu truy vấn
Kết quả thực nghiệm của các tác giả cho thấy, độ liên quan xếp hạng theo nDCG của phương pháp đề xuất đạt từ 0.8 trở lên, cải thiện đáng kể so với trường hợp đối sánh sử dụng TF-IDF thông thường.”
Trang 212.3.2 Nhược điểm
Theo các tác giả, phương pháp tính toán trên đây chỉ mới dừng lại ở việc khai thác mối quan hệ hiện ở lớp Tweet trong mô hình ba lớp đã đề xuất Các mối liên kết tiềm ẩn giữa các lớp chưa được khai thác và áp dụng trong việc xếp hạng và đây là một hạn chế cần khắc phục
Trang 22Chương 3
TÍNH HẠNG TWEET DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT
Đối với phương pháp xếp hạng các Tweet trước đây tồn tại các vấn đề: Không loại
bỏ được các tweet nhiễu, là các tweet rất ngắn, chỉ chứa URL, không chứa một nội dung
cụ thể hoặc các tweet thể hiện cảm xúc hay bình luận của người sử dụng về một vấn đề Vấn đề thứ hai là trường hợp các user cùng nói về một vấn đề nhưng không kết nối với nhau Ví dụ các sự kiện quan tâm chung như thiên tai hay bầu cử là các chủ đề được gửi bởi rất nhiều user từ nhiều cộng đồng Trong trường hợp này, các user có thể sẽ không biết gì về nhau Hơn nữa, nhiều user có thể có các vấn đề cùng quan tâm chung nhưng lại không được kết nối với nhau Hệ thống xếp hạng không khai thác được các liên kết tiềm
ẩn giữa các user, giữa các tweet và các user do đó hạn chế hiệu quả của việc triết xuất các đặc trưng trong việc xếp hạng Hơn nữa, các tài liệu web liên quan đến truy vấn cũng là một nguồn quan trọng để làm tăng hiệu quả xếp hạng các tweet
Phương pháp tính hạng Tweet dựa trên mạng không đồng nhất được Huang và cộng
sự – đưa ra năm 2012 Phương pháp này xây dựng một mạng không đồng nhất giữa các User, các Tweet và các tài liệu web liên quan đến truy vấn nhằm khai thác toàn bộ các mối liên kết tiềm ẩn giữa các User, các Tweet và các tài liệu web liên quan để xếp hạng các tweet Để lan truyền điểm xếp hạng trong mạng không đồng nhất này, một mô hình được đề xuất gọi là Tri – HITS Mô hình này cũng loại ra các tweet nhiễu, làm giàu mạng bằng cách kết nối các user chia sẻ những nội dung tương tự Ba cấp độ giả thuyết được đưa ra để làm nền tảng xây dựng mô hình
3.1 Thuật toán Co – HITS
Thuật toán Co-HITS được đề xuất để tính điểm xếp hạng cho các thực thể trong hai tập thực thể của đồ thị hai phía bằng phương pháp lặp lan truyền điểm giữa hai tập thực thể
Đồ thị hai phía (đồ thị lưỡng phân hay đồ thị hai phần - bipartite graph) là một đồ thị đặc biệt, trong đó tập các đỉnh có thể được chia thành hai tập không giao nhau thỏa mãn điều kiện không có cạnh nối hai đỉnh bất kỳ thuộc cùng một tập
Trang 23Một đồ thị đơn vô hướng G = (V, E) được gọi là hai phía nếu tồn tại một phân hoạch của tập đỉnh V V1 V2 sao cho V1 và V2 là các tập độc lập (rời nhau) sao cho bất kì cạnh nào của đồ thị cũng nối một đỉnh của V1 với một đỉnh thuộc V2 Khi đó người ta còn kí hiệu là: G(V1V E2, ) và gọi một tập (chẳng hạn V1) là tập các đỉnh trái và tập còn lại (chẳng hạn V2) là tập các đỉnh phải của đồ thị hai phía
Đồ thị hai phía được sử dụng rộng rãi để biểu diễn mối quan hệ giữa hai tập thực thể (hai loại dữ liệu) cho tìm kiếm Web và các ứng dụng khai phá dữ liệu Web cung cấp những quan hệ phong phú có thể được biểu diễn bởi đồ thị hai phía, như mối quan hệ giữa các truy vấn và URL trong các bản ghi truy vấn, các tác giả và các bài báo trong các tạp chí khoa học,…
Hình 3.1: Ví dụ một đồ thị hai phía
Các cung giữa U và V được biểu diễn bằng ma trận chuyển Wuv và Wvu Các đường nét đứt biểu diễn các liên kết ẩn giữa các đỉnh trong một phía, trong đó Wuu và Wvv biểu thị
ma trận chuyển ẩn trong U và V
Xét đồ thị hai phía G = (UV, E) Đặt U = {u1, u2, …, um} và V = {v1, v2, …, vn}
là hai tập của m và n các thực thể Một đồ thị hai phía có thể được mô hình hóa như một
đồ thị trọng số có hướng Cho i U và jV, nếu có một cung nối ui và vj, thì xác suất chuyển dịch là wijuv và wvu ji , trong đó wijuv biểu thị xác suất dịch chuyển từ ui đến vj, và
wvu
ji biểu thị xác suất dịch chuyển từ vj đến ui; ngược lại wijuv = wvu
ji = 0 Tổng xác suất dịch chuyển từ trạng thái i U đến các trạng thái jV phải là 1 và ngược lại, ta có
ij
wuv 1
và i U wvuji 1