Luận văn đề nghị một mô hình tìm kiếm ba vaitrò trên với một số biến thể từ mô hình của Vanesa Junquero-Trabado và cộng sự [21]:i bổ sung đặc trưng số lượng retweet của người dùng; ii sử
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐINH THỊ HƯƠNG
MỘT MÔ HÌNH TÌM KIẾM VAI TRÒ TRONG MẠNG XÃ HỘI TWITTER
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã Số: 60480104
LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2014
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐINH THỊ HƯƠNG
MỘT MÔ HÌNH TÌM KIẾM VAI TRÒ
TRONG MẠNG XÃ HỘI TWITTER
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã Số: 60480104
LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY
HÀ NỘI - 2014
Trang 3Lời cam đoan
Tôi xin cam đoan luận văn “Một mô hình tìm kiếm vai trò trong mạng xã hộiTwitter" là công trình nghiên cứu của riêng tôi Các số liệu, kết quả được trình bàytrong luận văn là hoàn toàn trung thực Tôi đã trích dẫn đầy đủ các tài liệu tham khảo,công trình nghiên cứu liên quan Ngoại trừ các tài liệu tham khảo này, luận văn hoàntoàn là công việc của riêng tôi
Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệThông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Hà Nội, ngày 25 tháng 10 năm 2014
Học viên
Đinh Thị Hương
Trang 4Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS HàQuang Thụy cùng Phòng Thí nghiệm KTLab đã tận tình hướng dẫn tôi trong suốt quátrình thực hiện luận văn tốt nghiệp Luận văn này được thực hiện trong khuôn khổ đề
tài mã số BB-2012-B42-29 của Bộ Công an.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôihọc tập và nghiên cứu tại trường Đại học Công Nghệ
Tôi xin gửi lời cảm ơn tới các bạn trong lớp cao học K18 đã ủng hộ, khuyếnkhích tôi trong suốt quá trình học tập tại trường
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, nhữngngười thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện luận văntốt nghiệp
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 25 tháng 10 năm 2014
Học viên
Đinh Thị Hương
Trang 5Tóm tắt nội dung
Phát hiện vai trò trên mạng xã hội trực tuyến không chỉ gây được sự chú ý bởigiới học thuật mà còn trong cả giới kinh doanh Đối với các nhà đầu tư, doanh nghiệp,việc quảng bá sản phẩm, thương hiệu dựa trên vai trò của những người có ảnh hưởnglớn trong mạng xã hội mang lại hiệu quả kinh tế cao Những nhận định, đánh giá haykhen, chê về một sản phẩm, mặt hàng của những người có vai trò quyết định trongmạng xã hội sẽ được đông đảo người dùng trong mạng dõi theo và có thể bị ảnh hưởngbởi những nhận định, đánh giá đó Các nghiên cứu gần đây cũng chứng minh đượcrằng các vai trò quan trọng trong mạng xã hội có ảnh hưởng lớn đến quyết định muasắm, ăn uống, tiêu dùng, hoạt động chính trị, biểu tình, bầu cử… của những ngườidùng khác trong mạng Chính vì lẽ đó mà nhu cầu tìm kiếm, phát hiện vai trò trongmạng xã hội ngày càng tăng cao
Luận văn tập trung nghiên cứu một mô hình tìm kiếm vai trò trong mạng xã hộiTwitter và thực nghiệm tìm kiếm 3 vai trò: người nổi tiếng, người vận động quảng bá,người khởi tạo ý tưởng trong truyền tin Luận văn đề nghị một mô hình tìm kiếm ba vaitrò trên với một số biến thể từ mô hình của Vanesa Junquero-Trabado và cộng sự [21]:(i) bổ sung đặc trưng số lượng retweet của người dùng; (ii) sử dụng thuật toán K-meansuy rộng [10] thay vì sử dụng thuật toán K-mean; (iii) sử dụng phương án chuẩn hóatốt nhất (chuẩn hóa Max/Min) mà không xem xét các phương án khác; (iv) không thựchiện mở rộng tập mồi (seed) sau khi gán vai trò Luận văn thi hành phần mềm thửnghiệm mô hình và tiến hành thực nghiệm trên bộ dữ liệu tại Đại học Stanford Kết quảthực nghiệm cho độ đo F-measure trung bình là 81.1% Kết quả trên cho thấy phươngpháp tìm kiếm vai trò trong mạng xã hội Twitter được luận văn đề xuất và triển khai làkhả quan, có khả năng ứng dụng trong thực tế
Trang 6Mở đầu
Trong những năm gần đây, mạng xã hội trực tuyến (online social networks: OSNs)phản ánh ngày càng phong phú đời sống xã hội và tinh thần trong xã hội loài người vàkhai phá dữ liệu OSNs đã trở thành lĩnh vực khoa học và công nghệ nổi bật [11] thuhút sự quan tâm đặc biệt của nhiều tổ chức, nhiều nhóm nghiên cứu trên thế giới, chẳnghạn dãy hội nghị hàng năm TREC tại Viện chuẩn và khoa học Mỹ [microblog-track].Khai phá, phát hiện vai trò trong mạng xã hội Twitter là nội dung nghiên cứu, làm
rõ mô hình toán học cho sự tương tác, vai trò giữa mọi người, các tổ chức và các nhómvới nhau trong việc phân tích mạng xã hội Twitter [16, 15].Việc phát hiện, tìm kiếmvai trò nhận được sự quan tâm lớn của các nhà nghiên cứu, các nhà đầu tư, các doanhnghiệp, tổ chức chính trị Lợi ích của việc tìm ra những vai trò có ảnh hưởng lớn trongmạng xã hội mang lại hiệu quả khá rõ ràng, các công ty, doanh nghiệp hay các nhà tiếpthị có thể dựa trên những vai trò có ảnh hưởng lớn trên mạng để quảng bá thương hiệu,sản phẩm đến khách hàng, người tiêu dùng Nó như một công cụ thông tin giúp các nhàdoanh nghiệp có thể giao tiếp với những người quan tâm đến sản phẩm hoặc làm chothương hiệu của các nhà doanh nghiệp đó trở nên quen thuộc với những người chưabiết
Luận văn này tiến hành nghiên cứu các phương pháp phát hiện vai trò trong mạng
xã hội Twitter bao gồm khảo sát các mô hình phân tích mạng xã hội và các mô hìnhphát hiện vai trò điển hình Từ đó đề xuất một mô hình tìm kiếm vai trò trong mạng xãhội Twitter Một vai trò xã hội được định nghĩa như một tập hợp những đặc tính mô tảcách hành xử của mỗi cá nhân và mối liên hệ giữa họ trong một ngữ cảnh nhất định.Trong mô hình này, chúng tôi thực hiện trích chọn các đặc trưng của một người trongmạng xã hội, tiếp theo sử dụng 1 thuật toán phân cụm để phân cụm những người cónhững đặc trưng tương đồng vào cùng một cụm Đối với vai trò cần tìm kiếm sẽ có mộttập các độ đo phù hợp tương ứng với vai trò đó Từ những độ đo phù hợp này, chúngtôi sẽ tìm kiếm các cụm dữ liệu mà có các đặc trưng tương đồng với độ đo trên và trả
về kết quả Luận văn đã thực nghiệm mô hình với kết quả đạt được khá khả quan sovới kết quả của thế giới
Nội dung của luận văn được chia thành các chương như sau:
Trang 7Chương 1: Luận văn giới thiệu khái quát về mạng xã hội, mạng xã hội Twitter,
bài toán phát hiện vai trò trong mạng xã hội
Chương 2: Luận văn đưa ra một số nghiên cứu liên quan về việc phát hiện vai
trò trong mạng xã hội nói chung và mạng xã hội Twitter nói riêng Đồng thời trongchương này cũng trình bày một thuật toán phân cụm hiệu quả để cải thiện kết quả củabài toán
Chương 3: Luận văn đề xuất một mô hình tìm kiếm vai trò trên mạng xã hội
Twitter Tư tưởng chính của mô hình sẽ được thể hiện trong chương này Đồng thời,luận văn cũng trình bày chi tiết các pha cũng như những các bước thực hiện trong môhình
Chương 4: Thực nghiệm, kết quả và đánh giá Tiến hành thực nghiệm theo mô
hình đã đề xuất trong chương 4
Phần kết luận: Tóm lược kết quả đạt được của luận văn và định hướng phát
triển tương lai
Trang 8Mục Lục
Lời cam đoan 3
Lời cảm ơn 4
Tóm tắt nội dung 5
Mở đầu 6
Mục Lục 8
Danh mục hình vẽ 10
Danh mục bảng biểu 11
Danh mục viết tắt 12
1 Chương 1 Giới thiệu về mạng xã hội, mạng xã hội Twitter và bài toán khai phá vai trò trong mạng xã hội 13
1.1 Giới thiệu về mạng xã hội 13
1.1.1 Sự phát triển của mạng xã hội 13
1.1.2 Khái niệm mạng xã hội 15
1.2 Giới thiệu về mạng xã hội Twitter 16
1.3 Bài toán khai phá vai trò trong mạng xã hội 18
2.Chương 2 Các phương pháp phát hiện vai trò trong mạng xã hội và một số thuật toán phân cụm 20
2.1 Các phương pháp phát hiện vai trò trong mạng xã hội 20
2.2 Một kiến trúc tìm kiếm vai trò trong mạng xã hội áp dụng trên miền dữ liệu Twitter của Vanesa Junquero Trabado và cộng sự [21] 21
2.3 Một mô hình phát hiện vai trò truyền tin trong Twitter 29
2.4 Một thuật toán phân cụm cải tiến K-mean 31
3.Chương 3 Mô hình đề xuất tìm kiếm vai trò trong mạng xã hội Twitter 36
3.1 Tư tưởng chính của mô hình 36
3.2 Mô hình đề xuất 37
3.2.1 Pha phân tích đặc trưng 38
3.2.2 Pha phân cụm dữ liệu 40
Trang 93.2.3 Pha gán vai trò 41
4.Chương 4 Thực nghiêm và đánh giá 43
4.1 Môi trường và các công cụ sử dụng thực nghiệm 43
4.2 Tập dữ liệu thử nghiệm 44
4.3 Thực nghiệm 45
4.3.1 Phân tích đặc trưng 45
4.3.2 Pha phân cụm dữ liệu 50
4.3.3 Pha gán vai trò 50
4.4 Kết quả thử nghiệm và phương pháp đánh giá 51
Kết luận 54
Tài liệu tham khảo 55
Danh mục hình vẽ Hình 1: Một ví dụ về sociogram 13
Hình 2: Một ví dụ về thuật ngữ Twitter 17
Hình 3: Mô hình thực thế quan hệ 23
Hình 4: Một ví dụ về gán vai trò 26
Hình 5: Kết quả đánh giá mô hình của Trabado và cộng sự [21] 28
Hình 6: Giải thuật Lọc 34
Hình 7: Mô hình đề xuất 38
Hình 8: Phân bố giá trị độ đo đặc trưng M1 46
Hình 9: Phân bố giá trị độ đo đặc trưng M2 46
Hình 10: Phân bổ giá trị độ đo đặc trưng M3 47
Hình 11: Phân bố giá trị độ đo đặc trưng M8 48
Hình 12: Phân bổ giá trị đọ đo đặc trưng M9 48
Hình 13: Phân bố giá trị độ đo đặc trưng M10 49
Hình 14: Phân bố giá trị độ đo đặc trưng M11 49
Hình 15: Phân bố giá trị độ đo đặc trưng M15 50
Hình 16: Kết quả đánh giá 52
Trang 11Danh mục bảng biểu
Bảng 1: Cấu hình phần cứng 43
Bảng 2: Các phần mềm sử dụng 43
Bảng 3: Kết quả tìm kiếm 51
Bảng 4: Kết quả các thuật toán phân cụm 51
Trang 12Danh mục viết tắt
5 Độ lệch chuẩn –Standard Deviation Sdv
7 Lựa chọn giá trị lớn nhất trên hệ trục MVA
Trang 13Chương 1 Giới thiệu về mạng xã hội, mạng xã hội Twitter
và bài toán khai phá vai trò trong mạng xã hội
1.1 Giới thiệu về mạng xã hội
1.1.1 Sự phát triển của mạng xã hội
Jiyang Chen, 2010 [2] đã đưa ra một giới thiệu khái quát về sự phát triển củaquá trình nghiên cứu về mạng xã hội (social network) Nhu cầu phân tích mạng xã hộiđược bắt đầu từ những năm 1930 và nhanh chóng trở thành chủ đề quan trọng nhấttrong xã hội học Những người đi tiên phong trong lĩnh vực này là Jacob Moreno, KurtLewin và Fritz Heider
J.Moreno xây dựng một mô hình đặt tên là “sociometry” bằng cách hỏi nhữngngười xung quanh bạn của họ là ai, và tìm hiểu mối quan hệ của họ với những ngườikhác Sáng tạo của Moreno là ông đã tạo ra được một “sociogram”, một cách để biểudiễn các tính chất của một cấu hình mang tính xã hội Khái niệm “sociogram” sau nàycũng được dùng để chỉ biểu diễn đồ thị của các mạng xã hội
Trang 14Hình 1: Một ví dụ về sociogram
Trong khi đó K.Lewin, trong một nghiên cứu về hành vi của các nhóm, cho rằngcác tính chất về mặt cấu trúc của một đơn vị xã hội có thể biểu diễn một cách toán họcbằng lý thuyết đồ thị và cấu trúc liên kết Trong các nghiên cứu về nhận thức xã hội,F.Heider cũng phát minh ra thuyết cân bằng, trong đó ông cho rằng tâm trí con ngườiluôn hướng tới sự cân bằng bằng cách giữ lại những ý tưởng mà không mâu thuẫn với
ý tưởng của những người khác, điều này cũng được áp dụng vào trong thái độ vớinhững người xung quanh mình Những ý tưởng này của Lewin và Heider sớm đượcphát triển bởi Frank Harary và Dorwin Cartwright, trong đó nhóm tác giả sử dụng lýthuyết đồ thị để xây dựng một công cụ khá hữu hiệu trong nghiên cứu mạng xã hội
Cũng theo [2], trong những năm 1950, các nhà nghiên cứu từ khoa Xã hội vàNhân chủng học của trường đại học Manchester, dẫn đầu là John Barnes, đã bắt đầu đặttrọng tâm nghiên cứu của họ vào các mối quan hệ giữa các đối tượng trong xã hội, thay
vì thiết lập các chuẩn mực và định mức cho toàn bộ cấu trúc xã hội như trước; và tìmhiểu xem cấu trúc của các mối quan hệ giữa các cá thể trong xã hội có ảnh hưởng nhưthế nào đến toàn bộ xã hội Từ đó, thuật ngữ “mạng xã hội”, lần đầu tiên được Barnesnhắc đến vào năm 1954, đã đánh dấu sự phát triển chính thức của việc phân tích cấutrúc mạng xã hội
Dựa vào các nghiên cứu của Barnes và các cộng sự, vào những năm 1969 và
1970, các nhà nghiên cứu ở đại học Harvard do Harrison C.White dẫn đầu tiếp tụcnghiên cứu và phát triển các khía cạnh toán học của mạng xã hội và biểu diễn rất nhiềukhái niệm quan trọng trong xã hội học, ví dụ như khái niệm “vai trò xã hội”, sang côngthức toán học và tìm cách mô hình hóa và tính toán chúng Ý tưởng chính của nghiên
cứu là việc phát hiện cấu trúc của các mạng xã hội không nên dựa vào các hạng mục
nổi tiếng và đã được định nghĩa trước đó, mà phải dựa vào mối quan hệ giữa các cá thể trong mạng và cách thức mà các mối quan hệ này cấu tạo thành mạng như thế nào.
Trong một nghiên cứu sau đó, Mark Granovetter đề ra giả thiết liên kết yếu, với nội
dung chính là “Nếu A có liên kết mạnh tới B và C thì rất có khả năng giữa B và C tồntại một liên kết” Giả thiết này của Granovetter được áp dụng tương đối hiệu quả trongmột số nghiên cứu sau này
Trang 15Tóm lại phân tích mạng xã hội [6] được sinh ra từ các nhu cầu chung của xã hộihọc, nhân chủng học, toán học, sinh học và kinh tế học Ngày nay phân tích mạng xãhội còn được áp dụng trong nhiều lĩnh vực như kinh tế, tài chính…Tuy nhiên trongthời đại bùng nổ thông tin hiện nay với số lượng và kích thước các mạng xã hội trựctuyến tăng lên không ngừng, các vấn đề về quản lý thông tin xã hội trở nên khó khănhơn Do đó, cần thiết phải áp dụng các kỹ thuật khoa học máy tính để phân tích chínhxác và hiệu quả hơn các cấu trúc xã hội trên các mạng xã hội.
1.1.2 Khái niệm mạng xã hội
Mạng xã hội là một cấu trúc mang tính xã hội được cấu tạo từ các nút và các
cung, trong đó các nút được liên kết với nhau bởi một hoặc nhiều cung, thể hiện kiểumối quan hệ cụ thể [2] Mỗi nút, còn được gọi là một tác nhân (actor), biểu diễn chomột đối tượng trong xã hội, có thể là một người, một tài liệu, một tổ chức, một quốcgia… Liên kết giữa các nút được biểu diễn bởi một liên kết giữa các nút đó; liên kếtnày có thể là mối quan hệ bạn bè, họ hàng, đồng nghiệp,… cũng có thể là các trao đổi
tài chính, các giao dịch, số liệu,… Các liên kết này có thể là liên kết vô hướng (hay còn
gọi là liên kết đối xứng ), trong đó mối quan hệ giữa 2 nút A và B là mối quan hệ qualại, ví dụ A là bạn B, và B cũng là bạn A, hay A và B cùng sống chung trong một căn
hộ,… Các liên kết này cũng có thể là liên kết có hướng, ví dụ A thích B, nhưng B chưa
chắc đã thích A, hay là A nợ tiền của B… Mặt khác, các liên kết còn có thể được đánhtrọng số, trọng số này biểu diễn độ mạnh của liên kết đó giữa hai nút
Để biểu diễn mạng xã hội, các nhà phân tích mạng xã hội sử dụng hai cấu trúcphổ biến, đó là đồ thị và ma trận kề [11] Để tính toán và phân tích các liên kết trongmạng, người ta thường ưu tiên áp dụng lý thuyết đồ thị do đồ thị là một trong nhữngcông cụ rất hữu hiệu để thể hiện các thông tin về mạng xã hội Trong biểu diễn đồ thịcủa mạng xã hội, các đỉnh được dùng để biểu diễn các nút và các cạnh dùng để biểudiễn liên kết giữa các nút Các cạnh trong đồ thị có thể vô hướng hay có hướng, cũng
có thể được đánh trọng số tùy thuộc vào nhu cầu biểu diễn liên kết xã hội là vô hướnghay có hướng, trọng số như thế nào
Mạng xã hội, cũng như các mạng trong thực tế khác thường có mức độ về mặt
tổ chức và tính thứ tự cao Mức độ của sự phân bố là rất rộng, với phần cuối thườngtheo một luật dạng lũy thừa, vì vậy, nhiều đỉnh ở mức thấp cùng tồn tại với một số đỉnh
Trang 16ở mức cao [7] Hơn thế nữa, sự phân bố của các cạnh là không đồng đều không chỉ ởtoàn thể mà còn ở mức cục bộ, với mức độ tập trung cao của các cạnh trong một sốnhóm các đỉnh đặc biệt, và giữa các nhóm đó số lượng cạnh tập trung là thấp Trongbiểu diễn đồ thị của các mạng xã hội, một số nhóm các đỉnh có liên kết chặt chẽ vớinhau thành các cụm, và giữa các cụm đó được nối với nhau chỉ bằng một vài cạnhkhác
1.2 Giới thiệu về mạng xã hội Twitter
Twitter là một trang web micro-blog được Twitter Inc sở hữu và phát triển [5],cung cấp một dịch vụ mạng xã hội miễn phí cho phép người sử dụng gửi và nhận cáctin nhắn gọi là Tweet Twitter thực sự là mạng xã hội nhắn tin Thành lập từ năm 2006,Twitter đã trở thành một hiện tượng phố biến toàn cầu Giới hạn về độ dài của tin nhắn,
140 kí tự, có tính tương thích với tin SMS (Short Message Service), mang đến chocộng đồng mạng một hình thức tốc ký đáng chú ý, đã được sử dụng rộng rãi đối vớiSMS Hiện nay, Twitter đã đạt đến con số trên 500 triệu người sử dụng, với 65 triệutweet được sinh ra mỗi ngày, và khoảng 800000 lượt truy vấn mỗi ngày Twitter đôi
khi còn được miêu tả như là “SMS trên Internet”
Các thuật ngữ chính sử dụng trong Twitter:
- Tweet: Những tin nhắn có độ dài tối đa 140 ký tự được gửi cho nhau và
hiển thị trên profile cá nhân của mỗi người
- ReTweet(RT):Cho phép người dùng chia sẻ lại những Tweet, liên kết từ
những người dùng khác
- Mention (@): Sử dụng để tham chiếu đến một người khác bằng cách sử
dụng tên đăng nhập của người đó trong Tweet (ví dụ @Mashable)
- Hashtag (#):Từ khóa của tài liệu Hashtag là một công cụ khai phá cho
phép những người khác tìm tweet của bạn dựa trên các chủ đề Bạn cóthể nhấp chuột vào 1 hashtag để xem tất cả các tweet đề cập đến chủ đề
đó thậm chí cả những người bạn không theo dõi
- Following – Follower:Mối quan hệ theo dõi và được theo dõi.
Dưới đây là một ví dụ về các thuật ngữ trên Twitter:
Trang 17Hình 2: Một ví dụ về thuật ngữ Twitter
Cũng như các mạng xã hội khác, Twitter có thể biểu diễn dưới dạng mô hình đồthị, trong đó mỗi người sử dụng trực tuyến như là một đỉnh trong đồ thị, và các cạnhnối giữa các đỉnh thể hiện một mối quan hệ nào đó giữa 2 người sử dụng, chẳng hạnnhư mối quan hệ bạn bè Mạng xã hội Twitter được ứng dụng rộng rãi trong việc xâydựng mô hình mạng xã hội, vì tính phổ biến cũng như quy mô rộng rãi của mạng xã hộinày [30] Twitter là một công cụ micro-blog phổ biến được xã hội yêu thích nhờ tínhphổ biến và khả năng lan truyền nhanh trong các phương tiện truyền thông công cộng
Ví dụ như nó đã được sử dụng bởi các chiến dịch chính trị, tin tức tổ chức và chotruyền thông doanh nghiệp Tổng thống Mỹ đương nhiệm Obama đã sử dụng rất tíchcực và hiệu quả công cụ này khi ông chiến thắng trong cuộc chạy đua vào nhà trắng.Twitter cũng được các tạp chí hay các ngôi sao điện ảnh, ca sĩ, người nổi tiếng rấtchuộng sử dụng để kết nối với khán giả và người hâm mộ
Mạng xã hội trực tuyến Twitter cho thấy khả năng phục vụ điều tra xã hội [3] vìvậy thu hút sự quan tâm đặc biệt của nhiều tổ chức, nhiều nhóm nghiên cứu trên thếgiới, chẳng hạn dãy hội nghị hàng năm TREC tại Viện chuẩn và khoa học Mỹ[microblog-track]
Trang 181.3 Bài toán phát hiện vai trò trong mạng xã hội
Sự phát triển bùng nổ số lượng người tham gia vào các mạng xã hội làm tănglên nhu cầu tìm hiểu những mẫu đặc trưng quan hệ tương tác giữa các người dùng Mộttrong những hướng tiếp cận thông minh để tìm hiểu ai là ai trong mạng xã hội chính làphân loại người dùng theo vai trò của họ trong mạng Hành động của các cá nhân trênmạng không mang tính ngẫu nhiên bởi mỗi người thường lặp lại những mẫu hành động
mà thông qua đó xác định đựơc vai trò của họ trong một ngữ cảnh nhất định
Vai trò xã hội là thuật ngữ phổ biến được nghiên cứu bởi các nhà xã hội học.Trong lý thuyết vai trò, nó đựơc định nghĩa là những đặc tính của một hay một nhómngười trong một ngữ cảnh [1] Nhóm vai trò không tách biệt hoàn toàn mà được đặctrưng hóa bởi các thuộc tính nổi bật có tính thường xuyên trong ngữ cảnh xã hội Nhưchúng ta đã biết, mạng xã hội không thừa kế mối quan hệ trong xã hội thực của cácthành viên, tuy nhiên, thông tin về hành vi và nội dung thông điệp trao đổi trong mạng
xã hội cho phép phát hiện các mối quan hệ giữa các thành viên trong mạng bao gồmmối quan hệ trong xã hội thực lẫn mối quan hệ nảy sinh trong ngữ cảnh mạng xã hội
Một vai trò xã hội là tập hợp những đặc tính mô tả cách hành xử của mỗi cá nhân và mối liên hệ giữa họ trong một ngữ cảnh nhất định Trong nghiên cứu [21], một vai trò
xã hội được định nghĩa thông qua một tập các độ đo thích hợp đặc trưng cho nhữngnhóm người trong một ngữ cảnh
Phát hiện vai trò trong mạng xã hội chính là nội dung nghiên cứu, làm rõ môhình toán học cho sự tương tác, vai trò giữa con người, các tổ chức và các nhóm vớinhau trong việc phân tích mạng xã hội Rất nhiều những nghiên cứu về việc xác địnhvai trò cụ thể trong ngữ cảnh như trong các cuộc thảo luận trực tuyến, Wikipedia vàphương tiện truyền thông Nhưng phần lớn các nghiên cứu chỉ tập trung vào vịêc phântích và định nghĩa một vai trò đặc trưng với mạng đó chứ không đưa ra một kiến trúc
để truy tìm các vai trò trong mạng Đầu tiên, họ phân tích mạng và mục tiêu của việcnghiên cứu này là tìm ra những vai trò có thể có Sau đó họ đặc trưng hóa chúng cùngvới những đặc tính được quan sát và cố gắng thu thập những mẫu đáp ứng các tiêuchuẩn đó [13, 24] Những hướng tiếp cận này phụ thuộc vào mạng đang nghiên cứu vàchỉ phục vụ cho vịêc tìm kiếm một vai trò cụ thể Ví dụ, nghiên cứu phát hiện vai tròtrên mạng Twitter chủ yếu tập trung vào việc xác định một vai trò cụ thể nào đó nhưnhà cải cách, người nổi tiếng hay những nhà sản xuất giỏi [4] Những nghiên cứu trên
Trang 19các mạng khác như Wikipedia hay Youtube đưa ra những quy lụât phân loại ngườidùng vào các nhóm hoặc phân cụm người dùng và sau đó gán vai trò cho các cụm [14,
Tóm tắt chương 1
Chương một đã trình bày tổng quan về mạng xã hội, sự phát triển của mạng xãhội, mạng xã hội trực tuyến Twitter và bài toán phát hiện vai trò trong mạng xã hội.Đồng thời, chương này cũng nêu một số phương pháp và các cách tiếp cận xác định vaitrò trong mạng xã hội
Chương hai của luận văn sẽ trình bày chi tiết về một trong những cách được sửdụng để tìm kiếm, phát hiện vai trò trong mạng xã hội nói chung và trong mạng xã hộiTwitter nói riêng Đồng thời trong chương này, cũng trình bày về một thuật toán phâncụm cải tiến
Trang 20Chương 2 Các phương pháp phát hiện vai trò trong mạng
xã hội và một số thuật toán phân cụm
2.1 Các phương pháp phát hiện vai trò trong mạng xã hội
Việc nghiên cứu phát hiện vai trò trong môi trường trực tuyến bắt đầu trước sựbùng nổ của các trang mạng xã hội trực tuyến Năm 2005, Nolker và cộng sự đã nghiêncứu những cuộc thảo luận lớn và phát hiện hai vai trò quan trọng tới sự thành công củacộng đồng: người đứng đầu, người cung cấp kiến thức và duy trì sự gắn kết của nhóm,
và người thúc đẩy – người giữ cho cuộc hội thảo tiếp diễn [17] Họ được xác định dựatrên hành vi, các cuộc trao đổi và mối liên hệ với các thành viên
Một số nghiên cứu khác tập trung vào một số mạng cụ thể như Usenet hayYahoo! Group Trong Usenet, một số vai trò đã được nhận dạng: chuyên gia, người trảlời, người nói chuyện, người hâm mộ, nghệ sĩ hội thảo, người pha trò và người lừa dối.Những vai trò này được xác định thông qua những tương tác với các thành viên khác,hành vi và mẫu cấu trúc của họ [8] Vai trò của người trả lời trong các nhóm hội thảotrực tuyến – người cung cấp những thông tin trợ giúp cho những câu hỏi của các thànhviên khác trong nhóm thì rất dễ nhận biết trong những mạng kiểu này [24] Việc xácđịnh những người gắn bó lâu dài là vịêc rất quan trọng vì họ chính là những thành viênduy trì các cuộc thảo luận Vai trò đóng góp cũng đang được nghiên cứu trong nhómYahoo! Group [2]
Rất nhiều đề nghị được đưa ra trong Twitter và vịêc lấy dữ liệu từ nó trở nên dễdàng Chúng ta có thể phân biệt một số vai trò tương tác trên Twitter như nguồn thôngtin chính truyền bá thông tin trên mạng; những người nổi tiếng – được theo dõi bởi rấtnhiều người; người dẫn dắt ý tưởng – người phổ biến các ý kiến của mình và có ảnhhưởng lớn tới những người khác trong mạng Nội dung trên Twitter được tạo ra bởihàng trăm triệu người Chúng tacó thể phân bịêt những tác giả hấp dẫn nhất cho từngtừng chủ đề như một vai trò khác nhau Nhưng với sự mở rộng mối liên hệ và sự phát
triển rộng rãi của các mạng xã hội tạo ra một vai trò mới: spammer Những spammer
này sử dụng mạng xã hội để phát tán phần mềm độc hại hoặc các tin nhắc rác thươngmại [26]
Trang 21Gleave và cộng sự đề xuất một phương pháp định tính nhằm xác định những tậpvai trò tiềm năng ban đầu và những thước đo để phân tích chúng [22] Phương phápnày được tiến hành để xác định các vai trò trong Wikipedia và xác định chữ ký nhậndạng cho mỗi vai trò Với những chữ ký này họ xây dựng nên một bộ các quy tắc đểphân loại người theo các vai trò Một hướng tiếp cận khác để xác định vai trò là đặctrưng hóa người dùng bởi các vec-tơ đặc trưng bao gồm các thông tin chắc chắn liênquan và sau đó phân loại người dùng với những hành vi tương tự vào cùng một nhóm[14] D Laniado và cộng sự [13] cũng nghiên cứu các vai trò trong Wikipedia Họ tínhtoán và so sánh một vài độ đo cục bộ, như số lượng các bài báo hay số lượng nhận xét,
và những độ đo tổng thể như kích thước lớn nhất của những nhân tố kết nối haykhoảng cách trung bình giữa mỗi người
Chi Wang và cộng sự, 2010 [25] đề xuất mô hình đồ thị nhân tử xác suất phụthuộc thời gian (Time-constrained probabilistic factor graph model: TPFG) để pháthiện quan hệ người hướng dẫn – người được hướng dẫn trong mạng thông tin đượchình thành từ Cơ sở dữ liệu DBLP Kết quả nghiên cứu này đã được thi hành trong hệthống tìm kiếm và khai phá dữ liệu mạng xã hội khoa học Arnetminer(http://arnetminer.org/) của Trường Đại học Thanh Hoa Trung Quốc
Trong nhiều trường hợp, giải pháp tính hạng (ranking) cũng được áp dụng trongbài toán phát hiện vai trò, trong đó những nút mạng (cá nhân/tổ chức) có hạng cao lànhững nút quan trọng trong mạng xã hội [9] Hành vi của những nút quan trọng có tácđộng tới hành vi chung của mạng hoặc một cộng đồng trong mạng Sự bùng nổ sự kiệntrong mạng xã hội có liên quan tới hành vi của những nút quan trọng trong mạng
2.2 Một kiến trúc tìm kiếm vai trò trong mạng xã hội áp dụng trên miền dữ liệu Twitter
Vanesa Junquero Trabado và cộng sự, 2012 [21] đã mô tả một kiến trúc của máytìm kiếm để xác định vai trò xã hội trong thời gian thực Hướng tiếp cận được tiến hànhdựa trên các bước tiền xử lý biểu diễn mỗi người trong mạng bằng một vec-tơ đặctrưng mô tả hành vi và mối quan hệ của người đó với những người khác trong mộtcộng đồng Sau đó, thực hiện phương pháp phân cụm trên tập các vector đặc trưng đểphân cụm các nhóm người với những đặc trưng tương đồng, các nhóm này được đánhtheochỉ mục Bước tiền xử lý phân nhóm người trong mạng hoàn toàn độc lập với các
Trang 22đặc trưng vai trò mà người dùng sẽ tìm kiếm sau đó Tiếp theo, người dùng đưavàomáy tìm kiếm truy vấn là các đặc trưng nổi bật của 1 vai trò (một tập các độ đo phùhợp) Trong nghiên cứu này, độ đo phù hợp là các đặc trưng để phân biệt các vai tròkhác nhau trong mạng.Tư tưởng chính được chia làm 2 pha:
Pha ngoại tuyến: Biểu diễn mỗi người trong mạng bằng 1 vector đặc trưng 14 chiều,
thực hiện phân cụm người, những người có hành vi, đặc trưng tương đồng nhau sẽđược phân vào một cụm Bao gồm các bước: Mô hình hóa dữ liệu, đặc trưng hóa dữliệu, chuẩn hóa dữ liệu và thực hiện phân cụm
Pha trực tuyến: Đầu vào là các đặc trưng tương ứng với một vai trò, đầu ra là các cụm
tương đồng với các đặc trưng vai trò mà người dùng tìm kiếm Bao gồm các bước: Gánvai trò (lựa chọn tập seed tương đồng với đặc trưng vai trò cần tìm kiếm) và mở rộngtập seed trả về kết quả
a Pha ngoại tuyến: Bao gồm các bước
- Mô hình hóa dữ liệu: Nhóm tác giả mô hình hóa tập dữ liệu sử dụng một mô
hình xã hội động – nơi mọi người có thể chia sẻ và công khai các tài liệu Giản đồ được
mô tả như trong hình 3 có thể dễ dàng được ánh xạ vào nhiều mạng khác nhau nhưmạng cộng đồng giao tiếp thư điện tử, mạng chỉ dẫn thư mục hay mạng xã hội trựctuyến [29].Trong bài báo tác giả sử dụng dữ liệu từ Twitter, mô tả 3 nút và 5 loại cạnhnhư sau:
Các nút:
o Con người: những người tham gia mạng
o Tài liệu: tài liệu (tweet) được công khai bởi người sử dụng
o Tag: từ khóa của một tài liệu Trong Twitter, nó được hiểu như những hashtag –quy ước tạo nên một chủ đề Đó là một từ khóa được xác định với tiền tố đứngtrước là ký tự ‘#’
Có các loại cạnh tương ứng với các nút như sau:
o Người công khai: chỉ người công khai các tài liệu (tweets)
o Người nhận: Mô tả những người nhận tweet Trong Twitter, mối liên hệ trựctiếp là các tweet mà nội dung được thể hiện bởi tên người dùng cùng với ký hiệu
‘@’
Trang 23o Những mô tả: liên quan tới những người được đề cập trong tài liệu TrongTwitter nó được định nghĩa bởi ký tự ‘@’ theo sau tên người sử dụng.
o Hiểu biết: Nêu ra một mối liên hệ kết nối giữa hai người Trong Twitter, đượctạo dựng từ mối quan hệ theo dõi – được theo dõi
o Tham chiếu: Những mối liên hệ tham chiếu được tạo khi một tin nhắn thamchiếu tới một tin nhắn trước đó
Hình 3: Mô hình thực thế quan hệ [21]
- Đặc trưng hóa vai trò: Vai trò xã hội có thể được định nghĩa bởi các hành vi
của các cá nhân, mối quan hệ giữa các thành viên và sự kết hợp của hai cá nhân đơn lẻ.Kiến trúc của mô hình này dựa trên việc xác định một tập đặc trưng đa dạng, cho phépxác định những vai trò không đồng nhất Điển hình nhất là vai trò chỉ tập trung vào tập
cá thể nhỏ với các thuộc tính riêng biệt và khác biệt Các tác giả định nghĩa 14 đặctrưng cần thiết liên quan tới các vai trò và thực nghiệm trên tập dữ liệu Twitter tìmkiếm 4 vai trò là người nổi tiếng, người lãnh đạo quan điểm, người phát kiến và ngườivận động quảng bá Kiến trúc này cũng cho phép mở rộng tập hợp các đặc trưng Từcác thử nghiệm, việc bổ sung các đặc trưng mới được chứng minh không ảnh hưởng
nhiều tới sự xác định và kết quả của máy tìm kiếm vai trò Cho một cá nhân p trong mạng, p được biểu diễn bởi 14 đặc trưng được mô tả như bên dưới:
o M1: Số lượng người p biết
o M2: Số lượng người biết p
Trang 24o M3: Mối quan hệ tương tác của p.
o M4: Hệ số phân cụm của liên hệ đã biết, nó cho biết mức độ gắn kết nhữngngười bạn của p
o M5: Độ sâu truyền thông trung bình của người p Tính toánphạm vi tác độngcủangười ptrong mạng
o M6: Độ sâu truyền thông tối đa của người p: độ sâu ảnh hưởng cao nhất của pđến trong mạng
o M7: Số lượng tin nhắn mà p nhận được
o M8: Số tài liệu mô tả p
o M9: Thời gian trung bình các hành động ảnh hưởng được p thực hiện Với mỗihành động ảnh hưởng giữa hai người, tính toán sự khác biệt của thời gian
o M10: Vị trí trung bình mà người p xuất hiện trong dòng truyền thông
o M11: Số lượng các ấn phẩm của p
o M12: Ngày p tham gia vào mạng
o M13: Trung bình số lượng các từ trong các tài liệu được p xuất bản
o M14: Tỷ lệ phần trăm từ mà tồn tại trong từ điển của tập tài liệu được p xuấtbản Từ điển được sử dụng làtừ điển Wordnet
- Chuẩn hóa dữ liệu: Quá trình chuẩn hóa lấy các thuộc tính được mô tả trong phần
trên và chuyển đổi chúng sang các giá trị trong một khoảng đã biết Bởi vì phươngpháp phân cụm áp dụng dựa trên khoảng cách giữa các cá nhân, do đó quá trìnhchuẩn hóa cho phép việc ánh xạ tốt hơn tới các thuộc tính Nhóm tác giả sử dụngcác phương pháp sau:
o Chuẩn hóa tối đa/ tối thiểu (Max/Min): cho trước giá trị v của một độ đo m củamột vec-tơ đặc trưng, áp dụng công thức biến đổi v −min (m)
max (m)−min (m) trong đómin(m) là giá trị nhỏ nhất của tất cả các độ đo m và max(m) là giá trị lớn nhất.Kết quả nằm trong [0,1]
Trang 25o Chuẩn hóa log (log): chuẩn hóa dữ liệu theo hàm logarit Sau đó sử dụng chiếnlược tương tự như trong Max/Min để biến đổi dữ liệu.
o Chuẩn hóa xếp hạng (ranking): sắp xếp giá trị của mỗi độ đo theo thứ tự tăngdần và đặt các thuộc tính như các số thứ tự (vị trí khi xếp hạng) Cho một giá trị
ở vị trí thứ i, giá trị chuẩn hóa là N i trong đó N là tổng số người trong cơ sở dữliệu Nếu có giá trị trùng lặp, một giá trị chuẩn hóa được đưa ra cho tất cả cácgiá trị đó và có vị trí ở giữa của khoảng giá trị
o Điểm chuẩn (Normal): với mỗi giá trị v của độ đo m, thực hiện tính độ lệchchuẩn của các giá trị so với giá trị trung bình của m Không giống như cácphương pháp chuẩn hóa khác có giá trị trong khoảng [0,1], giá trị chuẩn hóatheo phương pháp này có thể nhỏ hơn 0 nếu như nó nhỏ hơn giá trị trung bìnhhoặc lớn hơn 1 nếu như chúng lớn hơn giá trị trung bình
- Phân cụm dữ liệu: Nhóm tác giả sử dụng thuật toán K-means để phân cụm cá nhân
thành k cụm dựa trên các đặc trưng không gian của họ với những giá trị khác nhaucủa k Sau khi dữ liệu đã được chuẩn hóa, tiến hành phân cụm người dựa trên
những hành vi tương đồng thành một nhóm
b Pha trực tuyến:
Bước đầu tiên, hệ thống lựa chọn các cụm tốt nhất thỏa mãn các đặc trưng truyvấn mà người dùng đưa vào để tạo tập seed cho vai trò Từ những cụm này, hệ thốngtính toán được trọng tâm của vai trò và thu thập thêm nhiều cụm theo sau quá trình mởrộng tập seed Quá trình này lặp lại cho tới khi hội tụ.Khi quá trình kết thúc, tất cả cánhân trong tập seed ban đầu và mở rộng sẽ nằm trong một vai trò mà người dùng đưavào tìm kiếm
- Lựa chọn seed: Mỗi cụm c có một tập các vec-tơ đặc trưng với giá trị <v1 …, vi>ứng với mỗi cá nhân trong cụm vi là giá trị trung bình của độ đo mi trên tất cảnhững người được gán trong cụm c.Tiến hành thử nghiệm chiến lược lựa chọn cácseed:
o Độ lệch chuẩn (sdv): Đặt m−i¿ ¿
là giá trị trung bình của các phân cụm cho cácphần tử m i.Với mỗi phần tử trong cụm, nhóm tác giả tính toán độ lệch chuẩn
Trang 26nhỏ nhất và lớn nhất của độ lệch chuẩn mà cụm đó tính được trên giá trị trungbình m−i¿ ¿
Một ví dụ truy vấn để xác định người nổi tiếng là các độ đo thích hợp (M2 và
M8) phải trên mức độ trung bình, ví dụ M2 và M8 nằm trong khoảng (0, ∞).Đường chấm trên hình 4(a) và 4(b) thể hiện giá trị trung bình của từng độ đotrên tất cả các cụm, chỉ các cụm 2, 3, 4, 14 và 23 thỏa mãn truy vấn Do đó, Sdvchọn 5 cụm làm tập seed phân cụm cho mục người nổi tiếng
Hình 4: Một ví dụ về gán vai trò [21]
o Lựa chọn giá trị lớn nhất (MV): xem một không gian tập con n – chiều trong đó
n là số độ đo tương quan với một vai trò đã có, chọn ra cụm có số lượng khônggian n – chiều nhiều nhất Lấy ví dụ trước, giá trị module lớn nhất được cho bởicụm đầu tiên:√0.0102+0.000712 = 0.010 Phương pháp này lựa chọn ra các cụmcho tới khi không có cụm nào có giá trị module lớn hơn
o Lựa chọn trên giá trị lớn nhất của hệ trục (MVA): xem xét trên tập không giancon n – chiều trong đó n là số lượng độ đo có liên quan, chọn ra phân cụm cógiá trị cao nhất trên mỗi trục Trong ví dụ trên, cụm 1 và 3 thỏa mãn Phươngpháp này chọn n phân cụm nếu như không có phân cụm nào có giá trị lớn hơn
- Mở rộng seed: Sau bước lựa chọn tập seed, hệ thống thực hiện mở rộng những
seed ban đầu.Ý tưởng dựa trên việc những cụm gần với tập seed ban đầu cũng lànhững ứng viên tốt để trở thành một thành viên của vai trò Sự tương đồng giữa cáccụm đựơc tính trên sử dụng khoảng cách Euclid giữa trọng tâm các cụm khi xem
Trang 27xét trên cùng tập các độ đo Tác giả sử dụng cả 3 phương pháp để thực hiện việc
c Đánh giá kết quả thực nghiệm: Trong thử nghiệm, nhóm tác giả sử dụng 5 cấu
hình gán vai trò (Sdv+Ne, MA + Avg, MA + Incr, MAV + Avg và MA + Incr) và sửdụng độ đo F measure để đánh giá
- Kết quả chuẩn hóa: Nhìn chung phương pháp chuẩn hóa độc lập với chiến lược
gán vai trò được áp dụng nhưng kết quả tốt nhất đạt được với Max/Min, Log, chuẩnhóa thông thường với độ đo F cho giá trị trên 80% Điều này là do thuật toán K-mean với thông số cấu hình này tạo ra những phân cụm như nhau đối với cả chuẩnhoá và khi áp dụng Sdv để lọc các cụm sử dụng độ lệch chuẩn và cho kết quả giốngnhau đối với cả 2 trường hợp Người phát kiến được nhận diện rất rõ ràng bẳngphương pháp chuẩn hóa Ngượclại, người nổi tiếng và người vận động quảng bá lạikhó có thể được xác định độc lập bằng phương pháp chuẩn hóa
- Kết quả gán vai trò: Trong mục này, nhóm tác giả tính toán kết quả so sánh giữa
các chiến lược gán vai trò Có thể thấy rằng chiến lược tốt nhất là MV + Avg cùngvới chuẩn hóa Log; Sdv cùng với chuẩn hóa Max/Min cho độ chính xác trung bìnhhơn 80% Kết quả đánh giá cụ thể như hình bên dưới
Trang 28Hình 5: Kết quả đánh giá mô hình của Trabado và cộng sự [21]
- Để đánh giá về tính đúng đắn của hệ thống Nhóm tác giả thực nghiệm thêm 2 tiêu
chí:
o Thêm nhiều vai trò giới hạn hơn: Thay đổi một số đặc trưng trong các vai trò.Thực nghiệm sử dụng 2 chiến lược Sdv với chuẩn hóa Max/min và MV+Avgvới chuẩn hóa log Kết quả độ đo F gần 90% Kết quả này cho thấy hướng tiếpcận này tốt hơn khi những người cần xác định vai trò có những đặc điểm hành vikhác biệt so với những người khác trong mạng Tóm tại phạm vi độ đo khôngảnh hưởng nhiều tới kết quả Cả Sdv và MV+Avg cho kết quả độ đo F cao vàđộc lập với giới hạn độ đo
o Đa dạng hóa số lượng độ đo Trong thử nghiệm này, nhóm tác giả thay đổi sốlượng một số đặc trưng của mỗi vai trò trong cơ sở dữ liệu Đầu tiên, với mỗivai trò, thực hiện tìm kiếm vai trò như bình thường sau đó bổ sung thêm 4 đến 8đặc trưng ngẫu nhiêu vào vector đặc trưng người.Tiến hành thử nghiệm Sdv vớichuẩn hóa Max/Min; MV+Avg với chuẩn hóa Log (chiến lược cho kết quả tốttrong các thử nghiệm trước) Nếu tăng thêm số lượng độ đo, sử dụng Sdvkhông ảnh hưởng nhiều đến kết quả tìm kiếm của máy vai trò Độ đo F gần 0.7Cuối cùng, nhóm tác giả kết luận việc sử dụng gán vai trò Sdv cho kết quả tốt hơn vàđộc lập với số lượng độ đo hoặc giới hạn vai trò Ngược lại MV + Avg lại phụ thuộc và