1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp lan truyền nhãn và ứng dụng đề tài phát hiện cấu trúc cộng đồng trên đồ thị mạng xã hội

90 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phương Pháp Lan Truyền Nhãn Và Ứng Dụng Đề Tài Phát Hiện Cấu Trúc Cộng Đồng Trên Đồ Thị Mạng Xã Hội
Tác giả Nguyễn Trung Kiên
Người hướng dẫn PGS.TS Đoàn Văn Ban
Trường học Trường Đại Học Mở Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 90
Dung lượng 3,39 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mạng xã hội có thể được đại diện bới một đồ thị, trong đó các thành viên cứa mạng được biếu thị bàng các đinh nút và các mối quan hệ xã hội giữa các thành viên được biếu thị bằng các cạn

Trang 1

TRƯỜNG ĐẠI HOC MỞ HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN

TÊN ĐỀ TÀI:

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu khoa học của riêng tôi và được sự hướng dẫn khoa học của PGS.TS Đoàn Văn Ban Các nội dung nghiên cứu, kết quả trong

đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biếu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham kháo

Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu cùa các tác già khác, cơ quan tố chức khác đều có trích dẫn và chú thích nguồn goc Neu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình

Tác giả luận văn

Nguyễn Trung Kiên

Trang 3

Và cuối cùng tôi gửi lời cảm ơn đen các đồng nghiệp, bạn bè và gia đỉnh, những người đã úng hộ, động viên tạo mọi điều kiện giúp đỡ đế tôi có được kết quả học tập như ngày hôm nay.

Tôi xin chân thành cảm ơn!

Trang 4

LÒĨ CAM ĐOAN I LỜI CAM ON II DANH MỰC TỪ VIẾT TẲT V DANH MỤC CÁC BẢNG VII DANH MỤC CÁC HÌNH VIII LỜI MỞ ĐẦU IX

CHU ÔNG 1: MẠNG XÃ HỘI VÀ CỘNG ĐỒNG TRONG MẠNG XÃ HỘI 1

1.1 Mạng xã hội 1

1.2 Đồ thị mạng xã hội 6

1.3 Cácđộđovàhệsố đo trên đồ thị mạng xãhội 6

1.4 Cấu trúc cộngđồngđồ thịmạngxã hội 28

1.5 Kết luận chương1 31

CHUÔNG 2: PHÁT HIỆN CỘNG ĐÒNG MẠNG XÃ HỘI THEO PHUONG PHÁP LAN TRUYỀN NHÃN ’ 32

2.1 Nhómthuậttoán phát hiện cộng đồng mạng xã hội 32

2.2 Thuật toán Lan truyền nhãn Label Propagation Algorihm (LPA) 43

2.3 Độ đo đánh giá thuật toán phát hiệncộngđồng mạng xã hội 53

2.4 Độ đo trung gian trong phát hiện cấu trác cộngđồng 56

Trang 5

2.5 Kết luận chương 2 60

CHƯƠNG 3: CHƯƠNG TRÌNH CÀI ĐẬT THUẬT TOÁN PHÁT HIỆN CÁU TRÚC CỘNG ĐỒNG 61

3.1 Mô tà bài toán 61

3.2 Thuật toánGN và LPA 64

3.3 Công cụ xây dựng chươngtrình 67

3.4 Triển khai chương trình với cácbộdữliệu 72

3.5 Kết luận chương 3 74

KÉT LUẬN VÀ KIÉN NGHỊ 75

4.1 Kếtluận 75

4.2 Kiến nghị 76

4.3 Ýnghĩa thực tiễnvà hướng phát triển đề tài 76

DANH MỤC TÀI LIỆU THAM KHẢO 78

Trang 6

Thuật toán Girvan-Newman

8 GNN Đồ thị mạng nơron (Graph neural networks)

9 LPA Thuật toán lan truyền nhãn (Label propagation

algorithm)

Mạng xã hội

Trang 7

11 NMF

negativc matrix factorization)

12 OLP Tối ưu hóa lan truyền nhãn (Optimized label

propagation)

Viện Santa Fe

14 SNAP Tập dữ liệu các mạng Sanford (Stanford large

networks dataset collection)

Trang 8

DANH MỤC CÁC BẢNG

Bàng 2.1: Nhóm thuật toán phát hiện cộng đồng 41

Báng 2.2: Kết quả thuật toán LPA với kích thước giã định 50

Bảng 2.3: Kct quả thực nghiệm trong ví dụ 2.1 b 51

Báng 3.1: cấu hình thực nghiệm phần cứng 66 Báng 3.2: Kết quà so sánh chất lượng cộng dồng phát hiện từ thuật toán GN và LPA73

Trang 9

DANH MỤC CÁC HÌNH

Hình 1.1: Các trang Mạng xã hội 2

Hình 1.2: Mạng xã hội Facebook 4

Hình 1.3: Mạng xã hội Gapo 5

Hình 1.4: Đồ thị có 4 đinh và 5 cạnh 13

Hình 1.5: Những đồ thị hình sao, bánh xe có số đinh 3, 4, 5, 6, 7 15

Hình 1.6: Đồ thị mạng xã hội đơn giàn gồm 7 nút 17

Hình 2.1: Mô hình mạng lưới cộng tác của các nhà khoa học làm việc tại SF1 29

Hình 2.2: Thời gian thực hiện thuật toán LPA 50

Hình 2.3: Thời gian thực hiện trong ví dụ 2.1 b 51

Hình 2.4: Chất lượng cộng đồng trong ví dụ 2.1 b 51

Hình 2.5: Độ đo trung gian ở Hình 1.6 56

Hình 2.6: Tính độ đo trung gian của các cạnh 57

Hình 3.1: Cộng đồng mạng xã hội Dolphins 60

Hình 3.2: Thống kê dữ liệu mạng ban đầu mạng Dolphins 61

Hình 3.3: Network Data Preview mạng Dolphins 61

Hình 3.4: Thống kê dữ liệu mạng ban đầu mạng Karate 62

Hình 3.5: Network Data Preview mạng Karate 63

Hình 3.6: Trực quan dữ liệu với Matplotlib 68

Hình 3.7: Kết quả phát hiện cộng đồng mạng Dolphins 72

Hình 3.8: Kết quả phát hiện cộng đồng mạng Karate 72

Trang 10

LỜI MỞ ĐẦU

Phát hiện cộng đồng trong mạng xã hội là quá trinh tim ra các cấu trúc cộng đồng tồn tại trong mạng và hiểu được mối quan hệ giữa chúng Các cộng đồng thường được xác định dựa trên mối quan hệ chặt chẽ giữa các thành viên trong cùng một cộng đồng và mối quan hệ yếu hoặc ít liên kết với các cộng đong khác

Phát hiện cấu trúc cộng đồng trong mạng xã hội đóng vai trò quan trọng trong nhiều lĩnh vực như phân tích mạng xã hội, truy vấn thông tin, xác định vai trò và tầm quan trọng cúa các thành viên trong mạng, marketing xã hội, và nhiều ứng dụng khác

Trong bài toán phát hiện cộng đồng, một số phương pháp thông dụng bao gồm thuật toán Girvan-Newman, thuật toán Louvain, thuật toán Label Propagation, và thuật toán Spectral Clustering Những phương pháp này sử dụng các kỹ thuật phân tách đồ thị và phân nhóm để tìm ra cấu trúc cộng đồng trong mạng xà hội

Việc phát hiện và khám phá cấu trúc cộng đồng trong mạng xã hội giúp chúng ta hiếu rõ hơn về sự tương tác và tô chức xà hội, đồng thời cung cấp thông tin hữu ích cho việc đánh giá và quàn lý các sự kiện, hiện tượng trong xã hội

Nham giải quyết những van đề nêu trên em lựa chọn đề tài “Nghiên cứu phương

pháp lan truyền nhãn và ứng dụng dề tài phát hiện cấu trúc cộng dồng trên dồ thị mạng

xã hội” là đề tài nghiên cứu của Luận văn cao học

Những mục tiêu nghiên cứu của luận văn:

- Tìm hiểu được các kiến thức cơ ban về mạng xã hội, cấu trúc cộng đồng trên đồ thị mạng xã hội, các phương pháp tìm kiểm cấu trúc cộng đồng mạng xã hội

- Nghiên cứu các độ đo trên đồ thị mạng xã hội và tìm hiểu các thuật toán phát hiện cấu trúc cộng đồng trên mạng xã hội

- Xây dựng ứng dụng phát hiện cộng đồng mạng xã hội ớ tập dừ liệu đã được công

bố trên mạng

- Vận dụng sử dụng độ đo khoảng cách trên đồ thị đế tìm được các cấu trúc cộng đồng trên đo thị mạng xã hội

Trang 11

thuật toán phát hiện cấu trúc cộng đồng của mạng xã hội.

Luận văn được chia thành các phần chính như sau:

Chương 1: Tống quan về mạng xã hội và cộng đồng trong mạng xã hội.

Nội dung chính của chương 1 là trinh bày tồng quan về mạng xã hội và cộng đồng trong mạng xã hội, các nhóm thuật toán phát hiện cộng đồng mạng xã hội Ngoài ra, luận văn cũng nêu ra các lý thuyết về đồ thị mạng xã hội và cấu trúc cộng đồng đồ thị mạng xã hội

Chương 2:Phát hiện cộng đồng mạng xã hội theo phương pháp lan truyền nhãn

Giới thiệu về nhóm thuật toán phát hiện cộng đồng mạng xã hội và tập trung vào phương pháp lan truyền nhãn

Chương 3:Ket quà thực nghiệm và đánh giá

Đưa ra kết quá thực nghiệm và đánh giá kết quả thực nghiệm trong giới hạn cùa Luận văn cho phép

Trang 12

CHƯƠNG 1: MẠNG XÃ HỘI VÀ CỘNG ĐÒNG TRONG MẠNG

XÃ HỘI

1.1 Mạng xã hội

Mạng xã hội là một hệ thống giao tiếp và tương tác giữa các thành viên trong một cộng đồng hoặc một tập hợp các thực thể (người, tố chức, đối tượng) thông qua các mối quan hệ xã hội Đây là một khái niệm quan trọng trong lĩnh vực xã hội học và khoa học máy tính, được áp dụng rộng rãi trong thế giới kỹ thuật số hiện đại

Mạng xã hội có thể được đại diện bới một đồ thị, trong đó các thành viên cứa mạng được biếu thị bàng các đinh (nút) và các mối quan hệ xã hội giữa các thành viên được biếu thị bằng các cạnh (liên kết) giữa các đình Các thành viên trong mạng xã hội có thế kết nối với nhau thông qua các mối quan hệ khác nhau như bạn bè, người theo dõi, lien két gia đình, hoặc chia sè các sớ thích và sự quan tâm chung

Mạng xã hội không chì tồn tại trong the giới kỹ thuật số mà còn trong cuộc sống hàng ngày, ví dụ như mạng xà hội offline như mạng xã hội trong cộng đồng, tổ chức, hay mạng xã hội trong quan hệ bạn bè và gia đình Tuy nhiên, với sự phát triến của công nghệ thông tin và truyền thông, mạng xã hội trực tuyến đã trở thành một phương thức quan trọng

và phố biến đế giao tiếp, chia sè thông tin và tương tác giữa các cá nhân và tố chức trên toàn cầu

Mạng xã hội trực tuyến thường đi kèm với các nền táng và ứng dụng mạng xã hội như Facebook, Twitter, Instagram, Linkedln, và nhiều hơn nữa Những nền tảng này cung cấp các công cụ và tính năng cho phép người dùng kết nối, chia sẻ thông tin, tạo và tham gia vào các nhóm và cộng đồng, giao tiếp qua tin nhắn và bình luận, và theo dõi hoạt động của nhau

Mạng xã hội đóng vai trò quan trọng trong việc tạo ra và phân phối thông tin, giao tiếp xã hội, xây dựng mối quan hệ, tạo dựng thương hiệu cá nhân và doanh nghiệp

Trang 13

Mạng xã hội không chi là một công cụ truyền thông, mà còn là một cơ chế tương tác

xà hội, nơi mọi người kết nối, chia sẻ, và tạo ra các mối quan hệ

Tuy nhiên, hãy lưu ý rằng mạng xã hội không chi giới hạn trong việc sừ dụng các nền tảng trực tuyến như Facebook hay Twitter Mạng xã hội cũng tồn tại trong cuộc sống hàng ngày của chúng ta, trong cộng đồng, tố chức, và quan hệ cá nhân Mạng xã hội trực tuyến chi là một phần trong sự phát triền và sự lan rộng cùa mạng xã hội nói chung

Nhờ mạng xã hội, chúng ta có thế kết noi với mọi người trên khắp thế giới, chia sẻ thông tin, quan diem, ý kiến và trải nghiệm cá nhân Nó cũng đã tạo ra nhiều cơ hội cho việc tiếp cận thông tin, giáo dục, thương mại điện tử và truyền thông Tuy nhiên, cùng cần nhớ rằng mạng xã hội cũng đặt ra một số thách thức như quyền riêng tư, an ninh thông tin

và ánh hưởng đen tâm lý cá nhân

Tóm lại, mạng xã hội là một khái niệm quan trọng trong xã hội và công nghệ thông tin, tạo ra sự kết nối và tương tác giữa con người thông qua các mối quan hệ xã hội

Có nhiều loại liên kết trong mạng, chẳng hạn như liên kết vô hướng, liên kết một chiều và liên kết hai chiều Một mạng xã hội có thế được biếu diễn bang một đồ thị (gọi là

đồ thị mạng xã hội) [2] Được đại diện bời các đinh, các kết nối được đại diện bởi các cạnh

Ớ đây, hai đĩnh A và B có các cạnh liên thông biếu thị mối quan hệ giữa chúng Ngoài ra, các liên kết này có thế được tính trọng số đế chỉ ra điểm mạnh và điểm yếu của chúng Mạng

Trang 14

chúng rất lớn, đòi hỏi phải có những phương pháp nghiên cứu đúng đắn về mạng xã hội.

Mạng xã hội đà trở thành một phần quan trọng cúa cuộc sống hiện đại và có một ành hưởng lớn đến cách chúng ta kết nối và tương tác với nhau Với sự phát triển nhanh chóng cùa công nghệ thông tin và Internet, mạng xã hội đã mở ra không gian ào cho con người gặp gỡ, giao lưu và chia sẻ thông tin

Mạng xã hội không chi đơn thuần là nơi chia sẻ thông tin cá nhân và kết nối bạn bè,

mà còn đã trớ thành một nguồn tin tức hàng ngày Người dùng có thế theo dõi các trang tin tức, blog, và tương tác với các nhóm, cộng đồng có chung quan tâm Điều này đã thay đối cách chúng ta tiếp cận thông tin và truyền thông, và mạng xã hội trờ thành một kênh quan trọng đế truyền tài ý kiến, quan điểm và tin tức

Có nhiều mạng xã hội khác nhau trên toàn thế giới, mỗi mạng có sự phố biến ở một khu vực cụ thể MySpace và Facebook là hai mạng xã hội phố biến ở Bắc Mỹ và Tây Âu Orkut và HÍ5 được ưa chuộng ở Nam Mỹ Trong khi đó, các mạng xã hội như Bebo ở Anh, CyWorld ờ Hàn Quốc, Mixi ờ Nhật Bán và Gapo ờ Việt Nam đã đạt được thành công lớn trong khu vực của to viện Trường Đại học Mở Hà Nội

Sự phố biến cùa mạng xã hội đã tạo ra nhiều cơ hội kết nối và giao lưu cho mọi người, đồng thời mở ra không gian kinh doanh và tiếp thị mới Các doanh nghiệp và thương hiệu cũng sữ dụng mạng xã hội để quảng bá sản phầm, tương tác với khách hàng và tạo ra

sự tương tác đa chiều

Tuy nhiên, can nhớ ràng việc tham gia mạng xã hội cũng có những rủi ro như việc bào vệ quyền riêng tư và an ninh thông tin cá nhân Sừ dụng mạng xã hội cần thận trọng và

có ý thức đế bào vệ bàn thân và đàm bão an toàn trực tuyến

Tóm lại, mạng xã hội đã thay đổi cách chúng ta kết noi và tương tác với nhau trong cuộc sống hàng ngày Nó không chi là một công cụ truyền thông mà còn là một không gian

ào đế giao lưu, chia sẻ và tìm hiếu thêm về thế giới xung quanh

Facebook là mạng xã hội phố biến nhất hiện nay và đã có một sự ảnh hưởng to lớn đến việc kết nối và giao tiếp giữa mọi người trên toàn cầu Facebook cung cấp một nền tảng miễn phí cho người dùng đe tạo hồ sơ cá nhân, kết bạn, gửi tin nhan và chia sẻ thông tin

Trang 15

tồ chức theo thành phố, nơi làm việc, trường học và khu vực Điều này cho phép họ kết nối

và giao tiếp với những người khác có cùng quan tâm và địa điểm

Facebook cung cấp chức năng "kết bạn" cho phép người dùng kết nối với nhau và gửi tin nhan, chia sẻ nội dung và hình ảnh Bang cách cập nhật thông tin cá nhân, người dùng có thê cho bạn bè biết về cuộc sống, sớ thích, và hoạt động của mình

Tên "Facebook" được lấy từ cuốn sổ lưu niệm (yearbook) được các trường đại học

và cao đắng tại Mỹ sừ dụng để ghi tên và thông tin về sinh viên, phòng ban, và nhân viên

Ý tường ban đau của Facebook là tạo ra một mạng xã hội trực tuyến cho các sinh viên đế giao lưu và kết nối với nhau trong cùng một cộng đồng trường học Từ đó, Facebook đã phát triển và mở rộng đến mọi người trên khắp thế giới [1], [2],

Hình 1.2: Mạng xã hội Facebook

Gapo là một mạng xã hội trực tuyến tại Việt Nam được thành lập vào năm 2019 và thuộc sở hữu của Công ty cố phần Công nghệ Gapo Trong thời gian ngấn kế từ khi ra mắt, Gapo đã đạt được sự tăng trưởng đáng kế về số lượng người dùng Sau gần 1 tháng, Gapo

đã có 1 triệu người dùng, và số người dùng tiếp tục tăng lên 2 triệu vào tháng 9 năm 2019 Sau 5 tháng hoạt động, Gapo đạt 3 triệu người dùng Hiện tại, Gapo đã tuyên bố đạt 4,2 triệu người dùng sau 1 năm hoạt động chính thức

Trang 16

các người dùng, tạo thành các cụm (clusters) trong mạng Các cụm này thường bao gồm những người có sở thích, lĩnh vực hoặc địa điếm chung, dần đến việc họ tương tác và chia

sê thông tin với nhau thường xuyên hơn

Khà năng nhận biết và phân tích cộng đồng trong mạng xã hội mang lại nhiều lợi ích Đối với các nền tảng mạng xã hội, việc hiếu cấu trúc cộng đồng có thể giúp cãi thiện trài nghiệm người dùng, cung cấp nội dung và thông tin phù hợp hơn dựa trên sở thích và nhu cầu của từng cộng đồng

Nghiên cứu và phân tích cấu trúc cộng đồng trong mạng xã hội cũng giúp các nhà quán lý nền táng hiểu rõ hơn về tương tác và hoạt động của người dùng Nó có the hồ trợ phát triển chiến lược marketing, quàng cáo, và nâng cao hiệu quá của các dịch vụ trên mạng

xã hội

Đồng thời, hiêu cấu trúc cộng đồng trong mạng xã hội có thế giúp ngăn chặn hoặc giám thiêu các vấn đê liên quan đến an ninh thông tin, truyền thông giả mạo hoặc lan truyền thông tin sai lệch trong mạng xã hội

, r Thư viện Trường Đại hoc Mở Hậ Nội .Với sự phát triên nhanh chóng của mạng xã hội Gapo và sô lượng người dùng gia tăng, việc nghiên cứu và phân tích cấu trúc cộng đồng trên nền tảng này sẽ ngày càng trờ nên quan trọng và hữu ích đế tối ưu hóa trãi nghiệm người dùng và quân lý nền tàng mạng

xã hội một cách hiệu quả [2], [11], [12]

Hình 1.3: Mạng xã hội Gapo

Trang 17

1.2 Đồ thị mạng xã hội

Đồ thị mạng xã hội (social network graph) là một biếu đồ hoặc mô hình hóa các mối quan hệ xã hội giữa các thành viên trong một mạng xã hội Nó biếu thị sự kết nối và tương tác giữa các cá nhân, tổ chức hoặc thực the khác trong mạng xã hội

Trong đồ thị mạng xã hội, các thành viên được biếu diễn bằng các đinh (nodes) và các mối quan hệ xã hội giữa chúng được biếu diễn bằng các cạnh (edges) Đĩnh thường đại diện cho người dùng hoặc thực thế trong mạng xã hội, trong khi các cạnh thế hiện mối quan

hệ giữa các đỉnh

Đồ thị mạng xà hội có thế được sừ dụng để phân tích và hiếu cấu trúc mạng xã hội, xác định nhóm, tìm ra vai trò quan trọng của các thành viên, dự đoán xu hướng và thông tin lan truyền trong mạng, hay tìm hiểu về tương tác và tỉnh hình hoạt động của cộng đồng trong mạng xã hội

Các công cụ phân tích đồ thị mạng xã hội có thế áp dụng các thuật toán và phương pháp đề phân tích cấu trúc mạng, tính toán chi số mạng xà hội như độ trung tâm, độ phân cụm, hay phân tích quan hệ và tương tác giữa các thành viên trong mạng

, Thự viện Trường Đại hoc Mờ Hà Nội

Đô thị mạng xã hội cung câp một góc nhìn hữu ích đê nghiên cứu và hiêu vê mạng

xà hội, từ đó giúp chúng ta khám phá và áp dụng kiến thức này trong các lình vực như marketing, quàn lý cộng đồng, phân tích dữ liệu xã hội, và nhiều lĩnh vực khác liên quan đen mạng xã hội

1.3 Các độ đo và hệ số đo trên đồ thị mạng xã hội

Trong phân tích đồ thị mạng xã hội, có nhiều độ đo và hệ số đo được sử dụng đế đo lường và đánh giá các thuộc tính và đặc trưng của mạng Dưới đây là một số độ đo và hệ số

đo phố biến:

1 Độ bậc (Degree): Độ bậc của một đinh trong đồ thị mạng xã hội là số lượng cạnh kết nối với đinh đó Độ bậc phán ánh mức độ quan tâm và tương tác của một thành viên trong mạng Có thế tính độ bậc vào trong (in-dcgrec) và độ bậc ra ngoài (out-degrce) tùy thuộc vào hướng của cạnh [ 1 ], [2], [5]

Trang 18

của một đỉnh trong mạng Có nhiều độ trung tâm khác nhau như [2]:

i Trung tâm bậc (Degree centrality): Đo lường mức độ tương tác của một đinh dựa trên độ bậc của nó

ii Trung tâm trung gian (Betweenness centrality): Đo lường mức độ kiếm soát thông tin lưu thông giữa các đinh trong mạng

iii Trung tâm gần nhất (Closeness centrality): Đo lường mức độ tiếp cận của một đỉnh đến tất cả các đinh khác trong mạng

iv Trung tâm vector riêng (Eigenvector centrality): Đo lường mức độ quan trọng cùa một đinh dựa trên mức độ quan trọng của các đinh kết nối với nó

3 Độ phân cụm (Clustering coefficient): Độ phân cụm đo lường mức độ tập trung của các đinh trong một cụm (cluster) nhó Nó đo lường xác suất các đĩnh kết nối với nhau trong một cụm

4 Khoáng cách trung tâm (Centrality distance): Khoảng cách trung tâm đo lường độ

xa gần giữa các đình trong mạng Nó có thế dựa trên khoảng cách Geodesic (đường đi ngắn nhất) hoặc thông tin về lưu lượng thông tin truyền từ một đinh đến các đỉnh khác

5 Hệ số gắn kềt (Assortativity Coefficient): Hệ số gắn kểt đo lửórỉg mức độ tương tác

giữa các đĩnh có thuộc tính tương tự Nó đo lường xu hướng các đỉnh kết nối với các đỉnh

có cùng thuộc tính

6 Mật độ mạng (Network density): Mật độ mạng đo lường ti lệ giữa số cạnh hiện có

và sổ cạnh tối đa có thế có trong mạng Nó cho biết mức độ kết nối và liên kết trong mạng

Các độ đo và hệ số đo trên đồ thị mạng xã hội được sử dụng đế hiếu và phân tích cấu trúc, tính chất và quan hệ trong mạng, từ đó đưa ra những thông tin hữu ích và giúp tăng hiệu quá trong quàn lý, phân tích và ứng dụng các mạng xã hội.[l], [2], [3], [6]:

Xác định các thực the và tác nhãn chính trong mạng xã hội.

Như đã nêu, mạng xã hội thường được mô hình hóa và biếu diễn dưới dạng đồ thị

Đồ thị mạng xã hội là một biếu đồ gồm các đinh (nodes) và các cạnh (edges), trong dó các đinh đại diện cho các thành viên trong mạng và các cạnh đại diện cho mối quan hệ giữa các thành viên đó

Trang 19

LlbưkYÌầUvTlUỜQẵ Đai hộc Mở Ha Nội

các thành viên khác trong mạng

❖ Mô-đun (Modularity): Modularity đo lường mức độ mà một mạng xã hội

có thế được chia thành các cộng đồng riêng biệt Nó đo lường mức độ tập trung và tương tác ben trong các cộng đồng so với các liên kết bên ngoài

❖ Mức độ phân cap (Hierarchy): Mức độ phân cấp đo lường sự tổ chức và sự phân chia trong mạng xã hội Nó xác định các tầng lớp và mức độ ành hướng của các

thành viên trong mạng

Các hệ đo và khái niệm này giúp phân tích và hiểu cấu trúc, tính chất và tương tác trong mạng xã hội Chúng cung cấp cái nhìn sâu hơn về cách thành viên tương tác và ảnh hưởng lẫn nhau trong mạng xã hội

Có hai loại đồ thị mạng xã hội chính:

Đồ thị mạng xã hội vô hướng (Undirected Social Network Graph): Đây là loại đồ thị

mô tá mối quan hệ giữa các thành viên mà không phân biệt hướng Trên đồ thị này, các thành viên được biếu diễn bàng các đinh (nodes), và mối quan hệ giữa các thành viên được biếu diễn bàng các cạnh (edges) không có hướng Ví dụ, trong đồ thị mạng bạn bè trên

Trang 20

Đo thị mạng xã hội có hướng (Directed Social Network Graph): Đây là loại đồ thị

mô tá mối quan hệ giữa các thành viên với sự phân biệt hướng Trong đồ thị này, mồi cạnh có hướng đi từ một đĩnh (node) xuất phát tới một đỉnh kết thúc, thề hiện mối quan hệ một chiều từ đỉnh này tới đĩnh khác Ví dụ, trong đồ thị mạng xã hội người theo dõi trên Twitter, mồi người dùng có thế theo dõi một người khác mà không nhất thiết phải được theo dõi lại

Đe hiểu và phân tích mạng xã hội, chúng ta có thế sừ dụng các hệ đo quan trọng như:

2 Tính trung tâm (Centrality): Đây là một tập hợp các hệ đo đánh giá tầm quan trọng cùa các thành viên trong mạng xã hội Các hệ đo trung tâm bao gồm:

❖ Trung tâm bậc (Degree centrality): Đo lường so lượng cạnh kết nối đến mồi đinh, giúp xác định các thành viên có ành hưởng cao trong mạng

❖ Trung tâm trung gian (Betweenness centrality): Đo lường mức độ mà một đỉnh nằm trên đường đi ngắn nhất giữa các cặp đinh khác, giúp xác định các thành viên có vai trò trung gian trong việc truyền thông thông tin

❖ Trung tâm gần gũi (Closeness centrality): Đo lường khoảng cách trung binh

từ một đinh tới tất cả các đinh khác, giúp xác định các thành viên có khã năng tiếp cận thông tin nhanh nhất

3 Mô-đun (Modularity): Đây là một hệ đo đánh giá sự phân cụm (clustering) trong mạng xà hội Nó đo lường mức độ tách biệt và tưong tác giữa các cụm trong mạng, giúp xác định nhóm thành viên có mối quan hệ gần nhau và tạo thành các cộng đồng

4 Các hệ đo truyền thông thông tin (Information Diffusion Measures): Đây là các hệ

đo đánh giá quá trinh lan truyền thông tin trên mạng xã hội Chúng giúp hiếu về cách thông tin lan truyền, lan rộng và tác động đến các thành viên trong mạng

Các hệ đo và khái niệm này cung cấp cái nhìn sâu hơn về cấu trúc, tính chất và tương tác trong mạng xã hội, giúp ta hiểu và phân tích các khía cạnh quan trọng của mạng xã hội

Phát hiện cộng đồng trong mạng xã hội là quá trinh xác định và nghiên cứu cấu trúc mạng xã hội đế tìm ra các tập hợp các thực thế (thành viên) có mối quan hệ chặt chẽ và tạo thành các cụm (cộng đồng) Sự phân tách giữa các cộng đồng thường được thề hiện bằng

sự kết nối ít giữa chúng

Trang 21

đồng và nghiên cứu cấu trúc mạng xã hội Một số phương pháp phồ biến để phát hiện cộng đồng trong mạng xã hội bao gồm:

Phát hiện cộng đồng dựa trên cấu trác đồ thị (Structure-based Community Detection): Phương pháp này dựa trên sự phân cụm dựa trên cấu trúc đồ thị mạng xã hội Các thuật toán như Louvain, Girvan-Newman, và Label Propagation được sử dụng để xác định các cộng đồng dựa trên mầu kết nối giữa các đỉnh trong đồ thị

Phát hiện cộng đồng dựa trên mô hình (Model-based Community Detection): Phương pháp này sử dụng các mô hình toán học hoặc thống kê đế mô hình hóa cấu trúc mạng xã hội

và tìm ra các cộng đồng dựa trên mô hình này Ví dụ, mô hình stochastic block model (SBM)

và mô hình hierarchical clustering có thế được áp dụng đế phát hiện cộng đồng [2]

Cấu trúc mạng xã hội có thể được biểu diễn bàng đồ thị mạng xã hội G = (V, E), trong đó V là tập các đình (thành viên) và E là tập các cạnh (mối quan hệ) giữa các đinh Một cách khác đề biếu diễn cấu trúc mạng xã hội là thông qua ma trận liền kề A = (Aij) e {0, 1}, trong đó Aij = 1 nếu hai đinh i và j có cạnh nối giữa chúng và Aij = 0 nếu không có cạnh nối Thư viện Trường Đại học Mở Hà Nội

Qua việc mô hình hóa và nghiên cứu cấu trúc mạng xã hội, chúng ta có thể hiểu sâu hơn về mối quan hệ và tương tác trong mạng, từ đó đưa ra những phân tích và ứng dụng phù họp trên mạng xã hội.[2], [8],

1.3.1 Độ đo khoảng cách trên đồ thị mạng xã hội

Khi áp dụng kỹ thuật khai phá dừ liệu trong phân tích mạng xã hội và phát hiện cộng đồng, việc định nghĩa độ đo khoảng cách giữa các đinh và cạnh của đồ thị là rat quan trọng

Khi các cạnh của đồ thị đã được gắn nhãn, chúng có thế được sử dụng như độ đo khoáng cách tùy thuộc vào ý nghĩa của nhãn Ví dụ, trong đồ thị mạng xã hội "bạn bè" trên Facebook, có thế sứ dụng số lượng chung của bạn bè làm độ đo khoảng cách giữa các đĩnh Tuy nhiên, khi các cạnh không có nhãn, ta cần định nghĩa độ đo khoảng cách riêng

Một số độ đo khoảng cách phổ biến trong phân tích mạng xã hội là [2]:

1 Khoáng cách đường đi ngắn nhất (shortest path distance): Đây là khoảng cách tính bang số cạnh trên đường đi ngắn nhất giữa hai đĩnh trên đồ thị Độ đo này đo lường sự tương quan giữa hai đinh dựa trên đường đi ngắn nhất giữa chúng

Trang 22

một đinh và tất cà các đỉnh còn lại trên đồ thị Độ đo này đo lường độ tương đồng giữa các đỉnh trong mạng.

3 Hệ số gần nhất (closeness centrality): Đây là độ đo đo lường khá năng tiếp cận từ một đĩnh tới các đĩnh khác trên đồ thị Nó được tính bằng nghịch đảo của khoảng cách trung bình

4 Hệ số trung gian (betweenness centrality): Đây là độ đo đo lường tầm quan trọng cúa một đinh trong việc truyền thông tin giữa các đinh khác trên đồ thị Nó đo lường tần suất mà một dinh xuất hiện trên đường đi ngắn nhất giữa cặp đinh khác

Cách định nghĩa độ đo khoáng cách sẽ phụ thuộc vào bối cảnh và mục tiêu cúa phân tích mạng xã hội cụ the mà chúng ta đang nghiên cứu

Giả thiết mạng xã hội được biếu diễn bới một đồ thị G = (V, E), trong đó V là tập các đình, E là tập các cạnh Trước tiên ta quy ước, những đinh gần nhau (closed) nếu chúng

có cạnh nối trực tiếp giữa chúng, ngược lại là những đĩnh xa nhau (distant) Khoảng cách giữa đĩnh X và y e V, ký hiệu là d(x, y), có the định nghĩa d(x, y) theo hai cách [1], [2], [11]: Thư viện Trường Đại học Mở Hà Nội

• d(x, y) = 0 nếu (x, y) e E, ngược lại là d(x, y) = 1

• Hoặc d(x, y) = 1 nếu có cạnh nối giữa chúng, và bằng 00 khi chúng xa nhau, không

có cạnh nối giữa chúng

Tuy nhiên, cã hai trường hợp trên đều không phải là định nghĩa độ đo khoáng cách thực sự (metric), bởi chúng không thỏa mãn bất đẳng thức tam giác Dễ nhận thấy, nếu có cạnh nối A với B và cạnh nối B với c, thi không có gi đám báo có cạnh nối A với c

Đế phân loại, phân tích và đánh giá đồ thị mạng xã hội, có nhiều độ đo khác nhau được sứ dụng Các độ đo này thường dựa trên lý thuyết đồ thị và được sử dụng bới cả nhà nghiên cứu và người dùng thương mại đế hiều và phân tích các đặc điểm cúa mạng xã hội

Một số độ đo quan trọng được sử dụng bao gồm:

• Hệ số cohesiveness (Closeness centrality): Đây là một độ đo để đánh giá mức

độ gắn kết của các đinh trong mạng Nó đo lường mức độ tương tự hoặc liên kết giữa các đinh trong mạng

Trang 23

centrality), hệ số trung tâm gần (Closeness centrality) và hệ số trung tâm trung gian (Betweenness centrality) Các hệ so này đo lường tầm quan trọng cứa các đinh và cạnh trong mạng, dựa trên các yếu tố như số lượng kết nối, khoảng cách và vai trò trung gian trong truyền thông.

• Phát hiện cộng đồng (Community detection): Đây là một phép đo đế xác định

và phân loại các cộng đồng trong mạng xã hội Nó giúp chúng ta nhận biết các nhóm chặt chẽ cửa các đinh trong mạng và tỉm hiểu cấu trúc liên kết giữa các cộng đồng

Tasleem Arif sử dụng các hệ số cố kết mạng và hệ số trung tâm vector đặc trưng để phân tích và đánh giá mạng xã hội Freeman đề xuất một tập các độ đo xác định độ trung tâm cùa các đinh và cạnh trên đồ thị, như hệ số trung tâm trực tiếp theo bậc cùa đinh, hệ trung tâm gần và độ trung gian (Betweenness centrality), được sử dụng phố biến trong phân tích mạng xã hội và phát hiện cộng đồng

1.3.2 Độ do trung tâm của đỉnh

Xét trong một đồ thị G = (V, E), giữa một cặp đỉnh (vi, vj) bất kỳ có thế có một hoặc nhiều đường đi Độ dài của đường đi được định nghĩa là số cạnh trên đường đi đó (hoặc tồng trọng số trên các cạnh nếu đồ thị có trọng số)

Trong số các đường đi giữa (vi, vj), có một số đường đi được gọi là đường đi ngắn nhất Neu (vi, vj) và (vj, vi) đều thuộc tập E (tức là có cạnh nối trực tiếp giữa vi và vj), thi đường đi ngắn nhất sẽ có độ dài là 1, vì ta chi cần đi trực tiếp từ vi đến vj hoặc ngược lại

Trường hợp đường đi ngắn nhất có độ dài lớn hon 1, có nghĩa là có ít nhất một đinh khác nam trên đường đi ngan nhất giữa vi và vj Những đinh này có thế được xem như các đinh trung gian và có khả năng điều khiến sự liên thông hay truyền thông giữa vi và vj Điều này có nghía là nếu chúng bị loại bó khỏi đồ thị, thì sự liên thông hay truyền thông giữa vi

và vj sẽ bị gián đoạn

Việc xác định những đinh trung gian và vai trò của chúng trong đường đi ngắn nhất giữa các cặp đĩnh là quan trọng đế hiếu cấu trúc mạng và vai trò cúa các đinh trong việc truyền thông và giao tiếp trong mạng xã hội [1], [2], [3], [12],

Trang 24

Ví dụ 1.1.

là 2, một đi qua V2, còn đường kia đi qua v4 và những đinh này có tiềm năng điều khiển sự

liên thông giữa các đinh V|, V3

Hình 1.4: Đồ thị có 4 đỉnh và 5 cạnh

Chúng ta nghiên cứu và khái quát hóa khái niệm “khoảng giữa”, hay “độ trung gian” (Betweenness) tronạ lý thuyết đồ thi|5J ĩựyýtị tiên xét một đinh VkG.y và cặp các đỉnh (Vi, Vj) bất kỳ không phân biệt thứ tự với i * j # k [1],

Chúng ta định nghĩa độ trung gian (khoảng giữa) bộ phận cúa đỉnh Vk đối với (Vi, Vj),

ký hiệu là Bij(vk) như sau [2]:

• Neu không có đường đi giữa vi và vj, tức là chúng không liên thông với nhau, thi giá trị cúa Bij(vk) sẽ là 0

• Trường họp giữa vi và vj có đường đi, tức là chúng liên thông qua một số đường

đi Khi đó, xác suất trao đối hoặc quan hệ giữa vi và vj được xác định bời 1 /gij, với gij là số đường đi ngắn nhất giữa vi và vj Do đó, tiềm năng mà vk có thể điều khiên (control) thông tin trao đối hay mối quan hệ giữa vi và vj được xác định bàng xác suất mà vk nằm trên các đường đi ngắn nhất giữa vi và vj Ký hiệu gij(vk) là số đường đi ngắn nhất có đi qua vk

Ví dụ 1.2 Trên Hình 1.4, v2, v4 có xác suất nằm trên 2 đường đi ngắn nhất giữa vl

và v2 là !4 Như vậy, nếu vk nằm trên tất cà các đường đi ngắn nhất giữa vi và vj thi Biị(Vk)

Trang 25

Vj[I], [2].

Đe xác định được độ trung tâm (centrality) tổng thể cùa đinh vk trên đồ thị thỉ cần phải tính tống tất cả các độ trung gian bộ phận của vk đối với tất cả các cặp đình trên đồ thị [2]

Định nghĩa 1.1 Độ trung tâm cùa đình vk trong đồ thị G = (V, E), ký hiệu là C(vk)

được xác định như sau [2]:

Neu vk xuất hiện trên tất cà các đường đi ngắn nhất giữa hai đinh vi và vj, thi giá trị của C(vk) sẽ tăng lên 1 Điều này cho thấy vk đóng vai trò quan trọng và nằm trên mọi đường đi ngắn nhất giữa vi và vj

Trong trường hợp vk chỉ xuất hiện trên một số đường đi ngắn nhất giữa vi và vj, giá trị của C(vk) sẽ tăng lên theo một giá trị tương ứng, được tính bằng ti lệ giữa số lần xuất hiện cúa vk trên các đường đi ngắn nhất ệiựạ, vi jVa^vj Cjông thứ^l.l) thẻ hiện cách tính giá trị này [2],

Độ trung tâm của đĩnh Vk, C(vk) chính là hệ số tiềm năng đê điều khiên sự liên kết giữa các đỉnh trên đồ thị

Việc tính C(vk) phụ thuộc vào hai yếu tố chính [1], [2], [12]:

1 Sắp xếp các cạnh đề xác định vị trí cúa Vk và những đường đi ngắn nhất giữa các cặp đinh

Trang 26

Ví dụ 1.3 Những đồ thị hình sao và bánh xc có số đinh 3, 4, 5, 6, 7.

Hình 1.5: Những đồ thị hình sao, bánh xe có số đỉnh 3, 4, 5, 6, 7 [11

Định nghĩa 1.2 Độ trung tâm tương đối của đỉnh Vk trong đồ thị G được định nghĩa

như sau [1], [2], [I®in viện Trường Đại học Mở Hà Nội

(L4)

K n2-3n+2

Các giá trị C(vk) và C’(vk) đều có thế sử dụng đế so sánh giữa các đồ thị đối xứng liên thông hoặc không liên thông Cà hai giá trị này đều đạt được cực đại ờ những tâm điếm của những đồ thị hình sao hoặc hình bánh xe như Hình 1.5

Một số độ đo “trung tâm” chuấn [1], [2], [13]:

1 ,Cc(v) = 2 (mơ closenes centrality (Sabidusi, 1966)

tev ứ

1Cc(v) = 777777——— graph centrality (Hage & Harary, 1995)

Trang 27

những đường đi ngắn nhất tương ứng.

1.3.3 Độ đo trung tâm của đồ thị

Có hai cách chính đế xác định độ đo trung tâm trong mạng xã hội hoặc đồ thị

Dựa vào bậc (degree centrality): Cách tiếp cận này xem xét bậc của các đinh trong đồ thị Bậc của một đĩnh là số cạnh kết nối với đinh đó Trung tâm của đồ thị được xác định dựa trên các đĩnh có bậc cực đại, tức là những đinh có số lượng kết nối nhiều nhất Đây được coi là các điếm tập trung quan trọng và có thể đóng vai trò như trung tâm cứa mạng Tuy nhiên, cách tiếp cận này có giới hạn và chỉ áp dụng được cho những bài toán có mục đích liên quan đến hiệu quà truyền thông cực đại [2]

Dựa vào ưu thế trị (dominance centrality): Cách tiếp cận này xem xét ưu thế trị của các đinh trong mạng Một đinh có ưu thế trị là đinh có khả năng kiếm soát hoặc điều khiến

sự truyền thông trên mạng (đồ thị) Điều này có nghĩa là nếu loại bó một đinh có ưu thế trị khỏi mạng, mạng sẽ bị tác động nhiều và có thế bị phân tán Các đinh có ưu thế trị cao thường được coi là trung tâm quan trọng và có tầm ành hưởng cao trong mạng

Thư viện Trương Đại hoc Mở Hà Nội

Cách xác định độ đo trung tâm trong mạng xã hội hoặc đô thị phụ thuộc vào mục tiêu

và bối cảnh nghiên cứu của bạn Mồi phương pháp có những ưu điếm và hạn chế riêng, và lựa chọn phù hợp phụ thuộc vào vấn đề cụ thế mà bạn muốn khám phá trong mạng xã hội

Định nghĩa 1.2 Đinh trung tâm của đồ thị G là đinh Vk* có C’(vk‘) đạt giá trị cực đại

Khi đó, độ trội (ưu thế) của đỉnh trung tâm nhất trong đồ thị sẽ là [2]:

Trang 28

Chúng tôi đà thực hiện nghiên cứu về ba độ đo C(vk), C’(vk), CG nham xác định các tâm điêm trong đồ thị và áp dụng chúng vào nhiều mục đích khác nhau Tuy nhiên, việc sử dụng các độ đo này chi thích hợp cho mạng, trong đó khái niệm độ trung gian (Betweenness) đóng vai trò quan trọng trong quá trinh xứ lý kết nối giũa các đỉnh Ví dụ, trong việc nghiên cứu về mạng truyền thông, một vấn đe quan trọng là xác định các cạnh có khả năng điều khiển truyền thông để đảm bảo tính hiệu quả và sự bền vững cùa mạng truyền thông [1], [2], [7].

Chúng ta định nghĩa độ đo “độ trung gian” (Betweenness) [2], các cạnh trên đồ thị như sau

Định nghĩa 1.3 Độ trung gian cùa cạnh (a, b) c E là số các cặp đĩnh X và y mà cạnh

(a, b) € E nằm trên đường đi ngắn nhất nối giữa X và y [ 1 ], [2]

Lưu ý: X, y có thế trùng với a, b

Ta hỉnh dung, cạnh (a, b) giữa hai cộng đồng thì a và b không nằm trong cùng một cộng đồng Một cạnh nằm giữa hai cộng đồng (được xem như là cầu nối giữa hai cộng đồng

7 ® ' Tnu : xnệiiTraprig ; DàiỊíọc_MơTTạNọJ

đó), do vậy sô các đường đi ngăn nhât đi qua cạnh đó thường là khá lớn

Ví dụ 1.4 Xét đồ thị

Hình 1.6: Đồ thị mạng xã hội đon giản gồm 7 nút |1|, [2]

Trên đồ thị ở Hình 1.6, cạnh (B, D) có độ trung gian là lớn nhất, bới nó nằm trên 12 đường đi ngắn nhất nối giữa các nút A, B, và c với D, E, F, và G, 3 X 4 = 12 Cạnh (D, F ) chi có 4 đường đi ngắn nhất noi giữa các nút A, B, c và D với F [10], [11]

Độ trung gian của cạnh e, ký hiệu là Crs(e), được xác định như sau:

Trang 29

đinh t và đi qua cạnh e.

Độ đo trung gian của đinh V cũng có thế tính thông qua công thức tính độ đo trung gian cùa cạnh e

B 2 eGT(v) B

Trong đó, T(v) là tập các cạnh kề với V và n là số đinh của thành phần chứa V

1.3.5 Hệ so trung tâm vector đặc trưng

Độ trung tâm vector đặc trưng (eigenvector centrality) là một phương pháp đo lường

độ trung tâm của một đình trong mạng xã hội dựa trên quan hệ đệ quy giữa độ trung tâm của đinh và độ trung tâm của các đinh liền kề với nó [2]

Phương pháp này xem xét không chi số lượng các đinh lien kề mà còn sự ảnh hường của những đinh liền kề đó Một đình có độ trung tâm vector đặc trưng cao khi nó kết nối với nhiều đĩnh có độ trung tâm cao Điều này cho phép đánh giá tầm ánh hường của một

đình không chi dựa trên sô lượng liên kêt mà còn dựa trên vai trò cùa các đĩnh liên kêt đó

Công thức tính độ trung tâm vector đặc trưng cùa một đĩnh được tính dựa trên tính chất giá trị riêng và vector riêng của ma trận liền kề cùa đồ thị Phương pháp này cho phép xác định độ trung tâm của mồi đỉnh trong mạng một cách toàn diện và phụ thuộc vào tam ành hưởng của cà dinh đó và những đinh liền kề cùa nó

Độ trung tâm vector đặc trưng là một trong những phương pháp phổ biến đe xác định tầm quan trọng và vị trí trung tâm của các tác nhân trong mạng xã hội [2], [3], [6],

Giả thiết A = (Aij) là ma trận liền kề không âm của đồ thị có hướng G = (V, E) Độ trung tâm vector đặc trưng xi của đỉnh i được định nghĩa như sau [2]:

Xi = AilXl + Ai2X2 + + AinXn, i = 1,2, , |V| = n (1.8)

Độ trung tâm của mồi đinh xi là một hàm cùa những đình có liên kết với đinh đó.Tập các phương trinh (1.2) được thê hiện theo ma trận (AT là ma trận chuyến vị của A) là:

Trang 30

những đình có liên kết với đình đó.

Trong mạng xã hội, việc nhận được đề cử từ những người khác có thế tăng vị thế và sức mạnh của một tác nhân Đe cử có thế được hiếu là sự công nhận hoặc sự chọn lựa từ những người khác, và nó thường được coi là một yếu tố quan trọng trong xác định tầm quan trọng và vị trí trung tâm cùa một tác nhân trong mạng xã hội

Trong mạng xã hội truyền thông, những người nhận được nhiều trao đối thông tin từ những người khác thường có nhiều nguồn thông tin có giá trị và đáng tin cậy hơn Sự trao đồi thông tin giữa các tác nhân trong mạng xã hội là một phương tiện quan trọng đế chia sẻ thông tin, ý kiến và tạo ra tầm ảnh hưởng Những người nhận được nhiều sự trao đối thông tin này có thề được coi là có vị trí trung tâm và có sức ánh hường trong cộng đồng mạng xã hội truyền thông [2]

Việc xác định vị trí trung tâm và tầm quan trọng cúa các tác nhân trong mạng xã hội dựa trên những đề cử và sự trao đồi thông tin có thể giúp chúng ta hiểu rõ hơn về sự tương tác và quyền lực trong cộng đồng mạng xã hội, từ đó đưa ra những phân tích và quyết định

có ý nghĩa trong lĩnh vực truyền thông và quáng cáo trực tuyến

Khi xét độ trung tâm cùa đinh i: cùng với tập các đính lân cận của nó là N(i), ta có [1], [5]:

1.3.6 Hệ so cổ kết của ntạng

Hệ số cố kết (Density) là một hệ số quan trọng trong phân tích mạng xã hội, nó đo lường mức độ cố kết và sự chặt chẽ của các mối quan hệ giữa các tác nhân trong mạng Khi

Trang 31

quan hệ lý thuyết của nó càng cao, điều này cho thấy mạng có mức độ kết nối cao và các tác nhân có xu hướng tương tác chặt chẽ và hồ trợ nhau.

Hệ số cố kết được tính bàng cách chia đôi số cạnh (để đảm bảo tính đối xứng của đồ thị vô hướng) cho tồng số cặp đình có thể có trong đồ thị (N * (N - 1)) Ket quá là một giá trị từ 0 đến 1, trong đó 0 đại diện cho mạng không cố kết (không có mối quan hệ), còn I đại diện cho mạng hoàn toàn cố kết (mọi cặp đỉnh đều có mối quan hệ)

Hệ so cố kết cung cấp thông tin quan trọng về mức độ liên kết và tương tác trong mạng xã hội Nó có thế giúp phân tích và so sánh sự cố kết giữa các mạng xã hội khác nhau

và đánh giá mức độ tương tác và hồ trợ trong cộng đồng mạng xã hội

Hệ số cố kết của đồ thị G, được tính như sau [1], [2], [4], [7]:

<L11)

Giá trị k được định nghĩa là tổng số liên kết thực tế trong mạng, k = |E| và n = IV|

Hệ số này nam trong khoảng từ 0.00 đến 1.00 Khi giá trị gần 1.00, tính co kết của mạng lưới trư nen mạnh mê hơn, đồng nghía với việc sự tương trợ và trao đối thông tin giữa các thành viên trong mạng diễn ra một cách tốt hơn Ngược lại, khi giá trị gần 0.00, mạng lưới

có tính cố kết yếu hơn

Theo Scott, hộ số cố kết cùa mạng lưới phụ thuộc vào số lượng tác nhân có trong đó Khi có nhiều tác nhân hơn, hệ số cố kết sẽ nhở đi và ngược lại Trong trường hợp đồ thị đầy

đủ (clique), hệ số cố kết là tuyệt đối, tức là DG = 1.00

1.3.7 Hệ so trung gian của đinh

Đe đo độ trung tâm của mạng hoặc đồ thị, có hai cách tiếp cận chính là sử dụng bậc (degree) và sứ dụng ưu thế trội (domination) cùa các đinh [2]

1 Sử dụng bậc (degree): Theo cách tiếp cận này, trung tâm cùa mạng được đánh giá dựa trên bậc của các đình, tức là số lượng cạnh mà mồi đinh có Những đinh có bậc cực đại (tức là có số lượng cạnh nhiều nhất) có thề được coi là trung tâm của đồ thị Tuy nhiên, cách tiếp cận này hạn chế ứng dụng trong các bài toán chì tập trung vào hiệu

Trang 32

của các đĩnh trong mạng xã hội nói chung.

2 Sử dụng ưu thế trội (domination): Theo cách tiếp cận này, một đĩnh được coi

là có ưu thế trội nếu nó có khả năng điều khiển sự truyền thông trên mạng Nghĩa là, khi loại bò đinh đó khỏi mạng, sự liên kết và truyền thông trong mạng sẽ bị ánh hưởng nhiều Các đĩnh có ưu the trội có khá năng tương tác, điều khiến hoặc ảnh hưởng đến các đinh khác trong mạng Đánh giá ưu thế trội cùa các đình trong mạng cỏ thế sứ dụng các độ đo như ưu thế trội tối đa (maximum dominance), ưu thế trội tương đối (relative dominance), hay ưu the trội tuyệt đối (absolute dominance)

Cá hai cách tiếp cận trên đều cung cấp cái nhìn về tầm quan trọng và ãnh hưởng của các đình trong mạng xã hội hoặc đồ thị Tuy nhiên, phụ thuộc vào mục đích nghiên cứu

và bài toán cụ thế, cách tiếp cận sử dụng ưu thế trội có thế cung cấp thông tin chi tiết và toàn diện hơn về tầm quan trọng và quyền lực của các đinh trong mạng [2],

Quan diêm cùa Freeman về trung tâm trung gian (betweenness centrality) là rất quan trọng trong phân tích mạng xã hội Độ đo trung tâm trung gian của một đối tượng trong mạng xã hội đo lường khã năng của đoi tượng dó trong việc nằm trên các đường đi ngắn nhất giữa các cặp đối tượng khác trong mạng

Khi một tác nhân có độ trung gian cao, tức là nằm trên nhiều đường đi ngán nhất giữa các tác nhân khác, tác nhân đó có vai trò như một "cầu nối" hay "trung gian" quan trọng trong mạng Tác nhân này có khả năng kiểm soát và điều phối giao dịch và thông tin trong mạng Nó cũng có thể ảnh hường đến mạng bằng cách kiểm soát luồng thông tin hoặc gửi thông tin theo hướng có lợi cho mình Đồng thời, tác nhân trung gian cũng có vị trí thuận lợi đẻ thúc đẩy sự giao tiếp và hợp tác giữa các tác nhân khác trong mạng

Độ đo trung tâm trung gian được tính toán bằng cách đếm số lượng đường đi ngắn nhất mà một tác nhân nam trên Những tác nhân có độ trung gian cao hơn có khá năng kiêm soát thông tin và tương tác giữa các tác nhân khác trong mạng một cách quan trọng.Freeman đà đề xuất độ đo trung tâm trung gian và nó đã được sử dụng rộng rãi trong phân tích mạng xã hội đế xác định vai trò và tầm quan trọng của các đối tượng trong mạng

Trang 33

không phân biệt thứ tự của đinh đầu và đinh cuối Đồ thị có thế có một hoặc nhiều đường

đi giữa hai đinh này Độ dài cứa một đường đi được tính bằng sổ cạnh trên đường đi (hoặc tồng trọng số trên các cạnh đối với đồ thị có trọng số) Trong số các đường đi này, có một

số đường đi được coi là đường đi ngán nhất

Neu cạnh (vi, vj) và (vj, vi) đều thuộc E, tức là hai đinh có kết nối trực tiếp, thì đường

đi ngắn nhất giữa chúng sẽ có độ dài là I Trường hợp đường đi ngán nhất có độ dài lớn hơn

1, đồng nghĩa với việc có ít nhất một đinh khác nam trên đường đi ngán nhất giữa vi và vj Những đinh này có tiềm năng để điều khiến sự liên thông hoặc truyền thông (control Communications) giữa các đĩnh vi và vj [2]

Cho trước đồ thị G = (V, E) có n đinh, độ trung gian Cb(v) cùa đĩnh V được xác định như sau [1], [2],

• Với mỗi cặp đĩnh (s, t), tất cã các đường đi ngan nhất nối giữa chúng - ơsũ

• Với mồi cặp đình (s, t), tính phân sổ giữa những đường đi ngắn nhất ơsi(v) có đi qua V và số các đường đi ngắn nhất từ s tới t là ơst(v)/ơst;

• Tính tổng càc phâii sổ cùa ếấí cà các cặp đinh (ềỉ tj

Ta ký hiệu ơst là số đường đi ngắn nhất đi từ s tới t, và ơst(v) là số đường đi ngan nhất

đi từ s tới t và có đi qua V Khi đó độ đo trung gian kí hiệu là Cb(v) cùa đinh V sẽ được tính như sau [1], [2]:

Trang 34

mục đích và loại mạng mà chúng được áp dụng Trong nghiên cứu mạng truyền thông, việc xác định cạnh có tiềm năng điều khiến truyền thông là quan trọng để đăm bảo hiệu quả và bền vững của mạng truyền thông.

Tóm lại, mồi hệ số trung tâm và độ đo trong phân tích mạng xã hội có ứng dụng và giới hạn của nó Việc lựa chọn độ đo phù hợp phụ thuộc vào mục tiêu nghiên cứu và tính chất cùa mạng đang được nghiên cứu

1.3.8 Xác định độ đo trung gian của đỉnh

Đồ tính độ trung gian của các đình, cạnh thường phái thực hiện qua 2 bước [2], [ 12]:

• Bước 1 Tính độ dài và số đường đi ngan nhất giữa các cặp đĩnh

• Bước 2 Tính tổng tất cả các độ trung gian của các cạnh

Công việc chính cùa quá trình này là phát hiện tất cà các đường đi ngắn nhất từ đinh tới gốc Tập tiền tố của đinh V trên các đường đi ngắn nhất từ s được xác định như sau [1], [5], [6]:

ps(v) = {u £ V: ỉu, v) e ẸịdiCs.ụỵ ©ự(iiVỈL’+\iv(u,M)} NỘI (1-13)

Bổ đề 1.1 (Tồ hợp của đường đi ngắn nhất) For S*v6 V

Chứng minh. Theo giả thiết tất cà các trọng số đều là số dưong, cạnh cuối của đường

đi ngắn nhất đi từ s tới V là cạnh (u, v) e E sao cho dc(s, u <do(s, v)

Từ Bổ đề 1.1 suy ra, số đường đi ngắn nhất đi từ s tới V kết thúc bằng cạnh này đúng

bang số đường đi ngắn nhất đi từ s tới u [ 1 ], [2],

Sự phụ thuộc của s E V vào một đỉnh V Ễ V, được định nghĩa như sau:

ổs»(v) = £ ổst(v)

tev

Bổ đề 1.2 Nếu tồn tại đúng một đường đi ngắn nhất đi từ s G V tới mọi đinh t G V,

thi sự phụ thuộc của s vào V G V sẽ là [1], [2], [8]

ổs»(v) = Xiv:v6Ps(w)(l + <N»(w)) (1-5)

Trang 35

quả, người ta thường sứ dụng phương pháp duyệt theo chiều rộng BFS (Breadth-First Search) [2].

Phương pháp duyệt theo chiều rộng (BFS) thường được sử dụng đế tính độ đo trung gian trên đồ thị một cách hiệu quã Thuật toán BFS tim kiếm các đường đi ngắn nhất

từ một đỉnh gốc đến tất cã các đình khác trong đồ thị

Đe tính độ đo trung gian theo thuật toán FABC (Faster Algorithm for Betweenness Centrality), ta thực hiện các bước sau:

1 Khới tạo đồ thị ban đau và đặt giá trị độ trung gian ban đau cùa tất cà các đỉnh là 0

2 Duyệt qua mỗi đình X trong đồ thị:

a Thực hiện thuật toán BFS từ đinh X đế xác định tất cả các đỉnh khác mà có thể đạt được từ X

b Tính toán so lượng đường đi ngắn nhất từ X đến mỗi đình V và lưu vào mãng dv

c Khởi tạo một danh sách rồng đế lưu trữ các đình trên đường đi ngắn nhất từ Xđến cácWvvi? n Tnròng Đại học Mở Hà NỘI

3 Duyệt qua từng cạnh trong đồ thị theo thứ tự từ xa đến gần (từ các đinh với dv lớn đến nhỏ):

a Tính toán số lượng đường đi ngắn nhất từ đỉnh X đến đỉnh V thông qua cạnh hiện tại và cập nhật giá trị độ trung gian cùa các đình trên đường đi đó

b Cộng dồn giá trị độ trung gian của các đinh trên đường đi vào độ trung gian của đỉnh V

4 Trả về giá trị độ trung gian của các đĩnh trên đồ thị

a Thuật toán FABC được thiết kế để tối ưu hóa việc tính toán độ trung gian trên đồ thị và có hiệu suất cao hơn so với các phương pháp khác trong nhiều trường hợp

Lưu ý rằng thuật toán này chi áp dụng cho đồ thị không có trọng số Trong trường hợp đồ thị có trọng số, cần sữ dụng các thuật toán khác như thuật toán Dijkstra đế tính toán đường

đi ngắn nhất từ đinh gốc đến các đỉnh khác

Triển khai Thuật toán FABC:

Trang 36

Bước - Khới tạo giá trị biến chung

CB[r] 0, r e V ;

for r G V do {

Bưóc 2 -Khời tạo biến cục bộ

s «— empty stack; Q <— empty queue;

p [w] «— empty list, w G V ;

o[t] <— 0, t G V ; o[r] <— 1;

d[t] «— 00, t G V ; d[r] <— oo;

enqueue r —> Q;

Bước 3 -Duyệt theo BFS

while Ọ not empty do{

dequeue V <— Q;

Thư viền Trường Đại học Mở Hà Nội

push V-»S;

for all neighbor w of V do{

// w được tìm thay lần đầu

Trang 37

while s not empty do

Bước 3 thực hiện các công việc sau:

1 Khởi tạo hàng đợi (queue) và đưa đinh gốc vào hàng đợi

3 Trong quá trinh duyệt BFS, lặp cho đen khi hàng đợi trống:

• Lấy ra đình u từ đầu hàng đợi

• Duyệt qua tất cả các đình kề với u (đinh chưa được duyệt):

o Nếu d[v] chưa được gán giá trị (tức là co), đặt d[v] = d[u] + 1 và đưa

V vào cuối hàng đợi

o Neu d[v] bằng d[u] + 1, cộng dồn ơ[u] vào ơ[v] để tích lũy số đường

đi ngắn nhất từ gốc tới V qua u

o Đưa u vào danh sách liên kết P[v] đế lưu trù' đình cha của V trên đường đi ngắn nhất từ gốc

Kết thúc bước 3, các mảng d[v], ơ[v], và P[v] sẽ được cập nhật đúng theo quá trình duyệt BFS Mồi đinh V sê có một danh sách P[v] chứa các đinh cha của nó trong cây duyệt BFS, đồng thời ơ[v] sẽ lưu trữ số lượng đường đi ngắn nhất từ gốc tới V

Trang 38

CB[v] của mồi đinh V trên đồ thị.

Lưu ý rằng các bước này đề cập đến thuật toán FABC trên đồ thị không có trọng số Đối với đồ thị có trọng số, cần sử dụng các thuật toán khác như thuật toán Dijkstra để tính toán đường đi ngắn nhất và độ tiling gian

Ờ công thức (1.7), ơst(v) xác định số đường đi ngắn nhất đi từ s đen t mà có qua V và

ơst là số đường đi ngắn nhất đi từ s đến t Neu không có đường đi ngắn nhất đi từ s đến t và qua V thì ơst(v) = 0

Bước 4 tính độ trung gian Cb (betweenness centrality) kỹ thuật tích lũy phụ thuộc (dependency accumulation technique) của Brandes

Trong đã chứng minh được quan hệ sau:

Không gian bộ nhớ cúa mảng CB trong thuật toán là 0(1 V| + |E|) Do đó, độ phức tạp tính toán cùa việc duyệt cây BFS là 0(1 V| + |E|), và việc tích lũy sự phụ thuộc (dependency accumulation) cũng có độ phức tạp là 0(1 V| + |E|), với số bước tối đa được xác định bởi số đinh cha là 0(|E|) và số đính con tương ứng là 0(1 V|) Vì vậy, độ phức tạp của thuật toán là 0(1 V|A2 + |V| * |E|)

Trong trường hợp |E| > |V|, độ phức tạp cùa thuật toán sẽ là 0(|V| * |E|) [4], [12], [13]

Trang 39

Một cộng đồng trong mạng xã hội là một nhóm các thực thế có đặc điếm tương tự và

có quan hệ gần gũi hơn trong mạng Các đỉnh trong mạng có thế được nhóm lại thành các

đồ thị con, tương ứng với các cộng đồng trong mạng Các đồ thị con này có thề được xác định dựa trcn các thuộc tính chung hoặc vai trò tương tự của các đĩnh trong mạng

Một cộng đồng thường có đặc điềm mật độ liên kết cao giữa các thành viên trong cộng đồng Nghĩa là các thành viên trong cộng đồng tương tác và kết nối với nhau thường xuyên hơn so với các tác nhân bôn ngoài cộng đồng Điều này có thế bao gồm việc họ có quan hệ bạn bè, đồng nghiệp, chung sở thích, chuyên môn, sờ thích hoặc mục tiêu chung

Từ đó, cộng đồng hình thành và đóng vai trò quan trọng trong mạng xã hội bang cách tạo

ra mạng lưới mật độ cao và ánh hướng đen việc truyền thông, giao tiếp và sự phối hợp trong

Đầu vào: Đồ thị mạng xã hội G = (V, E) gồm tập đỉnh V = {Vỵ, v2, , vn} và tập cạnh E, E = {(u, v)|u, V G V} [2].

Định nghĩa 1.4 Cho đồ thị G =(V, E), với V là tập các đinh, E là tập các cạnh Các cộng đồng là tập các đồ thị con của đồ thị G, c ={Gi, Gỉ, Gk}, với Gi = (Vi, Ei), 1=1, 2 ksao cho [1], [2], [13]:

(i) Ví V j = 1,2, , k, Vi n Vj = 0, các cộng đồng rời nhau

(ii) UK Vj = V vàUK Eị £ E, cộng đồng là các đồ thị con cùa G

Ĩ=1 Í=1

(iii) Các đinh trong cùng một cộng đồng có so cạnh nối với nhau nhiều hơn so cạnh nối với các đinh ở những cộng đồng khác, nghĩa là: |E,j > |Eý-|, với Ei.j

= {(u, v)eE- (Ei u Ei), ueVi.ve V,- và i *j = 1, 2 k}

Tuy nhiên, trong bài toán phát hiện cộng đong trên mạng xã hội, phần lớn chúng ta chi quan tâm tới việc xác định các tập đỉnh (tác nhân) Vị, i = 1,2, , đại diện cho cộng đồng mạng xã hội [5],

Trang 40

Hình 2.1 hiển thị các thành phần kết nối lớn nhất trong mạng lưới các cộng tác nghiên cứu cùa các nhà khoa học làm việc tại Viện Santa Fc (SFI) [2] Đồ thị bao gồm 118 đinh đại diện cho các nhà khoa học làm việc tại SFI và các cộng tác viên của họ Các cạnh được liên kết giữa các nhà khoa học khi họ đã công bố cùng với nhau ít nhất một bài báo

Ớ mạng này ta quan sát được một số cộng đồng, mỗi cộng đồng biểu hiện cho những tác già đã cùng nhau công bố một hay nhiều bài báo khoa học Mặt khác ta cũng thấy giữa các cộng đồng trong mạng trên chi có một số ít mối liên kết Các đinh cùng màu là cùng một cộng đồng theo các lĩnh vực nghiên cứu cùa SFI

Hình 1.7: Mô hình mạng lưới cộng tác của các nhà khoa học làm việc tại SFI |2|

Trong các mạng xã hội, việc trích xuất và nhận dạng cấu trúc cộng đồng rất hữu ích

vì nó giúp chúng ta kiếm tra cấu trúc của toàn bộ mạng Khái niệm tim kiếm và tim cộng đồng tương tự như phân vùng biếu đồ (phân cụm), nhưng với một số khác biệt, chăng hạn như số lượng cộng đồng trong mạng không được biết và các cộng đồng có thế không có cùng kích thước

Bài toán phát hiện cộng đong trên mạng xã hội được phát biếu: Với một mạng xà hội được biếu diễn bới một đồ thị mạng, hãy xác định tập các nhóm đinh cùa đồ thị có mật độ

Ngày đăng: 28/10/2023, 20:27

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w