Ọ KHOA CÔNG THÔNG TIN... Tác giả luận văn guyễn Trung Kiên... Tôi xin chân thành cảm ơn!... Thu t toán Lan truyền nhãn Label Propagation Algorihm LPA ..... Tr về giá trị trung gian c c
Trang 1Ọ KHOA CÔNG THÔNG TIN
Trang 2CAM O
T i xin c m o n y l c ng tr nh nghi n c u kho học c ri ng t i v c s
h ng n kho học c P S TS o n V n n c n i ung nghi n c u k t qu trong
ề t i n y l trung th c v ch công i ất kỳ hình th c n o tr c y Những s li u trong c c ng i u ph c v cho vi c ph n t ch nh n x t nh gi c ch nh t c gi thu
th p t c c ngu n kh c nh u c ghi r trong ph n t i li u th m kh o
Ngo i ra, trong lu n v n còn sử ng m t s nh n xét, nh giá cũng nh s li u c
c c t c gi kh c c qu n t ch c kh c ều c tr ch n v ch th ch ngu n g c N u ph t
hi n c ất kỳ s gi n l n n o t i xin ho n to n chịu tr ch nhi m về n i dung lu n v n c mình
Tác giả luận văn
guyễn Trung Kiên
Trang 3V cu i c ng t i gửi lời c m n n c c ng nghi p ạn v gi nh những
ng ời ng h ng vi n tạo mọi iều ki n gi p t i c c k t qu học t p nh ngày hôm nay
Tôi xin chân thành cảm ơn!
Trang 4Contents
CAM O I
Ả II DANH Ụ Ừ V Ế Ắ V
DANH Ụ CÁC BẢ VII
DANH Ụ CÁC HÌNH VIII
Ầ IX
1 XÃ VÀ Ồ TRONG X .1
1.1 Mạng xã h i 1
1.2 thị mạng xã h i 6
1.3 Các o và h s o trên thị mạng xã h i 6
1.4 ấu trúc c ng ng thị mạng xã h i 28
1.5 K t lu n ch ng 1 31
2 PHÁT Ồ XÃ O
Ề 32
2.1 Nhóm thu t toán phát hi n c ng ng mạng xã h i 32
2.2 Thu t toán Lan truyền nhãn Label Propagation Algorihm (LPA) 43
2.3 o nh giá thu t toán phát hi n c ng ng mạng xã h i 53
2.4 o trung gian trong phát hi n cấu trúc c ng ng 56
Trang 52.5 K t lu n ch ng 2 60
3 TRÌNH Ặ Ậ TOÁN
Ấ Ú Ồ 61
3.1 Mô t bài toán 61
3.2 Thu t toán GN và LPA 64
3.3 Công c xây ng ch ng trình 67
3.4 Tri n khai ch ng trình v i các ữ li u 72
3.5 K t lu n ch ng 3 74
KẾ Ậ VÀ K Ế Ị 75
4.1 K t lu n 75
4.2 Ki n nghị 76
4.3 Ý nghĩ th c tiễn và h ng ph t tri n ề tài 76
DANH Ụ TÀI THAM K ẢO 78
Trang 6DANH Ụ Ừ V Ế Ắ
Thu t toán cân ằng v phân c m sử ng thu t
to n ph n cấp ( l nce iter tive regucing and
clustering using hierarchies)
8 GNN thị mạng n ron (Graph neural networks)
9 LPA Thu t toán lan truyền nh n (Label propagation
algorithm)
Trang 711 NMF Phân tích ma tr n không âm sâu (Deep non-
negative matrix factorization)
12 OLP T i u hóa lan truyền nh n (Optimized label
propagation)
14 SNAP T p ữ li u các mạng Sanford (Stanford large
networks dataset collection)
Trang 8DANH Ụ CÁC BẢ
ng 2.1: Nhóm thu t toán phát hi n c ng ng 41
ng 2.2: K t qu thu t toán LPA v i kích th c gi ịnh 50
ng 2.3: K t qu th c nghi m trong ví 2.1b 51
ng 3.1: ấu hình th c nghi m ph n c ng 66
ng 3.2: K t qu so sánh chất l ng c ng ng phát hi n t thu t toán GN v LPA73
Trang 9DANH Ụ CÁC HÌNH
Hình 1.1: Các trang Mạng x h i 2
Hình 1.2: Mạng x h i Facebook 4
Hình 1.3: Mạng x h i Gapo 5
Hình 1.4: thị có 4 nh v 5 cạnh 13
Hình 1.5: Những thị hình sao, bánh xe có s nh 3, 4, 5, 6, 7 15
Hình 1.6: thị mạng x h i n gi n g m 7 nút 17
Hình 2.1: Mô hình mạng l i c ng tác c các nh khoa học l m vi c tại SFI 29
Hình 2.2: Thời gian th c hi n thu t toán LPA 50
Hình 2.3: Thời gian th c hi n trong ví 2.1b 51
Hình 2.4: hất l ng c ng ng trong ví 2.1b 51
Hình 2.5: o trung gian ở Hình 1.6 56
Hình 2.6: Tính o trung gian c các cạnh 57
Hình 3.1: ng ng mạng x h i Dolphins 60
Hình 3.2: Th ng kê ữ li u mạng ban u mạng Dolphins 61
Hình 3.3: Network Data Preview mạng Dolphins 61
Hình 3.4: Th ng kê ữ li u mạng ban u mạng Karate 62
Hình 3.5: Network Data Preview mạng Karate 63
Hình 3.6: Tr c quan ữ li u v i Matplotlib 68
Hình 3.7: K t qu phát hi n c ng ng mạng Dolphins 72
Hình 3.8: K t qu phát hi n c ng ng mạng Karate 72
Trang 10c c c th nh vi n trong mạng m rketing x h i v nhiều ng ng kh c.
Trong i toán phát hi n c ng ng m t s ph ng pháp thông ng bao g m thu t
to n irv n-Newm n thu t to n Louv in thu t to n L el Prop g tion v thu t to n Spectral Clustering Những ph ng pháp n y sử ng các kỹ thu t phân tách thị v ph n
- Nghiên c u các o trên thị mạng x h i v tìm hi u các thu t toán phát hi n cấu tr c c ng ng tr n mạng x h
- Xây ng ng ng phát hi n c ng ng mạng x h i ở t p ữ li u c c ng
tr n mạng
- V n ng sử ng o kho ng c ch tr n thị t m c c c cấu tr c c ng
ng tr n thị mạng x h i
Trang 11Lu n v n t p trung nghi n c u ph t tri n c c kỹ thu t kh i ph ữ li u thị c c thu t to n ph t hi n cấu tr c c ng ng c mạng x h i
Lu n v n c chia th nh các ph n chính nh sau:
h ng 1: T ng qu n về mạng x h i v c ng ng trong mạng x h i
N i ung ch nh c ch ng l tr nh y t ng qu n về mạng x h i v c ng ng trong mạng xã h i các nhóm thu t toán phát hi n c ng ng mạng xã h i Ngoài ra, lu n v n cũng n u r c c l thuy t về thị mạng x h i v cấu tr c c ng ng thị mạng x h i
h ng 2: Phát hi n c ng ng mạng x h i theo ph ng pháp lan truyền nh n
i i thi u về nh m thu t to n ph t hi n c ng ng mạng x h i v t p trung v o
ph ng ph p l n truyền nh n
h ng 3: K t qu th c nghi m v nh giá.
ra k t qu th c nghi m v nh giá k t qu th c nghi m trong gi i hạn c Lu n
v n cho ph p
Trang 12t nh c p ng r ng r i trong th gi i kỹ thu t s hi n ại
Mạng x h i có th c ại i n ởi m t thị trong c c th nh vi n c mạng
c i u thị ằng các nh (nút) v c c m i quan h x h i giữ các th nh viên c i u thị ằng các cạnh (li n k t giữ các nh c th nh viên trong mạng x h i có th k t n i
v i nhau thông qua các m i quan h khác nhau nh ạn bè, ng ời theo dõi, liên k t gia nh
ho c chi s c c sở th ch v s qu n t m chung
Mạng x h i kh ng ch t n tại trong th gi i kỹ thu t s m c n trong cu c s ng
h ng ng y v nh mạng x h i o line nh mạng x h i trong c ng ng t ch c h y mạng x h i trong qu n h ạn v gi nh Tuy nhi n v i s ph t tri n c c ng ngh thông tin v truyền thông, mạng x h i tr c tuy n trở th nh m t ph ng th c quan trọng
và ph i n giao ti p chia s thông tin v t ng tác giữ các cá nhân v t ch c trên to n
c u
Mạng x h i tr c tuy n th ờng i k m v i c c nền t ng v ng ng mạng x h i
nh ce ook Twitter nst gr m Linke n v nhiều h n nữ Những nền t ng n y cung cấp c c c ng c v t nh n ng cho ph p ng ời ng k t n i chi s th ng tin tạo v th m gia v o c c nh m v c ng ng gi o ti p qu tin nhắn v nh lu n v theo i hoạt ng
c nh u
Mạng x h i ng v i tr qu n trọng trong vi c tạo r v ph n ph i th ng tin gi o
ti p x h i x y ng m i qu n h tạo ng th ng hi u c nh n v o nh nghi p
Trang 13Hình 1.1: Các trang ạng xã hội
Mạng x h i không ch l m t công c truyền thông, m còn l m t c ch t ng t c
x h i n i mọi ng ời k t n i chi s v tạo r c c m i qu n h
Tuy nhi n h y l u rằng mạng x h i kh ng ch gi i hạn trong vi c sử ng c c nền t ng tr c tuy n nh ce ook h y Twitter Mạng x h i cũng t n tại trong cu c s ng
h ng ng y c ch ng t trong c ng ng t ch c v qu n h c nh n Mạng x h i tr c tuy n ch l m t ph n trong s ph t tri n v s l n r ng c mạng x h i n i chung
Nhờ mạng x h i ch ng t c th k t n i v i mọi ng ời tr n khắp th gi i chi s
th ng tin qu n i m ki n v tr i nghi m c nh n N cũng tạo r nhiều c h i cho
vi c ti p c n th ng tin gi o c th ng mại i n tử v truyền thông Tuy nhi n cũng c n
nh rằng mạng x h i cũng t r m t s th ch th c nh quyền ri ng t n ninh th ng tin
v nh h ởng n t m l c nh n
Tóm lại mạng x h i l m t kh i ni m qu n trọng trong x h i v c ng ngh th ng tin tạo r s k t n i v t ng t c giữ con ng ời th ng qu c c m i qu n h x h i
nhiều loại li n k t trong mạng chẳng hạn nh li n k t v h ng li n k t m t chiều v li n k t h i chiều M t mạng x h i có th c i u iễn ằng m t thị (gọi l thị mạng xã h i [2] c ại i n ởi các nh các k t n i c ại i n ởi các cạnh
Ở y h i nh A v c c c cạnh li n th ng i u thị m i qu n h giữ ch ng Ngo i r các liên k t này có th c tính trọng s ch ra i m mạnh v i m y u c chúng Mạng
Trang 14x h i ng ph t tri n rất nh nh ch ng s l ng ng ời th m gi v c c m i qu n h giữ
Mạng x h i không ch n thu n l n i chia s thông tin cá nhân v k t n i ạn
m còn trở th nh m t ngu n tin t c h ng ng y Ng ời dùng có th theo dõi các trang tin
t c log v t ng t c v i c c nh m c ng ng c chung qu n t m iều n y th y i
c ch ch ng t ti p c n th ng tin v truyền th ng v mạng x h i trở th nh m t k nh qu n trọng truyền t i ki n qu n i m v tin t c
Có nhiều mạng x h i kh c nhau trên to n th gi i mỗi mạng có s ph i n ở m t khu v c c th MySp ce v ce ook l h i mạng x h i ph i n ở ắc Mỹ v T y u Orkut v Hi5 c chu ng ở Nam Mỹ Trong khi các mạng x h i nh Bebo ở Anh yWorl ở H n Qu c Mixi ở Nh t n v po ở Vi t N m ạt c th nh c ng l n trong khu v c c m nh
S ph i n c mạng x h i tạo r nhiều c h i k t n i v gi o l u cho mọi
ng ời ng thời mở ra không gian kinh doanh v ti p thị m i Các doanh nghi p v th ng
Trang 15Ng ời dùng có th tham gia các mạng l i (networks) trên Facebook, m có th c
t ch c theo th nh ph n i l m vi c tr ờng học v khu v c iều n y cho phép họ k t n i
v gi o ti p v i những ng ời kh c c c ng qu n t m v ị i m
ce ook cung cấp ch c n ng k t ạn cho ph p ng ời ng k t n i v i nh u v gửi tin nhắn chi s n i ung v h nh nh ằng c ch c p nh t th ng tin c nh n ng ời
ng c th cho ạn i t về cu c s ng sở th ch v hoạt ng c m nh
T n ce ook c lấy t cu n s l u ni m (ye r ook c c c tr ờng ại học
v c o ẳng tại Mỹ sử ng ghi t n v th ng tin về sinh vi n ph ng n v nh n vi n
t ởng n u c ce ook l tạo r m t mạng x h i tr c tuy n cho c c sinh vi n
gi o l u v k t n i v i nh u trong c ng m t c ng ng tr ờng học T ce ook
ph t tri n v mở r ng n mọi ng ời tr n khắp th gi i [ ] [ ]
Hình 1.2: ạng xã hội Facebook
po l m t mạng x h i tr c tuy n tại Vi t N m c th nh l p v o n m v thu c sở hữu c Công ty c ph n Công ngh Gapo Trong thời gian ngắn k t khi ra mắt
po ạt c s t ng tr ởng ng k về s l ng ng ời ng S u g n th ng po
c tri u ng ời ng v s ng ời ng ti p t c t ng l n tri u v o th ng n m
S u th ng hoạt ng po ạt tri u ng ời ng Hi n tại po tuy n ạt tri u ng ời ng s u n m hoạt ng ch nh th c
Trang 16Trong mạng x h i Gapo, c ng ng c tạo ra thông qua vi c k t n i ch t ch giữ
c c ng ời ng tạo th nh c c c m (clusters trong mạng c c m n y th ờng o g m những ng ời c sở th ch lĩnh v c ho c ị i m chung n n vi c họ t ng t c v chi
x h i
ng thời hi u cấu tr c c ng ng trong mạng x h i c th gi p ng n ch n ho c
gi m thi u các vấn ề liên quan n an ninh thông tin, truyền thông gi mạo ho c lan truyền
Trang 171.2 ồ thị mạng xã hội
thị mạng x h i (social network graph) l m t i u ho c mô hình hóa các m i
qu n h x h i giữ c c th nh viên trong m t mạng x h i Nó i u thị s k t n i v t ng
l n truyền trong mạng h y t m hi u về t ng t c v t nh h nh hoạt ng c c ng ng trong mạng x h i
1.3 Các độ đo và hệ số đo trên đồ thị mạng xã hội
Trong phân tích thị mạng x h i c nhiều o v h s o c sử ng o
l ờng v nh giá các thu c tính v c tr ng c mạng D i y l m t s o v h s
o ph i n
1 c (Degree c c m t nh trong thị mạng x h i l s l ng cạnh
k t n i v i nh c ph n nh m c qu n t m v t ng t c c m t th nh vi n trong mạng Có th tính c v o trong (in-degree) v c ra ngo i (out-degree) t y thu c v o h ng c cạnh [1], [2], [5]
Trang 182 trung tâm (Centrality): trung tâm o l ờng m c quan trọng v nh h ởng
c m t nh trong mạng nhiều trung t m kh c nh u nh [2]:
i Trung tâm c (Degree centrality): o l ờng m c t ng tác c m t nh
tr n c c n
ii Trung tâm trung gian (Betweenness centrality): o l ờng m c ki m soát
th ng tin l u th ng giữ c c nh trong mạng iii Trung tâm g n nhất (Closeness centrality): o l ờng m c ti p c n c m t
nh n tất c c c nh kh c trong mạng
iv Trung tâm vector riêng (Eigenvector centrality): o l ờng m c quan trọng
c m t nh tr n m c qu n trọng c c c nh k t n i v i n
3 phân c m (Clustering coefficient): phân c m o l ờng m c t p trung c
c c nh trong m t c m (cluster nhỏ N o l ờng x c suất c c nh k t n i v i nh u trong m t c m
4 Kho ng cách trung tâm (Centrality distance): Kho ng cách trung tâm o l ờng
x g n giữ c c nh trong mạng N c th tr n kho ng c ch eo esic ( ờng i ngắn nhất ho c th ng tin về l u l ng th ng tin truyền t m t nh n c c nh kh c
5 H s gắn k t (Assortativity coefficient): H s gắn k t o l ờng m c t ng tác giữ các nh c thu c tính t ng t Nó o l ờng xu h ng các nh k t n i v i các nh
c c ng thu c t nh
6 M t mạng (Network ensity M t mạng o l ờng t l giữ s cạnh hi n c
v s cạnh t i c th có trong mạng N cho i t m c k t n i v liên k t trong mạng
Các o v h s o trên thị mạng x h i c sử ng hi u v phân tích cấu
tr c t nh chất v qu n h trong mạng t r những th ng tin hữu ch v gi p t ng
hi u qu trong qu n l ph n t ch v ng ng c c mạng x h i [ ] [ ] [ ] [ ]
Xác định các thực thể và tác nhân chính trong mạng xã hội
Nh n u mạng x h i th ờng c m h nh h v i u iễn i ạng thị thị mạng x h i l m t i u g m c c nh (nodes) v c c cạnh (e ges trong các
nh ại i n cho các th nh viên trong mạng v các cạnh ại i n cho m i quan h giữ các
th nh vi n
Trang 19M t s kh i ni m qu n trọng v h o c sử ng ph i n tr n thị mạng x
h i o g m
c (Degree): c c m t nh trong mạng x h i l s l ng các cạnh k t
n i v i nh c c th i u thị m c li n k t ho c t ng t c c m t th nh vi n trong mạng
Trung tâm (Centrality): Trung tâm l m t h o o l ờng quan trọng c
m t nh trong mạng x h i c h o trung t m o g m
• Trung tâm c (Degree centrality): o l ờng ằng cách tính c c mỗi
nh nh c c c o h n c coi l trung t m qu n trọng h n
• Trung t m trung gi n ( etweenness centr lity o l ờng m c m m t
nh nằm trên ờng i ngắn nhất giữ các c p nh khác trong mạng
nh c trung t m trung gi n c o th ờng c v i tr qu n trọng trong vi c truyền th ng v trung gi n th ng tin
• Trung t m g n gũi ( loseness centr lity o l ờng kho ng c ch trung
h ởng l n nh u trong mạng x h i
Có hai loại đồ thị mạng xã hội chính:
thị mạng x h i vô h ng (Undirected Social Network Graph): y l loại thị
m t m i qu n h giữ c c th nh vi n m kh ng ph n i t h ng Tr n thị n y c c
th nh viên c i u iễn ằng các nh (nodes), v m i quan h giữ các th nh viên c
Trang 20ce ook m i qu n h ạn giữ c c ng ời ng kh ng c h ng
thị mạng x h i c h ng (Directe Soci l Network r ph y l loại thị
mô t m i quan h giữ các th nh viên v i s ph n i t h ng Trong thị n y mỗi cạnh c h ng i t m t nh (node) xuất phát t i m t nh k t thúc, th hi n m i quan h
m t chiều t nh n y t i nh khác Ví trong thị mạng x h i ng ời theo dõi trên Twitter mỗi ng ời dùng có th theo dõi m t ng ời khác m không nhất thi t ph i c theo dõi lại
Trung t m trung gi n ( etweenness centr lity o l ờng m c m m t
nh nằm trên ờng i ngắn nhất giữ các c p nh khác, giúp xác ịnh các th nh viên có
v i tr trung gi n trong vi c truyền th ng th ng tin
Trung tâm g n gũi (Closeness centrality): o l ờng kho ng cách trung nh
4 c h o truyền th ng th ng tin ( n orm tion Di usion Me sures y l c c h
o nh giá quá trình lan truyền thông tin trên mạng x h i Chúng giúp hi u về cách th ng tin l n truyền l n r ng v t c ng n c c th nh vi n trong mạng
Các h o v khái ni m n y cung cấp cái nhìn sâu h n về cấu trúc, tính chất v t ng tác trong mạng x h i giúp ta hi u v phân tích các khía cạnh quan trọng c mạng x h i
Phát hi n c ng ng trong mạng x h i l quá trình x c ịnh v nghiên c u cấu trúc mạng x h i tìm ra các t p h p các th c th (th nh vi n c m i quan h ch t ch v tạo
th nh c c c m (c ng ng S ph n t ch giữ c c c ng ng th ờng c th hi n ằng
s k t n i t giữ ch ng
Trang 21Các h o trên thị mạng x h i có th giúp chúng ta trong quá trình phát hi n c ng
v tìm ra các c ng ng trên mô hình n y Ví mô hình stochastic block model (S M
v m h nh hier rchic l clustering c th c p ng ph t hi n c ng ng [2]
ấu tr c mạng x h i c th c i u iễn ằng thị mạng x h i (V trong V l t p c c nh (th nh vi n v l t p c c cạnh (m i qu n h giữ c c nh
M t c ch khác i u iễn cấu trúc mạng x h i l thông qua ma tr n liền kề A = (Aij) ∈{0, 1}, trong Aij = n u hai nh i v j có cạnh n i giữ chúng v Aij = 0 n u không c cạnh n i
Qua vi c m hình h v nghiên c u cấu tr c mạng x h i chúng ta có th hi u s u
h n về m i qu n h v t ng t c trong mạng t r những ph n t ch v ng ng
ph h p tr n mạng x h i [ ] [ ]
1.3.1 Độ đo khoảng cách trên đồ thị mạng xã hội
Khi áp ng kỹ thu t khai phá ữ li u trong phân tích mạng x h i v phát hi n c ng
ng vi c ịnh nghĩ o kho ng cách giữ các nh v cạnh c thị l rất quan trọng
Khi c c cạnh c thị c gắn nh n ch ng c th c sử ng nh o kho ng cách tùy thu c v o ý nghĩ c nh n V trong thị mạng x h i ạn bè" trên Facebook, có th sử ng s l ng chung c ạn bè l m o kho ng cách giữ các nh Tuy nhi n khi c c cạnh kh ng c nh n t c n ịnh nghĩ o kho ng c ch ri ng
M t s o kho ng cách ph i n trong phân tích mạng x h i l [2]:
1 Kho ng cách ờng i ngắn nhất (shortest path distance): y l kho ng cách t nh ằng s cạnh tr n ờng i ngắn nhất giữ h i nh tr n thị o n y o l ờng s
Trang 222 Kho ng c ch trung nh ( ver ge ist nce y l kho ng c ch trung nh giữ
m t nh v tất c c c nh còn lại trên thị o n y o l ờng t ng ng giữ các
nh trong mạng
3 H s g n nhất (closeness centrality): y l o o l ờng kh n ng ti p c n t
m t nh t i c c nh kh c tr n thị N c t nh ằng nghịch o c kho ng c ch trung bình
4 H s trung gian (betweenness centr lity y l o o l ờng t m quan trọng
c m t nh trong vi c truyền thông tin giữ c c nh kh c trên thị Nó o l ờng t n suất m m t nh xuất hi n tr n ờng i ngắn nhất giữ c p nh kh c
ch ịnh nghĩ o kho ng c ch s ph thu c v o i c nh v m c ti u c ph n t ch mạng x h i c th m ch ng t ng nghi n c u
i thi t mạng x h i c i u iễn ởi m t thị (V trong V l t p các nh E là t p các cạnh Tr c tiên ta quy c những nh g n nhau (closed) n u ch ng
c cạnh n i tr c ti p giữ ch ng ng c lại l những nh x nh u ( ist nt Kho ng c ch giữ nh x v y V k hi u l (x y c th ịnh nghĩ (x y theo h i c ch [ ] [ ] [11]:
d(x, y) = 0 n u (x, y) E, ng c lại l d(x, y) = 1
Ho c d(x, y) = 1 n u có cạnh n i giữ chúng, v ằng khi chúng xa nhau, kh ng
c cạnh n i giữ ch ng
Tuy nhi n c h i tr ờng h p tr n ều kh ng ph i l ịnh nghĩ o kho ng c ch
th c s (metric ởi ch ng kh ng thỏ m n ất ẳng th c t m gi c Dễ nh n thấy n u c cạnh n i A v i v cạnh n i v i th kh ng c g m o c cạnh n i A v i
ph n loại ph n t ch v nh gi thị mạng x h i c nhiều o kh c nh u
c sử ng c o n y th ờng tr n l thuy t thị v c sử ng ởi c nh nghiên c u v ng ời dùng th ng mại hi u v phân tích các c i m c mạng x h i
M t s o quan trọng c sử ng bao g m
H s côhesiveness (Closeness centrality): y l m t o nh giá m c gắn k t c c c nh trong mạng N o l ờng m c t ng t ho c li n
k t giữ c c nh trong mạng
Trang 23 H s trung tâm (Centrality measures): Bao g m h s trung tâm c (Degree centrality), h s trung tâm g n (Closeness centrality) v h s trung tâm trung gian (Betweenness centrality) Các h s n y o l ờng t m quan trọng c c c
nh v cạnh trong mạng tr n c c y u t nh s l ng k t n i kho ng
c ch v v i tr trung gi n trong truyền th ng
Phát hi n c ng ng (Community detection): y l m t phép o xác ịnh
v ph n loại c c c ng ng trong mạng x h i N gi p ch ng t nh n i t các nhóm ch t ch c các nh trong mạng v tìm hi u cấu trúc liên k t giữ
c c c ng ng Tasleem Ari sử ng c c h s c k t mạng v h s trung tâm vector c tr ng
ph n t ch v nh gi mạng x h i reem n ề xuất m t t p c c o x c ịnh trung
t m c c c nh v cạnh tr n thị nh h s trung t m tr c ti p theo c c nh h trung tâm g n v trung gian (Betweenness centrality), c sử ng ph i n trong ph n
t ch mạng x h i v ph t hi n c ng ng
1.3.2 Độ đo trung tâm của đỉnh
Xét trong m t thị G = (V, E), giữ m t c p nh (vi, vj) ất kỳ có th có m t ho c nhiều ờng i i c ờng i c ịnh nghĩ l s cạnh tr n ờng i (ho c
t ng trọng s tr n c c cạnh n u thị c trọng s
Trong s c c ờng i giữ (vi vj c m t s ờng i c gọi l ờng i ngắn nhất N u (vi vj v (vj vi ều thu c t p (t c l c cạnh n i tr c ti p giữ vi v vj th ờng i ngắn nhất s c i l v t ch c n i tr c ti p t vi n vj ho c ng c lại
Trang 24 Tr ờng h p giữ vi v vj có ờng i t c là chúng liên thông qua m t s ờng
i Khi x c suất tr o i ho c qu n h giữ vi v vj c x c ịnh ởi gij
v i gij là s ờng i ngắn nhất giữ vi v vj Do tiềm n ng m vk có th iều khi n (control th ng tin tr o i h y m i qu n h giữ vi v vj c x c ịnh ằng x c suất m vk nằm tr n c c ờng i ngắn nhất giữ vi v vj K hi u gij(vk l s ờng i ngắn nhất c i qu vk
Ví dụ 1.2 Trên Hình 1.4, v2, v4 c x c suất nằm trên 2 ờng i ngắn nhất giữ v
v v2 l ½ Nh v y n u vk nằm trên tất c các ờng i ngắn nhất giữ vi và vj thì Bij(vk)
Trang 25n
Trong những tr ờng h p n y th vk l c n thi t iều khi n m i li n k t giữ vi v
vj [1], [2]
x c ịnh c trung t m (centr lity t ng th c nh vk tr n thị th c n
ph i tính t ng tất c các trung gian ph n c vk i v i tất c các c p nh trên thị [2]
ịnh nghĩa 1.1 trung t m c nh vk trong thị (V k hi u l (vk)
c x c ịnh nh s u [ ]
C(vk) = B ij (v k ) v i |V| = n (1.2)
i, j,i j
N u vk xuất hi n trên tất c các ờng i ngắn nhất giữ hai nh vi v vj, thì giá trị
c (vk s t ng l n iều n y cho thấy vk ng v i tr qu n trọng v nằm tr n mọi ờng i ngắn nhất giữ vi v vj
Trong tr ờng h p vk ch xuất hi n tr n m t s ờng i ngắn nhất giữ vi v vj gi trị c (vk s t ng l n theo m t gi trị t ng ng c t nh ằng t l giữ s l n xuất
c k t n i tr c ti p ho c gián ti p v i vk v do s ờng i giữ chúng l n * (n - 1) trong c n- nh c k t n i tr c ti p v i vk V v y trung t m c nh vk s
ạt gi trị c c ại trong tr ờng h p n y [2], [9]:
Trang 27Những o trung tâm chu n ch ra rằng cạnh có th i t i những cạnh khác trên những ờng i ngắn nhất t ng ng
1.3.3 Độ đo trung tâm của đồ thị
Có hai cách chính xác ịnh o trung tâm trong mạng x h i ho c thị
D v o c (degree centrality): Cách ti p c n n y xem xét c c các nh trong thị c c m t nh l s cạnh k t n i v i nh Trung t m c thị c x c ịnh
th ờng c coi l trung t m qu n trọng v c t m nh h ởng c o trong mạng
Cách xác ịnh o trung tâm trong mạng x h i ho c thị ph thu c v o m c ti u
Trang 281.3.4 Độ đo trung gian của cạnh
Chúng tôi th c hi n nghiên c u về ba o C(vk), (vk CG nhằm xác ịnh các tâm i m trong thị v áp ng chúng v o nhiều m c ch khác nhau Tuy nhiên, vi c sử
ng các o n y ch thích h p cho mạng trong khái ni m trung gian (Betweenness)
ng vai trò quan trọng trong quá trình xử lý k t n i giữ các nh Ví trong vi c nghi n
c u về mạng truyền th ng m t vấn ề qu n trọng l x c ịnh c c cạnh c kh n ng iều khi n truyền th ng m o t nh hi u qu v s ền vững c mạng truyền th ng [ ] [2], [7]
T h nh ung cạnh ( giữ h i c ng ng th v kh ng nằm trong c ng m t
c ng ng M t cạnh nằm giữ hai c ng ng ( c xem nh l c u n i giữ hai c ng ng
Trang 291.3.5 Hệ số trung tâm vector đặc trưng
trung tâm vector c tr ng (eigenvector centrality) l m t ph ng pháp o l ờng trung t m c m t nh trong mạng x h i tr n qu n h quy giữ trung t m
c nh v trung t m c c c nh liền kề v i n [2]
Ph ng pháp n y xem xét không ch s l ng các nh liền kề m còn s nh h ởng
c những nh liền kề M t nh c trung t m vector c tr ng c o khi n k t n i
v i nhiều nh c trung t m c o iều n y cho ph p nh gi t m nh h ởng c m t
nh kh ng ch tr n s l ng li n k t m c n tr n v i tr c c c nh li n k t
ng th c t nh trung t m vector c tr ng c m t nh c t nh tr n t nh chất giá trị riêng v vector ri ng c m tr n liền kề c thị Ph ng ph p n y cho ph p
x c ịnh trung t m c mỗi nh trong mạng m t c ch to n i n v ph thu c v o t m
nh h ởng c c nh v những nh liền kề c n
trung tâm vector c tr ng l m t trong những ph ng pháp ph i n xác ịnh
t m qu n trọng v vị tr trung t m c c c t c nh n trong mạng x h i [ ] [ ] [ ]
i thi t A (Aij l m tr n liền kề kh ng m c thị c h ng (V trung t m vector c tr ng xi c nh i c ịnh nghĩ nh s u [2]:
xi = Ai1x1 + Ai2x2 + … + Ainxn, i = 1, 2, … |V| = n (1.8)
trung t m c mỗi nh xi l m t h m c những nh c li n k t v i nh
T p các ph ng trình (1.2) c th hi n theo m tr n (AT là ma tr n chuy n vị c A) là:
Trang 30trung t m c mỗi nh c x c ịnh theo h m tuy n t nh trung t m c những nh c li n k t v i nh
Trong mạng x h i vi c nh n c ề cử t những ng ời kh c c th t ng vị th v
s c mạnh c m t t c nh n ề cử c th c hi u l s c ng nh n ho c s chọn l t những ng ời khác, v nó th ờng c coi l m t y u t quan trọng trong xác ịnh t m qu n trọng v vị tr trung t m c m t t c nh n trong mạng x h i
Trong mạng x h i truyền th ng những ng ời nh n c nhiều tr o i thông tin t những ng ời kh c th ờng c nhiều ngu n th ng tin c gi trị v ng tin c y h n S tr o
i thông tin giữ các tác nhân trong mạng x h i l m t ph ng ti n quan trọng chia s thông tin, ý ki n v tạo r t m nh h ởng Những ng ời nh n c nhiều s trao i thông tin n y có th c coi l có vị trí trung tâm v có s c nh h ởng trong c ng ng mạng x
h i truyền th ng [2]
Vi c x c ịnh vị trí trung tâm v t m qu n trọng c c c t c nh n trong mạng x h i trên những ề cử v s tr o i thông tin có th giúp chúng ta hi u rõ h n về s t ng tác v quyền l c trong c ng ng mạng x h i t r những phân tích v quy t ịnh
c nghĩ trong lĩnh v c truyền th ng v qu ng c o tr c tuy n
Khi xét trung tâm c nh i: cùng v i t p c c nh lân c n c a nó là N(i), ta có [1], [5]:
𝑥𝑖 = ∑𝑗∈𝑁(𝐼) 𝑥𝑗 = ∑𝑗 𝐴𝑖𝑗 𝑥𝑗 (1.10)
trung t m vector c tr ng c ịnh nghĩ theo c ch n y ph thu c v o s c c
nh lân c n |N(i)| v s c c li n k t v i nó là xj, j ∈ N(i n l u ý rằng j N(i) thì Aij =
Trang 31h s c k t c ng c o t c l t l c c m i qu n h th c t trong mạng so v i t ng s m i
qu n h l thuy t c n c ng c o iều n y cho thấy mạng c m c k t n i c o v c c
t c nh n c xu h ng t ng t c ch t ch v hỗ tr nh u
H s c k t c t nh ằng c ch chi i s cạnh ( m o t nh i x ng c thị v h ng cho t ng s c p nh c th c trong thị (N (N - K t qu l m t gi trị t 0 n 1, trong 0 ại i n cho mạng không c k t (không có m i quan h còn 1 ại
i n cho mạng ho n to n c k t (mọi c p nh ều c m i qu n h
H s c k t cung cấp th ng tin qu n trọng về m c li n k t v t ng t c trong mạng x h i Nó có th giúp phân tích v so sánh s c k t giữ các mạng x h i khác nh u
1.3.7 Hệ số trung gian của đỉnh
o trung t m c mạng ho c thị c h i c ch ti p c n ch nh l sử ng
c ( egree v sử ng u th tr i ( omin tion c c c nh [2]
1 Sử ng c ( egree Theo c ch ti p c n n y trung t m c mạng c
nh giá trên c c các nh t c l s l ng cạnh m mỗi nh có Những nh c
c c c ại (t c l c s l ng cạnh nhiều nhất c th c coi l trung t m c thị Tuy nhi n c ch ti p c n n y hạn ch ng ng trong c c i to n ch t p trung v o hi u
Trang 32qu truyền thông, không ng tin c y trong vi c nh giá t m quan trọng hay nh h ởng
c c c nh trong mạng x h i n i chung
2 Sử ng u th tr i (domination): Theo cách ti p c n n y m t nh c coi
l c u th tr i n u n c kh n ng iều khi n s truyền th ng tr n mạng Nghĩ l khi loại ỏ nh khỏi mạng s li n k t v truyền th ng trong mạng s ị nh h ởng nhiều
c nh c u th tr i c kh n ng t ng t c iều khi n ho c nh h ởng n c c nh
kh c trong mạng nh gi u th tr i c c c nh trong mạng c th sử ng c c o
nh u th tr i t i (m ximum omin nce u th tr i t ng i (rel tive omin nce
h y u th tr i tuy t i ( solute omin nce
h i c ch ti p c n tr n ều cung cấp c i nh n về t m qu n trọng v nh h ởng
c các nh trong mạng x h i ho c thị Tuy nhiên, ph thu c v o m c ch nghiên c u
v i to n c th c ch ti p c n sử ng u th tr i c th cung cấp th ng tin chi ti t v
to n i n h n về t m qu n trọng v quyền l c c c c nh trong mạng [ ]
Quan i m c Freeman về trung tâm trung gian (betweenness centrality) l rất qu n trọng trong ph n t ch mạng x h i o trung t m trung gi n c m t i t ng trong mạng x h i o l ờng kh n ng c i t ng trong vi c nằm tr n c c ờng i ngắn nhất giữ c c c p i t ng kh c trong mạng
Khi m t t c nh n c trung gi n c o t c l nằm tr n nhiều ờng i ngắn nhất giữ c c t c nh n kh c t c nh n c v i tr nh m t c u n i h y trung gi n qu n trọng trong mạng T c nh n n y c kh n ng ki m so t v iều ph i gi o ịch v thông tin trong mạng Nó cũng có th nh h ởng n mạng ằng cách ki m soát lu ng thông tin ho c gửi th ng tin theo h ng c l i cho m nh ng thời t c nh n trung gi n cũng c vị tr thu n l i th c y s gi o ti p v h p t c giữ c c t c nh n kh c trong mạng
o trung t m trung gi n c t nh to n ằng c ch m s l ng ờng i ngắn nhất m m t tác nhân nằm trên Những tác nhân có trung gian cao h n có kh n ng ki m
so t th ng tin v t ng t c giữ c c t c nh n kh c trong mạng m t c ch qu n trọng
Freeman ề xuất o trung tâm trung gian v nó c sử ng r ng r i trong phân tích mạng x h i xác ịnh vai trò v t m quan trọng c các i t ng trong mạng
Trang 33Cho tr c thị G = (V, E) có n nh trung gian CB(v) c nh v c xác ịnh
H s trung t m trung gi n ( etweenness centr lity c gi trị t n 00 Khi
m t tác nhân có h s trung tâm trung gian g n n 1.00, iều có nghĩ l s l ng quan
h giữ các tác nhân khác ph i thông qua tác nhân l rất l n Tác nhân n y có nh h ởng
l n n vi c truyền th ng v gi o ti p trong mạng
N u m t nh c trung t m trung gi n c c ại iều x y r khi mọi nh kh c trong thị c cạnh n i v i nh v nh nằm tr n tất c c c ờng i ngắn nhất c
i l n h n Trong tr ờng h p n y thị c ạng h nh s o (st r ho c h nh nh xe (wheel)
Trang 34Tuy nhiên, vi c sử ng h s trung tâm trung gian v các o khác ph thu c v o
m c ch v loại mạng m chúng c áp ng Trong nghiên c u mạng truyền thông, vi c
x c ịnh cạnh c tiềm n ng iều khi n truyền th ng l qu n trọng m o hi u qu v
ền vững c mạng truyền th ng
T m lại mỗi h s trung t m v o trong ph n t ch mạng x h i c ng ng v
gi i hạn c n Vi c l chọn o ph h p ph thu c v o m c ti u nghi n c u v t nh chất c mạng ng c nghi n c u
1.3.8 Xác định độ đo trung gian của đỉnh
tính trung gian c các nh cạnh th ờng ph i th c hi n qua 2 c [2], [12]:
c 1 Tính i v s ờng i ngắn nhất giữ các c p nh
c 2 Tính t ng tất c các trung gian c các cạnh
Công vi c chính c a quá trình này là phát hi n tất c các ờng i ngắn nhất t nh
t i g c T p tiền t c nh v tr n c c ờng i ngắn nhất t s c x c ịnh nh s u [ ] [5], [6]:
𝛿𝑠(𝑣) = ∑𝑤∶𝑣∈𝑃𝑠(𝑤)(1 + 𝛿𝑠(𝑤)) (1.5)
Trang 35th c hi n thu t toán tính o trung gian c c c nh tr n thị m t c ch hi u
qu ng ời t th ờng sử ng ph ng ph p uy t theo chiều r ng S ( re th-First Search) [2]
Ph ng pháp uy t theo chiều r ng (BFS) th ờng c sử ng tính o trung gian trên thị m t cách hi u qu Thu t toán BFS tìm ki m các ờng i ngắn nhất
t m t nh g c n tất c c c nh kh c trong thị
t nh o trung gi n theo thu t to n A ( ster Algorithm or etweenness entr lity t th c hi n c c c s u
1 Khởi tạo thị ban u v t giá trị trung gian ban u c tất c các nh l 0
2 Duy t qua mỗi nh x trong thị
4 Tr về giá trị trung gian c các nh trên thị
a Thu t toán FABC c thi t k t i u hóa vi c tính toán trung gian trên thị v c hi u suất c o h n so v i c c ph ng ph p kh c trong nhiều tr ờng
h p
L u rằng thu t to n n y ch p ng cho thị kh ng c trọng s Trong tr ờng h p thị có trọng s c n sử ng c c thu t toán khác nh thu t toán Dijkstra t nh toán ờng
i ngắn nhất t nh g c n c c nh kh c
Trang 36B c 1 – Khởi tạo gi trị i n chung
d[w] ← [v] + ;}
if d[w] = d[v] + 1 then {
σ[w] ← σ[w] + σ[v]; ppen v → P [w];
} }
B c 4 – Tích lũy v o CB
Trang 37} Sau khi khởi tạo các m ng CB[v], σ[v] d[v], v P[v] nh mô t ta ti n h nh c 3
c thu t toán FABC uy t theo chiều r ng S t nh g c t m ờng i ngắn nhất
Trang 38S u khi ho n th nh c t ti p t c n c t nh to n gi trị trung gi n [v] c mỗi nh v tr n thị
L u ý rằng các c n y ề c p n thu t toán FABC trên thị không có trọng s
i v i thị c trọng s c n sử ng c c thu t to n kh c nh thu t to n Dijkstr t nh
T suy ra rằng không c n thi t ph i tính lâu h n t ng c tất c các ph thu c c p
nh qu n h qui Ngo i r ở y c th t nh δs(w th ng qu thu t to n t m ờng i ngắn nhất t g c s n m t nh c n lại c thị
Phân tích độ phức tạp
K ch th c nh c st ck queue v c c m ng σ v l O(|V| t c l ch ng c
k ch th c gi i hạn ởi s nh V trong thị nh c n thi t cho m ng li n k t c
gi i hạn ởi s cạnh v v y n c k ch th c l O(| | Trong qu tr nh uy t S ch
c n duy trì m t n copy c các cấu trúc n y v c 2 c thu t toán th c hi n uy t cây
S trong O(|V| + | | c t nh to n
Không gian nh c m ng CB trong thu t toán l O(|V| + |E|) Do ph c tạp tính toán c vi c uy t cây BFS l O(|V| + |E|), v vi c tích lũy s ph thu c (dependency ccumul tion cũng c ph c tạp l O(|V| + | | v i s c t i c x c ịnh ởi s
nh cha l O(|E|) v s nh con t ng ng l O(|V|) Vì v y ph c tạp c thu t toán l O(|V|^2 + |V| * |E|)
Trong tr ờng h p |E| > |V|, ph c tạp c thu t toán s l O(|V| * |E|) [4], [12], [13]
Trang 391.4 ấu trúc cộng đồng đồ thị mạng xã hội
Mạng x h i c cấu th nh t các tác nhân t ng tác thông qua m t ph ng ti n c
th chẳng hạn nh mạng x h i tr c tuy n n i mọi ng ời có th k t n i t ng tác v chi
s th ng tin Mạng x h i cho ph p c c t c nh n v t qu r nh gi i ị l v ch nh trị thi t l p qu n h v gi o ti p v i nh u
M t c ng ng trong mạng x h i l m t nhóm các th c th có c i m t ng t v
c qu n h g n gũi h n trong mạng c nh trong mạng c th c nh m lại th nh c c thị con t ng ng v i c c c ng ng trong mạng c thị con n y c th c x c ịnh tr n c c thu c t nh chung ho c v i tr t ng t c c c nh trong mạng
M t c ng ng th ờng c c i m m t li n k t c o giữ c c th nh vi n trong
c ng ng Nghĩ l c c th nh vi n trong c ng ng t ng t c v k t n i v i nh u th ờng xuy n h n so v i c c t c nh n n ngo i c ng ng iều n y c th o g m vi c họ c
qu n h ạn ng nghi p chung sở th ch chuy n m n sở th ch ho c m c ti u chung
T c ng ng h nh th nh v ng v i tr qu n trọng trong mạng x h i ằng c ch tạo
ra mạng l i m t cao v nh h ởng n vi c truyền thông, giao ti p v s ph i h p trong mạng
u v o thị mạng xã h i G = (V, E) g m t p nh 𝑉 = {𝑣1, 𝑣2, … , 𝑣𝑛} và t p cạnh E, 𝐸 = {(𝑢, 𝑣)|𝑢, 𝑣 ∈ 𝑉} [2]
ịnh nghĩa 1.4 Cho thị = (V, E), v i V là t p các nh, E là t p các cạnh Các
Tuy nhi n trong i to n ph t hi n c ng ng tr n mạng x h i ph n l n ch ng t
ch quan tâm t i vi c xác ịnh các t p nh (tác nhân) Vi, i = 1, 2, , ại i n cho c ng ng mạng x h i [ ]
Trang 40u ra: T p C các c ng ng mạng xã h i
H nh hi n thị c c th nh ph n k t n i l n nhất trong mạng l i c c c ng t c nghiên c u c các nhà khoa học làm vi c tại Vi n Santa Fe (SFI) [2] thị o g m 118
nh ại i n cho c c nh kho học l m vi c tại S v c c c ng t c vi n c họ c cạnh
c li n k t giữ c c nh kho học khi họ c ng c ng v i nh u t nhất m t i o
Ở mạng n y t qu n s t c m t s c ng ng mỗi c ng ng i u hi n cho những t c
gi c ng nh u c ng m t hay nhiều bài o kho học M t khác ta cũng thấy giữ c c
c ng ng trong mạng tr n ch c m t s t m i li n k t c nh c ng m u l c ng m t
c ng ng theo c c lĩnh v c nghi n c u c S
Hình 1.7: Mô hình mạng l i cộng tác của các nhà khoa học làm việc tại SFI [2]
Trong c c mạng x h i vi c tr ch xuất v nh n ạng cấu tr c c ng ng rất hữu ch