Seminar môn học mạng xã hội phân tích và khai phá dữ liệu mạng xã hội bằng ngôn ngữ python

MÔ HÌNH HBA VÀ BIỂU DIỄN

Xác định và mô hình mạng xã hội

Trong lý thuyết đồ thị, đồ thị cV thX được biXu diễn bằng 2 cách chính: a Các cấu trúc danh sách

Danh sách cạnh (Edge list) là cấu trúc lưu trữ các cạnh của đồ thị, trong đó mỗi cạnh được biểu diễn dưới dạng một cặp đỉnh (đỉnh bắt đầu và đỉnh kết thúc) Các cạnh của đồ thị được lưu trong danh sách riêng, thường được cài đặt bằng mảng (array), giúp tối ưu hoá xử lý dữ liệu và truy xuất thông tin Việc sử dụng danh sách cạnh giúp dễ dàng quản lý và duyệt qua các cạnh của đồ thị một cách hiệu quả.

Egde Src_node Targt_node e1 2 4 e2 1 3 e3 2 3 e4 1 2 e5 4 1

Danh sách kU (đề cập đến adjacency list) là phương pháp biểu diễn đồ thị trong đó mỗi đỉnh được liên kết với một danh sách các đỉnh kU của nó Phương pháp này giúp thể hiện cạnh nối giữa các đỉnh một cách hiệu quả, giảm thiểu bộ nhớ cần thiết so với phương pháp ma trận kU Trong danh sách kU, mỗi đỉnh trong đồ thị có một danh sách các đỉnh kU gần nhất, phản ánh các cạnh nối trực tiếp từ đỉnh đó đến các đỉnh kU khác Đây là cách lưu trữ đồ thị phổ biến trong các thuật toán tìm đường đi và phân tích cấu trúc đồ thị, đặc biệt phù hợp với đồ thị thưa.

4 1 b Các cấu trúc ma trận

Ma trận liên thuộc (Incidence matrix) là phương pháp biểu diễn đồ thị bằng ma trận kích thước p × q, trong đó p là số đỉnh và q là số cạnh Ma trận này chứa các giá trị {-1, 0, 1} phản ánh mối quan hệ giữa các đỉnh và cạnh, với giá trị 1 thể hiện cạnh hướng ra khỏi đỉnh j, giúp hiểu rõ cấu trúc phân phối của đồ thị một cách trực quan và chi tiết.

, b = -1 nếu cạnh e hướng vào đ†nh v , bằng 0 trong các trưbng hợp khác.ij j i

Ma trâ Yn liên thuô Yc cho G: e1 e2 e3 e4 e5

Ma trận kU (Adjacency matrix) là một ma trận N × N dùng để biểu diễn đồ thị, trong đó N là số đỉnh của đồ thị Nếu có một cạnh liên kết hai đỉnh v và u, giá trị tại vị trí (v, u) trong ma trận là 1; nếu không có cạnh, giá trị đó là 0 Cấu trúc của ma trận kU giúp dễ dàng thực hiện các phép thao tác như duyệt các đồ thị con và đảo ngược các đồ thị một cách hiệu quả.

Ma trâ Yn kU cho G:

Ma trận dẫn nạp (Admittance matrix), ma trận Kirchhoff (Kirchhoff matrix) hay ma trận Laplace (Laplacian matrix) là kết quả thu được từ việc lấy ma trận bậc (degree matrix) trừ đi ma trận kề Đặc điểm của ma trận này là chứa đựng thông tin về mối quan hệ kết nối giữa các đỉnh trong đồ thị, bao gồm cả các cạnh liền kề hoặc không liền kề, cũng như bậc của các đỉnh trong đồ thị.

Ma trâ Yn dẫn nạp cho G:

 Trong một đồ thị, ta cần xác định:

V: Tập đỉnh (nodes, vertices, agents, actors, players, …)

▪ Trong lý thuyết đồ thị, tập đ†nh còn được gọi là tập nút (nodes)

▪ Trong phân tích mạng xã hội, nV còn được biết như là tập các tác nhân (actors) hay tập thực thX (entities),…

Trong mạng xã hội, các tập hợp đặc trưng cho cấu trúc của các mạng xã hội, phản ánh các thành viên, cộng đồng như nhóm người, tổ chức, quốc gia, trang web, nhãn thương hiệu, cũng như các hình ảnh và video liên quan Những tập hợp này giúp xác định các mối quan hệ và tương tác trong hệ thống mạng xã hội, góp phần phân tích và tối ưu hóa chiến lược truyền thông, marketing và xây dựng cộng đồng trực tuyến Hiểu rõ các cấu trúc này là yếu tố quan trọng để nâng cao hiệu quả hoạt động trên các nền tảng mạng xã hội.

E: Tập cạnh, liên kết (edges, links, ties)

Trong mạng xã hội, cạnh đặc trưng thể hiện mối liên kết hoặc mối quan hệ giữa các tập đỉnh trong mạng lưới Mỗi cạnh tượng trưng cho một đường đi nối hai đỉnh với nhau, phản ánh sự liên kết hoặc tương tác giữa các thành phần trong mạng xã hội.

Dựa trên lý thuyết đồ thị, tập cạnh được phân thành hai loại chính: cạnh có hướng và cạnh vô hướng Với đồ thị có hướng, các cạnh được biểu diễn bằng đường thẳng có mũi tên chỉ hướng, thể hiện rõ chiều đi của cạnh Trong khi đó, với đồ thị vô hướng, các cạnh được biểu diễn bằng đường thẳng không có mũi tên, thể hiện tính chất không xác định hướng đi Việc phân biệt này giúp hiểu rõ cấu trúc và tính chất của đồ thị trong các ứng dụng khác nhau.

Biểu diễn mạng xã hội b%ng python

Ở đây ta ch† tâ Yp trung vào ss dfng ma trâ Yn kU và danh sách cạnh đX xây dựng đồ thị

Cho danh sách cạnh như sau:

Src_node Targt_node Weight

H A 3 df= pd.read_csv( 'input1.csv' , header None) = df columns =[ 'source' 'target' 'weight' , , ]

 TGo đồ thị vô hướng tM danh sách cGnh:

G =nx.from_pandas_edgelist( df , source ='source', target ='target', edge_attr ='weight', create_using None = , edge_key None = ) nx.draw( G, with_labels True = )

 TGo đồ thị cN hướng tM danh sách cGnh:

G =nx.from_pandas_edgelist( df , source ='source', target ='target', edge_attr ='weight', create_using =nx DiGraph (), edge_key None = ) nx.draw( G, with_labels True = )

 Xem danh sách các node: node_list =sorted( list set ( ( G nodes)))

 Xem danh sách các cGnh: edge_list =sorted( list set ( ( G edges)))

 ChuyQn tM đồ thị sang ma trâ Rn: matrix =nx.to_pandas_adjacency( , nodelist= G node_list , dtype =int, order None = , multigraph_weight =max, weight ='weight', nonedge 0.0 = )

 ChuyQn tM đồ thị sang danh sách kT (dGng dictionary): incidence_list =nx.to_dict_of_dicts( , nodelist= G node_list , edge_data None = )

Cho ma trâ Yn kU:

13 0 0 0 0 0 0 0 0 0 0 0 1 0 0 df2= pd.read_csv( 'input2.csv' , header None) = df2 columns =list range ( ( ,len( 0 df2 )))

 TGo đồ thị vô hướng tM ma trâ Rn:

G3 =nx.from_pandas_adjacency( df2 , create_using=nx Graph ) nx.draw( G3, with_labels True = )

 TGo đồ thị cN hướng tM ma trâ Rn:

G4 =nx.from_pandas_adjacency( df2 , create_using=nx DiGraph ) nx.draw( G4, with_labels True = )

 ChuyQn tM đồ thị sang danh sách cGnh:

G3_edge_list =nx.to_pandas_edgelist( G3 , source ='source', target ='target', nodelist = node_list2 , dtype None = , edge_key None = )

 ChuyQn tM đồ thị sang danh sách kT (dGng list): adj_list =nx.to_dict_of_lists( G3 , nodelist= node_list2 )

CÁC ĐẶC TRƯNG CỦA MẠNG

Degree distribution P(k)

Định nghĩa: Phân phei bậc (Degree distribution) là xác suất đX chọn được node cV bậc là k.

Bậc (k) c_a node i được xác định bằng tổng se cạnh cV một đru là node i.

Nk: se node cV bậc là k

N: tổng se node cV trong đồ thị

Path distance Distribution

Định nghĩa:Đưbng dẫn (Path distance) là dãy thứ tự các node hoặc cạnh đi tT node này sang node khác.

Trong các bài toán, ngưbi ta thưbng ss dfng đưbng đi ngcn nhất (Shortest path) đX tính toán chi phí

Clustering coefficient distribution

Định nghĩa:Hệ se phân cfm (Clustering coefficient) là se lượng liên kết trong một khu vực nút trên tổng se liên kết cV thX.

Hệ se phân cfm C luôn nằm trong đoạn [0,1].i

Hệ se phân cfm cho node i được tính như sau:

Trong đV: ei: Se cạnh nei giữa các node liUn kU c_a node i ki: Bậc c_a node i

Community structure

Cấu trúc cộng đồng trong mạng đU cập tới sự xuất hiện c_a các nhVm nút liên kết chặt ch` hơn giữa các phrn còn lại trong mạng

5 Biểu diễn các đă :c trưng b*ng Python Đồ thị G: Đồ thị G2:

-Đei với đồ thị vô hướng:

-Đei với đồ thị cV hướng:

G2.in_degree() # tinh b c đi vao c a node â u 

G2.out_degree() #tinh b c đi ra c a node â u  Áp dfng:

G_degree =pd DataFrame (sorted( degree()), columns=['Node' G , 'Degree' ])

The analysis begins by calculating the in-degree of the graph, represented as a sorted dictionary (in_deg), which organizes nodes based on their incoming connections The corresponding in-degree values are then extracted into a list (in_values) for detailed examination Similarly, the out-degree of the graph is determined and stored in a sorted dictionary (out_deg), with its values collected into a list (out_values) These metrics provide vital insights into node connectivity patterns within the graph, essential for network analysis and SEO-focused data interpretation.

IOdeg = pd DataFrame ({ 'Node' : node_list , 'In Degree' : in_values , 'Out Degree' : out_values })

The article explains how to generate and visualize a degree histogram for nodes in a graph using NetworkX It starts by calculating the degree histogram with `nx.degree_histogram()`, then normalizes this data by dividing each count by the total number of nodes, resulting in a normalized degree distribution Two subplots are created: the first displays the raw degree histogram, illustrating the number of nodes corresponding to each degree, while the second shows the normalized degree histogram, depicting the probability distribution P(k) of node degrees These visualizations help analyze the degree distribution patterns within the graph, providing insights into its structure and connectivity Implementing these steps with appropriate labels and colors ensures a clear and informative presentation of graph degree characteristics, adhering to best SEO practices for content related to graph analysis and visualization.

Trong python thuâ Yt toán tam đưbng ngcn nhất cV 2 phương pháp (method=[‘dijkstra’,

The Bellman-Ford algorithm is a versatile method used for finding the shortest paths in graphs, especially when negative weight edges are present When implementing this algorithm, it is important to select the appropriate method based on specific requirements; for example, by setting the 'method' parameter to 'bellman-ford' In Python, using NetworkX, the shortest_path_length function can be utilized with the 'method' parameter to specify 'bellman-ford', enabling accurate computation of shortest path lengths from a source to a target node Proper configuration of this method ensures reliable results in various graph analysis tasks.

 Tính hê R sa phân ccm:

Hê Y se phân cfm cho tTng node được tính như sau: cluster_coef =nx.clustering( , nodes None G = , weight None = )

Ngoài ra, ta cV thX tính hê Y se phân cfm trung banh: avg_cluster_coef =nx.average_clustering( ) G

Biểu diễn các đă 9c trưng b%ng Python

Degree centrality c_a một đ†nh chính là tổng se các liên kết tới đ†nh đV trong đồ thị (tổng se cạnh kU c_a một đ†nh).

Trưbng hợp đồ thị cV hướng, degree centrality được tính bởi 2 giá trị: in-degree và out-degree.

In-degree: tổng se liên kết tT các node khác đến node đang xét.

Out-degree: tổng se liên kết tT node đang xét đến các node khác.

Ta cV công thức tổng quát:

Trong đV: u: đ†nh đang xét

E: tập cạnh: n: se đ†nh c_a đồ thị

Degree centrality được dùng đX xác định node nào cV thX lan truyUn thông tin nhanh, cV khả năng gây ảnh hưởng trực tiếp đến các node xung quanh

Một thực thX cV giá trị degree centrality cao :

Là ngưbi hoạt động tích cực hoặc nổi tiếng nhất

Là một đru nei quan trọng

CV một vị trí thuận lợi

Betweenness centrality c_a là chỉ số đo lượng giao lộ của một nút trong mạng, được tính bằng tổng số các đường đi ngắn nhất qua nút đó chia cho tổng số các đường đi ngắn nhất toàn mạng, giúp xác định tầm ảnh hưởng của nút trong lưu thông thông tin Chỉ số này đặc biệt hữu ích trong việc xem xét khả năng kết nối và điều phối các quan hệ giữa các nút khác nhau trong hệ thống mạng xã hội hoặc mạng lưới thông tin Trong đó, độ đo betweenness centrality của một nút u, ký hiệu là C(u), phản ánh khả năng điều phối, kiểm soát hoặc trung gian của nút đó trong toàn bộ cấu trúc mạng.

Khả năng u tham gia vào mei liên lạc hay các đưbng đi giữa s và t được tính như sau:

Trong đV: σ st (u): se đưbng đi ngcn nhất giữa và cV chứa s t u (s≠u≠ t) σ st : tổng se đưbng ngcn nhất giữa và s t (s ≠ u ≠ t)

Công thức tính Betweenness Centrality c_a đ†nh u:

Cho đồ thị G = (V, E) cV n đ†nh:

ĐỘ ĐO TRUNG TÂM (CENTRAILITY MEASURES) & TẦM ẢNH HƯỞNG (KEY PLAYERS)

Degree centrality

Degree centrality c_a một đ†nh chính là tổng se các liên kết tới đ†nh đV trong đồ thị (tổng se cạnh kU c_a một đ†nh).

Trưbng hợp đồ thị cV hướng, degree centrality được tính bởi 2 giá trị: in-degree và out-degree.

In-degree: tổng se liên kết tT các node khác đến node đang xét.

Out-degree: tổng se liên kết tT node đang xét đến các node khác.

Ta cV công thức tổng quát:

Trong đV: u: đ†nh đang xét

E: tập cạnh: n: se đ†nh c_a đồ thị

Degree centrality được dùng đX xác định node nào cV thX lan truyUn thông tin nhanh, cV khả năng gây ảnh hưởng trực tiếp đến các node xung quanh

Một thực thX cV giá trị degree centrality cao :

Là ngưbi hoạt động tích cực hoặc nổi tiếng nhất

Là một đru nei quan trọng

CV một vị trí thuận lợi

Betweenness centrality

Betweenness Centrality (cₐ) là đo lường mức độ trung tâm của một đỉnh trong mạng, được tính bằng tổng số các tuyến đường ngắn nhất đi qua đỉnh đó chia cho tổng số các tuyến đường ngắn nhất toàn mạng Chỉ số này giúp xác định khả năng của một nút trong việc kết nối và điều phối quan hệ giữa các nút khác trong mạng Trong đó, ký hiệu của bệnh trung tâm này là C(u), phản ánh tầm ảnh hưởng của nút u trong cấu trúc mạng.

Khả năng u tham gia vào mei liên lạc hay các đưbng đi giữa s và t được tính như sau:

Trong đV: σ st (u): se đưbng đi ngcn nhất giữa và cV chứa s t u (s≠u≠ t) σ st : tổng se đưbng ngcn nhất giữa và s t (s ≠ u ≠ t)

Công thức tính Betweenness Centrality c_a đ†nh u:

Cho đồ thị G = (V, E) cV n đ†nh:

Một node cV độ đo Betweenness Centrality càng cao tha:

Giữ một vị trí đặc biệt quan trọng trong mạng là yếu tố quyết định đến độ ổn định và khả năng kết nối của toàn bộ hệ thống Một node có ảnh hưởng lớn có thể gây ra sự tan rã cấu trúc của mạng khi bị loại bỏ, dẫn đến việc các node còn lại không còn khả năng trao đổi thông tin liên lạc hiệu quả nữa Điều này nhấn mạnh tầm quan trọng của việc bảo vệ và duy trì các node trung tâm nhằm đảm bảo mạng hoạt động thông suốt và bền vững.

Closeness centrality

Closeness centrality là độ đo khoảng cách tT một đ†nh đến các đ†nh còn lại trong đồ thị.

Cách 1: Closeness centrality được tính bằng trị nghịch đảo c_a tổng se khoảng cách ngcn nhất tT một đ†nh đến tất cả các đ†nh còn lại c_a đồ thị.

Trong đV: d(u,v) là đưbng đi ngcn nhất tT u tới v

Cách 2:Closeness centrality được tính bằng banh quân c_a tổng se khoảng cách ngcn nhất tT một đ†nh đến tất cả các đ†nh còn lại.

Trong đV: d(u,v) là đưbng đi ngcn nhất tT u tới v

Một thực thX cV giá trị closeness centrality tet nhất(cao nhất):

CV thX truy xuất nhanh chVng đến các thực thX khác trong mạng

CV một đưbng đi ngcn nhất đến nhiUu thực thX khác.

Eigenvector

Eigenvector cho biết mức độ kết nei c_a nút đV với các nút được kết nei dày đặc khác. Cách tính eigenvector [x]:

Gọi A là ma trận được tạo ra tT đồ thị G = (V, E)

Tam eigenvalue λ bằng cách giải det (A-λI) = 0

Thay λ vTa tam được vào A-λI = B

Giải: B x [x]=[0] Ta tam được eigenvector [x]

Ss dfng công thức: AD x = x -1

Tiến hành chạy vòng lặp: AD -1 x =xi-1 i cho đến khi x = x tha dTng.i-1 i

Pagerank

Page Rank (thứ hạng trang web): Xếp hạng trang fanpage dựa theo mức độ thưbng xuyên c_a user nhấp vào một đưbng dẫn (tự nhiên) và tới trang fanpage.

Công thức tính pagerank cho node A:

Trong đV: d: là hệ se giảm chấn (damping factor)

PR(T) : t† lệ trước c_a node trỏ tới A

C(T): se node mà node T trỏ đi

6 T?nh toán các thuâ :t toán và so sánh b*ng python

The article discusses how to calculate degree centrality in a network using Python It begins by computing the degree centrality with `nx.degree_centrality()` The centrality scores are then sorted in descending order to identify the most influential nodes The sorted data is converted into a pandas DataFrame with columns for 'node' and 'degree_centrality,' facilitating analysis and visualization of key nodes within the network.

Betweenness centrality in Python can be computed using the `nx.betweenness_centrality()` function, which measures the importance of nodes within a network The function offers parameters like `k`, `normalized`, `weight`, `endpoints`, and `seed` to customize the calculation After computing, the results are sorted in descending order based on centrality values using the `sorted()` function with a custom sorting key The sorted data is then converted into a pandas DataFrame for easy analysis, containing columns such as 'node' and 'betweenness_centrality' This approach enables efficient identification of key nodes within a network based on their betweenness centrality scores.

Closeness centrality is calculated using the NetworkX library with the function nx.closeness_centrality, which measures how close each node is to all others in the network The results are sorted in descending order to identify the most central nodes using Python’s sorted function These top nodes are then organized into a DataFrame for better analysis, providing key insights into influential nodes within the network This process enhances network analysis by efficiently pinpointing critical nodes using closeness centrality metrics.

Eigenvector centrality measures the influence of nodes within a network, calculated using NetworkX's `nx.eigenvector_centrality()` function with parameters such as maximum iterations set to 100 and a tolerance of 1e-06 The eigenvector centrality scores are then sorted in descending order to identify the most influential nodes Finally, the results are organized into a pandas DataFrame with two columns: 'node' and 'eigenvector_centrality', facilitating clear visualization and analysis of node importance within the network.

The article discusses calculating PageRank scores using the PageRank algorithm with a damping factor of 0.85 It involves calling the `nx.pagerank()` function, setting parameters such as `alpha=0.85`, `max_iter=100`, `tol=1e-06`, and `weight='weight'` The resulting PageRank scores are then sorted in descending order based on their values Finally, the sorted results are organized into a DataFrame with columns labeled 'node' and 'pagerank', providing a clear overview of the importance of each node within the network.

 So sánh gila các thuâ R t toán:

This article discusses the comparison of various centrality measures in a network analysis, including degree centrality, betweenness centrality, closeness centrality, eigenvector centrality, and PageRank These metrics are extracted from respective dataframes—deg_cen_df, bet_cen_df, close_cen_df, eig_cen_df, and page_r_df—and consolidated into a single DataFrame called compare_df using pandas This combined DataFrame enables a comprehensive comparison of node importance within the network, facilitating insights into the most influential nodes based on different centrality criteria.

Kết quả: ð Như vâ 9y, key player cho đL thị G là node A.

T?nh toán các thuâ 9t toán và so sánh b%ng python

Cộng đồng là tập hợp các thực thể có những đặc điểm tương tự nhau hoặc chia sẻ cùng một vai trò trong mạng xã hội Khái niệm này nhấn mạnh sự liên kết dựa trên điểm chung về tính chất hoặc chức năng, giúp xây dựng các mối quan hệ và hỗ trợ lẫn nhau trong cộng đồng Hiểu rõ về cộng đồng đóng vai trò quan trọng trong việc thúc đẩy sự tương tác và phát triển bền vững của các nhóm xã hội.

Các mạng xã hội hàng đầu có khả năng phát hiện các cấu trúc cộng đồng và mối liên hệ bên trong cũng như giữa các cộng đồng, giúp hiểu rõ hơn về cách các nhóm kết nối và tương tác Việc phân tích các mối liên hệ này ảnh hưởng như thế nào đến cấu trúc toàn bộ mạng xã hội là yếu tố quan trọng trong nghiên cứu xã hội trực tuyến Những kết quả này cung cấp cái nhìn sâu sắc về cách thức hoạt động của các cộng đồng mạng và tác động của chúng đến sự hình thành và duy trì các mạng lưới xã hội Tối ưu hóa nội dung này theo quy tắc SEO sẽ giúp nâng cao khả năng hiển thị và tiếp cận đối tượng mục tiêu trên các công cụ tìm kiếm.

Edge betweenness:Se đưbng đi ngcn nhất đi qua cạnh đV.

-Tính edge betweenness c_a tất cả các cạnh.

-Loại bỏ cạnh cV edge betweenness cao nhất.

-Lặp lại 2 bước trên cho đến khi biXu đồ được phân chia thành nhiUu vùng như mong muen.

2 Computing Edge Betweenness Efficiently Đei với mỗi nút N trong biXu đồ:

-Thực hiện tam kiếm theo chiUu rộng c_a đồ thị bct đru tT nút N.

-Xác định se lượng đưbng đi ngcn nhất tT N đến mọi nút khác.

-Dựa trên những con se này, xác định lượng luồng tT N đến tất cả các nút khác ss dfng mỗi cạnh.

Chia tổng lưu lượng c_a tất cả các cạnh cho 2

The Girvan-Newman algorithm operates by calculating the betweenness centrality of edges within a graph, progressively removing edges with the highest betweenness centrality to detect community structures This method leverages both the graph's topology and the edge betweenness measure to effectively identify clusters By iteratively removing the most central edges, the algorithm reveals the underlying community divisions, making it a powerful tool for network analysis and community detection.

Cài đă Yt thuâ Yt toán:

KHÁM PHÁ CỘNG ĐỒNG(COMMUNITY DETECTION)

Girvan-Newman Algorithm

Edge betweenness:Se đưbng đi ngcn nhất đi qua cạnh đV.

-Tính edge betweenness c_a tất cả các cạnh.

-Loại bỏ cạnh cV edge betweenness cao nhất.

-Lặp lại 2 bước trên cho đến khi biXu đồ được phân chia thành nhiUu vùng như mong muen.

Computing Edge Betweenness Efficiently

Đei với mỗi nút N trong biXu đồ:

-Thực hiện tam kiếm theo chiUu rộng c_a đồ thị bct đru tT nút N.

-Xác định se lượng đưbng đi ngcn nhất tT N đến mọi nút khác.

-Dựa trên những con se này, xác định lượng luồng tT N đến tất cả các nút khác ss dfng mỗi cạnh.

Chia tổng lưu lượng c_a tất cả các cạnh cho 2

The Girvan-Newman algorithm operates by iteratively removing the edges with the highest betweenness centrality from the graph, effectively detecting community structures within the network This method involves utilizing the graph's betweenness centrality to identify and eliminate the most critical edges, revealing distinct communities By sequentially analyzing and removing edges with the highest betweenness centrality, the Girvan-Newman algorithm effectively partitions the network into meaningful communities, making it a powerful tool for community detection in complex networks.

This article demonstrates how to calculate edge betweenness centrality using NetworkX in Python It utilizes the `edge_betweenness_centrality()` function to compute the centrality values for all edges in a graph, storing the results in a list The code identifies the maximum betweenness centrality value among edges and collects all edges sharing this maximum value Finally, it prints the edges with the highest betweenness centrality, highlighting key links within the network that play critical roles in information flow This approach is essential for analyzing network structure and optimizing network robustness.

G5 remove_edge(* keys i [ ]) nx.draw( G5, with_labels True = )

Trong thuật toán phân cụm theo số phần tử cho trước, đồ thị sẽ được chia theo số phần tử xác định (n) Cụ thể, đồ thị ban đầu được chia thành các đồ thị nhỏ hơn liên thông với số phần tử ít hơn hoặc bằng n, giúp tối ưu quá trình phân nhóm dữ liệu một cách hiệu quả và dễ kiểm soát.

-B1:Lâ Yp danh sách S lưu các đồ thị liên thông cV trong G.

Trong quá trình phân tích, nếu danh sách không chứa đồ thị con có số đỉnh lớn hơn n, ta sẽ chuyển sang bước B5 Để đánh giá xem một đồ thị liên thông nhỏ S có phải là thành phần của đồ thị lớn G, cần kiểm tra xem số đỉnh của S có nhỏ hơn hoặc bằng n hay không Nếu đồ thị S có số đỉnh lớn hơn n, ta sẽ thực hiện thuật toán Girvan-Newman để phân tích cấu trúc các thành phần trong đồ thị lớn G Điều này giúp xác định các cộng đồng và cấu trúc liên kết trong mạng lưới một cách chính xác và hiệu quả.

-B4:Câ Yp nhâ Yt lại danh sách S Sau đV, quay lại bước 2.

Cài đă Yt thuâ Yt toán: def cond( list a , ): for i in list : if(i > a): return True return False devide_val=4 # gia tr s ph n t (n) i ô â ư

This article discusses a method for analyzing connected components in a graph, where subgraphs are created and copied for processing It involves calculating the length of each component and iteratively dividing the graph based on a specified division value The process utilizes edge betweenness centrality to identify critical edges for removal, highlighting the most influential edges with the highest centrality scores The approach includes selecting and removing edges with maximum centrality values, updating the graph accordingly, and logging the edges targeted for removal for further analysis This technique is essential for understanding the structure and vulnerability points within complex networks, aiding in network optimization and security assessments.

[ S = G6 subgraph( ) copy() c for c in nx connected_components( G6 ) ] len_S =[len( )for m m in ] S nx.draw( G6, with_labels True = )

Tiêu đề	Seminar môn học mạng xã hội phân tích và khai phá dữ liệu mạng xã hội bằng ngôn ngữ python
Tác giả	Lê Tuấn Cường
Người hướng dẫn	Thái Bảo Trân
Trường học	Trường Đại Học Công Nghệ Thông Tin - Đại Học Quốc Gia TP HCM
Chuyên ngành	Mạng Xã Hội Phân Tích Và Khai Phá Dữ Liệu Mạng Xã Hội
Thể loại	seminar
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	31
Dung lượng	3,12 MB