Lý thuyết đồ thị cung cấp một tập hợp các khái niệm trừu tượng và phương pháp phân tích của đồ thị.Sự kết hợp những điều này với các công cụ phân tích khác và với phương pháp phát triển
Trang 1Lời nói đầu
Với nhu cầu ngày càng lớn về lưu trữ và xử lý thông tin, dường như cơ sử dữ liệu quan
hệ tỏ ra khó đáp ứng được nhu cầu xử lý nhanh trong một kho dữ liệu khổng lồ Chính vì nhu cầu đó, cơ sở dữ liệu đồ thị ra đời Dữ liệu được lưu trữ dạng đồ thì, làm tăng tính mêm dẻo và linh hoạt trong việc truy xuất dữ liệu
Ứng dụng rõ rệt nhất của dữ liệu đồ thì là áp dụng trong các mạng xã hội, một kiểu mô hình hóa xã hội thực vào một kiểu quan hệ ảo trên mạng internet Trên đó, cũng có các mối quan hệ cha-con, đồng nghiệp, bạn bè, người yêu……
Bài tiểu luận ngắn ngủi này trình bày khái quát về phân tích các đặc tính của một mạng
xã hội và nhấn mạnh đến vấn đề tìm Key player, nút đóng vai trò quan trọng trong mạng
xã hội
Bài báo cáo gồm hai phần chính.
Phần một: Phân tích các đặc tính của một mạng xã hội
Phần hai: Các vấn đề phát sinh trong việc tìm key player
Xin chân thành cảm ơn (thầy) PGS.TS Đỗ Phúc, GV trực tiếp hướng dẫn em hoàn thành bài tiểu luận này, do thời gian ngắn ngủi, bài viết còn sơ xài và còn nhiều thiếu xót, mong độc giả đóng góp để tác giả sửa chữa những thiếu xót đó Mọi đóng góp xin gửi về email: tamsps@hotmail.com
Trang 2Phân tích mạng xã hội và vấn đề key player
Mục lục
I KHÁI QUÁT PHÂN TÍCH MẠNG XÃ HỘI 5
I.1 Khoa học xã hội 5
I.2 Phạm vi ứng dụng 5
I.3 Ứng dụng thực tế 6
I.4 Tại sao và khi nào dung SNA 7
I.5 Biểu diễn mạng xã hội bằng đồ thị 7
II KEY PLAYER VÀ VẤN ĐỀ KEY PLAYER 9
II.1 Các khái niệm liên quan 9
II.1.1 Degree centrality: 9
II.1.2 Đường đi và đường đi ngắn nhất 9
II.1.3 Betweenesscentrality 11
II.1.4 Closeness centrality 11
II.1.5 Eigenvector centrality 12
II.2 Tìm tập hợp Key Player 14
II.2.1 Định nghĩa 14
II.2.2 Phương pháp tiếp cận trung tâm 15
II.2.3 Thiết kế vấn đề : 16
II.2.4 Lựa Chọn Nhóm Vấn Đề 16
II.2.5 Lựa chọn tập KP 17
II.2.6 Thực nghiệm 18
Trang 3NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Trang 4
Phân tích mạng xã hội và vấn đề key player
KHÁI QUÁT PHÂN TÍCH MẠNG XÃ HỘI
(Social Network Analysis - SNA)
VÀ VẤN ĐỀ KEY PLAYER
Mở đầu
SNA có nguồn gốc là khoa học xã hội và liên quan đến cả hai lĩnh vực của phân ích mạng và lý thuyết đồ thị Mạng lưới phân tích liên quan đến việc xây dựng và đưa ra giải pháp cho những vấn đề mà có một cấu trúc mạng, chẳng hạn cấu trúc thường được mô hình hóa trong một đồ thị (xem cấu trúc vòng tròn bên dưới)
Trang 5Lý thuyết đồ thị cung cấp một tập hợp các khái niệm trừu tượng và phương pháp phân tích của đồ thị.Sự kết hợp những điều này với các công cụ phân tích khác và với phương pháp phát triển đặc biệt để hiển thị và phân tích của các mạng xã hội (với những mạng xã hội khác), Chúng ta gọi những hình thứ cơ sở đó là phương pháp SNA.
Nhưng SNA không chỉ là một phương pháp luận, nó là một quan điểm độc đáo và thú vịđể giải thích chức năng xã hội là gì Thay vì tập trung vào cá nhân và các thuộc tính của
họ, hoặc cấu trúc xã hội vĩ mô, trung tâm về quan hệ giữa các cá nhân, nhóm, hoặc tổ chức
xã hội
I.1 Khoa học xã hội
Nghiên cứu xã hội từ góc độ mạng là nghiên cứu những cá nhân trong một mạng lưới các quan hệ và tìm kiếm lời giải thích cho hành vi xã hội trong cấu trúc của các mạng này hơn
là trong các cá nhân một mình ‘Quan điểm mạng’ này trở nên ngày càng có liên quan trong một xã hội Manuel Castellshas gọi là các mạng xã hội SNA có một lịch sử lâu dài trong khoa học xã hội, mặc dù phần lớn các công việc của nó có cũng đến từ các nhà toán học, vật lý, nhà sinh vật học và các nhà khoa học máy tính (bởi vì họ cũng ghiên cứu mạnglưới các loại khác nhau)
Ý tưởng rằng về mối quan hệ giữa các mạng trong xã hội không còn mới lạ, Nhờ có SNA
mà viẹcphổ biến rộng rãi dữ liệu sẵn có và tiến bộ trong tính toán và phương pháp luận trở nên dễ dàng hơn
I.2 Phạm vi ứng dụng
Phân tích mạng còn được ứng dụng trong nhiều lĩnh vực vượt ra ngoài khoa học xã hội, mặc dù những tiến bộ lớn nhất nói chung đã liên quan đến việc nghiên cứu cấu trúc được tạo ra bởi con người Các nhà khoa học máy tính thực nghiệm đã sử dụng (và thậm chí pháttriển mới) phương pháp phân tích để nghiên cứu các trang web, lưu lượng truy cập
Internet, phổ biến thông tin, vv Một ví dụ trong cuộc sống là việc sử dụng mạng lưới phân tích để nghiên cứu những chuỗi thức ăn các hệ sinh thái khác nhau
Trang 6Phân tích mạng xã hội và vấn đề key player
Trong ví dụ này, các nhà nghiên cứu đã thu thập đượcmột lượng dữ liệu rất lớn bằng việc liên kết giữa các trang web và họ đã phát hiện ra rằng Web bao gồm một lõi dày đặc liên kết giữa các trang, trong khi hầu hết các trang web khác hoặc là được gắn liên kết hoặc là
đã được gắn liên kết tới nhân đó
I.3 Ứng dụng thực tế
Các doanh nghiệp sử dụng SNA để phân tích và cải thiện luồng thông tin liên lạc trong tổ chức của họ, hoặc với mạng lưới các đối tác và khách hang của họ
Cơ quan thực thi pháp luật (và quân đội) sử dụng SNA để xác định các mạng lưới tội phạm
và khủng bố từ dấu vết của truyền thông mà họ thu thập được, và sau đó xác định các key player trong các mạng này
Những mạng xã hội như Facebook sử dụng các yếu tố cơ bản của SNA để xác định và đề nghị những người bạn tiềm năng dựa vào thông tin về bạn bè của bạn bè (friends of friends)
Trang 7Các tổ chức xã hội sử dụng SNA để khám pháxung đột lợi ích trong các kết nối tiềm ẩn giữacơ quan chính phủ, người dân và các doanh nghiệp
Các nhà khai thác mạng (điện thoại, cáp, điện thoại di động) sử dụngSNA-giống như phương pháp để tối ưu hóa cấu trúc vànăng lực của mạng lưới của họ
I.4 Tại sao và khi nào dung SNA
Khi bạn muốn mô hình hóadữ liệu của bạn trong một dạng mẫu của sự tương tác hoặc các mối liên hệ
Khi bạn muốn theo dõi một đường đi thông tin trong mạng xã hội
Khi bạn làm nghiên cứu định lượng, mặc dù nghiên cứu định tínhtrong mạng cũng có giá trị
Thay vì dựa vào những giả định phổ biến dựa trên vai trò và chức năng của mình, nói là cha, mẹ, giáo viên, công nhân, để xác định vị trí trong mạng xã hội, ta có thể xác định dựa vào phạm vi những hành động và cơ hội dành cho cá nhân Đôi khi phương pháp này lại mang lại kết quả thú vị và đáng ngạc nhiên
Phân tích định lượng của một mạng xã hội có thể giúp bạn xác định các tác nhân(actors) khác nhau của mạng hay key player , người mà bạn có thể tập trung vào khai thác thông tinSNA rõ ràng là cũng rất hữu ích trong việc phân tích SNS, OC và các phương tiện truyền thông xã hội nói chung,để kiểm tra giả thuyết về hành vi trực tuyến và CMC, để xác định nguyên nhânrối loạn các chức năng trong cộng đồng hoặc mạng lưới, và để thúc đẩy sự gắn kết xã hội vàtăng trưởng trong một cộng đồng trực tuyến
I.5 Biểu diễn mạng xã hội bằng đồ thị
Giả sử chúng ta có mô hình như sau, một cuộc nói chuyện giữa 4 người (actors)
Trang 8Phân tích mạng xã hội và vấn đề key player
Hoặc, Mô hình trong đồ thị có hướng
Trang 9II KEY PLAYER VÀ VẤN ĐỀ KEY PLAYER
II.1 Các khái niệm liên quan
II.1.1 Degree centrality:
Bậc của một nút (bán bậc trong hoặc bán bậc ngoài) là số cạnh liên kết tới nút đó Trong một đồ thị vô hướng không có khái niệm bậc vào và bậc ra
Hữu ích trong việc đánh giá mà các nút làtrung tâm để lây lanthông tin và ảnh hưởng đến người khác ngaytrong khu phốcủa họ
II.1.2 Đường đi và đường đi ngắn nhất
Trang 10Phân tích mạng xã hội và vấn đề key player
Một đường đi giữa hai nút là một sự liên tục không tuần hoàn để nối giữa 2 nút
Đường đi ngắn nhất(shortest path) giữa hai nút là con đường kết nối hai nút với số lượng ngắn nhất của các cạnh (cũng được gọi là khoảng cách giữa các nút - distancebetween)Trong hình trên, giữacác nút 1 và 4 có hai con đường ngắn nhấtcó chiều dài 2: {1,2,4} và {1,3,4} Các con đường còn lại là {1,2,3,4}, {1,3,2,4}, {1,2,5,3,4}và {1,3,5,2,4} (đường dài nhất- longest path)
Con đường ngắn hơn (shorter path)được mong đợi khi tốc độgiao tiếp hoặc trao đổi mong muốn
Trang 11II.1.3 Betweenesscentrality
Số đường đi ngắn nhất đi qua một nút trên tất cả con đường ngắn nhất trong mạng
Đôi khi bình thường như vậy màgiá trị cao nhất là 1
Ý nghĩa: Hiển thị những nút có nhiều khả nănglà con đường thông tin liên lạcgiữa các nút khác
Ngoài ra hữu ích trong việc xác định vị trí, nơi mà mạng của ta sẽ phá nếu cắt bỏ nút này.(Nút nào sẽ bị cô lập nếu nút 3 và 5 không xuất hiện?)
II.1.4 Closeness centrality
Trang 12Phân tích mạng xã hội và vấn đề key player
Chiều dài trung bình của tất cả đường đi ngắn nhất từ một nút tới tất cả các nút khác trong mạng (ví dụ như thế nào hoa bia nhiều trung bình phải mất đạt được tất cả các nút khác)Điều này có nghĩa là, nó phải mất bao lâu để đi tới các nút khác từ nút bắt đầu
Hữu ích trong trường hợp mà điều ta quan tâm chính là tốc độ phổ biến thông tin
Tốc độ càng cao khi giá trị càng thấp
II.1.5 Eigenvector centrality
Trang 13Một vector đặc trưng của một nút nó tỷ lệ thuận với tổng của tất cả các vector đặc trưng của tất cả các nút nối trực tiếp tới nó
Nói cách khác, một nút với vector đặc trưng cao được kết nối vớicác nút khác với vector đặc trưng cao
Google rank có cách sắp thế tương tự, những liên kết được đánh dấu thì được liên kết tới những trang có số lượng truy cập cao hơn
Hữu ích trong việc xác định ai là ngườikết nối nhiều nhấttới các kết nối khác
Trang 14Phân tích mạng xã hội và vấn đề key player
Có bao nhiêu người biết người này trong một mạng xã hội
Trong mạng lưới gián điệp: những điệp viên là người mà theo dõi hầu hếtcủa các thông tin bí mật có khả năng chảy không?
Trong mạng lưới quan hệ sinh sản: làm thế nào để nhân giống nhanh chóng từ cá thể này tới phần còn lại
Trong mạng lưới các bài báo trích dẫn: tác giả là ngườitrích dẫn khác cũng được trích dẫn là tác giả?
II.2 Tìm tập hợp Key Player
II.2.1 Đ ị nh nghĩa
Vấn đề key player bao gồm 2 vấn để nhỏ:
1/ (KPP-1) Với một mạng xã hội, tìm thấy một tập hợp các nút k (gọi một tậpkptheo tập thứ tự k), nếu loại bỏ tối đa sẽ làm gián đoạn thông tin liên lạc giữa các nút còn lại
2/(KPP-2) Với một mạng xã hội, tìm một kp của tập thứ tự k để được số kết nốitối đa tới tất cả các nút khác
Một phần của quá trình giải quyết những vấn đề này là cung cấp các khái niệm để dẫn đến các giải pháp khả thi và kết quả hữu ích Tuy nhiên, ta có thể thấy rõ ràng rằng KPP-1 liên quan đến việc phân mảnh một mạng lưới thành các thành phần, hoặc suy ngược lại, làm cho khoảng cách giữa các nút quá lớn để mạng hầu như bị đứt quãng Ngược lại, KPP-2 liên quan đến việc tìm kiếm các nút có thể đạt đến các nút còn lại càng nhiều càng tốt thông qua các liên kết trực tiếp hoặc đường dẫn ngắn
Vấn đề đầu tiên, KPP-1, phát sinh trong một số ngữ cảnh.Một ví dụ điển hình trong bối cảnh y tế công cộng là vấn đề tiêm chủng / kiểm dịch Với một bệnh truyền nhiễm lây
Degree
Betweenness
Closeness
Eigenvector
Trang 15dịch toàn bộ dân số, tập hợp con của các thành viên nên được chủng ngừa / kiểm dịch để tối đa cản trở sự lây lan của nhiễm trùng? Một ví dụ trong bối cảnh quân sự là lựa chọn mục tiêu Với một mạng lưới của những kẻ khủng bố phải phối hợp để gắn kết hiệu quả tùy viên, và cho rằng chỉ có một số nhỏ có thể được can thiệp (ví dụ, bằng cách bắt giữ hoặc mất uy tín), những người thân mà nên được lựa chọn để tối đa làm gián đoạn mạng?
Vấn đề thứ hai, KPP-2, phát sinh trong bối cảnh y tế công cộng khi một cơ quan y tế cần phải chọn một tập hợp nhỏ của các thành viên dân số để sử dụng như là hạt giống cho sự khuếch tán của các hoạt động hoặc thái độ thúc đẩy sức khỏe, chẳng hạn như sử dụng thuốc tẩy để làm sạch kim tiêm Trong bối cảnh quản lý tổ chức, vấn đề xảy ra khi quản lý muốn thực hiện một sáng kiến thay đổi và cần có được một tập hợp nhỏ thông tin từ nhà lãnh trước, có thể thực hiện bằng cách chơi 1 môn thể thao với họ vào cuối tuần Trong bốicảnh quân sự,
Ở cái nhìn đầu tiên, cả hai KPP-1 và KPP-2 sẽ xuất hiện để được giải quyết dễ dàng bằng cách sử dụng một số khái niệm lý thuyết đồ thị, chẳng hạn như cutpoints và cutsets, hoặc thông qua các phương pháp phân tích mạng xã hội, chẳng hạn như tìm kiếm núttrung tâm Tuy nhiên, không một cái nào trong số các phương pháp hiện có là đầy đủ.Bài viết này giảithích tại sao và trình bày một cách tiếp cận mới thiết kế đặc biệt cho các vấn đề chủ chốt
II.2.2 Ph ươ ng pháp ti ế p c ậ n trung tâm
Hướng tiếp cận trung tâm bao gồm việc đo tính trung tâm của mỗi nút trong mạng, sau đó chọn k nút trung tâm nhất kp Khi có nhiều phép đo của sự trung tâm tồn tại, một trong những câu hỏi phát sinh là sử dụng biện pháp nào Đối với KPP-1, chúng ta có thể mong đợi các biện pháp tốt nhất là dựa trên betweenness Ví dụ, biện pháp đo betweenness của Freeman tổng kết tỷ lệ của đường đi ngắn nhất từ một nút khác đi qua một nút cho trước Như vậy, một nút với betweenness cao chịu trách nhiệm để kết nối các cặp nút thông qua con đường tốt nhất, và xóa nút đó nên gây ra nhiều cặp của các nút bị mờ nhạt (nếu không nói là hoàn toàn bị ngắt kết nối)
Đối với KPP-2, chúng ta có thể mong đợi các biện pháp dựa trên mức độ trung tâm và sự gần gũi trung tâm là hữu ích Bậctrung tâm chỉ đơn giản là số lượng các nút có một nút chotrước liền kề với nó Do đó, tùy thuộc vào những mối quan hệ xã hội gì được miêu tả bởi
đồ thị, một nút với bậc cao có thể có khả năng trực tiếp ảnh hưởng đến rất nhiều các nút khác Sự gần gũi trung tâm được định nghĩa là tổng các khoảng cách đo đạc từ một nút cho
Trang 16Phân tích mạng xã hội và vấn đề key player
Các biện pháp trung tâm là những giải pháp chính đáng cho KPP.Tuy nhiên, họ không phải
là tối ưu Có hai vấn đề cơ bản, mà tôi đề cập là thiết kế vấn đề và lựa chọn nhóm vấn đề Trong đó, lựa chọn nhómvấn đề là nghiêm trọng hơn
8
9
10 11
12
Node 1 có bậc trung tâm (degree centrality) cao nhất trên tất cả các biện pháp xem xét, baogồm cả betweenness centrality.Tuy nhiên, xóa nút 1 có hiệu lực tương đối ít trên mạng Khoảng cách giữa các cặp nút nhất định làm tăng, nhưng nó là rõ ràng rằng sự thông tin giữa tất cả các điểm vẫn có thể có phân mảnh Ngược lại, xóa 8 nút, mà không có
betweenness cao nhất, là hiệu quả hơn.Loại bỏ 8 chia đồ thị thành năm mảnh vỡ không có liên quan (thành phần)
Đối với KPP-2, hình ảnh sáng hơn một chút Nếu chúng ta xây dựng KPP-2 về đến hầu hếtcác nút trực tiếp, mức độ trung tâm là tối ưu.Nếu chúng ta xây dựng nó trong điều kiện đạt được các nút trêntới bước m, sau đó chúng ta có thể dễ dàng xác định một biện pháp mới của trung tâm là đếm số lượng các nút trong m khoảng cách của một nút cho trước
II.2.4 L ự a Ch ọ n Nhóm V ấ n Đ ề
Việ c lựa chọn nhóm vấn đề, đã được thảo luậnnhư là nhóm vấn đề trung tâm tại Everett
và Borgatti (1999), đề cập đến thực tế là lựa chọn một tập hợp của các nút, như một toàn thể để giải quyết KPP-1 hoặc KPP-2, Sự khác nhau hoàn toàn từ lựa chọn mộtsố nút riêng biệt như nhau đó là giải pháp tối ưu cho KPP Để bắt đầu, hãy xem xét KPP-1.Hình bên
Trang 17xóa đi và làm phân mảnh mạng Tuy nhiên, xóa i sẽ làm mạng ít phân mảnh hơn xóa h, vì khi xóa h sẽ làm cho r trở thành cô lập Ngược lại, xóa m với h làm số lượng phân mảnh giatăng, nhưng m không hiệu quả như i Nguyên nhân i và h là không tốt như i và m và i và h
là không quan trọng trong vai tròtrong mạng liên lạc của chúng(i và h) - chúng kết nối các bên thứ ba cùng với nhau Trong một nghĩa nào đó, tính trung tâm của một nút là do tính trung tâm của những nút khác, với kết quả là trung tâm của toàn quần thể
II.2.5 L ự a ch ọ n t ậ p KP
Đối với tập KP có kích thước 1, ta có thể chọn các key player bằng cách đơn giản chọn một điểm với số điểm cao nhất trên bất kỳ biện pháp nào Vì vậy,nó có thể được coi là biệnpháp mới của nút trung tâm và được xem là tối ưu hóa cho các vấn đề keyplayer
Đối với bộkpcó kích thước k> 1, không có thủ tục đơn giản để lựa chọn một tập tối ưu Một số thủ tục có thể có giá trị.Ví dụ, với KPP-2, chúng ta bắt đầu bằng cách chọn nút với
số điểm cao nhất của DR Sau đó, với mỗi nút trong số k-1 nút còn lại, chúng ta chọn các