Đồ án Phân tích mạng xã hội(Facebook) và dùng công cụ Gephi, phân tích mạng xã hội Facebook và hướng dẫn người dùng sử dụng từng bước công cụ Gephi để phân tích mạng xã hội Facebook giúp người dùng có thể tìm ra các đối tượng cần lọc trong group của Facebook
Trang 1TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN 1:
Đề tài: Tìm hiểu về Social network analysis (SNA )
và ứng dụng vào một bài toán thực tế
Người thực hiện: PHAN ĐỨC PHƯƠNG - 81203108
ĐẶNG VIỆT NHÃ TUẤN - 51303203
Lớp : 12050301
13050301
THÀNH PHỐ HỒ CHÍ MINH,NĂM 2015
Trang 2MỤC LỤC
CHƯƠNG 1: TỔNG QUAN 9
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT….……… 10
2.1 Mạng xã hội……….10
2.2 Phân tích mạng xã hội……… ………12
2.3 Lịch sử phân tích mạng xã hội……….15
2.4 Phần mềm phân tích mạng xã hội………16
CHƯƠNG 3: PHÂN TÍCH MẠNG XÃ HỘI VỚI GEPHI 18
3.1 Lấy dữ liệu từ mạng xã hội……… …18
3.2 Các chức năng trong Gephi…… ……….….21
3.2.1 Layout……….21
3.2.2 Statistics ……… ……… 22
3.2.3 Filters……… ……25
3.2.4 Ranking……… 26
3.2.5 Partition……… …30
3.3 Kết luận… … ……… 33
CHƯƠNG 4: KẾT LUẬN VÀ HUỚNG PHÁT TRIỂN………34
4.1 Thuận lợi………34
4.2 Khó khăn………34
4.3 Đóng góp của đề tài………34
4.4 Hướng phát triển…… ……….35
TÀI LIỆU THAM KHẢO……….36
Trang 3CHƯƠNG 1: TỔNG QUAN
Xu hướng giao tiếp của thế kỷ 21 gắn liền với cụm từ “Mạng xã hội” – nơi tìm kiếm vàchia sẻ thông tin vô cùng hiệu quả Với một cái tên hoặc địa chỉ email, mọi người có thểnhanh chóng tìm thấy nhau Một hoạt động của một cá nhân hay một doanh nghiệp có thểđược hưởng ứng với số đông nhiều người Mọi thông tin trên mạng xã hội có thể đượcnhanh chóng lan tỏa dựa vào mối quan hệ kết nối của mọi thành viên trên mạng xã hội.Mạng xã hội trực tuyến (Online Social Network) là nơi kết nối các thành viên có cùng sởthích trên internet không phân biệt không gian và thời gian, thông qua các dịch vụ mạng
xã hội (Social Network Service) Có thể nói, sự ra đời của các site Facebook, Twitter,Myspace, Youtube, Google+, ZingMe… đã khiến cho các mạng xã hội ngày càng trở nênphổ biến hơn Nó ảnh hưởng trực tiếp tới đời sống của chúng ta, nó tác động vừa tíchcực,cũng như tiêu cực vào tùy từng lĩnh vực như:quân sự,chính trị,giáo dục …Theođó,các mục tiêu phân tích,tìm hiểu MXH là cần thiết cho các cá nhân tổ chức muốn khámphá về nó.Hiện nay có rất nhiều công cụ phân tích MXH, chúng cung cấp sự phân tíchsâu sắc hơn về xã hội, trong đó Gephi là 1 công cụ giúp mọi người có thể nghiên cứu vàphân tích dữ liệu 1 cách trực quan Chính vì vậy chúng em đã tiến hành nghiên cứu đề tài:
“Tìm hiểu về Social network analysis (SNA) và ứng dụng vào một bài toán thực tế”
Hình 1.1: Hình ảnh mô tả mạng xã hội
Mục tiêu của đề tài
- Tìm hiểu về mạng xã hội (Social Network)
- Tìm hiểu các phương pháp phân tích mạng xã hội
-Tìm hiểu về phần mềm Gephi để phân tích mạng xã hội
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Trang 42.1 Mạng xã hội
MXH trực tuyến là nơi kết nối các thành viên cùng sở thích trên Internet không phânbiệt không gian và thời gian thông qua các dịch vụ mạng xã hội Email, chat, InternetSharing,… Sự ra đời của các site như Facebook, Twitter, Myspace, Youtube, Google+,Flickr,… đã khiến cho mạng xã hội ngày càng trở nên đa dạng, phổ biến hơn Ngoài ra ta
có thể xem mạng xã hội như một tập hợp các phần tử (nodes), mỗi node có thể là một cáthể, một tập thể, thậm chí là một tổ chức có liên kết, ràng buộc lẫn nhau thông qua cácmối quan hệ xã hội gọi là các liên kết (links)
Hình 2.1:Mô hình mạng xã hội Facebook [-1]
Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang Classmate với mụcđích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees vào năm 1997 với mụcđích giao lưu kết bạn dựa theo sở thích[1]
Năm 2002, Friendster trở thành một trào lưu mới tại Hoa Kỳ với hàng triệu thành viênghi danh, tuy nhiên sự phát triển quá nhanh này cũng là con dao hai lưỡi: server củaFriendster thường bị quá tải mỗi ngày, gây bất bình cho rất nhiều thành viên
Năm 2004, MySpace ra đời với các tính năng như phimảnh (embedded video) và nhanhchóng thu hút hàng chục ngàn thành viên mới mỗi ngày, các thành viên cũ của Friendstercũng lũ lượt chuyển qua MySpace và trong vòng một năm, MySpace trở thành mạng xãhội đầu tiên có nhiều lượt xem hơn cả Google và được tập đoàn News Corporation mualại với giá 580 triệu USD
Trang 5Năm 2006, sự ra đời của Facebook đánh dấu bước ngoặt mới cho hệ thống mạng xã hộitrực tuyến với nền tảng lập trình "Facebook Platform" cho phép thành viên tạo ra nhữngcông cụ (apps) mới cho cá nhân mình cũng như các thành viên khác dùng FacebookPlatform nhanh chóng gặt hái được thành công vược bực, mang lại hàng trăm tính năngmới cho Facebook và đóng góp không nhỏ cho con số trung bình 19 phút mà các thànhviên bỏ ra trên trang này mỗi ngày[2]
Hình 2.2: Lịch sử hình thành mạng xã hội qua từng thời kỳ
Trang 6Bảng số liệu thống kê người dùng năm 2012 [-2]
Facebook Tỉ lệ truy cập cao nhất ở Canada và ở Anh,nhiều nhân vật nổi tiếng 750.000.000 (tài khoảnhoạt động)
Friendster Rất phổ biến ở Philippines, Malaysia, Indonesia và Singapore 115.000.000Twitter Mạng nhắn tin nhanh, blog nhỏ 100.000.000
Flixster Thiết kế dành cho những người yêu phim ảnh 69.000.000Class mate Giúp mọi người tìm lại được những người bạn học cũ 40.000.000BeBo BeBo Được sử dụng rộng rãi nhất ở Ireland 40.000.000Orkut Rất phổ biến ở Brasil và Ấn Độ 37.000.000
2.2 Phân tích mạng xã hội
Định nghĩa
Phân tích mạng xã hội là quá trình điều tra các cấu trúc xã hội thông qua việc sử dụng cácmạng lưới và đồ thị lý thuyết Nó đặc trưng bởi cấu trúc mạng trong các nút (các cá nhân,con người, hay những vật bên trong mạng) và các mối quan hệ (mối quan hệ hay tươngtác) mà chúng kết nối [5].Ví dụ như về các cấu trúc xã hội thường được hình dung thôngqua phân tích mạng xã hội bao gồm các mạng xã hội truyền thông, mạng lưới bạn bè vàngười quen, biểu đồ cộng tác, quan hệ họ hàng, sự lây lan dịch bệnh, và các mối quan hệ
biểu diễn như điểm và mối quan hệ được biểu diễn qua dòng
Phân tích mạng xã hội đã nổi lên như là một kỹ thuật quan trọng trong việc hiện đại xãhội học Nó cũng đã đạt được một sau đây quan trọng trong nhân chủng học, sinh học,nghiên cứu truyền thông, kinh tế, địa lý, lịch sử, khoa học thông tin, nghiên cứu tổ chức,khoa học chính trị, tâm lý xã hội, nghiên cứu phát triển xã hội và bây giờ là nghiên cứungười tiêu dùng
Các khái niệm cơ bản trong tổ chức mạng xã hội
Trang 7Trong phân tích mạng xã hội, ta xem xét mạng xã hội như là đồ thị mạng bao gồm cácđỉnh (nodes), các cạnh (links) Node biểu diễn tập các tác nhân, thực thể, còn link biểudiễn mối quan hệ (relation) giữa các tác nhân, thực thể đó[6]
-Tập đỉnh
Trong phân tích mạng xã hội, nó còn được biết như là tập các tác nhân (actors) haytập thực thể (entities),…Trong mạng xã hội, tập đỉnh đặc trưng cho các cấu trúccủa các mạng xã hội, các thành viên hay các cộng đồng như một nhóm người, một
tổ chức hay các quốc gia, các trang web, các nhãn từ khoá hay các hình ảnh, video,
…
Ví dụ: ta xét tập đỉnh đặc trưng cho các phần tử trong các mạng như sau:
Hình 2.3: Biểu diễn tập đỉnh trong mô hình mạng [11]
_ Tập cạnh
Trang 8Trong MXH, tập cạnh đặc trưng cho mối liên kết (Link) hay mối quan hệgiữa các tập đỉnh trong mạng Mỗi cạnh ta có thể hiểu là một đường đi nối haiđỉnh với nhau Dựa trên cơ sở lý thuyết đồ thị, ta chia tập cạnh ra là 2 loại:-Đối với đồ thị có hướng: Tập cạnh dạng trực tiếp, được biểu diễn bằng đườngthẳng có hướng (xác định hướng theo chiều mũi tên)
-Đối với đồ thị vô hướng: Tập cạnh dạng gián tiếp, được biểu diễn bằng đườngthẳng vô hướng (không có chiều mũi tên)
Hình 2.4: Đồ thị có hướng và đồ thị vô hướng
Ngoài ra, đối với đồ thị, một thành phần quan trọng đó là trọng số của cạnh Trọng số củacạnh được định nghĩa là đơn vị dùng để xác định mức độ hay tần suất liên kết giữa 2 đỉnhtrong đồ thị Đối với các bài toán trong lý thuyết đồ thị, trọng số đóng vai trò quyết định
để giải quyết bài toán tìm đường đi ngắn nhất trong đồ thị
Trang 9Hình 2.5: Sơ đồ mạng xã hội hiển thị các mối quan hệ hữu nghị giữa một tập hợp
của Facebook người dùng
Ứng dụng thực tế
-Phân tích mạng xã hội – SNA - được ứng dụng trong nhiều lĩnh vực khác nhau:
- Các doanh nghiệp sử dụng SNA để phân tích và cải thiện lưu lượng giao tiếp trong tổchức của họ hoặc với các mạng của đối tác và khách hàng
- Cơ quan thực thi pháp luật và quân đội sử dụng SNA để xác định mạng lưới tội phạm
và khủng bố từ các dấu vết của truyền thông mà họ thu thập được và sau đó xác định cácđối tượng chủ chốt trong các mạng này
- Các trang web mạng xã hội như facebook sử dụng các yếu tố cơ bản của SNA để xácđịnh và giới thiệu bạn bè tiềm năng dựa vào quan hệ bạn bè của bạn bè (friends offriends)
- Nhà khai thác mạng điện thoại, điện thoại di động sử dụng phương phương pháp SNA
để tối ưu hóa cấu trúc và năng lực trong mạng lưới của họ
- Các tổ chức xã hội dân sự sử dụng SNA để phát hiện ra xung đột lợi ích trong các kếtnối ẩn giữa các cơ quan chính phủ, vận động hành lang và các doanh nghiệp
2.3 Lịch sử phân tích mạng xã hội
-Vào cuối năm 1890, cả hai Émile Durkheim và Ferdinand Tönnies đã trình bày các ýtưởng của mạng xã hội trong lý thuyết của họ và nghiên cứu các nhóm xã hội.Tönnies lậpluận rằng các nhóm xã hội có thể tồn tại như các mối quan hệ xã hội cá nhân,trực tiếp làcác cá nhân liên kết với người chia sẻ các giá trị niềm tin (Gemeinschaft, Đức, thường
Trang 10được dịch là " cộng đồng ") hoặc liên kết xã hội khách quan( Gesellschaft, Đức, thườngđược dịch là " xã hội ") [7].Durkheim đã đưa ra một lời giải thích phi-cá nhân của thực tế
xã hội, cho rằng hiện tượng xã hội nảy sinh khi các cá nhân tương tác tạo thành một thực
tế rằng không còn có cá thể nào được hạch toán vào các điều khoản của các thuộc tínhcủa các cá nhân [8] Georg Simmel, viết vào đầu thế kỷ XX, chỉ ra bản chất của mạng vàảnh hưởng của nó trên sự tương tác và kiểm tra khả năng tương tác trong mạng lưới lỏnglẻo hơn là 1 nhóm [9]
-Phát hiện quan trọng trong lĩnh vực này được thấy rõ trong những năm 1930 bởi một sốnhóm trong tâm lý học, nhân chủng học, và toán học làm việc độc lập. [10] [11] Trong tâm lýhọc, vào những năm 1930, Jacob L Moreno bắt đầu ghi và phân tích hệ thống tương tác
xã hội trong các nhóm nhỏ, đặc biệt là các lớp học và các nhóm làm việc(xem sociometry ) [12] [13] Trong nhân chủng học, là nền tảng cho lý thuyết mạng xã hội là
lý luận và dân tộc học việc của Bronislaw Malinowski, [13] Alfred Brown, và Claude Lévi-Strauss [14] Một nhóm các nhà nhân chủng học xã hội gắn liềnvới Max Gluckman và học Manchester, bao gồm John A Barnes, [15] J ClydeMitchell và Elizabeth Bott Spillius thường được ghi với thực hiện một số các nghiên cứuthực địa đầu tiên mà từ đó phân tích mạng đã được thực hiện[16] [17], điều tra mạng lướicộng đồng ở miền nam châu Phi, Ấn Độ và Vương quốc Anh [18] đồng thời, nhà nhânchủng học người Anh SF Nadel hệ thống hóa một lý thuyết về cấu trúc xã hội đã ảnhhưởng lớn trong mạng lưới phân tích sau đó [19] trong xã hội học, các (năm 1930) việcđầu tiên của Talcott Parsons thiết lập giai đoạn tiếp cận cho quan hệ để tìm hiểu cấu trúc
Radcliffe-xã hội [20] [21] sau đó, rút ra từ lý thuyết Parsons, công việc của các nhà xã hội học PeterBlau cung cấp một động lực mạnh mẽ cho việc phân tích các mối quan hệ quan hệ củacác đơn vị xã hội với công việc của mình trên lý thuyết trao đổi xã hội [22] [23] [24].Vào năm
1970, số lượng ngày càng tang của các học giả làm việc để kết hợp các bài hát và truyềnthống khác nhau Một nhóm gồm các nhà xã hội học Harrison white và các sinh viên củaông tại Bộ Đại học Ngoài ra có một người hoạt động độc lập trong các bộ phận quan hệ
xã hội Harvard là Charles Tilly, người tập trung vào các mạng xã hội học chính trị, cộngđồng và các phong trào xã hội, và Stanley Milgram, người đã phát triển "sáu cấp độ khácnhau" luận án [25] Mark Granovetter [26] và Barry Wellman [27] là một trong những họcsinh cũ của White, người xây dựng và đấu tranh cho việc phân tích mạng xã hội [28] [29] [30]
2.4 Phần mềm phân tích mạng xã hội
Hiện nay trên thế giới có rất nhiều phần mềm để phân tích mạng xã hội nhưng trong đóngười dùng dánh giá cao nhất là phần mềm Gephi Gephi có giao diện trực quan và dễ tiếp cận với người dùng nên trong đồ án này chúng ta sẽ đi tìm hiểu về phần mềm Gephi
Trang 11Hình 2.6: Logo Gephi
- Gephi giúp chúng ta tương tác để hiện hình hóa và làm nền tảng cho việc nghiên
cứu tất cả các loại mạng và các hệ thống phức tạp, tùy biến và các đồ thị phân cấp.
- Gephi là một công cụ giúp mọi người có thể nghiên cứu và hiểu được đồ thị Giống như Photoshop trong hình ảnh còn Gephi là đối với đồ thị, người dùng tương tác với phép biểu diễn, thao tác cấu trúc, hình dạng và màu sắc để làm sáng
tỏ các thuộc tính ẩn Mục đích của Gephi là để giúp các nhà phân tích dữ liệu đưa
ra các giả thuyết, nghiên cứu các hình mẫu bằng trực giác, các cấu trúc kỳ dị bị cô lập hoặc do lỗi trong quá trình tìm nguồn cung ứng dữ liệu Nó là một công cụ bổ sung thay cho việc thống kê truyền thống, như tư duy trực quan và giao diện tương tác Đây là một phần mềm dành cho việc nghiên cứu phân tích dữ liệu, một mô hình được thể hiện trong việc phân tích một cách trực quan.
Hình 2.7: Giao diện của Gephi
CHƯƠNG 3:PHÂN TÍCH MẠNG XÃ HỘI VỚI GEPHI
Trang 123.1 Lấy dữ liệu từ mạng xã hội
Để phân tích mạng xã hội với Gephi trước hết chúng ta phải lấy được dữ liệu để phântích, Trong đồ án này, chúng ta sẽ lấy dữ liệu từ mạng xã hội Facebook
-Bước 1: Đầu tiên chúng ta gõ từ khóa “netvizz” trong khung search của Facebook.
netvizz là 1 ứng dụng được phát triển trên Facebook để giúp chúng ta lấy được dữ liệu từmạng xã hội này
Hình 3.1: Tìm kiếm Netvizz -Bước 2: Sau khi chọn netvizz sẽ hiện ra 1 trang để chúng ta lựa chọn kiểu dữ liệu cần
lấy gồm các page trên Facebook, nhóm Facebook… Ở đây chúng ta sẽ lựa chọn lấy dữliệu trên 1 nhóm Facebook để phân tích
Hình 3.2: Lựa chọn kiểu dữ liệu
-Bước 3: Khi chúng ta nhấn vào Group data thì sẽ hiện ra 1 trang với các lựa chọn:
Trang 13 Id của nhóm Facebook: Thông thường khi chúng ta vào một nhóm Facebookchúng ta chỉ thấy được đường dẫn và tên nhóm Facebook đó, muốn lấy được Id
của nhóm Facebook đó netvizz cho chúng ta đường link (https://lookup-id.com)
dẫn đến trang web để lấy Id của nhóm đó Chúng ta chỉ cần copy đường dẫn củanhóm Facebook đó và gán vào textbox sau đó nhấn Lookup thì nó sẽ hiện ra chochúng ta Id (dòng chữ số màu đỏ) của nhóm đó Trong đồ án này chúng ta sẽ phântích nhóm Facebook của trường đại học Tôn Đức Thắng “IT TÔN ĐỨCTHẮNG” (https://www.facebook.com/groups/it.tonducthang/?fref=ts)
Hình 3.3: Lấy id người dùng Facebook
Lựa chọn dữ liệu: sẽ có hai lựa chọn cho ta Một là: lấy bao nhiêu status mới nhấtcủa nhóm đó, tối đa là 999 status Hai là: lấy những status trong khoảng thời gianbao nhiêu Ở đây chúng ta sẽ lấy 50 status mới nhất của nhóm
Hình 3.4: Lựa chọn dữ liệu
Sau khi lựa chọn xong chúng ta sẽ được 1 trang như thế này Sau đó chúng tanhấn “get group data” phía dưới cùng để lấy dữ liệu
Trang 14Hình 3.5: Điền thông tin để lấy dữ liệu -Bước 4: Sau khi thực hiện xong Bước 3 netvizz tiếp tục hiện ra cho chúng ta 1 trang
mới Chúng ta sẽ nhấn vào “zip archive” để download dữ liệu về mạng dưới dạng thư mục.zip
Hình 3.6: Trang download dữ liệu -Bước 5: Sau khi giải nén thư mục.zip ở Bước 4 chúng ta sẽ được 5 file Chúng ta chỉ
quan tâm tới file.gdf vì file đó chứa các dữ liệu cần thiết để phân tích Khi chúng ta nhấn
Trang 15vào file.gdf thì Gephi sẽ được mở và tự import các dữ liệu có trong file.gdf vào và hiện racho chúng ta Graph Khi Gephi hiện được ra Graph thì chúng ta đã thành công trong việclấy dữ liệu từ Facebook.
Hình 3.7: Giao diện Gephi sau khi import dữ liệu3.2 Các chức năng trong Gephi
Hình 3.8: Hiển thị Graph theo layout Force Atlas
Trang 163.2.2 Statistics
Chức năng này dùng để thống kê các số liệu có trong Graph Chức năng này nằm ở bênphải phía dưới cùng của Gephi Nó bao gồm nhiều chức năng thống kê khác nhau
Hình 3.9: Statistics
_ Avg Path Length:
Chức năng này dùng để tính chiều dài trung bình của các cạnh trong Graph
Khi nhấn vào sẽ hiện ra 1 bảng với tùy chọn giữa Directed (có hướng) vàUndirected (vô hướng) Chúng ta chọn “Undirected” vì Graph chúng ta đang hiểnthị đã là 1 Directed Graph Đồng thời chúng ta cũng chọn “Normalize Centralities
in [0,1]” để dễ dàng so sánh số liệu