Giới thiệu mạng xã hội TwitterĐược thành lập từ năm 2006 Là một trang micro-blog được phát triển bởi Twitter Inc cung cấp 1 dịch vụ mạng miễn phí cho phép người dùng sử dụng gửi và nhậ
Trang 1
Khai phá vai trò trong mạng xã hội
trực tuyến Twitter
Trang 2Nội dung
Giới thiệu về mạng xã hội, mạng xã hội twitter và bài toán khai phá vai trò trong mạng xã hội
Một số nghiên cứu liên quan
Mô hình tìm kiếm vai trò
Trang 3Giới thiệu mạng xã hội
Thuật ngữ “mạng xã hội” lần đầu tiên được Barnes
[Barnes54] đưa ra vào năm 1954
Mạng xã hội là một cấu trúc mang tính xã hội được cấu tạo
từ các nút và các cung trong đó các nút được liên kết với nhau bởi 1 hoặc nhiều cung[BKMNT08]
Mỗi nút (tác nhân) biểu diễn cho 1 đối tượng xã hội: một người, một tài liệu, một tổ chức, 1 quốc gia…
Liên kết giữa các nút có thể là quan hệ họ hàng,bạn bè,
đồng nghiệp…hay các trao đổi tài chính, giao dịch…
Trang 4Giới thiệu mạng xã hội
Mạng xã hội được biểu diễn bởi 2 cấu trúc phổ biến : đồ thị
và ma trận kề Để tính toán và phân tích các liên kết trong mạng, thường ưu tiên áp dụng lý thuyết đồ thị do đồ thị là 1 trong những công cụ hữu hiệu để thể hiện các thông tin xã hội
Các đỉnh được dùng để biểu diễn các nút
Các cạnh dùng để biểu diễn liên kết giữa các nút, các cạnh có thể có hướng hoặc vô hướng và có thể được đánh trọng số.
Trang 5Giới thiệu mạng xã hội Twitter
Được thành lập từ năm 2006
Là một trang micro-blog được phát triển bởi Twitter Inc cung cấp 1 dịch vụ mạng miễn phí cho phép người dùng sử dụng gửi và nhận các tin nhắn (Tweet)
Là mạng xã hội nhắn tin: những mẩu Tweet tối đa 140 ký
tự được gửi cho nhau và hiển thị trên profile cá nhân của mỗi người
Trang 6Giới thiệu mạng xã hội Twitter
Twitter là một công cụ xã hội nhờ tính phổ biến và khả
năng lan truyền: Tổng thống Mỹ Obama đã sử dụng rất tích cực và hiệu quả công cụ này khi chạy đua vào nhà Trắng, được các tạp chí, các ngôi sao dùng để kết nối với khán giả
và người hâm mộ
Có thể biểu diễn dưới dạng mô hình đồ thị
Cung cấp 1 API giúp người sử dụng có thể lấy được các
thông tin về các người dùng trong mạng xã hội như tên truy cập, ID, số lượng bạn bè, số lượng tweet mỗi ngày…
Trang 7Giới thiệu bài toán khai phá vai trò
Một vai trò xã hội là tập hợp những đặc tính mô tả cách
hành xử của mỗi cá nhân và mối liên hệ giữa họ trong một ngữ cảnh nhất định
Mạng xã hội không kế thừa những mối quan hệ trong xã hội thực của các thành viên, tuy nhiên, thông tin về hành vi
và nội dung thông điệp trao đổi trong mạng xã hội cho phép phát hiện các mối quan hệ giữa các thành viên trong mạng bao gồm mối quan hệ trong xã hội thực lẫn mối quan
hệ nảy sinh trong ngữ cảnh mạng xã hội => Bài toán khai phá vai trò ra đời
Trang 8Một số nghiên cứu về khai phá vai trò
Nghiên cứu phát hiện vai trò trong xã hội trực tuyến bắt đầu
trước sự bùng nổ của các trang mạng xã hội trực tuyến
Nolker và cộng sự [NZ05] đã nghiên cứu và phát hiện hai vai trò quan trọng tới sự thành công của cộng đồng: người đứng đầu, người cung cấp kiến thức và duy trì sự gắn kết của nhóm, và
người thúc đẩy – người giữ cho cuộc hội thảo tiếp diễn.
Trong Usenet, một số vai trò đã được nhận dạng: chuyên gia,
người trả lời, người nói chuyện, người hâm mộ, chuyên gia hội thảo, người pha trò và người lừa dối Những vai trò này được xác định thông qua những tương tác với các thành viên khác, hành vi
và mẫu cấu trúc của họ [GD04]
Trang 9Một số nghiên cứu về khai phá vai trò
Gleave và cộng sự [WCKLD11] đề xuất một phương pháp định tính nhằm xác định những tập vai trò tiềm năng ban đầu và những thước đo để phân tích chúng để xác định các vai trò trong Wikipedia .
Chi Wang và cộng sự, 2010 [WHJTZ10] đề xuất mô hình
đồ thị nhân tử xác suất phụ thuộc thời gian
(Time-constrained probabilistic factor graph model: TPFG) để phát hiện quan hệ người hướng dẫn – người được hướng dẫn trong mạng thông tin được hình thành từ Cơ sở dữ liệu DBLP
Trang 10Mô hình tìm kiếm vai trò
Trabado và cộng sự [TS12] đề xuất một kiến trúc cho hệ thống tìm kiếm vai trò từ những người dùng phương tiện xã hội
Các tác giả định nghĩa 14 đặc trưng cần thiết liên quan tới các vai trò và thực nghiệm trên tập dữ liệu Twitter tìm kiếm 4 vai trò là người nổi tiếng (Celebrity), người lãnh đạo quan điểm (Information propagators), người phát kiến (Promoters) và người vận động quảng bá (Early adopters)
Việc xác định vai trò trong mô hình này không phụ thuộc vào mạng một xã hội hay một vai trò cụ thể nào
Trang 11Mô hình tìm kiếm vai trò
Được chia làm 2 pha:
Pha ngoại tuyến: mô hình hóa dữ liệu, đặc trưng hóa cá nhân, chuẩn hóa dữ liệu và phân cụm cá nhân vào các nhóm (sử dụng phương pháp phân cụm K- mean)
Pha trực tuyến, người dùng truy vấn hệ thống và máy tìm kiếm sẽ tiến hành gán vai trò (bằng việc lựa chọn seed và quá trình mở rộng tập seed )
Trang 12Mô hình đề xuất (t)
Pha ngoại tuyến:
Trang 13Mô hình đề xuất (t)
Pha trực tuyến
Trang 14Pha ngoại tuyến
Mô hình hóa dữ liệu: xây dựng đồ thị thực thể quan hệ
3 kiểu thực thể/nút: Con người, tài liệu (tweet) và các tag: một từ được bắt đầu với dấu “#”
5 kiểu cung liên kết:personpublishes, person receives,depicts,Knows,References
Trang 15-Pha ngoại tuyến(t)
Đặc trưng hóa dữ liệu: Định nghĩa 14 đặc trưng cần thiết phản ánh các vai trò
M1: Số lượng người p biết.
M2: Số lượng người biết p.
M3: Mối quan hệ tương tác của p.
M4: Hệ số phân cụm của liên hệ đã biết, nó cho biết mức độ gắn kết những người bạn của p.
M5: Độ sâu truyền thông trung bình của người p Tính toán phạm vi tác động của người p trong mạng (chi tiết sau)
M6: Độ sâu truyền thông tối đa của người p: độ sâu ảnh hưởng cao nhất của p đến trong mạng( Chi tiết sau)
Trang 16Pha ngoại tuyến(t)
Đặc trưng hóa dữ liệu:
M8: Số tài liệu mô tả p.
hiện
M10: Vị trí trung bình mà người p xuất hiện trong dòng truyền thông
M13: Trung bình số lượng các từ trong các tài liệu được p xuất bản.
M14: Tỷ lệ phần trăm từ mà tồn tại trong từ điển của tập tài liệu được p xuất bản Từ điển được sử dụng là từ điển liên quan Lấy số liệu như là một chỉ số về phong cách đăng ký của p.
Trang 17Pha ngoại tuyến(t)
Tính độ sâu truyền thông trung bình (M5) và cực đại
(M6)
B1: Xác định mọi tài liệu được p xuất bản
B2: Xác định được tất cả người bị ảnh hưởng từ tập tài liệu
(bước 1):
B nhận tài liệu của A
Tài liệu của B có tham khảo tài liệu của A
B ghi tên vào một tài liệu nào đó của A
B3: Tính khoảng cách từ p tới mỗi người từ bước 2: số
lượng cung của con đường ngắn nhất giữa i và p theo mối quan hệ biết nhau
B4: Độ sâu trung bình (M5)/ cực đại (M6) khoảng cách
Trang 18Pha ngoại tuyến(t)
Vai trò quan trọng trong Twitter
Người nổi tiếng (Celebrities)
Người của công chúng như Lady Gaga, Taylor Swift: thu hút
fan lớn
Liên kết nhiều nhưng có thể ảnh hưởng ít
M2 và M8
Người lãnh đạo quan điểm (Information propagators)
Dư luận bắt nguồn từ người lãnh đạo tới phần còn lại
Lượng thông tin qua lãnh đạo có thể không nhiều
M1, M5, M6, M11, M14
Người phát kiến (Promoters)
Người quảng bá bắt đầu một tư tưởng/phát kiến mới , những
người khác liên hệ với họ
M5, M6, M9, M10
Người vận động quảng bá (Early adopters)
Trang 19Pha ngoại tuyến (t)
Chuẩn hóa dữ liệu: Sử dụng các phương pháp
Chuẩn hóa tối đa/ tối thiểu [0,1]
Chuẩn hóa logarithm
Chuẩn hóa xếp hạng
Điểm chuẩn
Trang 20Pha trực tuyến
Pha trực tuyến được chia thành 2 bước:
Bước đầu tiên, hệ thống lựa chọn các cụm tốt nhất thỏa mãn các đặc trưng với truy vấn mà người dùng đưa vào để tạo tập seed cho vai trò
Từ những cụm này, hệ thống tính toán được trọng tâm của vai trò và thu thập thêm nhiều cụm theo sau quá trình mở rộng tập seed Quá trình này lặp lại cho tới khi nó hội tụ.Khi quá trình kết thúc, tất cả cá nhân trong tập seed ban đầu và mở rộng sẽ nằm trong một vai trò nào đó.
Trang 21Phương pháp cấu hình và đánh giá
Trang 22Tài liệu tham khảo
[B86] B J Biddle Recent developments in role theory.pages 67{92 Annual Review of Sociology, 1986
[BKMNT08] L Backstrom, R Kumar, C Marlow, J Novak, and A Tomkins Preferential behavior in online groups
In WSDM, pages 117{128 ACM, 2008
[CHBG10] M Cha, H Haddadi, F Benevenuto, and P Gummadi Measuring user influence in twitter: The million follower fallacy In ICWSM, 2010
[GD04] S A Golder and J Donath Social roles in electronic communities In AOIR, 2004.
[JC10] Jiyang Chen, Community Mining-Discovery Communities in Social Network, Thesis, University of Alberta,
[PC11] A Pal and S Counts Identifying topical authorities in microblogs In WSDM, pages 45{54, 2011.
[TS12] Vanesa Junquero-Trabado, David Dominguez-Sal (2012) Building a role search engine for social media WWW
(Companion Volume) 2012: 1051-1060.
[WCKLD11] H T Welser, D Cosley, G Kossinets, A Lin,F Dokshin, G Gay, and M Smith Finding social roles in wikipedia In Proceedings of the 2011 iConference, iConference '11, pages 122{129, New York, NY, USA, 2011 ACM.
[WGFS07] H T Welser, E Gleave, D Fisher, and M Smith.Visualizing the signatures of social roles in online
discussion groups The Journal of Social Structure, 8(2), 2007.
[WHJTZ10] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo (2010) Mining
Trang 23advisor-Xin chân thành cảm ơn!