Nguyen và các cộng sự, 2012, [65] đã nghiêncứu bài toán xác định k nguồn phát tán thông tin sai lệch khả nghi nhất từ tậpngười dùng bị kích hoạt bởi thông tin sai lệch cho trước.Bên cạnh
Trang 1Tôi xin cam đoan, những kiến thức trình bày trong luận văn là do tôi tìmhiểu, nghiên cứu và trình bày dưới sự hướng dẫn của PGS.TS Hoàng XuânHuấn Trong quá trình làm luận văn, tôi đã tham khảo các tài liệu có liên quan
và đều trích dẫn nguồn đầy đủ, rõ ràng Những kết quả mới trong luận văn làcủa riêng tôi, không sao chép từ bất kỳ một công trình nào khác Nếu có điều gìkhông trung thực, tôi xin hoàn toàn chịu trách nhiệm
Học viên
Vũ Minh Mạnh
Trang 2Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Hoàng Xuân Huấn,người thầy đã giành nhiều thời gian để hướng dẫn, góp ý giúp tôi hoàn thànhluận văn này Thầy luôn truyền cho tôi cảm hứng, nhiệt huyết nghiên cứu khoahọc, động viên và cho tôi nhiều lời khuyên quý báu.
Tôi cũng xin bày tỏ lòng biết ơn chân thành tới các thầy, cô giáo đã giảng dạytôi trong suốt 2 năm học tại Trường Đại học Công nghệ - Đại học Quốc gia HàNội Mỗi thầy cô đều cho tôi những bài giảng thật hay và bổ ích
Tôi cũng xin gửi lời cảm ơn tới Ban giám đốc Học viện An ninh nhân dân,Lãnh đạo Khoa Công nghệ và An ninh thông tin cùng các anh chị đồng nghiệp
đã tạo mọi điều kiện thuận lợi giúp tôi tham gia và hoàn thành khóa học.Cuối cùng, tôi xin gửi lời biết ơn đến bố mẹ, anh chị trong gia đình, bạn bè,người thân đã luôn ủng hộ, động viên tôi vượt qua những khó khăn trong cuộcsống, để tôi có thể theo đuổi ước mơ và hoài bão của mình
Học viên
Vũ Minh Mạnh
Trang 3MỞ ĐẦU 1
1.1 Giới thiệu chung về mạng xã hội 5
1.1.1 Lịch sử phát triển của mạng xã hội 7
1.1.2 Những tính năng của mạng xã hội 9
1.2 Các đặc trưng cơ bản của mạng xã hội 10
1.2.1 Đặc trưng thế giới nhỏ 10
1.2.2 Đặc trưng tập nhân 11
1.2.3 Phân bố luật lũy thừa 11
1.2.4 Đặc trưng cấu trúc cộng đồng 12
1.2.5 Các đặc trưng khác của mạng xã hội 13
1.3 Một số chủ đề được nghiên cứu trên mạng xã hội 14
1.3.1 Phát hiện cấu trúc cộng đồng trên mạng xã hội 14
1.3.2 Dự đoán liên kết trên mạng xã hội 15
1.3.3 Tính riêng tư trên mạng xã hội 16
1.3.4 Tiến hóa động trên mạng xã hội 16
1.3.5 Khai phá dữ liệu trên mạng xã hội 17
1.3.6 Tối đa hóa ảnh hưởng trên mạng xã hội 18
1.3.7 Phát hiện, giám sát và ngăn ngừa thông tin sai lệch trên mạng xã hội 18
2 THÔNG TIN SAI LỆCH VÀ CÁC MÔ HÌNH LAN TRUYỀN THÔNG TIN SAI LỆCH 20 2.1 Định nghĩa thông tin sai lệch 20
2.2 Mô hình lan truyền thông tin sai lệch 24
2.2.1 Mô hình tầng độc lập 25
2.2.2 Mô hình ngưỡng tuyến tính 26
2.3 Một số hướng nghiên cứu liên quan đến bài toán hạn chế lan truyền thông tin sai lệch trên mạng xã hội trực tuyến 29
Trang 43.1 Phát biểu bài toán 34
3.2 Độ khó của bài toán 39
3.3 Các thuật toán đề xuất giải quyết bài toán MDM 41
3.3.1 Thuật toán tham lam dựa trên hàm f (I) 41
3.3.2 Thuật toán tham lam dựa trên hàm α(v) 43
4 THỰC NGHIỆM 45 4.1 Mục đích thực nghiệm 45
4.2 Dữ liệu tiến hành thực nghiệm 45
4.3 Cài đặt thực nghiệm 46
4.4 Kết quả thực nghiệm 47
4.5 Kết luận và nhận xét 51
Trang 5Từ viết tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt
IC Independent Cascade Mô hình tầng độc lập
MDM Minimize Damage of
Trang 61.1 Một số mạng xã hội tiêu biểu cho phân bố luật lũy thừa 124.1 Dữ liệu thực nghiệm 46
Trang 71.1 Bảng xếp hạng các mạng xã hội theo số lượng người dùng, tháng
1/2017 (đơn vị Triệu người dùng) 6
1.2 Các trang mạng xã hội trên Internet 8
1.3 Đặc trưng thế giới nhỏ của mạng xã hội 11
1.4 Đặc trưng tập nhân của mạng xã hội 12
1.5 Mạng đồng tác giả 13
1.6 Đường kính mạng xã hội Facebook 14
1.7 Mô hình câu lạc bộ karate của Zachary, một trong những mô hình chuẩn cho bài toán phát hiện cấu trúc cộng đồng 14
1.8 Sự tiến hóa của mạng lưới những nhà phát minh làm việc cho Apple trong 6 năm 17
2.1 Một ví dụ quá trình lan truyền thông tin trên mô hình IC 26
2.2 Một ví dụ quá trình lan truyền thông tin trên mô hình LT 28
3.1 Phép dẫn từ bài toán Tập phủ dạng 0 − 1 đến bài toán MDM 40
4.1 Tổng thiệt hại khi ngân sách B thay đổi, d = 6, |S| = 10 48
4.2 Tổng thiệt hại khi ngân sách B thay đổi, d = 6, |S| = 20 49 4.3 Độ giảm thiệt hại khi kích thước nguồn S thay đổi, d = 5, B = 25 50
Trang 8MỞ ĐẦU
Ngày nay, các mạng xã hội trực tuyến đã trở thành một phần không thể thiếutrong cuộc sống của con người, cho phép mỗi chúng ta có thể tạo, chia sẻ và traođổi thông tin, ý tưởng một cách nhanh chóng và dễ dàng hơn bao giờ hết Đốivới nhiều người dùng, các trang mạng xã hội trực tuyến như Facebook, Twitter,Google+ được coi là những kênh tin tức chính Trong nhiều trường hợp, các trangmạng xã hội này còn đưa những tin tức quan trọng trước cả một số phương tiệntruyền thông đại chúng khác như phát thanh, truyền hình vv Ví dụ, tin tức vềtrùm khủng bố Bin Laden bị tiêu diệt lan truyền trên Twitter trước khi Tổngthống Mỹ chính thức thông báo trên các phương tiện truyền thông công cộng [52]hoặc câu chuyện về cái chết của ca sĩ Whitney Houston lan rộng trên Twitter,trước 27 phút so với hãng tin AP (Associated Press) [53] Có thể nói rằng, cáctrang mạng xã hội ngày nay là một trong những nguồn cung cấp thông tin phongphú, đa chiều và là "nơi khám phá tin tức" của nhiều độc giả, đặc biệt là nhữngđộc giả trẻ và phụ nữ, chiếm số đông nhất trong nhóm chọn mạng xã hội để cậpnhật tin tức
Bên cạnh những thông tin tin cậy, chính xác thì những thông tin sai lệch cũnglan truyền rộng rãi trên mạng xã hội một cách dễ dàng Một nhóm nghiên cứuđến từ Đại học Columbia (New York, Mỹ) [23] đã chỉ ra rằng tốc độ lan truyềncủa thông tin sai lệch ngang bằng so với những tin tức chính thống Chính nhữngđiều này đã gây ra những thiệt hại to lớn cho các cá nhân, tổ chức không những
về kinh tế, chính trị mà còn tác động đến tâm lý, cuộc sống con người Gầnđây, diễn đàn Kinh tế thế giới (World Economic Forum, 2014) đã coi sự gia tăngnhanh chóng của thông tin sai lệch trên các phương tiện xã hội trực tuyến làmột trong mười xu hướng hàng đầu mà thế giới phải đối mặt
Trước những thách thức nêu trên, làm thể nào để có thể hạn chế sự lan truyềncủa thông tin sai lệch trên mạng xã hội một cách kịp thời và hiệu quả? là mộtcâu hỏi đang nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học trongthời gian gần đây
Một số nghiên cứu tập trung vào việc nhận dạng thông tin sai lệch và tin đồn(Rumor) như nghiên cứu của Qazvinian, 2011, [6] và Kwwon, 2013, [7]
Một số khác, nghiên cứu vấn đề xác định tập đỉnh là nguồn phát thông tin sai
Trang 9lệch ban đầu Chẳng hạn, Dung T Nguyen và các cộng sự, 2012, [65] đã nghiêncứu bài toán xác định k nguồn phát tán thông tin sai lệch khả nghi nhất từ tậpngười dùng bị kích hoạt bởi thông tin sai lệch cho trước.
Bên cạnh đó, một số tác giả đề xuất giải pháp hạn chế sự lan truyền thông tinsai lệch trên mạng xã hội bằng cách chọn ra một số đỉnh ban đầu để tiêm thôngtin tốt, từ đó lan truyền những thông tin này trên cùng mạng nhằm thuyết phụcnhững người dùng khác tin theo, trong đó sử dụng các mô hình lan truyền thôngtin khác nhau [2–4] Budak và các cộng sự, 2011, [2], đã đưa ra mô hình tầng độclập đa chiến dịch (Multi-Campaign Independent Cascade Model), gồm chiến dịchphổ biến thông tin tốt và chiến dịch phổ biến thông tin sai lệch cùng cạnh tranhvới nhau H Zhang và các cộng sự, 2015, [3], đã nghiên cứu bài toán hạn chế
sự lan truyền thông tin sai lệch dưới mô hình kích hoạt cạnh tranh (CompetitiveActivation Model) Hay như trong nghiên cứu của N P Nguyen và các cộng sự,
2013, [4], đã nghiên cứu bài toán hạn chế thông tin sai lệch dưới hai mô hìnhtầng độc lập (Independent Cascade) và ngưỡng tuyến tính (Linear Threshold),đồng thời đề xuất thuật toán xác định một tập nhỏ nhất các đỉnh có ảnh hưởnglớn nhất, từ đó lan truyền những thông tin tốt nhằm hạn chế ảnh hưởng củathông tin sai lệch
Đặc biệt, ngoài những hướng nghiên cứu kể trên còn một cách tiếp cận kháctrong việc ngăn chặn thông tin sai lệch lan truyền trên mạng xã hội được trìnhbày trong công trình nghiên cứu của H Zhang và các cộng sự, 2016, [1], bằngcách đặt giám sát (Monitor Placement) trên một số đỉnh của đồ thị mạng nhằmngăn chặn thông tin sai lệch lây lan đến những đỉnh khác trong cùng mạng Đặtgiám sát là phương pháp sử dụng các bộ lọc nội dung nhằm phát hiện thông tinsai lệch ở người dùng (đỉnh) được cài đặt và ngăn chặn sự chia sẻ, lan truyềnthông tin sai lệch từ đỉnh này; hoặc trong ngữ cảnh khác có thể hiểu là việcthuyết phục người dùng (đỉnh) không tin theo và lan truyền thông tin sai lệch.Một số công trình nghiên cứu khác gọi phương pháp này với tên gọi đó là phươngpháp tạo miễn dịch (Immunize) cho các đỉnh trong đồ thị mạng xã hội
Đứng trước những nguy cơ mất an toàn, an ninh thông tin trên mạng xã hội
do thông tin sai lệch gây ra, đồng thời thúc đẩy bởi những công trình nghiên cứu
đã nêu ở trên, đặc biệt là nghiên cứu của H Zhang, 2016, [1] đã tạo động lựccho tác giả lựa chọn đề tài "Giảm thiểu tối đa thiệt hại do thông tin sailệch gây ra trên mạng xã hội trực tuyến" làm đề tài luận văn của mình
Trang 10Đóng góp chính của luận văn bao gồm:
- Thứ nhất, đề xuất một mô hình ngưỡng tuyến tính cho bài toán Cực tiểuhóa thiệt hại do thông tin sai lệch gây ra, đồng thời chứng mình bài toánnày thuộc lớp bài toán NP-khó
- Thứ hai, đề xuất hai thuật toán tham lam nhằm giải quyết bài toán đặt ra
- Thứ ba, kết quả thực nghiệm cho thấy ưu điểm nổi trội của hai thuật toán
đề xuất so với các thuật toán thông dụng khác như thuật toán bậc cực đại(Max Degree) và thuật toán ngẫu nhiên (Random) trong việc hạn chế thôngtin sai lệch lan truyền trên mạng
Ngoài phần mở đầu và kết luận, bố cục chính của luận văn gồm bốn chươngnhư sau:
Chương 1: Giới thiệu về mạng xã hội
Chương này giới thiệu tổng quan về mạng xã hội gồm: Định nghĩa mạng xãhội, lịch sử hình thành, phát triển và những đặc trưng cơ bản của mạng xã hội.Đặc biệt, trong chương này trình bày tổng quan một số chủ đề nổi bật liên quanđến mạng xã hội, đã và đang nhận được sự quan tâm nghiên cứu của nhiều họcgiả trong thời gian gần đây
Chương 2: Thông tin sai lệch và các mô hình lan truyền thông tinsai lệch
Chương này tác giả trình bày định nghĩa thông tin sai lệch, những nguy cơ
và hậu quả do thông tin sai lệch gây ra đối với các cá nhân, tổ chức Đồng thời,phân tích cơ chế lan truyền thông tin và những đặc tính của hai mô hình lantruyền thông tin đang được sử dụng rộng rãi bao gồm: Mô hình tầng độc lập
và mô hình ngưỡng tuyến tính Ngoài ra, ở Chương 2 tổng quan một số hướngnghiên cứu liên quan đến bài toán hạn chế lan truyền thông tin sai lệch trênmạng xã hội trực tuyến
Chương 3: Giải pháp giảm thiểu tối đa thiệt hại do thông tin sailệch gây ra trên mạng xã hội trực tuyến
Từ thực trạng đã nêu trong Chương 2 và xuất phát từ những công trìnhnghiên cứu liên quan trước đó, tác giả phát biểu bài toán Cực tiểu hóa thiệt hại
do thông tin sai lệch gây ra trên mạng xã hội trực tuyến, chứng minh bài toánnày thuộc lớp bài toán NP-khó, đồng thời đề xuất thuật toán nhằm giải quyếtbài toán này
Trang 11Chương 4: Thực nghiệm
Mô tả các bước tiến hành và kết quả thực nghiệm nhằm đánh giá hiệu quảcủa thuật toán đề xuất trong việc ngăn chặn sự lan truyền của thông tin sailệch Thực nghiệm tiến hành dựa trên ba bộ dữ liệu là các mạng xã hội thực,bao gồm: Gnutella, CollegeMsg và Email Kết quả thực nghiêm cho thấy, thuậttoán do tác giả đề xuất tốt hơn các thuật toán thông dụng khác như thuật toánbậc cực đại (Max Degree) và thuật toán ngẫu nhiên (Random)
Trang 12Chương 1 GIỚI THIỆU VỀ MẠNG XÃ HỘI
Chương này giới thiệu tổng quan về mạng xã hội bao gồm: Định nghĩa mạng
xã hội, lịch sử hình thành, phát triển và những đặc trưng cơ bản của mạng xãhội Đặc biệt, trong chương này trình bày tổng quan một số chủ đề nổi bật liênquan đến mạng xã hội, đã và đang nhận được sự quan tâm nghiên cứu của nhiềuhọc giả trong thời gian gần đây
1.1 Giới thiệu chung về mạng xã hội
Trong những năm gần đây, cùng với sự phát triển của Web 2.0, các mạng xãhội trực tuyến như Facebook1, Twitter2, Instagram3 ngày càng trở lên phổ biến
và có sự phát triển nhanh chưa từng thấy Theo số liệu thống kê công bố trêntrang Statista4, tính đến tháng 1/2017, Facebook vẫn là mạng xã hội có lượngngười dùng lớn nhất thế giới với hơn 1.87 tỉ người sử dụng, Twitter với 317 triệungười dùng đứng ở vị trí thứ 9 trong bảng xếp hạng
Theo Marin và Wellman [30], mạng xã hội (MXH) là một tập hợp các tácnhân có yếu tố xã hội được kết nối với nhau bởi một hoặc nhiều các quan hệ xãhội
Ngoài ra, MXH còn có những định nghĩa khác: MXH là một cấu trúc xã hộiđược tạo thành từ các nút và các cung mà mỗi nút được liên kết bởi một hoặcnhiều cung khác nhau, thể hiện một mối quan hệ cụ thể [31] Mỗi nút thườngđược gọi là tác nhân, đại diện cho một đối tượng trong mạng xã hội, có thể làmột người, một nhóm người, một tài liệu, một tổ chức hay một quốc gia vv Mỗi cung là một liên kết giữa các nút, biểu diễn mối quan hệ giữa các đối tượng.Liên kết này có thể là mối quan hệ họ hàng, người quen, bạn bè, đồng nghiệp,cũng có thể là các giao dịch, trao đổi tài chính vv Nếu mối quan hệ giữa cácđối tượng là quan hệ qua lại thì có thể biểu diễn bằng một liên kết vô hướng,chẳng hạn nếu người A là đồng nghiệp của người B thì ngược lại người B cũng
1 https://www.facebook.com
2 https://www.twitter.com
3 https://www.instagram.com
4 http://www.statista.com
Trang 13là đồng nghiệp của người A Nếu mối quan hệ này là quan hệ một chiều thì cóthể biểu diễn bằng một liên kết có hướng, ví dụ người A mua hàng của người Bnhưng chưa chắc người B đã mua hàng của người A.
Rõ ràng, khái niệm về MXH không chỉ giới hạn trong trường hợp cụ thể lànhững trang mạng xã hội (Social Network Sites) như WhatsApp, Instagram,Viber vv Các vấn đề của MXH đã được nghiên cứu thường xuyên trong lĩnhvực xã hội học, trước sự ra đời của máy tính và Internet Khi MXH này đượcthiết lập và thi hành bằng các phương tiện truyền thông Internet, nó được hiểu
là MXH trực tuyến (Online Soial Network)
Nhìn từ nhiều phía, MXH trực tuyến là một đại diện tiêu biểu của Web 2.0
mô phỏng các quan hệ xã hội thực MXH trực tuyến tạo ra một hệ thống trênnền Internet kết nối các thành viên cùng sở thích với nhiều mục đích khác nhaukhông phân biệt không gian và thời gian qua những tính năng như kết bạn, chat,e-mail, phim ảnh, voice chat, chia sẻ tập tin, blog và xã luận Những người sửdụng MXH này được gọi là những cư dân mạng Nhờ vào những ưu việt này màMXH trực tuyến đang có tốc độ phát triển chóng mặt ở mọi lứa tuổi, đặc biệt
là ở giới trẻ trên toàn thế giới
Hình 1.1: Bảng xếp hạng các mạng xã hội theo số lượng người dùng, tháng 1/2017 (đơn vị Triệu người dùng)
Trang 141.1.1 Lịch sử phát triển của mạng xã hội
Lịch sử phát triển của MXH luôn đồng hành cùng với sự phát triển củaInternet Từ những email đầu tiên được gửi đi bởi các nhà nghiên cứu Thụy Sĩvào năm 1971 đến những MXH hiện đại như Facebook, Twitter vv Internet vàcác nội dung chia sẻ luôn gắn liền với tính chất cộng đồng Mục tiêu chính củaInternet là tạo phương tiện để con người có thể kết nối, giao tiếp và tương tácvới nhau Tuy nhiên, từ lúc xuất hiện đến nay, mạng xã hội đã trải qua nhiềuthay đổi nhanh chóng cả về nguyên lý làm việc lẫn giao diện đồ họa
Năm 1991, nhà khoa học Tim Berner-Lee thuộc Phòng thí nghiệm vật lý vi
mô châu Âu (CERN) đã đề xuất một giao thức mới để phát tán thông tin Giaothức đính kèm đường dẫn dưới dạng ký tự ẩn dưới những ký tự khác (Link).Cuối cùng hình thành nên giao thức kết nối Internet World Wide Web (WWW).Năm 1994 đánh dấu sự ra đời của Blog cá nhân đầu tiên Justin Hall là sinhviên đại học Swarthmore đã phát triển website mang tên Justin’s Link from theUnderground để kết nối với thế giới bên ngoài Hall đã xây dựng trang web trongsuốt 11 năm và anh được mệnh danh là "cha đẻ của trang blog cá nhân"
Năm 1995 đánh dấu sự ra đời của trang Classmate5 với mục đích hỗ trợ nhữngngười di cư có thể tìm lại bạn bè đã thất lạc của họ Đây là một dịch vụ cộngđồng được tạo ra để giúp tìm lại những bạn học từ thời tiểu học, trung học vàđại học của người dùng
Năm 1997, một chương trình nhắn tin có quảng cáo AOL Instant Messenger6(AIM) đã ra đời, cho phép hàng triệu người có thể trò chuyện thời gian thực vớinhau Trong khoảng thời gian này, trang MXH SixDegree7 được thành lập vớimục đích giao lưu kết bạn dựa theo sở thích
Năm 2000, Jimmy Wales và Larry Sanger sáng lập nên Wikipedia8, bách khoatoàn thư nguồn mở, trực tuyến và có tính cộng tác đầu tiên trên thế giới
Năm 2001, sau vụ khủng bố trung tâm thương mại thế giới vào ngày 11/9/2001
đã gợi cảm hứng cho Scott Heiferman tìm cách tạo ra trang web Meetup9 nhằmgiúp mọi người có thể kết nối với nhau và thậm chí không cần online Meetup.com
có mục đích duy nhất là tạo điều kiện cho những người có cùng suy nghĩ gặp gỡ,trò truyện, học tập và kết nối Trang web hướng tới mục đích mang mọi người
Trang 15ra khỏi nhà, tham gia vào các mối quan hệ và giao tiếp cùng với những ngườikhác Hiện trang web đã được phổ biến rộng rãi, mỗi tháng có hơn 340.000 hộinhóm tổ chức gặp gỡ, giao tiếp, làm việc, ăn uống và cùng nhau học tập.
Năm 2002, MXH Friendster10 ra đời và trở thành một trào lưu mới tại Hoa
Kỳ với hàng triệu người dùng đăng ký Friendster cho phép người dùng tạo thôngtin cá nhân và kết nối ảo với những người khác Đây là MXH đầu tiên đạt đượchơn 1 triệu người dùng
Kế thừa các bước phát triển của các MXH đi trước, MXH MySpace11 đượcsáng lập và ra đời vào năm 2003 bởi Chris DeWolfe và Tom Andersonra Vớinhiều tính năng mới cho phép người dùng tải các hình ảnh, video do vậy chỉ 1tháng sau khi ra mắt, MySpace nhanh chóng đạt hơn 1 triệu tài khoản đăng ký
Do nắm được các nhu cầu của người dùng, MySpace trở thành MXH đầu tiên cónhiều lượt xem vượt qua cả Google, tuy nhiên sự ra đời của Facebook đã khiếncho Myspace nhanh chóng trở thành dĩ vãng
Năm 2004, Mark Zuckerburg giới thiệu MXH Facebook, đánh dấu bước ngoặtmới cho hệ thống MXH trực tuyến Với nền tảng Facebook Platform hỗ trợ mạnh
mẽ cho các ứng dụng, người dùng có thể tạo ra những ứng dụng mới cho cá nhânmình cũng như các thành viên khác Facebook nhanh chóng gặt hái được thànhcông vược bậc, mang lại hàng trăm tính năng mới và trung bình các thành viên
bỏ ra 19 phút trên trang này mỗi ngày
Hình 1.2: Các trang mạng xã hội trên Internet
10 https://www.friendster.org
11 https://www.myspace.org
Trang 16Năm 2005, MXH YouTube12 ra đời, cho phép người dùng tự do đăng tải vàchia sẻ video với gia đình, bạn bè Tiếp sau đó, năm 2006, MXH Twitter ra đời,cho phép mỗi cá nhân có thể truyền đạt thông tin một cách nhanh chóng và dễdàng đến với một nhóm lớn Năm 2011, MXH Google+ ra đời, đây là một MXH
có đầy đủ tính năng của Google Người dùng Google+ đánh giá cao khả năngnhóm các danh sách liên lạc vào các đoạn khác nhau (thường gọi là Vòng) và giaotiếp với nhau qua công cụ chat Video có tên Hangouts Năm 2012, Pinterest13
là MXH hình ảnh đồ họa và đã vượt mức 10 triệu người dùng, phát triển nhanhhơn bất cứ trang web độc lập nào khác
Ngoài những MXH nổi tiếng nêu trên, còn có hàng trăm MXH khác trên toànthế giới: Flickr, WeChat, Sina Weibo, Baidu Tieba vv Ở Việt Nam hiện nay cómột số MXH như: Zing Me, YuMe, Tamtay cũng đã thu hút được nhiều ngườidùng nhiều với mục đích khác nhau
1.1.2 Những tính năng của mạng xã hội
- Tính liên kết cộng đồng: Đây là tính năng nổi bật của MXH trực tuyến chophép mở rộng phạm vi kết nối giữa con người với con người trong một khônggian đa dạng Người sử dụng có thể trở thành bạn của nhau thông qua việcgửi lời mời kết bạn mà không cần gặp gỡ trực tiếp Việc tạo ra các liên kếtnày hình thành một cộng đồng mạng với số lượng thành viên lớn Nhữngngười chia sẻ cùng một mối quan tâm có thể tập hợp lại thành các nhómtrên MXH, thường xuyên giao lưu, chia sẻ trên mạng thông qua việc bìnhluận hay dẫn đến các liên kết trên trang chung của nhóm
- Tính đa phương tiện: Hoạt động theo nguyên lý của web 2.0, MXH có rấtnhiều tiện ích nhờ sự kết hợp giữa các yêu tố văn bản, âm thanh, hình ảnh,hình ảnh động, video vv Sau khi đăng ký mở tài khoản, người dùng có thể
tự do xây dựng một không gian riêng cho bản thân Nhờ những tiện ích vàdịch vụ mà MXH cung cấp, người dùng có thể chia sẻ đường dẫn, tệp âmthanh, hình ảnh, video vv Không những vậy, họ còn có thể tham gia vàocác trò chơi trực tuyến, gửi tin nhắn, trò chuyện trực tuyến với bạn bè từ
đó tạo dựng các mối quan hệ mới trong xã hội ảo
- Tính tương tác: Thể hiện không chỉ ở chỗ thông tin được truyền đi sau đó
12 https://www.youtube.com
13 https://www.pinterest.com
Trang 17được phản hồi từ phía người nhận, mà còn phụ thuộc vào cách người dùng
sử dụng ứng dụng của MXH
- Khả năng truyền tải và lưu trữ thông tin: Một tính năng quan trọng củaMXH giúp thông tin được lan truyền rộng rãi trong một khoảng thời gianngắn Những thành viên trong MXH là một mắt xích để tạo ra mạng lướitruyền tải thông tin, họ có thể tương tác với nhau bất kể khoảng cách vềđịa lý, ngôn ngữ, giới tính, tôn giáo Nếu như trong thế giới thực, chúng taphải gặp nhau để trao đổi, trò chuyện, hay cùng hợp tác thì ngày nay việc
đó thật đơn giản và thuận tiện hơn rất nhiều nhờ MXH
1.2 Các đặc trưng cơ bản của mạng xã hội
và điểm kết thúc Mỗi cá nhân ở điểm khởi đầu được yêu cầu gửi một bức thư cónội dung là thông tin liên lạc của cá nhân cần tìm ở điểm kết thúc tới người mà
họ biết Người nhận được thư sẽ phải chuyển tiếp bức thư tới một người là bạn
bè hoặc người thân của họ mà họ cho rằng người đó có khả năng cao nhất biếtngười cần tìm Cứ như vậy cho đến khi bức thư đến được tay người cần tìm Vàkết quả là 64 trong 296 bức thư đã được chuyển đến đích với số bước trung bìnhkhoảng 5.5 hoặc 6 Do đó, các nhà nghiên cứu kết luận rằng giữa hai người dânbất kỳ ở Hoa Kỳ có thể biết nhau thông qua trung bình khoảng 6 bước
Trên thực tế, người ta đã kiểm chứng được "hiện tượng thế giới nhỏ" (SmallWorld Phenomenon) đúng với hầu hết các MXH nhỏ Đối với các MXH lớn nhưFacebook, khoảng cách trung bình kết nối giữa hai người dùng bất kỳ trên thếgiới là 5.28 bước vào năm 2008 và đến năm 2011 khoảng cách này rút ngắn xuốngcòn 4.74
Trang 18Hình 1.3: Đặc trưng thế giới nhỏ của mạng xã hội
1.2.2 Đặc trưng tập nhân
Cấu trúc và sự vận động của MXH chịu tác động bởi các nút có số lượng lớncác cung kết nối hay các nút có bậc cao Người ta gọi những nút này là nút trungtâm hay nút nhân Phân tích cấu trúc MXH đã chỉ ra rằng, MXH luôn chứa mộtlượng lớn những nút có bậc cao [32] Bao quanh các nút này là các nút có bậcthấp hơn, và quanh những nút có bậc thấp hơn này lại là các nút có bậc thấphơn chúng, cứ như vậy tạo thành một hệ thống phân cấp Các nút nhân có vaitrò quan trọng trong việc kết nối luồng thông tin của toàn mạng Nếu ta chọnmột nút có số bậc lớn và đưa ra khỏi mạng, mạng sẽ phân chia thành các nhóm
cô lập nhau
Một nút mới khi được thêm vào mạng thường có xu hướng kết nối đến nhữngnút có bậc cao, đây gọi là hiện tượng "rich get richer" ("người giàu thường trởlên giàu hơn") Điều này giải thích tại sao trong mạng những công trình khoahọc, các bài báo được tham chiếu nhiều thì lại được nhiều người nghiên cứu vàtham chiếu hay như trong các MXH trực tuyến chúng ta thường có xu hướngkết bạn với những người nổi tiếng vv
1.2.3 Phân bố luật lũy thừa
Sự phân bố bậc của các nút trong mạng được mô tả bởi hàm P (k), hàm nàycho biết xác suất của một nút có bậc là k Phân bố bậc mô tả các các liên kếttrong mạng phân bố như thế nào giữa các nút
Trang 19Hình 1.4: Đặc trưng tập nhân của mạng xã hội
Phân bố bậc của một mạng là tuân theo luật lũy thừa nếu xác suất một nút
có bậc là k tỉ lệ với k−α, với k lớn và α > 1 Hiện nay, hầu hết các MXH đều cóphân bố bậc theo luật lũy thừa [33] Bảng 1.1 liệt kê một số mạng với số mũ α
Metabolic Network 2.2 Protein Interactions 2.4
Bảng 1.1: Một số mạng xã hội tiêu biểu cho phân bố luật lũy thừa
1.2.4 Đặc trưng cấu trúc cộng đồng
Theo Simmel, 1995, thì cộng đồng là một tập các thực thể có những tính chấttương tự nhau và/hoặc cùng đóng một vai trò trong MXH Trong xã hội ngàynay, tồn tại nhiều nhóm cộng đồng khác nhau, chẳng hạn như nhóm bạn bè cócùng sở thích, cộng đồng những nhà khoa học, các câu lạc bộ thể thao vv Sựphát triển của MXH trực tuyến cũng tạo ra nhiều nhóm ảo, hay còn gọi là cáccộng đồng trực tuyến
MXH có một đặc trưng quan trọng đó là cấu trúc cộng đồng, trong mạng đượcphân chia thành các cộng đồng lớn nhỏ khác nhau; bên trong các cộng đồng lớn
Trang 20có những cộng đồng con nhỏ hơn Giữa các nút trong một cộng đồng có mật độkết nối lớn hơn so với các nút bên ngoài.
Hình 1.5: Mạng đồng tác giả
Xét theo tiêu chí cấu trúc, cộng đồng được chia thành hai kiểu: cấu trúc cộngđồng tách rời và cấu trúc cộng đồng chồng chéo Đối với cấu trúc cộng đồngchồng chéo, một nút có thể thuộc nhiều cộng đồng khác nhau Ngược lại, trongcấu trúc cộng đồng tách rời, một nút chỉ thuộc duy nhất một cộng đồng
1.2.5 Các đặc trưng khác của mạng xã hội
Một mạng có đường kínhd nếu mọi cặp nút trong mạng được kết nối với nhaubằng một đường chiều dài tối đa bằngd Leskovec, 2005, [34] đã chỉ ra rằng MXHkhông chỉ có đường kính nhỏ (đặc trưng thế giới nhỏ) mà đường kính mạng còn
co ngắn lại và sau đó giữ ổn định theo thời gian MXH trực tuyến Facebook làmột ví dụ điển hình cho đặc trưng này, năm 2008 đường kính của mạng Facebook
là 5.28, đến năm 2011 đường kính của mạng rút ngắn xuống còn 4.74 và đến thờiđiểm hiện tại là 3.57
Ngoài ra, nghiên cứu của Leskovec cũng chỉ ra rằng, bậc trung bình của cácnút trong mạng tăng theo thời gian do số lượng liên kết tăng "siêu" tuyến tính
so với số lượng nút
Trang 21Hình 1.6: Đường kính mạng xã hội Facebook
1.3 Một số chủ đề được nghiên cứu trên mạng xã hội
1.3.1 Phát hiện cấu trúc cộng đồng trên mạng xã hội
Một vấn đề quan trọng trong phân tích MXH đó là bài toán phát hiện cấutrúc cộng đồng (Community Structure) Mục tiêu của bài toán là từ các MXHcho trước, phát hiện được các cấu trúc cộng đồng nằm trong đó và tìm hiểu mốiliên hệ bên trong các cộng đồng cũng như giữa các cộng đồng với nhau, mối liên
hệ đó ảnh hưởng thế nào đến cấu trúc của toàn MXH
Hình 1.7: Mô hình câu lạc bộ karate của Zachary, một trong những mô hình chuẩn cho bài toán phát hiện cấu trúc cộng đồng
Bài toán phát hiện cấu trúc cộng đồng có liên quan chặt chẽ với các bài toánphân cụm nhằm phát hiện những khu vực mạng có mật độ liên kết dày đặc [35].Việc phát hiện cấu trúc cộng đồng có nhiều ứng dụng cụ thể Chẳng hạn,
Trang 22trong mạng lưới quan hệ giữa khách hàng và sản phẩm trên một website bánhàng trực tuyến như Amazon14, việc xác định các cụm khách hàng có chung sởthích giúp xây dựng hệ thống tư vấn bán hàng hiệu quả Hay trong bài toánphân cụm các Web Client gần nhau về mặt địa lý và có sở thích, thói quen tương
tự nhau giúp cải thiện hiệu suất cung cấp dịch vụ trên World Wide Web, trong
đó mỗi cụm khách hàng được phục vụ bởi một máy chủ chuyên dụng Phát hiệncộng đồng giúp chúng ta hiểu được người dùng và giúp đưa ra góc nhìn về sựtương tác của người dùng trong MXH
Các nghiên cứu về phát hiện cấu trúc cộng đồng điển hình có thể kể đến lànghiên cứu của Newman, 2006, [36], nghiên cứu của Fortunato, 2010, [22] trìnhbày họ thuật toán phân tách Girvan-Newman theo độ trung gian cạnh Girvan-Newman, nghiên cứu của Gregory, 2009, [37] trình bày thuật toán chia đỉnhCONGA, CONGO, gán nhãn COPRA
1.3.2 Dự đoán liên kết trên mạng xã hội
Dự đoán liên kết không chỉ là một nhiệm vụ quan trọng trong phân tích MXH
mà còn ứng dụng trong nhiều lĩnh vực khác nhau như truy hồi thông tin, tinsinh học và thương mại điện tử [35] Trong mạng sinh học như mạng tương tácprotein, mạng trao đổi chất, một liên kết chưa biết giữa hai đỉnh được chứngminh là tồn tại bằng kiến thức lĩnh vực đó hoặc tại phòng thí nghiệm thường
có chi phí cao Thay vào đó, việc dự đoán các liên kết dựa trên các thông tin
và các liên kết đã có rõ ràng sẽ giảm được nhiều công sức và chi phí nếu việc
dự đoán đạt được một độ chính xác đủ lớn Hơn nữa, việc phân tích MXH cũnggặp nhiều khó khăn khi dữ liệu bị thiếu hoặc bị mất, khi đó các thuật toán dựđoán liên kết đóng một vai trò lớn cho bài toán phân tích MXH Dữ liệu xâydựng trên nền các MXH có thể chứa các thông tin không chính xác hay các liênkết giả mạo, các thuật toán dự đoán liên kết có thể giúp phát hiện các liên kếtgiả mạo này [37] Các thuật toán dự đoán liên kết còn giúp dự đoán những mốiquan hệ có thể xuất hiện trong tương lai trong quá trình mở rộng và phát triểncủa mạng Trong MXH trực tuyến, có những liên kết chưa tồn tại nhưng có thểđược gợi ý như một mối quan hệ triển vọng, giúp người dùng tìm kiếm bạn mới
và từ đó làm tăng sự tin tưởng của người dùng với ứng dụng đó
Các nghiên cứu về dự đoán liên kết điển hình có thể kể đến là nghiên cứu
14 https://www.amazon.com
Trang 23của Lu, 2010, [40] và Wu, 2015, [41] trình bày hai nhóm phương pháp dự đoánliên kết theo độ đo tương tự dựa trên cấu trúc Leskovec và Kleinberg, 2010, [39]trong nghiên cứu của mình, đã đưa ra khái niệm liên kết âm và liên kết dương.Trong các mối quan hệ bạn bè, người thân được coi là liên kết dương, còn cácmối quan hệ đối đầu thù địch được coi là liên kết âm Việc nghiên cứu các liênkết âm, liên kết dương có nhiều ứng dụng trong thực tế, ví dụ được ứng dụngtrong hệ thống đánh giá sản phẩm trực tuyến trust/distrust như Epinions15 haySlashdots16.
1.3.3 Tính riêng tư trên mạng xã hội
Một nguy cơ đối với người dùng khi sử dụng MXH là sự rò rỉ thông tin Thôngtin bị rò rỉ ở đây có thể là các thông tin cá nhân của người dùng như: tin nhắn,e-mail, địa chỉ, cơ quan, sở thích, bạn bè vv Đây là những thông tin mà kẻ xấu
có thể lợi dụng để phục vụ cho các mục đích của chúng Chúng có thể dùng cácthông tin này để lừa đảo, gửi spam, phát tán virus vv
Ngoài những thông tin cá nhân, người dùng còn bị lộ lọt những thông tin nộidung bài đăng, nội dung chia sẻ, vị trí người dùng, các thông tin của tổ chức màngười dùng đang tham gia đến những đối tượng không mong muốn chia sẻ Dovậy, bảo vệ tính riêng tư của người dùng trên MXH đang là một vấn đề mới vànhận được sự quan tâm của nhiều nhà nghiên cứu trong thời gian gần đây, mộttrong số đó phải kể đến nghiên cứu của T N Dinh [42], Y Shen [43, 44] vv
1.3.4 Tiến hóa động trên mạng xã hội
MXH luôn có tính động và không ngừng biến đổi theo thời gian bằng cách bổsung hoặc loại bỏ một nút, một liên kết trong mạng [33] Một số thành viên mới
có thể tham gia vào mạng hoặc một số thành viên cũ có thể ngừng tham gia.Ngoài ra, các liên kết mới được tạo ra khi các thành viên tương tác với nhauhoặc một số liên kết cũ mất đi khi các thành viên ngừng tương tác với nhau.Chính những điều này dẫn đến sự thay đổi cấu trúc trong toàn mạng
Đã có nhiều nghiên cứu về phân tích MXH nhưng chỉ trong giai đoạn gầnđây, các nhà nghiên cứu mới chuyển sự chú ý đến quá trình tiến hóa của MXH.Trong đó, nổi lên một số câu hỏi: Các luật chi phối sự tiến hóa của MXH là gì?
Mô hình nào là phù hợp để giải thích sự tiến hóa đó? Một cấu trúc cộng đồng
15 http://www.epinions.com/
16 https://slashdot.org/
Trang 24được sinh ra trong MXH như thế nào, điều gì làm cho một cộng đồng có thể thuhẹp hoặc mở rộng?
Hình 1.8: Sự tiến hóa của mạng lưới những nhà phát minh làm việc cho Apple trong 6 năm
Các nghiên cứu điển hình về tiến hóa động trên MXH có thể kể đến là nghiêncứu của Leskevec [33, 45, 46], và một số nghiên cứu các các học giả khác
1.3.5 Khai phá dữ liệu trên mạng xã hội
Sự phát triển nhanh chóng của các phương tiện truyền thông xã hội (SocialMedia) cung cấp một lượng lớn dữ liệu tạo ra bởi người dùng Theo thống kế, cókhoảng 6 tỉ bức ảnh được đăng tải lên Facebook mỗi tháng, 72 giờ video đượcđăng tải mỗi phút trên YouTube17, hơn 400 triệu tweet mỗi ngày trên Twitter
Do vậy, cần phải có những kỹ thuật khai phá dữ liệu phù hợp để có thể tríchxuất ra những mẫu hữu ích từ lượng lớn dữ liệu phức tạp và thương xuyên thayđổi trong thời gian ngắn
Khai phá dữ liệu trên MXH có nhiều ứng dụng trong các lĩnh vực cụ thể Đầutiên là ứng dụng trong các hệ tư vấn xã hội Hệ tư vấn xã hội là hệ tư vấn nhắmđến lĩnh vực phương tiện xã hội, nguồn dữ liệu sử dụng là dữ liệu phương tiện
xã hội Chẳng hạn như hệ tư vấn những người bạn mới, nhóm mới hữu ích chongười dùng Tiếp theo, ứng dụng trong bài toán phân tích hành vi người dùngtrên MXH, giúp các công ty hiểu hơn về khách hàng của họ nhằm cải thiện chiếndịch tiếp thị, bán có mục tiêu và đưa ra dịch vụ tốt hơn Hiểu biết dự định mua
17 https://www.youtube.com
Trang 25sản phẩm của khách hàng để tìm kiếm sản phẩm khách hàng có khả năng muanhất Ứng dụng trong bài toán giám sát các sự kiện nóng trên MXH; trong bàitoán quản lý thương hiệu, giúp các doanh nghiệp, công ty theo dõi, giám sát mức
độ thâm nhập, sức lan tỏa, ảnh hưởng của thương hiệu trên MXH vv
1.3.6 Tối đa hóa ảnh hưởng trên mạng xã hội
Các MXH trực tuyến như Facebook, Youtube, Twitter vv là phương tiện giúplan truyền thông tin nhanh chóng và thuận tiện, đó là một ưu thế lớn giúp cácdoanh nghiệp tiếp thị sản phẩm dễ dàng hơn, cho phép thông tin và ý tưởng cóthể ảnh hưởng đến một số lượng lớn người dùng khác trong một thời gian ngắn.Bài toán tối đa hóa ảnh hưởng (Influence Maximizing) xuất phát từ nhu cầuthực tiễn khi cần chọn một số lượng k người dùng (gọi là tập hạt giống) để khởitạo quá trình lan truyền hoặc bắt đầu ảnh hưởng sao cho số người bị ảnh hưởngbởi thông tin lan truyền là cực đại Bài toàn này có ý nghĩa lớn trong tiếp thịsản phẩm đối với các hoạt động kinh doanh trên MXH hiện nay hay trong cácchiến dịch quảng cáo, tranh cử tổng thống vv
Kemp, 2003, [47] là người đầu tiên phát biểu bài toán này trên mô hình MXH.Ông đã đưa ra hai mô hình lan truyền thông tin trên MXH đó là: Mô hình ngưỡngtuyến tính (Linear Threshold) và mô hình bậc độc lập (Independent Cascade).Trong hai mô hình này, ông chỉ ra bài toán tối đa hóa ảnh hưởng là bài toánNP-Khó và đưa ra một thuật toán tham lam có tỷ lệ xấp xỉ là 1 − 1/e dựa trêntính chất của hàm mục tiêu là submodular Một số nghiên cứu liên quan đếnvấn đề này có thể kể đến các công trình của Huiyuan Zhang [48], J Zhang [49],Zhuang [50], Goyal [51] vv
1.3.7 Phát hiện, giám sát và ngăn ngừa thông tin sai lệch trên
mạng xã hội
Trong thực tế trên MXH luôn tồn tại những thông tin lệch lạc, không lànhmạnh gây ra ảnh hưởng tiêu cực đến người dùng Hơn nữa với sự lan truyềnthông tin nhanh chóng, nếu những thông tin sai lệch này đến được nhiều ngườidùng thì hậu quả sẽ nghiêm trọng
Đối với những vấn đề mang tính xã hội, những thông tin sai lệch ảnh hưởngtiêu cực đến tâm lý, đời sống tinh thần của người dùng khi chúng được phát tántrên mạng Ví dụ, những thông tin không đúng về sự phát tán một dịch bệnh
Trang 26nguy hiểm ảnh hưởng tiêu cực đến người dùng Nó có thể ảnh hưởng đến tinhthần, thái độ, thậm chí cả kinh tế của khu vực người dùng sinh sống Trong hoạtđộng kinh doanh, những thông tin sai lệch mang tính tiêu tiêu cực về sản phẩmcủa một doanh nghiêp ảnh hưởng xấu đến tài chính, giá bán, doanh thu, và thậmchí là thương hiệu của doanh nghiệp đó Các nghiên cứu liên quan nhằm hạnchế, hoặc khử nhiễm những thông tin sai lệnh, có thể kể đến một số nghiên cứuđiển hình [1, 2, 18, 19, 65].
Trang 27Chương 2 THÔNG TIN SAI LỆCH VÀ CÁC MÔ HÌNH LAN
TRUYỀN THÔNG TIN SAI LỆCH
Thông tin sai lệch lan truyền trên các MXH đang trở thành vấn nạn đối vớinhiều quốc gia Do vậy, hạn chế sự lan truyền của thông tin sai lệch trên MXHtrực tuyến là một trong các chủ đề nhận được sự quan tâm của nhiều nhà nghiêncứu trong thời gian gần đây Để có thể đưa ra giải pháp hiệu quả trong việcngăn chặn sự lan truyền của thông tin sai lệch, chúng ta phải hiểu được cơ chếthông tin sai lệch lan truyền trên MXH Chương này trình bày định nghĩa thôngtin sai lệch, phân tích quá trình lan truyền thông tin sai lệch dưới hai mô hình:
Mô hình tầng độc lập và mô hình ngưỡng tuyến tính, đây là hai mô hình đangđược sử dụng rộng rãi trong các công trình nghiên cứu liên quan đến vấn đề lantruyền thông tin, lan truyền ảnh hưởng trên MXH Đồng thời, chương này cũngtrình bày một số hướng nghiên cứu khác nhau được công bố trong những nămgần đây, trong việc giải quyết bài toán hạn chế lan truyền thông tin sai lệch
2.1 Định nghĩa thông tin sai lệch
MXH được ví như con dao hai lưỡi, ngoài những giá trị tích cực thì trên MXHcũng ẩn chứa nhiều vấn đề bất cập và hiểm họa khó lường đối với người dùng.Trong thực tế, bên cạnh các thông tin bổ ích, có giá trị đối với xã hội thì còn
vô số thông tin, hình ảnh có nội dung xấu độc Tại khoản 1, điều 5 Nghị định72/2013/NĐ-CP ngày 15/7/2013 của Chính phủ đã có quy định chi tiết về việcquản lý, cung cấp, sử dụng dịch vụ Internet và thông tin trên mạng Trong đó
có nhiều hành vi bị nghiêm cấm như lợi dụng việc cung cấp, sử dụng dịch vụInternet và thông tin trên mạng nhằm mục đích chống lại Nhà nước Cộng hòa
xã hội chủ nghĩa Việt Nam; gây phương hại đến an ninh quốc gia, trật tự antoàn xã hội; phá hoại khối đại đoàn kết dân tộc; tuyên truyền chiến tranh, khủngbố; gây hận thù, mâu thuẫn giữa các dân tộc, sắc tộc, tôn giáo Tuyên truyền,kích động bạo lực, dâm ô, đồi trụy, tội ác, tệ nạn xã hội, mê tín dị đoan, pháhoại thuần phong, mỹ tục của dân tộc Tiết lộ bí mật nhà nước, bí mật quân sự,
Trang 28an ninh, kinh tế, đối ngoại và những bí mật khác do pháp luật quy định Đưathông tin xuyên tạc, vu khống, xúc phạm uy tín của tổ chức, danh dự và nhânphẩm của cá nhân Quảng cáo, tuyên truyền, mua bán hàng hóa, dịch vụ bị cấm;truyền bá tác phẩm báo chí, văn học, nghệ thuật, xuất bản phẩm bị cấm Giảmạo tổ chức, cá nhân và phát tán thông tin giả mạo, thông tin sai sự thật xâmhại đến quyền và lợi ích hợp pháp của tổ chức, cá nhân.
Hiện nay có nhiều khái niệm khác nhau về thông tin sai lệch (hay còn gọi làthông tin xấu độc) Theo Đại tá, Nguyễn Đức Thắng - Viện Khoa học xã hộinhân văn quân sự [14], thông tin sai lệch tán phát trên Internet và mạng xã hội
là những thông tin bịa đặt, bóp méo sự thật, xuyên tạc vấn đề, “đổi trắng, thayđen”, làm lẫn lộn đúng sai, thật giả; hoặc có một phần sự thật nhưng được đưatin với dụng ý xấu, phân tích và định hướng dư luận bằng luận điệu sai trái,thù địch Một số thông tin chưa được kiểm chứng, thông tin sai sự thật gây ảnhhưởng đến cá nhân, tổ chức; một số thông tin có những ngôn từ thô tục nội dungphản cảm, thậm chí soi mói, bình phẩm chủ quan chuyện đời tư của người khác,xúc phạm danh dự, nhân phẩm của nhiều cá nhân, gây bức xúc trong dư luận
xã hội; vi phạm chuẩn mực đạo đức, văn hóa, thuần phong mỹ tục; kích độngđồi trụy, bạo lực, bôi nhọ đời tư, vu khống vv
Theo Karlova và Fisher, 2013, [58], thông tin sai lệch (Misinformation) đượchiểu là những thông tin giả mạo, không chính xác Dựa trên mục đích của ngườilan truyền, thông tin sai lệch được phân thành hai loại:
- Thông tin sai lệch lan truyền vô ý : Thông tin sai lệch được tạo ra và lantruyền một cách vô ý, không có chủ đích Mọi người có xu hướng giúp lantruyền những thông tin như vậy do niềm tin với bạn bè, người thân và ảnhhưởng của họ trên MXH
- Thông tin sai lệch lan truyền cố ý : Đó là những tin đồn, tin tức giả mạođược tạo ra và lan truyền một cách cố ý bởi người dùng với mục đích, động
cơ không trong sáng
Như vậy, có thể thấy rằng, mặc dù có những định nghĩa khác nhau về thôngtin sai lệch tuy nhiên về nội hàm khái niệm có những điểm tương đồng nhau Đóđều là những thông tin không đảm bảo tính chính xác hoặc thông tin giả mạo,xuyên tạc vấn đề, xuyên tạc nội dung vv gây ảnh hưởng xấu đến cá nhân và tổchức, đồng thời mỗi quốc gia có những quy định riêng về những hành vị bị cấmkhi đưa thông tin lên mạng và đều được cụ thể hóa trong văn bản pháp luật
Trang 29Một nhóm nghiên cứu đến từ Đại học Columbia (New York, Mỹ) [23] đã chỉ rarằng tốc độ lan truyền của những thông tin sai lệch là ngang bằng so với nhữngtin tức chính thống Chính điều này đã gây ra những thiệt hại to lớn cho các cánhân, tổ chức không những về kinh tế, chính trị mà còn tác động đến tâm lý,cuộc sống con người Chẳng hạn, tin đồn tổng thống Obama bị thương sau hai
vụ nổ tại Nhà trắng năm 2013 đã làm chao đảo thị trường tài chính [54] Hoặc tinđồn về dịch cúm lợn năm 2009 lan truyền trên mạng Twitter đã gây ra sự hoangmang trong xã hội [56] Tin đồn về trận động đất ở tỉnh Ghazni, Iran vào tháng8/2012 đã làm hàng ngàn người hoảng sợ phải rời bỏ nhà cửa của họ [57] Ngày
30 tháng 9 năm 2014, ca nhiễm bệnh Ebola đầu tiên tại Mỹ được phát hiện, tuynhiên ngay sau đó, hàng loạt thông tin không chính xác được lan truyền chóngmặt trên các MXH trực tuyến như: "Ebola có thể lây lan qua không khí, nước
và thực phẩm"; "Ebola lây lan khắp Newark, bãi biển Miami và tại WashingtonD.C" vv Trên MXH Twitter, ước tính mỗi phút có khoảng 6000 tweet liên quanđến dịch Ebola, buộc Bộ Y tế Hoa Kỳ phải ban hành các tuyên bố nhằm xua tannhững tin đồn không đúng sự thật trên Hay như trong cuộc bầu cử tổng thống
Mỹ năm 2016, các nhóm đã được lập ra trên MXH trực tuyến nhằm tạo và lantruyền những tin đồn, hạ uy tín ứng viên Tổng thống Hillary Clinton buộc bàphải bỏ ra nhiều chi phí để giảm bớt những bất lợi này [59]
Ở Việt Nam, trong thời gian gần đây, trên các MXH liên tục đăng tải nhiềuthông tin bịa đặt, sai sự thật, lan truyền rất nhanh và thu hút sự quan tâm củacộng đồng mạng và dư luận xã hội Đáng chú ý nhất là vào cuối năm 2016, tinđồn thất thiệt về việc Ngân hàng Nhà nước sắp đổi tiền đã gây tâm lý hoangmang rất lớn trong dư luận [24] Nhiều người dân đổ xô đi mua vàng và USD
để làm nơi trú ẩn an toàn cho tài sản của mình Dù thông tin thất thiệt này
đã được lãnh đạo Ngân hàng Nhà nước sớm lên tiếng khẳng định là không có
cơ sở nhưng nó cũng đã có những tác động tiêu cực lớn đến nền kinh tế khiếngiá USD và vàng tăng cao Vào đầu tháng 12/2016, đã có lúc giá USD chợ đentăng lên mức kỷ lục vượt quá 23.000 đồng/1USD Giá vàng trong nước cũng đingược chiều với giá thế giới Sau đó, với sự lên tiếng kịp thời của cơ quan chứcnăng nên tình hình mới dần được cải thiện và đi vào ổn định Ngày 15/12/2016,Tổng Cục an ninh Bộ Công an bắt giữ được các nghi can Những người này khai
đã lập ra một fanpage trên MXH Facebook với gần 70 nghìn lượt like, liên tụcđăng tải các thông tin bịa đặt liên quan đến việc đổi tiền Do có lượng theo dõi
Trang 30lớn nên thông tin bịa đặt mà trang này đăng tải được chia sẻ và lan truyền rấtnhanh trên mạng.
Cũng trong thời gian trên, tin đồn lệ phí cấp hộ chiếu tăng giá đến 70USD/quyển kể từ ngày 1/1/2017 lan truyền nhanh trên mạng khiến hàng nghìnngười dân đổ xô đến trụ sở cơ quan Quản lý xuất nhập cảnh để làm thủ tục
đề nghị cấp hộ chiếu [25] Điều này khiến cho nhiều trụ sở cấp, đổi hộ chiếu ởcác địa phương trở nên quá tải Để giải quyết tình hình trên, Cục Quản lý xuấtnhập cảnh (Bộ Công an) phải ban hành công văn phản hồi trước thông tin sailệch trên và cho biết nguyên nhân của tin đồn này xuất phát từ sự hiểu nhầm
về lệ phí cấp hộ chiếu phổ thông cho công dân Việt Nam ở trong nước với côngdân ở nước ngoài
Hơn bao giờ hết, làn sóng tin tức giả lan truyền trên MXH với tốc độ chóngmặt và ngày càng diễn biến phức tạp Để ứng phó với vấn nạn này, nhiều nước
đã gấp rút thành lập các cơ quan chống tin tức giả mạo trên mạng, đồng thờihợp tác với các nước có kinh nghiệm trong lĩnh vực này để thực hiện chiến dịchphòng chống tin tức giả mạo Để đảm bảo cho cuộc bầu cử Đức vào tháng 9/2017tới đây diễn ra một cách suôn sẻ, Đức đã lên kế hoạch thành lập một trung tâmchống tin tức giả mạo Ngày 6/4/2017, chính phủ Đức thông qua khoản tiền phạtlên tới 50 triệu Euro đối với các MXH nếu như không nhanh chóng xử lý tin tứcgiả mạo và những phát ngôn gây thù hận Các mạng xã hội như Facebook hayTwitter vv sẽ có 24 giờ đồng hồ để xóa hoặc ngăn chặn các nội dung vi phạmpháp luật sau khi nhận được báo cáo và 7 ngày để hành động đối với các nộidung tiêu cực khác
Gần đây, Indonesia là quốc gia cũng đi theo xu hướng này, ngày 5/1/2017Indonesiasẽ thành lập cơ quan chuyên xử lý nạn tin tức giả mạo lan tràn trênMXH Theo hãng tin AFP, động thái này diễn ra sau khi làn sóng tin tức giảmạo đã gây ra nhiều hoang mang, hỗn loạn với dư luận tại Indonesia, trong đó có
cả những thông tin cho rằng Trung Quốc đang tiến hành một cuộc chiến tranhsinh học tại Indonesia bằng cách tung ra những loại hạt giống ớt nhiễm độc.Diễn đàn Kinh tế thế giới (World Economic Forum, 2014) đã coi sự gia tăngnhanh chóng của thông tin sai lệch trên các phương tiện xã hội trực tuyến làmột trong mười xu hướng hàng đầu mà thế giới phải đối mặt
Xuất phát từ những thực tế nêu trên, tác giả nhận thấy viêc ngăn chặn kịpthời sự lan truyền của thông tin sai lệch trên MXH là một thách thức lớn cần
Trang 31giải quyết nhằm giảm thiểu tối đa những thiệt hai do chúng gây ra đối với ngườidùng, góp phần làm trong sạch môi trường mạng, nâng cao sự tin tưởng củangười dùng đối với những thông tin trên MXH Do vậy, trong luận văn này, tácgiả đề xuất một giải pháp giúp ngăn chặn sự lan truyền của thông tin sai lệchtrên MXH Chi tiết giải pháp sẽ được trình bày trong Chương 3 của luận văn.
2.2 Mô hình lan truyền thông tin sai lệch
Một MXH được biểu diễn bởi một đồ thị có hướng G = (V, E) trong đó:
- V là tập hợp gồm n đỉnh, biểu diễn các cá nhân trong MXH
- E ⊆ V × V là tập hợp gồm m cạnh có hướng, biểu diễn mối quan hệ giữacác cá nhân trong MXH
Do G là đồ thị có hướng nên với mỗi đỉnh u, cạnh (u, v) ∈ E được gọi là cạnh
đi ra từ u, cạnh (v, u) ∈ E được gọi là cạnh đi vào đỉnh u Ta ký hiệu Nout(u) và
Nin(u) tương ứng là tập hợp các đỉnh hàng xóm đi ra và đi vào đỉnh u
Quá trình lan truyền thông tin theo các bước thời gian rời rạc, với thời gian
t = 0, 1, 2, vv Gọi St ⊆ V là tập các đỉnh ở trạng thái kích hoạt tại thời điểm
t S0 là tập hạt giống hay tập nguồn phát thông tin sai lệch ban đầu
Khi có thông tin sai lệch, mỗi đỉnh u ∈ V ở một trong hai trạng thái kích hoạt(active) hoặc không kích hoạt (inactive) với thông tin sai lệch
Tại mỗi bước thời gian t, đỉnh u ở trạng thái kích hoạt nếu u là đỉnh nguồnphát thông tin sai lệch ban đầu (đỉnh khởi tạo quá trình lan truyền thông tinsai lệch) hoặc u nhận được thông tin sai lệch từ các đỉnh hàng xóm ở trạng tháikích hoạt và chấp nhận thông tin này để tiếp tục chia sẻ, lan truyền những thôngtin đó đến những đỉnh khác trong các bước tiếp theo, ngược lại, u ở trạng tháikhông kích hoạt
Hiện nay, có nhiều mô hình lan truyền thông tin khác nhau được nghiên cứu và
đề xuất như: mô hình ngưỡng (Threshold Model) [26], mô hình tầng (CascadingModel) [27], mô hình dịch bệnh (Epidemic Model) [28], mô hình lan truyền ảnhhưởng cạnh tranh (Competitive Influence Diffusion Model) [29] Trong đó hai
mô hình tầng độc lập (Independent Cascade - IC) và mô hình ngưỡng tuyến tính(Linear Threshold - LT) do Kempe, 2003, [47] đề xuất đang được dùng rộng rãitrong nhiều công trình nghiên cứu
Trang 32- Tại thời điểm t ≥ 1, mỗi đỉnh u ∈ (S t−1 \S t−2 ) được kích hoạt ở bước t − 1
có một cơ hội duy nhất để kích hoạt các đỉnh hàng xóm của nó ở trạng tháikhông kích hoạt với xác suất kích hoạt thành công p(u, v) và sự kích hoạtnày là độc lập với các kích hoạt khác Nếu đỉnh ukhông kích hoạt được đỉnh
v ở thời điểm t, nó sẽ không có cơ hội kích hoạt lại v ở các bước tiếp theo.Nếu đỉnh v có nhiều đỉnh hàng xóm cùng kích hoạt tại một thời điểm, cácđỉnh này sẽ kích hoạt v theo thứ tự tùy ý Nếu một đỉnh được kích hoạt, nó
sẽ giữ nguyên trạng thái kích hoạt ở các bước tiếp theo
- Quá trình lan truyền thông tin kết thúc khi không có thêm đỉnh nào đượckích hoạt, tức là St = St−1
Trong hình 2.1 chỉ ra một ví dụ của quá trình lan truyền thông tin trên môhình IC Các đỉnh màu da cam và màu xanh tương ứng biểu diễn các đỉnh ởtrạng thái kích hoạt, và không kích hoạt Cạnh liền màu đỏ từ u đến v biểu diễn
u kích hoạt thành công v, cạnh nét đứt màu xanh từ u đến v biểu diễn u kíchhoạt không thành công v
Tại bước t = 0, hai đỉnh v1, v2 ở trạng thái kích hoạt Ở bước t = 1, v1 kíchhoạt thành công v 5 nhưng thất bại với v 3, trong khi đó v 2 kích hoạt thành công
v3 và v4 nhưng thất bại với v6 Tại bước t = 2, v3 kích hoạt thất bại v6 trongkhi v5 kích hoạt thành công v6 nhưng thất bại với v9 Ở bước t = 3, v6 kích hoạtthất bại v7, đến đây quá trình lan truyền thông tin kết thúc do không có đỉnhnào được kích hoạt thêm
Trang 33Hình 2.1: Một ví dụ quá trình lan truyền thông tin trên mô hình IC
2.2.2 Mô hình ngưỡng tuyến tính
Mô hình IC phù hợp để mô tả quá trình lan truyền thông tin, ở đó một đỉnhđược kích hoạt trực tiếp từ duy nhất một đỉnh khác kề với nó, ví dụ như sự lâylan của Virus Trong thực tế có nhiều trường hợp, một cá nhân thay đổi hành
vi của mình khi chịu sự tác động độc lập của nhiều cá nhân khác trên MXH.Chẳng hạn như trên thị trường có một mẫu Iphone mới ra, một người chưa thực
sự tin tưởng để mua chiếc Iphone này nhưng khi thấy nhiều bạn bè, người thâncủa họ mua chiếc Iphone đó, có thể làm thay đổi suy nghĩ và dẫn đến hành độngngười này chấp nhận mua chiếc Iphone Các nhà khoa học xã hội gọi những hành
vi này là hành vi ngưỡng và Kempe là người đầu tiên đề xuất mô hình ngưỡngtuyến tính (LT) để phản ánh kiểu hành vi này
Trong mô hình LT, mỗi cạnh (u, v) ∈ E được gán một trọng số ảnh hưởng(Influence Weight) w(u, v) ∈ [0, 1] biểu diễn mức độ ảnh hưởng của đỉnh u đếnđỉnh v Nếu (u, v) / ∈ E thì w(u, v) = 0 Các trọng số này được chuẩn hóa sao cho
Trang 34với mỗi đỉnh v, tổng trọng số tất cả các cạnh đi đến đỉnh v lớn nhất bằng 1, tứclà:
để kích hoạt đỉnh v; nếu giá trị θv nhỏ, tức là đỉnh v dễ dàng bị kích hoạt bởimột vài đỉnh hàng xóm Do thiếu thông tin về ngưỡng của mỗi người dùng trongmạng xã hội nên trong mô hình này các giá trị ngưỡng θ v được lựa chọn ngẫunhiên, độc lập phân bố đều trong đoạn [0, 1] và được cập nhật trong suốt quátrình lan truyền, vì vậy mô hình này cũng như mô hình IC thuộc lớp mô hìnhngẫu nhiên Mô hình LT hoạt động theo bước thời gian rời rạc t như sau:
- Tại thời điểmt = 0, tập đỉnh ở trạng thái kích hoạt chính là tập nguồn phátthông tin sai lệch S0
- Tại thời điểm t ≥ 1, với mỗi đỉnh ở trạng thái không kích hoạt v ∈ V \St−1
sẽ bị kích hoạt nếu tổng ảnh hưởng từ những đỉnh hàng xóm kích hoạt tới
biểu diễn tổng trọng số các cạnh này kích hoạt thành công v
Tại bước t = 0, tất cả các đỉnh được khởi tạo ngẫu nhiên ngưỡng θv ∈ [0, 1],hai đỉnh v 1, v 2 là các đỉnh hạt giống Ở bước t = 1, v 1 và v 2 kích hoạt thành công
v3, v1 cũng kích hoạt thành công v5 và v2 kích hoạt thành công v4; tuy nhiên,
v6 lại không bị kích hoạt vì tổng trọng số các cạnh đi đến v6 là 0.3, trong khingưỡng kích hoạt của v6 là 0.7 Tại bước t = 2, các đỉnh hàng xóm đi đến v6 là