1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận văn Thạc sĩ: Giảm thiểu tối đa thiệt hại do thông tin sai lệch gây ra trên mạng xã hội trực tuyến

37 104 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 1,39 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đề tài được thực hiện nhằm đề xuất một mô hình ngưỡng tuyến tính cho bài toán cực tiểu hóa thiệt hại do thông tin sai lệch gây ra, đồng thời chứng mình bài toán này thuộc lớp bài toán NP-khó; đề xuất hai thuật toán tham lam nhằm giải quyết bài toán đặt ra; kết quả thực nghiệm cho thấy ưu điểm nổi trội của hai thuật toán đề xuất so với các thuật toán thông dụng khác như thuật toán bậc cực đại (Max Degree) và thuật toán ngẫu nhiên (Random) trong việc hạn chế thông tin sai lệch lan truyền trên mạng.

Trang 1

Tôi xin cam đoan, những kiến thức trình bày trong luận văn là do tôi tìmhiểu, nghiên cứu và trình bày dưới sự hướng dẫn của PGS.TS Hoàng XuânHuấn Trong quá trình làm luận văn, tôi đã tham khảo các tài liệu có liên quan

và đều trích dẫn nguồn đầy đủ, rõ ràng Những kết quả mới trong luận văn làcủa riêng tôi, không sao chép từ bất kỳ một công trình nào khác Nếu có điều gìkhông trung thực, tôi xin hoàn toàn chịu trách nhiệm

Học viên

Vũ Minh Mạnh

Trang 2

Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Hoàng Xuân Huấn,người thầy đã giành nhiều thời gian để hướng dẫn, góp ý giúp tôi hoàn thànhluận văn này Thầy luôn truyền cho tôi cảm hứng, nhiệt huyết nghiên cứu khoahọc, động viên và cho tôi nhiều lời khuyên quý báu.

Tôi cũng xin bày tỏ lòng biết ơn chân thành tới các thầy, cô giáo đã giảng dạytôi trong suốt 2 năm học tại Trường Đại học Công nghệ - Đại học Quốc gia HàNội Mỗi thầy cô đều cho tôi những bài giảng thật hay và bổ ích

Tôi cũng xin gửi lời cảm ơn tới Ban giám đốc Học viện An ninh nhân dân,Lãnh đạo Khoa Công nghệ và An ninh thông tin cùng các anh chị đồng nghiệp

đã tạo mọi điều kiện thuận lợi giúp tôi tham gia và hoàn thành khóa học.Cuối cùng, tôi xin gửi lời biết ơn đến bố mẹ, anh chị trong gia đình, bạn bè,người thân đã luôn ủng hộ, động viên tôi vượt qua những khó khăn trong cuộcsống, để tôi có thể theo đuổi ước mơ và hoài bão của mình

Học viên

Vũ Minh Mạnh

Trang 3

MỞ ĐẦU 1

1.1 Giới thiệu chung về mạng xã hội 5

1.1.1 Lịch sử phát triển của mạng xã hội 5

1.1.2 Những tính năng của mạng xã hội 5

1.2 Các đặc trưng cơ bản của mạng xã hội 5

1.2.1 Đặc trưng thế giới nhỏ 5

1.2.2 Đặc trưng tập nhân 6

1.2.3 Phân bố luật lũy thừa 6

1.2.4 Đặc trưng cấu trúc cộng đồng 6

1.2.5 Các đặc trưng khác của mạng xã hội 6

1.3 Một số chủ đề được nghiên cứu trên mạng xã hội 7

1.3.1 Phát hiện cấu trúc cộng đồng trên mạng xã hội 7

1.3.2 Dự đoán liên kết trên mạng xã hội 7

1.3.3 Tính riêng tư trên mạng xã hội 7

1.3.4 Tiến hóa động trên mạng xã hội 7

1.3.5 Khai phá dữ liệu trên mạng xã hội 7

1.3.6 Tối đa hóa ảnh hưởng trên mạng xã hội 7

1.3.7 Phát hiện, giám sát và ngăn ngừa thông tin sai lệch trên mạng xã hội 7

2 THÔNG TIN SAI LỆCH VÀ CÁC MÔ HÌNH LAN TRUYỀN THÔNG TIN SAI LỆCH 8 2.1 Định nghĩa thông tin sai lệch 8

2.2 Mô hình lan truyền thông tin sai lệch 8

2.2.1 Mô hình tầng độc lập 9

2.2.2 Mô hình ngưỡng tuyến tính 9

2.3 Một số hướng nghiên cứu liên quan đến bài toán hạn chế lan truyền thông tin sai lệch trên mạng xã hội trực tuyến 10

Trang 4

3.1 Phát biểu bài toán 12

3.2 Độ khó của bài toán 14

3.3 Các thuật toán đề xuất giải quyết bài toán MDM 14

3.3.1 Thuật toán tham lam dựa trên hàm f (I) 15

3.3.2 Thuật toán tham lam dựa trên hàm α(v) 16

4 THỰC NGHIỆM 18 4.1 Mục đích thực nghiệm 18

4.2 Dữ liệu tiến hành thực nghiệm 18

4.3 Cài đặt thực nghiệm 19

4.4 Kết quả thực nghiệm 19

4.5 Kết luận và nhận xét 23

Trang 5

MỞ ĐẦU

Ngày nay, các mạng xã hội trực tuyến đã trở thành một phần không thể thiếutrong cuộc sống của con người, cho phép mỗi chúng ta có thể tạo, chia sẻ và traođổi thông tin, ý tưởng một cách nhanh chóng và dễ dàng hơn bao giờ hết Đốivới nhiều người dùng, các trang mạng xã hội trực tuyến như Facebook, Twitter,Google+ được coi là những kênh tin tức chính Trong nhiều trường hợp, các trangmạng xã hội này còn đưa những tin tức quan trọng trước cả một số phương tiệntruyền thông đại chúng khác như phát thanh, truyền hình vv Ví dụ, tin tức vềtrùm khủng bố Bin Laden bị tiêu diệt lan truyền trên Twitter trước khi Tổngthống Mỹ chính thức thông báo trên các phương tiện truyền thông công cộng [52]hoặc câu chuyện về cái chết của ca sĩ Whitney Houston lan rộng trên Twitter,trước 27 phút so với hãng tin AP (Associated Press) [53] Có thể nói rằng, cáctrang mạng xã hội ngày nay là một trong những nguồn cung cấp thông tin phongphú, đa chiều và là "nơi khám phá tin tức" của nhiều độc giả, đặc biệt là nhữngđộc giả trẻ và phụ nữ, chiếm số đông nhất trong nhóm chọn mạng xã hội để cậpnhật tin tức

Bên cạnh những thông tin tin cậy, chính xác thì những thông tin sai lệch cũnglan truyền rộng rãi trên mạng xã hội một cách dễ dàng Một nhóm nghiên cứuđến từ Đại học Columbia (New York, Mỹ) [23] đã chỉ ra rằng tốc độ lan truyềncủa thông tin sai lệch ngang bằng so với những tin tức chính thống Chính nhữngđiều này đã gây ra những thiệt hại to lớn cho các cá nhân, tổ chức không những

về kinh tế, chính trị mà còn tác động đến tâm lý, cuộc sống con người Gầnđây, diễn đàn Kinh tế thế giới (World Economic Forum, 2014) đã coi sự gia tăngnhanh chóng của thông tin sai lệch trên các phương tiện xã hội trực tuyến làmột trong mười xu hướng hàng đầu mà thế giới phải đối mặt

Trước những thách thức nêu trên, làm thể nào để có thể hạn chế sự lan truyềncủa thông tin sai lệch trên mạng xã hội một cách kịp thời và hiệu quả? là mộtcâu hỏi đang nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học trongthời gian gần đây

Một số nghiên cứu tập trung vào việc nhận dạng thông tin sai lệch và tin đồn(Rumor) như nghiên cứu của Qazvinian, 2011, [6] và Kwwon, 2013, [7]

Một số khác, nghiên cứu vấn đề xác định tập đỉnh là nguồn phát thông tin sai

Trang 6

lệch ban đầu Chẳng hạn, Dung T Nguyen và các cộng sự, 2012, [65] đã nghiêncứu bài toán xác định k nguồn phát tán thông tin sai lệch khả nghi nhất từ tậpngười dùng bị kích hoạt bởi thông tin sai lệch cho trước.

Bên cạnh đó, một số tác giả đề xuất giải pháp hạn chế sự lan truyền thông tinsai lệch trên mạng xã hội bằng cách chọn ra một số đỉnh ban đầu để tiêm thôngtin tốt, từ đó lan truyền những thông tin này trên cùng mạng nhằm thuyết phụcnhững người dùng khác tin theo, trong đó sử dụng các mô hình lan truyền thôngtin khác nhau [2–4] Budak và các cộng sự, 2011, [2], đã đưa ra mô hình tầng độclập đa chiến dịch (Multi-Campaign Independent Cascade Model), gồm chiến dịchphổ biến thông tin tốt và chiến dịch phổ biến thông tin sai lệch cùng cạnh tranhvới nhau H Zhang và các cộng sự, 2015, [3], đã nghiên cứu bài toán hạn chế

sự lan truyền thông tin sai lệch dưới mô hình kích hoạt cạnh tranh (CompetitiveActivation Model) Hay như trong nghiên cứu của N P Nguyen và các cộng sự,

2013, [4], đã nghiên cứu bài toán hạn chế thông tin sai lệch dưới hai mô hìnhtầng độc lập (Independent Cascade) và ngưỡng tuyến tính (Linear Threshold),đồng thời đề xuất thuật toán xác định một tập nhỏ nhất các đỉnh có ảnh hưởnglớn nhất, từ đó lan truyền những thông tin tốt nhằm hạn chế ảnh hưởng củathông tin sai lệch

Đặc biệt, ngoài những hướng nghiên cứu kể trên còn một cách tiếp cận kháctrong việc ngăn chặn thông tin sai lệch lan truyền trên mạng xã hội được trìnhbày trong công trình nghiên cứu của H Zhang và các cộng sự, 2016, [1], bằngcách đặt giám sát (Monitor Placement) trên một số đỉnh của đồ thị mạng nhằmngăn chặn thông tin sai lệch lây lan đến những đỉnh khác trong cùng mạng Đặtgiám sát là phương pháp sử dụng các bộ lọc nội dung nhằm phát hiện thông tinsai lệch ở người dùng (đỉnh) được cài đặt và ngăn chặn sự chia sẻ, lan truyềnthông tin sai lệch từ đỉnh này; hoặc trong ngữ cảnh khác có thể hiểu là việcthuyết phục người dùng (đỉnh) không tin theo và lan truyền thông tin sai lệch.Một số công trình nghiên cứu khác gọi phương pháp này với tên gọi đó là phươngpháp tạo miễn dịch (Immunize) cho các đỉnh trong đồ thị mạng xã hội

Đứng trước những nguy cơ mất an toàn, an ninh thông tin trên mạng xã hội

do thông tin sai lệch gây ra, đồng thời thúc đẩy bởi những công trình nghiên cứu

đã nêu ở trên, đặc biệt là nghiên cứu của H Zhang, 2016, [1] đã tạo động lựccho tác giả lựa chọn đề tài "Giảm thiểu tối đa thiệt hại do thông tin sailệch gây ra trên mạng xã hội trực tuyến" làm đề tài luận văn của mình

Trang 7

Đóng góp chính của luận văn bao gồm:

- Thứ nhất, đề xuất một mô hình ngưỡng tuyến tính cho bài toán Cực tiểuhóa thiệt hại do thông tin sai lệch gây ra, đồng thời chứng mình bài toánnày thuộc lớp bài toán NP-khó

- Thứ hai, đề xuất hai thuật toán tham lam nhằm giải quyết bài toán đặt ra

- Thứ ba, kết quả thực nghiệm cho thấy ưu điểm nổi trội của hai thuật toán

đề xuất so với các thuật toán thông dụng khác như thuật toán bậc cực đại(Max Degree) và thuật toán ngẫu nhiên (Random) trong việc hạn chế thôngtin sai lệch lan truyền trên mạng

Ngoài phần mở đầu và kết luận, bố cục chính của luận văn gồm bốn chươngnhư sau:

Chương 1: Giới thiệu về mạng xã hội

Chương này giới thiệu tổng quan về mạng xã hội gồm: Định nghĩa mạng xãhội, lịch sử hình thành, phát triển và những đặc trưng cơ bản của mạng xã hội.Đặc biệt, trong chương này trình bày tổng quan một số chủ đề nổi bật liên quanđến mạng xã hội, đã và đang nhận được sự quan tâm nghiên cứu của nhiều họcgiả trong thời gian gần đây

Chương 2: Thông tin sai lệch và các mô hình lan truyền thông tinsai lệch

Chương này tác giả trình bày định nghĩa thông tin sai lệch, những nguy cơ

và hậu quả do thông tin sai lệch gây ra đối với các cá nhân, tổ chức Đồng thời,phân tích cơ chế lan truyền thông tin và những đặc tính của hai mô hình lantruyền thông tin đang được sử dụng rộng rãi bao gồm: Mô hình tầng độc lập

và mô hình ngưỡng tuyến tính Ngoài ra, ở Chương 2 tổng quan một số hướngnghiên cứu liên quan đến bài toán hạn chế lan truyền thông tin sai lệch trênmạng xã hội trực tuyến

Chương 3: Giải pháp giảm thiểu tối đa thiệt hại do thông tin sailệch gây ra trên mạng xã hội trực tuyến

Từ thực trạng đã nêu trong Chương 2 và xuất phát từ những công trìnhnghiên cứu liên quan trước đó, tác giả phát biểu bài toán Cực tiểu hóa thiệt hại

do thông tin sai lệch gây ra trên mạng xã hội trực tuyến, chứng minh bài toánnày thuộc lớp bài toán NP-khó, đồng thời đề xuất thuật toán nhằm giải quyếtbài toán này

Trang 8

Chương 4: Thực nghiệm

Mô tả các bước tiến hành và kết quả thực nghiệm nhằm đánh giá hiệu quảcủa thuật toán đề xuất trong việc ngăn chặn sự lan truyền của thông tin sailệch Thực nghiệm tiến hành dựa trên ba bộ dữ liệu là các mạng xã hội thực,bao gồm: Gnutella, CollegeMsg và Email Kết quả thực nghiêm cho thấy, thuậttoán do tác giả đề xuất tốt hơn các thuật toán thông dụng khác như thuật toánbậc cực đại (Max Degree) và thuật toán ngẫu nhiên (Random)

Trang 9

Chương 1 GIỚI THIỆU VỀ MẠNG XÃ HỘI

Chương này giới thiệu tổng quan về mạng xã hội bao gồm: Định nghĩa mạng

xã hội, lịch sử hình thành, phát triển và những đặc trưng cơ bản của mạng xãhội Đặc biệt, trong chương này trình bày tổng quan một số chủ đề nổi bật liênquan đến mạng xã hội, đã và đang nhận được sự quan tâm nghiên cứu của nhiềuhọc giả trong thời gian gần đây

1.1 Giới thiệu chung về mạng xã hội

Theo Marin và Wellman [30], mạng xã hội (MXH) là một tập hợp các tác nhân

có yếu tố xã hội được kết nối với nhau bởi một hoặc nhiều các quan hệ xã hội

1.1.1 Lịch sử phát triển của mạng xã hội

Lịch sử phát triển của MXH luôn đồng hành cùng với sự phát triển của net Từ những email đầu tiên được gửi đi bởi các nhà nghiên cứu Thụy Sĩ vàonăm 1971 đến những MXH hiện đại như Facebook, Twitter vv

Inter-1.1.2 Những tính năng của mạng xã hội

- Tính liên kết cộng đồng

- Tính đa phương tiện

- Tính tương tác

- Khả năng truyền tải và lưu trữ thông tin

1.2 Các đặc trưng cơ bản của mạng xã hội

1.2.1 Đặc trưng thế giới nhỏ

Vấn đề nghiên cứu cấu trúc MXH đã gây được sự chú ý và quan tâm sâu sắccủa các nhà nghiên cứu trong nhiều năm qua Đầu tiên là thí nghiệm nổi tiếng

Trang 10

có tên gọi "thí nghiệm thế giới nhỏ" (Small World Experiment) được thực hiệnbởi Stanley Milgram, 1967, nhằm tính toán số bước cần thiết để hai người bất

kỳ trong một dân số đã được xác định có thể biết nhau

1.2.2 Đặc trưng tập nhân

Cấu trúc và sự vận động của MXH chịu tác động bởi các nút có số lượng lớncác cung kết nối hay các nút có bậc cao Người ta gọi những nút này là nút trungtâm hay nút nhân Phân tích cấu trúc MXH đã chỉ ra rằng, MXH luôn chứa mộtlượng lớn những nút có bậc cao [32] Bao quanh các nút này là các nút có bậcthấp hơn, và quanh những nút có bậc thấp hơn này lại là các nút có bậc thấphơn chúng, cứ như vậy tạo thành một hệ thống phân cấp

1.2.3 Phân bố luật lũy thừa

Sự phân bố bậc của các nút trong mạng được mô tả bởi hàm P (k), hàm nàycho biết xác suất của một nút có bậc là k Phân bố bậc mô tả các các liên kếttrong mạng phân bố như thế nào giữa các nút

1.2.5 Các đặc trưng khác của mạng xã hội

Một mạng có đường kínhd nếu mọi cặp nút trong mạng được kết nối với nhaubằng một đường chiều dài tối đa bằngd Leskovec, 2005, [34] đã chỉ ra rằng MXHkhông chỉ có đường kính nhỏ (đặc trưng thế giới nhỏ) mà đường kính mạng còn

co ngắn lại và sau đó giữ ổn định theo thời gian

Trang 11

1.3 Một số chủ đề được nghiên cứu trên mạng xã hội

1.3.1 Phát hiện cấu trúc cộng đồng trên mạng xã hội

1.3.2 Dự đoán liên kết trên mạng xã hội

1.3.3 Tính riêng tư trên mạng xã hội

1.3.4 Tiến hóa động trên mạng xã hội

1.3.5 Khai phá dữ liệu trên mạng xã hội

1.3.6 Tối đa hóa ảnh hưởng trên mạng xã hội

1.3.7 Phát hiện, giám sát và ngăn ngừa thông tin sai lệch trên

mạng xã hội

Trang 12

Chương 2 THÔNG TIN SAI LỆCH VÀ CÁC MÔ HÌNH LAN

TRUYỀN THÔNG TIN SAI LỆCH

Chương này trình bày định nghĩa thông tin sai lệch, phân tích quá trình lantruyền thông tin sai lệch dưới hai mô hình: Mô hình tầng độc lập và mô hìnhngưỡng tuyến tính, đây là hai mô hình đang được sử dụng rộng rãi trong cáccông trình nghiên cứu liên quan đến vấn đề lan truyền thông tin, lan truyền ảnhhưởng trên MXH Đồng thời, chương này cũng trình bày một số hướng nghiêncứu khác nhau được công bố trong những năm gần đây, trong việc giải quyết bàitoán hạn chế lan truyền thông tin sai lệch

2.1 Định nghĩa thông tin sai lệch

Mặc dù có những định nghĩa khác nhau về thông tin sai lệch tuy nhiên vềnội hàm khái niệm có những điểm tương đồng nhau Đó đều là những thông tinkhông đảm bảo tính chính xác hoặc thông tin giả mạo, xuyên tạc vấn đề, xuyêntạc nội dung vv gây ảnh hưởng xấu đến cá nhân và tổ chức, đồng thời mỗiquốc gia có những quy định riêng về những hành vị bị cấm khi đưa thông tinlên mạng và đều được cụ thể hóa trong văn bản pháp luật

2.2 Mô hình lan truyền thông tin sai lệch

Hiện nay, có nhiều mô hình lan truyền thông tin khác nhau được nghiên cứu và

đề xuất như: mô hình ngưỡng (Threshold Model) [26], mô hình tầng (CascadingModel) [27], mô hình dịch bệnh (Epidemic Model) [28], mô hình lan truyền ảnhhưởng cạnh tranh (Competitive Influence Diffusion Model) [29] Trong đó hai

mô hình tầng độc lập (Independent Cascade - IC) và mô hình ngưỡng tuyến tính(Linear Threshold - LT) do Kempe, 2003, [47] đề xuất đang được dùng rộng rãitrong nhiều công trình nghiên cứu

Trang 13

- Tại thời điểm t ≥ 1, mỗi đỉnh u ∈ (St−1\St−2) được kích hoạt ở bước t − 1

có một cơ hội duy nhất để kích hoạt các đỉnh hàng xóm của nó ở trạng tháikhông kích hoạt với xác suất kích hoạt thành công p(u, v) và sự kích hoạtnày là độc lập với các kích hoạt khác Nếu đỉnh ukhông kích hoạt được đỉnh

v ở thời điểm t, nó sẽ không có cơ hội kích hoạt lại v ở các bước tiếp theo.Nếu đỉnh v có nhiều đỉnh hàng xóm cùng kích hoạt tại một thời điểm, cácđỉnh này sẽ kích hoạt v theo thứ tự tùy ý Nếu một đỉnh được kích hoạt, nó

sẽ giữ nguyên trạng thái kích hoạt ở các bước tiếp theo

- Quá trình lan truyền thông tin kết thúc khi không có thêm đỉnh nào đượckích hoạt, tức là St = St−1

2.2.2 Mô hình ngưỡng tuyến tính

Trong mô hình LT, mỗi cạnh (u, v) ∈ E được gán một trọng số ảnh hưởng(Influence Weight) w(u, v) ∈ [0, 1] biểu diễn mức độ ảnh hưởng của đỉnh u đếnđỉnh v Nếu (u, v) / ∈ E thì w(u, v) = 0 Các trọng số này được chuẩn hóa sao chovới mỗi đỉnh v, tổng trọng số tất cả các cạnh đi đến đỉnh v lớn nhất bằng 1, tứclà:

để kích hoạt đỉnh v; nếu giá trị θv nhỏ, tức là đỉnh v dễ dàng bị kích hoạt bởimột vài đỉnh hàng xóm Do thiếu thông tin về ngưỡng của mỗi người dùng trongmạng xã hội nên trong mô hình này các giá trị ngưỡng θv được lựa chọn ngẫunhiên, độc lập phân bố đều trong đoạn [0, 1] và được cập nhật trong suốt quá

Trang 14

trình lan truyền, vì vậy mô hình này cũng như mô hình IC thuộc lớp mô hìnhngẫu nhiên Mô hình LT hoạt động theo bước thời gian rời rạc t như sau:

- Tại thời điểmt = 0, tập đỉnh ở trạng thái kích hoạt chính là tập nguồn phátthông tin sai lệch S0

- Tại thời điểm t ≥ 1, với mỗi đỉnh ở trạng thái không kích hoạt v ∈ V \S t−1

sẽ bị kích hoạt nếu tổng ảnh hưởng từ những đỉnh hàng xóm kích hoạt tới

2.3 Một số hướng nghiên cứu liên quan đến bài toán hạn chế

lan truyền thông tin sai lệch trên mạng xã hội trực tuyến

Tối ưu hóa ảnh hưởng các đối tượng trên MXH là bài toán được nghiên cứulần đầu tiên bởi Domingos và Richardson, 2001 [62] Sau đó, Kempe, 2003 [47]

là người đầu tiên xây dựng vấn đề tối ưu hóa ảnh hưởng trên MXH theo cáchtối ưu hóa rời rạc, bài toán được phát biểu như sau:

Định nghĩa 2.1 (Tối ưu hóa ảnh hưởng) Cho đồ thị G = (V, E) biểu diễnmột MXH, trong đó tập V biểu diễn các cá nhân trong MXH, tập E biểu diễnmối quan hệ giữa các cá nhân Với ngân sách k cho trước, tìm tập hạt giống

S0 ⊆ V với |S0| = k, sao cho hàm lan truyền ảnh hưởng của tập S0, σ(S0), dưới

mô hình lan truyền thông tin ngẫu nhiên cho trước, đạt giá trị cực đại Tức là,cần tính S∗ ⊆ V sao cho1:

và mô hình LT Trong bài toán tối ưu hóa ảnh hưởng, có hai nhiệm vụ tính toán

1 Hàm argmax trả về các tập hạt giống tối ưu, S∗là một tập trong số đó.

Trang 15

cần thực hiện: Đầu tiên, là việc xác định tập hạt giống nhằm cực đại hóa giátrị hàm lan truyền ảnh hưởng như trong Định nghĩa 2.1 Thứ hai, là việc tínhgiá trị hàm lan truyền ảnh hưởng σ(S0), với S0 là tập hạt giống Cả hai nhiệm

vụ tính toán này đều đã được chứng minh là hai vấn đề #P-khó dưới cả hai môhình IC và LT [60, 61]

Bên cạnh vấn đề lan truyền thông tin, lan truyền ảnh hưởng cũng có nhiềunghiên cứu tập trung giải quyết bài toán hạn chế thông tin sai lệch lan truyềntrên các MXH trực tuyến

Một số nghiên cứu tập trung vào việc nhận dạng thông tin sai lệch và tin đồn(Rumor) dựa trên đặc trưng ngôn ngữ, cấu trúc, thời gian như nghiên cứu củaQazvinian, 2011, [6] và Kwwon, 2013, [7]

Một số khác, nghiên cứu vấn đề xác định tập đỉnh là nguồn phát thông tin sailệch ban đầu Chẳng hạn, Dung T Nguyen và các cộng sự, 2012, [65] đã nghiêncứu bài toán xác định k nguồn phát tán thông tin sai lệch khả nghi nhất từ tậpngười dùng bị kích hoạt bởi thông tin sai lệch cho trước

Bên cạnh đó, một số tác giả đề xuất giải pháp hạn chế sự lan truyền thông tinsai lệch trên mạng xã hội bằng cách chọn ra một số đỉnh ban đầu để tiêm thôngtin tốt, từ đó lan truyền những thông tin này trên cùng mạng nhằm thuyết phụcnhững người dùng khác tin theo, trong đó sử dụng các mô hình lan truyền thôngtin khác nhau [2–4]

Liên quan gần nhất đến vấn đề nghiên cứu trong luận văn của tác giả đó làcông trình nghiên cứu của H Zhang và các cộng sự, 2016, [1] Trong nghiên cứucủa mình, H Zhang đề xuất hai bài toán:

- Bài toán phát hiện thông tin sai lệch (Misinformation Detection): Giả sửkhông biết trước nguồn phát thông tin sai lệch (xác suất các đỉnh trở thànhnguồn phát thông tin sai lệch là như nhau), yêu cầu xác định k vị trí đặtgiám sát (Monitor) trên MXH sao cho cực đại hóa xác suất phát hiện thôngtin sai lệch

- Bài toán đặt giám sát (τ-Monitor Placement): Giả sử biết trước nguồn phátthông tin sai lệch là tập các đỉnh S, r là đỉnh ta cần bảo vệ Yêu cầu, tìm ratập đỉnh có kích thước nhỏ nhất để đặt giám sát (sử dụng bộ lọc nội dungnhằm phát hiện thông tin sai lệch ở người dùng (đỉnh) được cài đặt và ngănchặn sự chia sẻ, lan truyền thông tin sai lệch từ đỉnh này đến những đỉnhláng giềng

Trang 16

Chương 3 GIẢI PHÁP GIẢM THIỂU TỐI ĐA THIỆT HẠI DO THÔNG TIN SAI LỆCH GÂY RA TRÊN MẠNG XÃ HỘI

TRỰC TUYẾN

Chương này tập trung vào việc xây dựng bài toán Cực tiểu hóa thiệt hại dothông tin sai lệch gây ra - MDM, chứng minh bài toán thuộc lớp bài toán NP-khó,đồng thời đề xuất hai thuật toán tham lam nhằm giải quyết bài toán

3.1 Phát biểu bài toán

Mô hình hóa bài toán

Trong bài toán này, tác giả giả thuyết đã xác định được nguồn phát thông tinsai lệch ban đầu là tập các đỉnh S ⊂ V, S = {s1, s2, , sp} và ta không can thiệptrực tiếp được vào tập nguồn S nhưng có thể tạo miễn dịch (hay bố trí các máygiám sát ) ở các đỉnh khác để hạn chế sự lan truyền thông tin Phương pháp đặtgiám sát cũng đã được Zhang [1] đề xuất sử dụng để ngăn chặn thông tin sailệch truyền từ nguồn cho trước tới một đỉnh cần bảo vệ

Mỗi đỉnh u ∈ V có một chi phíc(u) ≥ 0để tạo miễn dịch với thông tin sai lệch,đồng thời đỉnh ukhi bị thông tin sai lệch kích hoạt, tức là người dùng tương ứngtin vào thông tin này sẽ gây ra thiệt hại được lượng hóa bởi đại lượng r(u) ≥ 0

Vì khó ước lượng thiệt hại cho mỗi đỉnh nên trong bài toán này ta xem thiệt hạicủa mỗi đỉnh kích hoạt gây ra như nhau Không mất tính tổng quát ta giả thiết

r(u) = 1 với mọi đỉnh u là đỉnh kích hoạt Như vậy, với trường hợp r(u) = 1, tổngthiệt hại do thông tin sai lệch gây ra chính bằng tổng số đỉnh ở trạng thái kíchhoạt sau khi quá trình lan truyền thông tin kết thúc Tuy nhiên, về sau ta vẫndùng thuật ngữ thiệt hại để chỉ chung hai đại lượng này

Như trình bày trong Chương 2, Chen [60, 61] đã chỉ ra mô hình LT là tươngđương với mô hình đồ thị mẫu Bây giờ, ta sẽ sử dụng mô hình đồ thị mẫu đểphân tích bài toán đặt ra

Gọi G là tập hợp tất cả các đồ thị mẫu sinh ra từ đồ thị G = (V, E), P r(GL)

Trang 17

là xác suất lựa chọn (xác suất sinh) đồ thị mẫu GL = (V, EGL) từ tập G, ta có:

u∈N in (v) w(u, v) ngược lại

Ký hiệu σ(S) là kỳ vọng số đỉnh kích hoạt gây ra bởi nguồn thông tin sai lệch

S khi kết thúc quá trình lan truyền và R(GL, S) là tập hợp các đỉnh có thể điđến từ tập S trong đồ thị GL, khi đó σ(S) được xác định bởi công thức sau:

Ký hiệu Rd(GL, S) là tập hợp các đỉnh có thể đi đến từS trong đồ thị GL sau

d bước lan truyền hay d bước thời gian Gọi dGL(S, v) là khoảng cách ngắn nhấttrong số tất cả các đường đi từ tập S đến đỉnh v trong đồ thị GL (nếu khôngtồn tại đường đi từ S đến v thì dGL(S, v) = ∞, nếu v ∈ S thì dGL(S, v) = 0) Đạilượng dGL(S, v) cũng được gọi là khoảng cách từ tập S đến đỉnh v trong đồ thị

GL Khi đó ta có:

Rd(GL, S) = {v ∈ V | dGL(S, v) ≤ d} (3.4)Khi đó từ Công thức 3.3 ta xác định được thiệt hại D S

d do nguồn thông tinsai lệch S gây ra sau d bước lan truyền như sau:

Gọi G(I)là đồ thị con của G sau khi loại bỏ tập đỉnhI và tập các cạnh kề với

I Khi đó, thiệt hại gây bởi nguồn thông tin sai lệch S trên đồ thị G sau khi tạo

Trang 18

miễn dịch cho tập đỉnh I chính bằng thiệt hại gây bởi nguồn thông tin sai lệch

Định nghĩa 3.1 (Bài toán Cực tiểu hóa thiệt hại-MDM) Cho đồ thị G = (V, E) biểu diễn một MXH cùng với mô hình lan truyền LT S ⊂ V là tập nguồnthông tin sai lệch Mỗi đỉnh u ∈ V có một chi phí c(u) ≥ 0 để tạo miễn dịch vớithông tin sai lệch và thiệt hại r(u) = 1 khi bị thông tin sai lệch kích hoạt Vớinguồn ngân sách giới hạn B > 0 và số bước lan truyền thông tin d ∈ Z + chotrước, mục tiêu của bài toán là tìm tập đỉnh cần tạo miễn dịch I ⊂ V \S với tổngchi phí không vượt quá B, P

u∈I c(u) ≤ B, nhằm cực tiểu hóa hàm DdS(I).Bài toán MDMđược viết gọn như sau: Tìm tập I ⊂ V \S làm cực tiểu hóa hàm

D S

d (I) với điều kiện P

u∈I c(u) ≤ B

3.2 Độ khó của bài toán

Trong mục này, tác giả chỉ ra rằng bài toán MDM thuộc lớp bài toán NP-khóbằng cách dẫn nó từ bài toán Tập phủ dạng 0 − 1 (hay phiên bản quyết định củabài toán Tập phủ)

3.3 Các thuật toán đề xuất giải quyết bài toán MDM

Ký hiệu Nk(S) là tập hợp các đỉnh có khoảng cách không quá k tính từ tậpnguồn phát thông tin sai lệch S trong đồ thị G Khi k = 1, Nk(S) là tập đỉnhhàng xóm đi ra từS Để ngăn chặn thông tin sai lệch lan truyền sau d bước thờigian thì các đỉnh được lựa chọn để tạo miễn dịch cũng phải nằm trong tập Nd(S)

với d ∈ Z +

Ngày đăng: 19/01/2020, 02:52

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[11] Kai Zhu and Lei Ying. 2014. A Robust Information Source Estimator with Sparse Observations. Computational Social Networks, 2014, pp. 1-21 Sách, tạp chí
Tiêu đề: A Robust Information Source Estimator with Sparse Observations
Tác giả: Kai Zhu, Lei Ying
Nhà XB: Computational Social Networks
Năm: 2014
[12] Wuqiong Luo, Wee Peng Tay, and Mei Leng. Identifying Infection Sources and Regions in Large Networks. IEEE Transactions on Signal Processing, 2013, pp. 2850-2865 Sách, tạp chí
Tiêu đề: Identifying Infection Sources and Regions in Large Networks
Tác giả: Wuqiong Luo, Wee Peng Tay, Mei Leng
Nhà XB: IEEE Transactions on Signal Processing
Năm: 2013
[14] Mạng xã hội nhận diện thông tin xấu độc. Truy xuất từ http://dangcongsan.vn/dien-dan/mang-xa-hoi-nhan-dien-thong-tin-xau-doc-434891.html [Ngày truy cập 22/5/2017] Sách, tạp chí
Tiêu đề: Mạng xã hội nhận diện thông tin xấu độc
[16] N. P. Nguyen, M. A. Alim, T. N. Dinh, and M. T. Thai. A Method to Detect Communities with Stability in Social Networks. Social Network Analysis and Mining, 2014, pp. 224:1-224:15 Sách, tạp chí
Tiêu đề: A Method to Detect Communities with Stability in Social Networks
Tác giả: N. P. Nguyen, M. A. Alim, T. N. Dinh, M. T. Thai
Nhà XB: Social Network Analysis and Mining
Năm: 2014
[18] H. Zhang, M. Alim, M. T. Thai, and H. Nguyen. Monitor Placement to Timely Detect Misinformation in Online Social Networks. In Proceedings of the 2015 IEEE International Conference on Communications, 2015, pp.1152-1157 Sách, tạp chí
Tiêu đề: Monitor Placement to Timely Detect Misinformation in Online Social Networks
Tác giả: H. Zhang, M. Alim, M. T. Thai, H. Nguyen
Nhà XB: Proceedings of the 2015 IEEE International Conference on Communications
Năm: 2015
[19] H. Zhang, H. Zhang, X. Li, and M. T. Thai. Limiting the Spread of Misinfor- mation while Effectively Raising Awareness in Social Networks. In Proceed- ings of the 4th International Conference on Computational Social Networks, 2015, pp. 35-47 Sách, tạp chí
Tiêu đề: Proceedings of the 4th International Conference on Computational Social Networks
Tác giả: H. Zhang, H. Zhang, X. Li, M. T. Thai
Năm: 2015
[20] T. N. Dinh, H. Zhang, D. T. Nguyen, and M. T. Thai. Cost-Effective Vi- ral Marketing for Time-Critical Campaigns in Large-Scale Social Networks.IEEE/ACM Transactions on Networking, 2014, pp. 2001-2011 Sách, tạp chí
Tiêu đề: Cost-Effective Viral Marketing for Time-Critical Campaigns in Large-Scale Social Networks
Tác giả: T. N. Dinh, H. Zhang, D. T. Nguyen, M. T. Thai
Nhà XB: IEEE/ACM Transactions on Networking
Năm: 2014
[21] Wei Chen, Wei Lu, and Ning Zhang. Time-Critical Influence Maximization in Social Networks with Time-Delayed Diffusion Process. In Proc. AAAI, 2012, pp. 1-5 Sách, tạp chí
Tiêu đề: Time-Critical Influence Maximization in Social Networks with Time-Delayed Diffusion Process
Tác giả: Wei Chen, Wei Lu, Ning Zhang
Nhà XB: Proc. AAAI
Năm: 2012
[26] D. Kempe, J. Kleinberg, and E. Tardos. Influential Nodes in a Diffusion Model for Social Networks. In ICALP, 2005, pp. 1127-1138 Sách, tạp chí
Tiêu đề: Influential Nodes in a Diffusion Model for Social Networks
Tác giả: D. Kempe, J. Kleinberg, E. Tardos
Nhà XB: ICALP
Năm: 2005
[27] J. Goldenberg, B. Libai, and E. Muller. Talk of the Network: A Complex Sys- tems Look at the Underlying Process of Word-of-Mouth. Marketing Letters, 2001, pp. 211-223 Sách, tạp chí
Tiêu đề: Talk of the Network: A Complex Systems Look at the Underlying Process of Word-of-Mouth
Tác giả: J. Goldenberg, B. Libai, E. Muller
Nhà XB: Marketing Letters
Năm: 2001
[28] J. Leskovec, M. Mcglohon, C. Faloutsos, N. Glance, and M. Hurst. Cas- cading Behavior in Large Blog Graphs. In Proceedings of the 2007 SIAM International Conference on Data Mining, 2007, pp. 551-556 Sách, tạp chí
Tiêu đề: Cascading Behavior in Large Blog Graphs
Tác giả: J. Leskovec, M. Mcglohon, C. Faloutsos, N. Glance, M. Hurst
Nhà XB: Proceedings of the 2007 SIAM International Conference on Data Mining
Năm: 2007
[29] T. Carnes, R. Nagarajan, S. M. Wild, and A. V. Zuylen. Maximizing Influ- ence in a Competitive Social Network: a Follower’s Perspective. In Proceed- ings of the Ninth International Conference on Electronic Commerce, 2007, pp. 351-360 Sách, tạp chí
Tiêu đề: Maximizing Influence in a Competitive Social Network: a Follower’s Perspective
Tác giả: T. Carnes, R. Nagarajan, S. M. Wild, A. V. Zuylen
Nhà XB: Proceedings of the Ninth International Conference on Electronic Commerce
Năm: 2007
[30] Alexandra Marin and Barry Wellman. Social Network Analysis: An Intro- duction. The SAGE Handbook of Social Network Analysis, 2011, pp. 11-25 Sách, tạp chí
Tiêu đề: Social Network Analysis: An Introduction
Tác giả: Alexandra Marin, Barry Wellman
Nhà XB: The SAGE Handbook of Social Network Analysis
Năm: 2011
[34] Jure Leskovec, Jon Kleinberg, and Christos Faloutsos. Graphs Over Time:Densification Laws, Shrinking Diameters and Possible Explanations. In Pro- ceedings of the Eleventh ACM SIGKDD International Conference on Knowl- edge Discovery in Data Mining,2005, pp. 177-187 Sách, tạp chí
Tiêu đề: Graphs Over Time:Densification Laws, Shrinking Diameters and Possible Explanations
Tác giả: Jure Leskovec, Jon Kleinberg, Christos Faloutsos
Nhà XB: Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining
Năm: 2005
[23] Misinformation on Social Media: Can Technology Save Us?. Avail- able at https://www.usnews.com/news/national-news/articles/2016-11-28/misinformation-on-social-media-can-technology-save-us[Accessed12May 2017] Link
[24] Việt Nam sắp đổi tiền: Hoàn toàn bịa đặt. Truy xuất từ http://vietnamnet.vn/vn/kinh-doanh/tai-chinh/viet-nam-sap-doi-tien-hoan-toan-bia-dat-342761.html [Ngày truy cập 21/5/2017] Link
[25] Bác thông tin tăng lệ phí cấp hộ chiếu tại Việt Nam. Truy xuất từ http://dantri.com.vn/xa-hoi/bac-thong-tin-tang-le-phi-cap-ho-chieu-tai-viet-nam-20161209192924661.htm [Ngày truy cập 21/5/2017] Link
[53] Twitter Breaks News of Whitney Houston Death 27 Minutes Be- fore Press. Available at http://mashable.com/2012/02/12/whitney-houston-twitter/ [Accessed 16 April 2017] Link
[54] Hackers send fake market-moving AP tweet on White House explo- sions. Available at http://www.reuters.com/article/net-us-usa-whitehouse-ap-idUSBRE93M12Y20130423 [Accessed 16 April 2017] Link
[56] Swine Flu Frenzy Demonstrates Twitter’s Achilles Heel. Available at http://www.pcworld.com/businesscenter/article/163920/swine flufrenzy demonstratest-witters achillesheel.html [Accessed 22 April 2017] Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w