1. Trang chủ
  2. » Thể loại khác

MỘT SỐ PHƯƠNG PHÁP HIỆU QUẢ PHÁT HIỆN VÀ NGĂN CHẶN LAN TRUYỀN THÔNG TIN SAI LỆCH TRÊN MẠNG XÃ HỘI TÓM TẮT LUẬN ÁN TIẾN SĨ

27 7 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Một Số Phương Pháp Hiệu Quả Phát Hiện Và Ngăn Chặn Lan Truyền Thông Tin Sai Lệch Trên Mạng Xã Hội
Tác giả Phạm Văn Dũng
Người hướng dẫn PGS.TS Nguyễn Việt Anh
Trường học Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Chuyên ngành Hệ thống Thông tin
Thể loại Tóm tắt luận án tiến sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 27
Dung lượng 1,17 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu và đề xuất một số giải pháp hiệu quả giải quyết bài toán Phát hiện nguồn phát tán thông tin sai lệch trên mạng xã hội với ngân sách tối thiểu.. Nghiên cứu và đề xuất mô hình c

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

Trang 2

Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ -

Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Người hướng dẫn khoa học: PGS.TS Nguyễn Việt Anh

Có thể tìm hiểu luận án tại:

- Thư viện Học viện Khoa học và Công nghệ

- Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU

1 Tính cấp thiết của luận án

- Về mặt thực tiễn: Với số lượng người dùng lớn, mạng xã hội

(Social Network – SN) đã và đang mang lại nhiều lợi ích thiết thực với người dùng, tuy nhiên nó cũng cho phép lan truyền nhanh chóng tin giả mạo, tin đồn, tin trái chiều, vv gọi chung là Thông tin sai lệch (Misinformation -MI) có thể gây ra sự xáo trộn

về chính trị, ảnh hưởng về kinh tế hoặc gây hoang mang dư luận

Vì vậy cần nghiên cứu để đưa ra các giải pháp hiệu quả nhằm ngăn chặn đến mức thấp nhất MI lan truyền trên SN

- Về mặt khoa học: Phát hiện và ngăn chặn lan truyền thông

tin sai lệch là bài toán thuộc nhóm các bài toán Lan truyền thông tin (Spead Information - SI) Để nghiên cứu bài toán này, cần kết hợp giữa nhiều phương pháp, kỹ thuật từ nhiều lĩnh vực khác nhau, như: khai phá dữ liệu, máy học, học sâu, tính toán đồ thị, tối ưu, vv Bên cạnh đó, SN thường có kích thước rất lớn và liên tục biến động do vậy cần phải có các phương pháp vừa mạnh mẽ (robust) vừa phải hiệu quả về mặt thời gian và bộ nhớ Mặc dù

đã có nhiều nghiên cứu, nhưng các bài toán trên vẫn còn nhiều thách thức cần được nghiên cứu giải quyết

2 Mục tiêu nghiên cứu của luận án

a Nghiên cứu và đề xuất một số giải pháp hiệu quả giải quyết bài toán Phát hiện nguồn phát tán thông tin sai lệch trên mạng xã hội với ngân sách tối thiểu

b Nghiên cứu và đề xuất mô hình cũng như giải pháp giải quyết bài toán Ngăn chặn lan truyền thông tin sai lệch nhiều chủ

đề trên mạng xã hội có ràng buộc về ngân sách

Trang 4

3 Các nội dung nghiên cứu chính của luận án

Chương 1: Tổng quan về bài toán phát hiện và ngăn chặn lan truyền thông tin sai lệch trên mạng xã hội Trong chương

này, luận án giới thiệu về lịch sử hình thành, các thành phần cơ bản, một số đặc trưng cũng như những lợi ích và tác hại của SN; Giới thiệu các mô hình và một số bài toán SI phổ biến; Một số khái niệm cơ bản về lý thuyết đồ thị, tối ưu tổ hợp, phân lớp bài toán và một số phương pháp giải bài toán tối ưu tổ hợp NP-khó

Chương 2: Phát hiện nguồn phát tán thông tin sai lệch trên mạng xã hội với ngân sách tối thiểu Trong chương này, luận án

đề xuất bài toán MBD (Minimum Budget for Misinformation

Detection) Mục tiêu đặt ra là tìm tập người dùng 𝐴 nhỏ nhất để

đặt máy giám sát, sao cho xác suất phát hiện ra nguồn phát tán

MI đạt ít nhất bằng một ngưỡng 𝛾 cho trước với xác suất cao Để

giải quyết bài toán này, về mô hình: luận án nghiên cứu bái toán

MBD trên mô hình IC và đưa ra một số kết quả lý thuyết về độ

khó của bài toán trên mô hình này Về giải pháp, luận án chứng

minh tính hàm mục tiêu có tính chất submodular, dựa trên tính chất này đề xuất thuật toán tham lam (GA) cho tỷ lệ xấp xỉ (1 +ln(𝛾/𝜖)), với mọi tham số đầu vào 𝜖 ∈ (0, 1) và đề xuất 02 thuật toán khác bao gồm thuật toán phát hiện dựa trên tập mẫu phát hiện (SMD) và thuật toán phát hiện dựa trên tập mẫu phát hiện

quan trọng (ISMD) cho bài toán Về thực nghiệm, được thực hiện

trên 05 bộ dữ liệu của SN thực có quy mô từ hàng nghìn đến hàng trăm nghìn nút, kết quả cho thấy các thuật toán đề xuất vượt trội hơn một số thuật toán khác trên các tiêu chí: Hiệu suất thuật toán, thời gian thực hiện, sử dụng số lượng mẫu và sử dụng bộ nhớ

Trang 5

Chương 3: Ngăn chặn lan truyền thông tin sai lệch nhiều chủ đề trên mạng xã hội có ràng buộc về ngân sách Trong

chương này, luận án đề xuất bài toán MBMT (Misinformation

Blocking with Multiple Topics) Mục tiêu đặt ra cho bài toán là tìm tập người dùng 𝐴 để loại bỏ khỏi mạng sao cho ngăn chặn hiệu quả sự lan truyền của MI thuộc nhiều chủ đề (lĩnh vực) khác

nhau trên SN Để giải quyết bài toán này, về mô hình, luận án đề

xuất 01 biến thể mới của mô hình LT gọi là mô hình Ngưỡng tuyến tính nhiều chủ đề (MTLT) và đưa ra một số kết quả lý

thuyết về độ khó của bài toán trên mô hình này; Về giải pháp,

luận án chứng minh tính hàm đo độ giảm ảnh hưởng (hàm mục tiêu) khi loại bỏ tập 𝐴 có tính chất submodular, dựa trên tính chất này đề xuất 01 thuật toán xấp xỉ gọi là thuật toán Tham lam cải tiến (IGA) đạt tỷ lệ xấp xỉ (1 − 1/√𝑒) và để xuất 01 thuật toán heuristic gọi là thuật toán Tham lam mở rộng (GEA) bằng các sử

dụng cấu trúc cây để cập nhật nhanh hàm mục tiêu Về thực nghiệm, được thực hiện trên 03 bộ dữ liệu SN thực có quy mô từ

hàng nghìn đến hàng chục nghìn người dùng, kết quả cho thấy các thuật toán đề xuất vượt trội hơn các thuật toán khác cả về hiệu suất và khả năng mở rộng.

CHƯƠNG I TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ NGĂN CHẶN LAN TRUYỀN THÔNG TIN SAI LỆCH TRÊN

MẠNG XÃ HỘI 1.1 Giới thiệu về mạng xã hội

Trang 6

Khái niệm “mạng xã hội” lần đầu được đề cập và sử dụng bởi Barnes từ năm 1954 Từ đó đến nay, có hàng trăm nghìn SN được xây dựng, với hàng tỷ người dùng trên khắp thế giới Mỗi mạng đều có cấu trúc và mục đích riêng, nhưng chúng đều có 04 thành phần cơ bản, đó là: Người dùng, liên kết giữa các người dùng, thông tin lan truyền trên mạng và tương tác của người dùng với nhau Ngoài ra, SN còn có 04 đặc trưng chung, đó là: Đặc trưng thế giới nhỏ, đặc trưng tập nhân, đặc trưng cấu trúc cộng đồng và đặc trưng phân bố lũy thừa

Với số lượng người dùng lớn, SN đã và đang mang lại nhiều lợi ích thiết thực đối với con người, như: tạo lập mối quan hệ, kinh doanh trực tuyến, quảng bá sản phẩm, Bên cạnh đó, nó cũng cho phép lan truyền nhanh chóng thông tin sai lệch, gây ra những thiệt hại đáng kể đối với đời sống con người Để SN ngày càng hữu ích hơn với cộng đồng, chúng ta cần tìm ra những giải pháp hiệu quả để phát huy lợi ích và hạn chế những tác hại của

SN mang lại

1.2 Mô hình hóa lan truyền thông tin trên mạng xã hội

Mô hình hóa SI trên SN đóng vai trò quan trọng trong việc giải quyết các bài toán SI Giúp các nhà nghiên cứu có cái nhìn tổng quan và ngắn gọn nhất về SN Để từ đó đưa ra các giải pháp hiệu quả giải quyết các bài toán trên mô hình và từng bước áp dụng vào thực tiễn Có 02 dạng mô hình được sử dụng phổ biến,

đó là lan truyền rời rạc và lan truyền liên tục Trong đó, mô hình lan truyền rời rạc được sử dụng rộng rãi hơn trong các nghiên

cứu Điển hình là mô hình Ngưỡng tuyến tính LT (Linear Threshold) và Bậc độc lập IC (Independent Cascade), đây được

Trang 7

xem là những mô hình lan truyền rời rạc đầu tiên (2003) và cũng

là các mô hình được sử dụng trong luận án

1.2.1 Mô hình Ngưỡng tuyến tính (LT)

Một SN được biểu diễn bởi đồ thị 𝐺(𝑉, 𝐸), mỗi cạnh có trọng

số 𝑤(𝑢, 𝑣) ∈ [0,1] thỏa mãn điều kiện ∑𝑢∈𝑁𝑖𝑛(𝑣)𝑤(𝑢, 𝑣)≤ 1

𝑁𝑖𝑛(𝑢), 𝑁𝑜𝑢𝑡(𝑢) là tập nút vào và tập nút ra của 𝑢 Mỗi nút có

trạng thái kích hoạt hoặc không kích hoạt và có ngưỡng kích hoạt

𝛾𝑣∈ [0,1] Gọi 𝑆0 là tập nguồn, là tập đầu tiên phát tán thông tin,

𝑆𝑡 là tập nút bị kích hoạt bởi 𝑆 tại thời điểm 𝑡 Khi 𝑡 = 0, các

nút trong tập 𝑆0 đều có trạng thái kích hoạt; Khi 𝑡 ≥ 1, mỗi nút

𝑣 sẽ bị kích hoạt nếu: ∑𝑢∈𝑆𝑡−1 ∩𝑁𝑖𝑛(𝑣)𝑤(𝑢, 𝑣) ≥ 𝛾𝑣 Quá trình lan truyền kết thúc khi sau mỗi bước không có nút nào được kích hoạt thêm

1.2.2 Mô hình Bậc độc lập (IC)

Khác với mô hình LT, trên mô hình IC, mỗi cạnh được gán một xác suất ảnh hưởng 𝑝(𝑢, 𝑣) ∈ [0, 1] Gọi 𝑆𝑡 là tập các nút bị kích hoạt bởi 𝑆 tại thời điểm 𝑡 Khi 𝑡 = 0, các nút trong tập nguồn 𝑆0 đều có trạng thái kích hoạt Tại thời điểm 𝑡 ≥ 1, mỗi

nút 𝑢 ∈ 𝑆0 có một cơ hội duy nhất kích hoạt đến nút 𝑣 ∈ 𝑁𝑜𝑢𝑡(𝑢) với xác suất thành công là 𝑝(𝑢, 𝑣) Quá trình lan truyền kết thúc khi giữa hai bước không có nút nào bị kích hoạt thêm

Gọi 𝒟(𝐺, 𝑆) la hàm ảnh hưởng trên mô hình LT, IC, giá trị này là kỳ vọng số nút bị kích hoạt khi kết thúc lan truyền Tính hàm 𝒟(𝐺, 𝑆) được D Kemp chứng minh là #P-khó, để giải quyết vấn đề này họ đề xuất mô hình cạnh trực tuyến LE (Live Edge)

và chứng minh nó tương đương với LT và IC, cụ thể như sau:

- Mô hình LE tương đương mô hình LT: Là một đồ thị 𝑔 được

sinh ngẫu nhiên như sau: Mỗi nút 𝑣 ∈ 𝑉, chọn nhiều nhất một cạnh đến (𝑢, 𝑣), 𝑢 ∈ 𝑁𝑖𝑛(𝑣) với xác suất chọn cạnh là 𝑝(𝑣, 𝑔, 𝐺) = 𝑤(𝑢, 𝑣) nếu (𝑢, 𝑣) được chọn và 𝑝(𝑣, 𝑔, 𝐺) = (1 −

Trang 8

∑𝑢∈𝑁𝑖𝑛(𝑣)𝑤(𝑢, 𝑣)) nếu (𝑢, 𝑣) không được chọn Xác suất chọn

đồ thị 𝑔~𝐺 là: Pr(𝑔~𝐺) = ∏𝑣∈𝑉𝑝(𝑣, 𝑔, 𝐺) Gọi tập nút bị kích hoạt tại thời điểm 𝑡 là: 𝑄𝑡(𝑔, 𝑆) = {𝑢|𝑑𝑔(𝑆, 𝑢) ≤ 𝑡}, trong đó

𝑑𝑔(𝑆, 𝑢) là khoảng cách từ tập nguồn 𝑆 đến 𝑢 trên đồ thị 𝑔, do

𝑡 ≤ 𝑛 − 1 nên 𝑄(𝑔, 𝑆) = 𝑄𝑛−1(𝑔, 𝑆) Hàm ảnh hưởng được xác định là: 𝒟(𝐺, 𝑆) = ∑𝑔~𝐺Pr(𝑔~𝐺)|𝑄(𝑔, 𝑆)|

- Mô hình LE tương đương mô hình IC: Là một đồ thị trực

tuyến 𝑔 được xây dựng ngẫu nhiên theo các bước như sau: Mỗi cạnh 𝑒 = (𝑢, 𝑣) ∈ 𝐸, ta chọn cạnh 𝑒 vào đồ thị 𝑔 với xác suất thành công là 𝑝(𝑒) và xác suất không chọn 𝑒 là (1 − 𝑝(𝑒)) Gọi 𝐸(𝑔) là tập cạnh được chọn, xác suất chọn đồ thị trực tuyến 𝑔~𝐺 là: Pr (𝑔~𝐺) = ∏𝑒∈𝐸𝑔,𝑒′∈𝐸\𝐸𝑔𝑝(𝑒) (1 − p(e′)) Hàm ảnh hưởng được xác định là: 𝒟(𝐺, 𝑆) = ∑𝑔~𝐺Pr (𝑔~𝐺)|𝑄(𝑔, 𝑆)|

1.3 Phát hiện và ngăn chặn lan truyền thông tin sai lệch trên SN

1.3.1 Thông tin sai lệch (Misinformation – MI)

Định nghĩa 1.3: (MI) Thông tin sai lệch trên SN là những bài

đăng có chứa các nội dung không đúng sự thật hoặc không được cho phép của cá nhân hoặc tổ chức sử hữu thông tin đó, thông tin

có thể thuộc một hoặc nhiều chủ đề trong đời sống xã hội Trong

đó, Bài đăng có thể là dòng trạng thái, bài viết, video, hình ảnh,

âm thanh, vv được người dùng đăng lên SN; Chủ đề thông tin

được hiểu là các lĩnh vực như: Kinh tế, Chính trị, Thể thao, vv

1.3.2 Phát hiện nguồn phát tán thông tin sai lệch

Đây là bài toán xuất phát từ nhu cầu thực tiễn, giả sử rằng đã biết trước một tập người dùng 𝑆 bị nghi ngờ phát tán MI, mục tiêu của bài toán là tìm giải pháp để phát hiện ra nhiều nhất các nút trong tập 𝑆 là nguồn phát tán MI Để làm được việc này, một chiến lược phổ biến là tìm tập 𝐴 để đặt máy giám sát sao cho phát hiện được nhiều nhất số người dùng trong tập 𝑆 là nguồn MI

Trang 9

Máy giám sát được hiểu là các chương trình có thể theo dõi và phát hiện ra những người dùng phát tán MI

Đây là bài toán NP- khó trên mô hình IC và LT, tính toán hàm mục tiêu là #P-khó Tuy đã được nhiều nhà khoa học quan tâm nghiên cứu, nhưng bài toán vẫn còn nhiều vấn đề chưa được giải quyết Trong đó, đảm bảo xác suất phát hiện đạt một xấp xỉ nào

đó đang là một thách thức cần được nghiên cứu giải quyết

1.3.3 Ngăn chặn lan truyền thông tin sai lệch

Ngăn chặn lan truyền MI là bài toán xuất phát từ yêu cầu cần

có những giải pháp để ngăn chặn hiệu quả ảnh hưởng của MI lan truyền trên SN Giả sử rằng chúng ta đã biết trước tập người dùng phát tán MI Bài toán đặt ra là tìm phải pháp để ngăn chặn đến mức thấp nhất lan truyền MI trên SN Để làm được việc này có

02 chiến lược phổ biến, đó là:

- Vô hiệu hóa người dùng hoặc tập liên kết: Là loại bỏ tập

người dùng hoặc tập liên kết hoặc tiêm vắc xin (theo ngôn ngữ dịch tễ) vào tập nút hoặc tập cạnh để miễn nhiễm với MI Tuy có nhiều khái niệm khác nhau, nhưng chiến lược này được hiểu rằng: Trên SN sẽ có một tập người dùng bị cô lập, MI lan truyền đến trước tập người dùng này và dừng lại, không thể lan truyền tiếp đến các người dùng khác Tập người dùng này được xem như

là hàng rào chắn, ngăn chặn lan truyền MI

- Tẩy nhiễm thông tin: Chọn tập người dùng để phát tán thông

tin “tốt” để chống lại ảnh hưởng của MI, phương pháp này có thể gọi là ảnh hưởng cạnh tranh Nghĩa là cùng lúc trên mạng sẽ có hai luồng thông tin trái ngược nhau, thông tin “tốt” và MI cùng cạnh tranh để được lan truyền tiếp hoặc bị chặn lại Theo phương

Trang 10

pháp này, xác suất ảnh hưởng của thông tin “tốt” thường được ưu tiên hơn trong các nghiên cứu

Như vậy, bài toán được quy về vấn đề tối ưu chọn tập người dùng 𝐴 để loại bỏ hoặc để phát tán thông tin “tốt” Đây là bài toán tối ưu tổ hợp NP-khó và tính toán hàm mục tiêu là #P-khó ngay cả khi chỉ có 01 nút nguồn MI và tập 𝐴 chỉ có một nút duy nhất Đã có nhiều công trình được công bố, tuy nhiên vấn đề ngăn chặn cùng lúc MI thuộc nhiều chủ đề khác nhau vẫn còn là một thách thức chưa được giải quyết

1.4 Một số khái niệm cơ bản sử dụng trong luận án

Như đã trình bày ở trên, bài toán phát hiện và ngăn chặn lan truyền MI thường cho dưới dạng tối ưu tổ hợp NP-khó Vì vậy, luận án nêu lên một số khái niệm có liên quan, như sau:

Định nghĩa 1.2: (Bài toán tối ưu tổ hợp) Mỗi bài toán TƯTH

ứng với một bộ ba (𝑆, 𝑓, Ω), trong đó 𝑆 là tập hữu hạn trạng thái (lời giải tiềm năng hay phương án), 𝑓 là hàm mục tiêu xác định trên 𝑆, còn Ω là tập các ràng buộc Mục tiêu của các bài toàn này

là tìm cực đại hoặc cực tiểu hàm số 𝑓 trên tập 𝑆: 𝑚𝑎𝑥(𝑚𝑖𝑛): 𝑓(𝑠): 𝑠 ∈ 𝑆 Mỗi phương án 𝑠 ∈ 𝑆 thỏa mãn các ràng buộc Ω gọi

là phương án (hay lời giải) chấp nhận được Mỗi bài toán TƯTH đều có thể chỉ ra một tập hữu hạn gồm 𝑛 thành phần 𝐶 = {𝑐1, , 𝑐𝑛} sao cho mỗi phương án 𝑠 trong 𝑆 đều biễu diễn được nhờ liên kết các thành phần trong nó

Việc giải bài toán TƯTH có kích thước nhỏ có thể dụng thuật toán vét cạn Tuy nhiên, các bài toán trên SN thường có kích thước lớn, vì vậy các phương pháp phổ biến là: Xấp xỉ, Monte Carlo, Heuristic Chi tiết các phương pháp như sau:

Trang 11

- Phương pháp xấp xỉ: Phương pháp xấp xỉ là phương pháp

đưa ra thuật toán đạt kết quả xấp xỉ một tỷ lệ nào đó so với lời giải tốt nhất Giả sử ta cần tìm lời giải tối ưu bài toán SI dưới dạng TƯTH thuộc lớp NP-Khó với mục tiêu tìm hàm cực đại 𝑓:

𝑆 → ℝ, trong đó 𝑆 là không gian lời giải của bài toán Gọi OPT (Optimal) là lời giải tối ưu của bài toán

Định nghĩa 1.7 (Thuật toán xấp xỉ) Ta nói thuật toán xấp xỉ

𝐴 cho lời giải là s ⊆ S có tỷ lệ xấp xỉ là 𝜌 > 0 nếu thực hiện trong thời gian đa thức và thỏa mãn: (𝑓(𝑠))/𝑂𝑃𝑇 ≥ 𝛽 Trong trường hợp cần tìm hàm 𝑓 cực tiểu (tìm giá trị nhỏ nhất), thì tỷ lệ tối ưu được định nghĩa là: (𝑓(𝑠))/𝑂𝑃𝑇 ≤ 𝛽

- Phương pháp Monte Carlo (MC):Ý tưởng chính của

phương pháp này là xấp xỉ một kỳ vọng 𝐸(𝑋) bởi trung bình cộng kết quả của nhiều lần thử nghiệm độc lập với các biến ngẫu nhiên

𝑋 có cùng phân phối

- Phương pháp Heuristic: Đây là một phương pháp được

thiết kế dựa trên kinh nghiệm để giải một bài toán nhanh hơn khi các phương pháp trước đó quá chậm hoặc để tìm ta một giải pháp gần đúng khi các phương pháp trước không tìm được giải pháp chính xác nào

CHƯƠNG 2 PHÁT HIỆN NGUỒN PHÁT TÁN THÔNG TIN SAI LỆCH TRÊN MẠNG XÃ HỘI VỚI NGÂN SÁCH TỐI THIỂU

Để ngăn chặn lan truyền MI trên SN, công việc đầu tiên đó là tìm ra nguồn MI Đã có nhiều phương pháp được đề xuất để phát hiện nguồn MI, tuy nhiên để đảm bảo xác suất phát hiện lớn hơn ngưỡng cho trước đang là một thách thức với các nhà nghiên cứu

Trang 12

Trong chương này, luận án đề xuất bài toán Phát hiện nguồn MI trên SN với ngân sách tối thiểu (MBD) Luận án chứng minh độ

khó của bài toán trên mô hình IC và đề xuất 03 thuật toán xấp xỉ

và heuristic hiệu quả cho bài toán, bao gồm: GA, SMD, ISMD

Thực nghiệm được tiến hành trên 05 bộ dữ liệu SN thực

2.1 Phát biểu bài toán MBD

Giả sử rằng, bằng các biện pháp điều tra, chúng ta đã biết trước một tập người dùng 𝑆 bị nghi ngờ là nguồn phát tán MI Do mức độ nghi ngờ đối với từng nút trong tập 𝑆 là khác nhau, nên xác suất là nguồn MI của mỗi nút cũng khác nhau Bài toán đặt

ra là tìm tập người dùng 𝐴 nhỏ nhất để đặt máy giám sát sao cho chức năng phát hiện dự kiến (được gọi là hàm phát hiện) của các máy giám sát đạt ít nhất bằng một ngưỡng 𝛾 > 0 cho trước Ý nghĩa của ngưỡng 𝛾 là để kiểm soát quy mô của chiến lược giám sát Giá trị 𝛾 càng lớn thì số người dùng được giám sát càng lớn

Ngân sách tối thiểu trong MBD được hiểu là một ràng buộc

về kích thước của tập 𝐴, ngân sách càng nhỏ thì kích thước tập

đặt máy giám sát càng nhỏ Máy giám sát được hiểu là hệ thống

phân tích hành vi người dùng, có chức năng giám sát và phát hiện

ra những nút phát tán MI, chức năng này được thể hiện thông qua giá trị của hàm phát hiện, ký hiệu là 𝔻(𝐴) Như vậy, mục tiêu của MBD là tìm tập người dùng 𝐴 nhỏ nhất để đặt máy giám sát, sao cho hàm phát hiện 𝔻(𝐴) ≥ 𝛾

2.1.1 Mô hình hóa bài toán

Luận án sử dụng mô hình IC để mô hình hóa bái toán Thông tin trên mô hình IC lan truyền dọc theo các cạnh, mô hình này tương đương với mô hình LE, như đã trình bày trong chương I

Trang 13

Theo đó, chúng ta có thể tạo ra một đồ thị mẫu 𝑔 từ đồ thị ban đầu 𝐺, được ký hiệu là 𝑔 ∼ 𝐺 Với xác suất tạo ra 𝑔 ∼ 𝐺 là:

𝔻(𝐴) = ∑ 𝜌(𝑢)

𝑢∈𝑆

∑ Pr(𝑔~𝐺) 𝑅(𝐴, 𝑔, 𝑢)𝑔~𝐺

Trên mô hình IC, bài toán MBD được định nghĩa như sau:

Định nghĩa 2.1: (MBD) Một SN cho bởi đồ thị 𝐺(𝑉, 𝐸) theo

mô hình IC Tập 𝑆 ⊆ 𝑉 là tập các nút bị nghi ngờ là nguồn MI (gọi là tập nguồn) và mỗi nút 𝑢 ∈ 𝑆 có xác suất 𝜌(𝑢) ∈ [0,1] là

nguồn MI Cho ngưỡng phát hiện MI 𝛾 > 0 Tìm tập nút 𝐴 ⊆ 𝑉

nhỏ nhất để đặt máy giám sát sao cho hàm phát hiện 𝔻(𝐴) ≥ 𝛾?

2.1.3 Độ khó của bài toán

Khi tất cả các nút có cùng xác suất là nguồn MI hàm phát hiện của tập 𝐴 tương đương hàm ảnh hưởng lan truyền của tập 𝐴 trên

đồ thị ngược lại Tính toán hàm ảnh hưởng lan truyền được chứng

Ngày đăng: 26/11/2022, 22:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w