Luận văn Ứng dụng differential privacy trong các thuật toán học máy

Ngoài ra, để kiểm tra ảnh hưởng DP đến độ chính xác của các dự báo của thuật toán học máy, tác giả xây dựng thuật toán rừng ngẫu nhiên phiền bản áp dụng DP và sử đụng thư viện Sklearn's

Trang 1

TRUONG DAI HOC BACH KHOA HA NOI

LUAN VAN THAC Si

UNG DUNG DIFFERENTIAL PRIVACY

TRONG CAC THUAT TOAN HOC MAY

TRAN BAO TRUNG baotrungk40pbe@ gmail.com

Nganh Toan Tin

Giảng viên hưởng dẫn: PGS TS Đỗ Đức Thuận

Hà Nội, 11/2021

Trang 2

TRUONG DAI HOC BACH KHOA HA NOI

LUAN VAN THAC Si

UNG DUNG DIFFERENTIAL PRIVACY

TRONG CAC THUAT TOAN HOC MAY

TRAN BAO TRUNG baotrungk40pbe@ gmail.com

Nganh Toan Tin

Giảng viên hướng dẫn: PGS TS Đã Đức Thuận Chữ kỉ của GVHD

Hà Nội, 11/2021

Trang 3

LỜI CẮM ƠN

Lời đầu tiên, tác giả xin bày tổ lòng biết ơn chân thành và sân sắc nhất tới PGS TS Đề Đức Thuận, người đã tận tình hướng dẫn, giúp đã và động viên

tác giả trong suốt quá trình thực hiện luận vấn này

Tac gia xin trân trọng câm dn Viện Toán ứng dụng và Tin học, Đại học Bách khoa Hà Nội dã tạo mọi diễu kiện thuận lợi cho tác giả trong quá trình học lập và nghiên cứu Xin cảm ơn các thầy cô, các bạn sinh viên, học viên

cao học của Viện Toán ứng dụng và Tin học đã giúp đỡ, trao đổi cùng tác

giả những kiến thức và kinh nghiệm quý báu để giúp cho luận văn này được

hoàn thiện hơn Tác giả cũng xin gửi lời cẩm ơn chân thành tới các bạn trong chương trình RIPS Singapore 2019 đã hỗ trợ tác giả trong quá trình làm việc

và tạo điều kiện cho tác giả trong thời gian nghiên cứu và thực hiện để tài này Cuối cùng, tác giã xin kính tặng những người thân yêu nhất của mình niềm

hạnh phúc và vinh dự to lớn nay!

Trang 4

TOM TAT NOI DUNG LUAN VAN

Hiện nay, rò rỉ thông tin cá nhân của người đùng luôn là vấn đẻ dược quan

tâm hàng đầu đổi với các công ty thu thập, sử dụng và công khai dữ liệu người

dùng thường xuyên như Facebook, Grab, Google Để giải quyết vẫn đề này,

một trong những giải nháp được các công ty và nhà nghiên cứu quan tâm gần đây là sử dụng Differcntial Privacy Luận văn tìm hiểu về Diffcrcntial Privacy

(viết tắt là DP) và áp dụng của nó trong các thuật toán học máy

Luan văn thạc sĩ sẽ trình bày lại lý thuyết toán học về Differential Privacy cũng như các phương, pháp cài dặt DP vào các thuật toán học máy, đặc biệt

tập trưng vào thuật toán rừng ngẫu nhiên (Random Forest) Ngoài ra, để kiểm

tra ảnh hưởng DP đến độ chính xác của các dự báo của thuật toán học máy,

tác giả xây dựng thuật toán rừng ngẫu nhiên phiền bản áp dụng DP và sử đụng thư viện Sklearn's Random Forest để tính các độ đo liên quan Dữ liệu được

sử đựng để nghiên cứu là dữ liệu hành trình các chuyến đi taxi ở New York

City (NYC taxi dataset)

Tw kha: Differential Privacy, độ nhạy cắm toàn cục, cơ chế Laplace, co

chế mũ, rững ngẫu nhiên, độ nhạy cẩm trơn

11à Nội, ngày 30 tháng 11 năm 2021

Kí và ghỉ ro bọ lên Kí và ghỉ rõ họ lên

Trang 5

Muc luc

1.2 _ Ví dụ về mô hình Differential Privacy| 8

13) Coiche Laplace 6 eee ee men RENE ESE 9

4: COCKS MU ss 4 4G 4H HG PES ROSS HAE EAGER II

T5 _ Tương quan giữa hiệu năng và an toàn của thuật toán Differ-

(2.1 _ Thuật toán rừng ngầu nhiên thoả mãn DP cho bài toán phân lớp.| 15

Trang 6

BS inh toán độ nhạy GINH HUILI|l¿ š 3 376231926 5g ÉE Rš§$ 28

3.4 _ Lẫy mâu ngẫu nhiên và tổng hợp kết quả với rừng ngẫu nhién] 29

3.5 Lấy mâu ngâu nhiên và tổng hợp kết quả với XGboost| 31

| Ứng dụng của Differential Privacy trong các thuật toán khác 33

4.1 Thuật toán DBSCAN đấm báo Differential Privacy| 33

[4.2 Differenial Privacy trong học sẫu] 35

4.2.1 _ Thuật toán hướng giảm gradient ngau nhiên đảm bảo

Trang 7

Danh muc tir viét tat

DP Riéng tu vi phin - Differential Privacy

RE' Thuật toán rừng ngẫu nhién - Random Forest

SGD Thuật loán hướng giảm nhanh nhất ngẫu nhiên - Stochastic Gradient

Decent

Trang 8

Danh mục hình vẽ và bảng

1I Ảnh hưởng của £ đôi với ket quả phân lóp Messe Gaius & Sam dee 13

2 Hiệu năng của 3 thuật Toán random forest tren bo dữ eu iris

Trang 9

Lời nói dau

Từ việc tham khảo các nghiên cứu gần dây, tác giả nhận thấy rằng có 4 phương pháp chính để đạt được Differential Privacy Về cơ bản, cả 4 phương

pháp đều có cùng cd chế tạo DP là thêm nhiễu vào quá trình thực thi thuật toán nhưng khác nhau ở vị trí thêm nhiễu Phương pháp dầu tiên là xáo trộn

đầu vào (Input perturbation) bing cách thêm trực tiếp nhiễu thống kê vào dit

liệu thô ban đầu, từ đó tạo ra dữ liệu tổng hợp (Synthetic dafa) có thể dùng

để phân tích bằng các thuật toán học máy thông thường Phương pháp thứ 2

và thứ 3 lần lượt là sử dụng cơ chế hàm mũ (Exponential mechanism) và xáo trộn hàm mục tiêu (Objective perturbation) nhằm đáo bảo quá trình học trong

thuật toán học máy thoả mãn DP Phương pháp cuối cùng là xáo trộn đầu ra (Output perturbation) bing cách thêm nhiễu vào dầu ra nhằm ngăn chặn các

phương pháp thu thập thông tin thông qua giải mã ngược, thông kê trên đầu

ra

Với luận văn này, tác giả tập trung vào phương pháp thêm nhiễu vào quá

trình bọc cửa các thuật (oán học máy, thể hiện nó thông qua thuật toán rừng

ngẫu nhiền và phương pháp xáo trộn đầu ra, thể hiện nó thông qua kỹ thuật

mẫu ngẫu nhiên và tổng hợp kết quả Để tao ra thuật toán rừng ngẫu nhiên

thoả mãn DP, dầu tiên tác giả xây đựng lại thuật toán rừng ngẫu nhiên, sử

dụng Sklearn và bộ dữ liệu Iris để đánh giá độ chính xác phân lớp của thuật

Trang 10

toán Sau đó, tác giả tiền hành thêm nhiễu thống kê vào quá trình thuật toán

xây dựng cây phân loại nhằm tạo ra kết quả phân lớp thoả mãn DP Với đầu

1a mới này, chúng tôi tiếp tục sử dụng Sklcarn dé dánh giá độ chính xác của

kết quả phân lớp và cuối cùng là áp dụng thuật toán rừng ngẫu nhiên phiên

bản DP vào bộ đữ liện hành trình NYC taxi dataset Đỗi với hài toán hồi quy,

nhiéu Laplace cé tinh cht thich nghỉ được thêm ở đầu ra của thuật toán rừng

ngẫu nhiên hoặc XGboosi

Luận văn gồm 4 chương với nội đung:

+ Chương 1: Lý thuyết và các định lý liên quan đến khẩi niệm DE

» Chương 2: Cài đặt [2P vào thuật toán rừng ngấu nhiên

+ Chương 3: Giải quyết bài toán hồi quy với thuật toán rừng ngẫu nhiên

sử dụng kỹ thuật lẫy mẫu ngẫu nhiên và tổng hợp kết quả

* Chương 4: Tháo luận các thuận toán khác có cài dat DP

Luận văn được hoàn thành trong chương trình Thạc sĩ Khoa học ngành Toán tin tại Viện Tuán ứng dụng và Tin học, Đại học Bách Khoa Hà Nội dưới

sự hướng dan cia PGS, TS Đỗ Đức Thuận

Mặc đù được hoàn thành với nhiều cố gắng nhưng do những hạn chế về

thời gian và kinh nghiệm, luận văn này không thể tránh khỏi những sai sót Tác giả rất mong nhận dược những ý kiến đóng góp quý báu từ thầy cô và các

ban hoc viên để luận văn được hoàn thiện hơn nữa.

Trang 11

Chương 1

Differential Privacy

1ý thuyết về Differential Privacy (riêng tư vi phần) được đưa ra lần đầu tiên bởi Dwork |1], cung cấn mô hình thống kẽ nhằm bảo vệ dữ liệu riêng tư

của một cá nhân trong quả trình công khai một số thông tìn khác của họ nhằm

phục vụ mục đích nghiên cứu Nguyên lý hoạt động của mô hình dựa trên việc đâm bảo rằng hất kỳ thông tin ngoài lễ (so với đữ liệu được công hd) dude sit dụng trong dầu vàa của một thuật toán thông kê bất kỳ, với mục dích xác dinh

đanh tính người dùng, sẽ không làm thay đổi đáng kể đầu ra của thuật toắn

đó, so với dữ liệu ban đầu

Sau một số vụ rò rỉ thông tin khách hàng, dến từ việc tìn tặc kết hợp nhiều

nguồn dữ liệu khác nhau [2], các ứng đụng của Differential Privacy gần day được các nhà khoa học quan tầm nghiên cứu, đặc biệt là các công ty thu thập

và công bố dữ liệu lớn của người dùng như Grab, Google, Netflix

Mội số ưu điểm của Differial Privacy có thể kể đến như:

1 Không phụ thuộc vào một kịch bản lắn công cụ thể nào của lin tặc, phân tích mức độ an toàn dựa trên trường hợp xâu nhat (the worst-case

analysis)

2 Ngăn chặn tân công liên kết dữ liệu

5

Trang 12

3 Đánh giá lượng thông tin ro ri (privacy loss)

4 Ngăn chặn rủi ro hậu xử lý (dữ liệu đầu ra của một thuật toán học máy

có trang bi Differential Privacy không làm tăng tính rủi ro để lộ thông

tin cá nhân so với đữ liệu dầu vào)

Trước khí đi vào định nghia cila Differential Privacy, ta cin mé hinh hoá

không pian dữ liệu

Định nghĩa 1.1 Cho đập và trụ 2ˆ gồm tắt cả các bản ghỉ Một bộ dữ liệu

x Id vector của không gian ÑLŸÌ, trong đố xị là số lượng bản ghỉ loại ¡ chứa

trong +

Tiếp theo, ta cần định nghĩa khoảng cách giữa hai bộ dữ liệu trong không

gian dữ liệu

Định nghĩa 1.2 Khoảng cách giữa hai bộ dữ liệu x.y c NỈ? được xác định

thông qua chuẩn ly:

2

dx,y) = [xl = Y byl

a1

Dễ thấy rằng khoảng cách giữa hai bộ dữ liệu x,y € NI#Ì bằng khoảng

cách Hamming giữa chúng (số bản ghi khác nhau giữa hai hộ đữ liệu) Khí

đó, hai đữ liệu x,y được gọi là hàng xóm nếu chúng sai khác nhau đúng 1 bản ghi

Differential Privacy cung cấp lý thuyết toán học chặt chế giúp ta lượng hoá rủi ro rò rỉ dữ liệu riêng tư

Trang 13

Định nghĩa 1.3 Thudt todn ngẫu nhiên 2 la (e,8)-DP néu voi moi déu ra

O của „#, và với mọi đầu vào hàng xóm D, D,

Pr @(D) = O] < cxp(£)Pr[(P) = ö]+ã

Trong trường hợp 5 = 0, thuat todn ngẫu nhiên ## dược gọi là thuẫn tuý

Differential Privacy Xét bất kỳ một thuật toán thuần tuý Differential Privacy,

với e rất bé, dé thấy rằng xác suất quan sát được một đâu ra bắt kỳ gần như

giống nhan dối với các dữ liệu dầu vào hàng xóm Từ đó, đâm bảo không thé

xác định chính xác một cá nhân bất ky Ui tập dữ liệu hàng xóm của nó theo

nghĩa xác suất

Trong luận văn này, chúng tôi chỉ tập trung khai thác các thuật toán thuần

Wy Differential Privacy

Mật trong những tính chất quan trọng của thuật toán đâm bao DP 1a cho

đù ta tấc động một thuật toán tuỳ ý vào kết quả dầu ra của thuật toán ban dầu thì kết quả cuối cùng van dim bao DP Qua đó ngặn chặn việc khai thác thong

tin thông qua xử lý hậu kỳ kết quả

Định lý 1.1 Giả sử 1d thuật toán thoả mãn e—DP, khi đó với mọi thuật

toán s#, hợp của chúng là số (sấ|) vẫn thoả mẫn E~DP

Chứng mình Gọi D,D' là hai dữ liệu hàng xóm, Z là tập hợp dầu ra của

of, Vat 1a một đầu ra tuỳ ý của thuật toán 2 Khi đó:

Trong định lý trên thuật (oán ,42 không có quyền truy cập vào đầu vào D

của «Z¡ Trong trường hợp chúng ta sử dụng kết hợp cho nhiễu thuật toán DP

7

Trang 14

có tham số khả năng bảo vệ thông tin riêng tư khác nhau với cùng một đầu

vào, thì định lý sau khẳng định thuật toán tổng hợp của chúng vẫn đảm bảo

DP

Định lý 1.2 Giả sử øi là thuật toán thaả mãn €\—DP, of la thudt todn thod

mén &-DP Khi đó, thuật toán ý (D) = 35(ì(D),D) thoả mãn (E4 + £›)~

DP

Chiing mink Goi D,D! 1a hai dit Hién hing x6m, 14 tip hop dau ra cia

of, vat Ji mot dan ra tu¥ ý của thuật toán s#s Khi đó:

1⁄2 Ví dụ về mô hinh Differential Privacy

Giê sử một tổ chức xã hội tiến hành khảo sát trực tuyến hành vi hút thuốc

lá của người dùng Dwork dễ xuất một thuật toán ngẫu nhiên ghi lại kết quả

khảo sát như sau:

1 Tung một dồng xu

2 NÊu ra mặt sắp, ghi lại dúng hành vi của khách hàng

3 Nếu ra mặt nrgửa, lung đồng xu thêm một lần nữa

4, Õ lần tưng thứ hai, nếu ra mặt ngửa thì ghỉ có và ghỉ không nếu ra mặt

sắp.

Trang 15

Bằng một vài tính toán xác suất, dễ thấy rằng đây là một thuật toán In3-

DE Ở đây, không mắt tính tổng quát, giả sử Ó — ”yes”, trường hợp Ó — “ne”

chứng minh hoàn toàn tương tự

Pr[Z(D)=Ơ| _ — PrlResponse=Yes|Smokel 3/4 - 3

Pr[.#()=Ó| — Pr[Response= Yes| Non-Smoker] 1/4 ˆ

Do đó, thật toán ngẫu nhiên trên cung cấp sự bảo vệ thông tin cho người

được khảo sát với một mực độ nhất định, khi kết quả được ghi nhận một cách

ngẫu nhiên hơn là tắt định

1.3 Cơ chế Laplace

Một trong những cách cơ bản để tạo ra thuật toán Differential Privacy

là thêm nhiễu vào đầu ra Cơ ché Laplace thém nhiễu tuân theo phân phối Laplacc vào các dầu ra của các bước sử dụng truy vẫn số như trung bình cộng,

trung vị, đếm số lượng phẩn tử, tổng các phần tử của đữ liệu Tham số của cơ

chế Laplace thay déi phy thudc vao độ nhạy cảm của truy vấn

Định nghĩn 1.4 (Độ nhạy cẫm toàn cục của hàm truy vẫn số) Giả sử ƒ là truy vần số với dầu ra là có dang vector sé thie f > NIT — BE Khi dó, độ nhạy

cẩm Aƒ của truy vấn ƒ được xác định nhụ sau"

Aƒ:— max | ⁄- max| /(Ð) ƒ(Ð) - ƒ( =ƒ(Đ)|,

trong đó 13,1 lấy trên tắt cả các đữ liệu đầu vào là hàng xóm của nhau

Một cách trực quan, rõ rầng độ nhạy cắm của truy vấn đo sự biến đổi của

đầu ra, khi ta thay đổi nhỏ dữ liệu dầu vào Từ đó, định lượng giá trị nhiễu cần

thêm vào nhằm mục đích che dấu sự thay đổi đó.

Trang 16

Định nghĩa 1.5 Voi moi truy van sé f, co ché Laplace thém nhiễu vào đầu ra

của ƒ theo công thức:

-#i(B,/(),£) :— /(Ð) 1 Œị, ,f¿)

trong dó Y¡ là biển ngẫu nhiên tuân theo phân phối Lap(Aƒ/£)

Từ định nghĩa trên, ta thấy rằng khi độ nhạy cảm Áƒ lớn, và ta muốn rủi

To rò rỉ thông tin cá nhân £ bé thì giá trị nhiễu cần thêm vào sẽ tương đối lớn

Định lý 1.3 Cơ chế Laplace rao ra thuậi toán €-thudn tuy Differential Pri-

vacy

Chứng mình Giả sử x,y là hai dit lign hang x6m tuy ¥, hay [a ||x ||, — 1

Goi py, py thea thứ tự là hàm mật độ xác suất của „ý; (x, ƒ(-),£) và #,@,f(-),£)

Trang 17

14 Coché ma,

Trong phan tridc, ching ti di gidi thiéu cd ché Laplace thém nhiễu có

phần phối Laplace nhằm xáo trộn dần ra của các truy vấn số Tuy nhiên, trong

một số trường hợp, đặc tính của dữ Hệu không phù hợp với thay đổi quá lớn của giá trị đầu ra (như giá thầu) hoặc đữ liệu chứa các thồng tin chỉ nhận hữu hạn giá trị rồi rạc (chẳng hạn biến nhị phân 0, 1) việc thêm nhiễu Laplace là

không có ý nghĩa Cơ chế mũ tạo ra dựa trên việc thay vì xáo trộn trực tiếp giá

trị của biến đầu ra, sẽ xáo trộn xác suất mà một giá trị được chọn làm đầu ra

trong tập hữu hạn các giá trị có thể

Giả sử trong một thuật toán tuỳ ý, hàm trọng số xác suất œ là hàm số được

sử dụng để chọn ra ứng viễn đầu ra (thông thường, hàm » tính xác suất một

ứng viên đầu ra được chọn và do đó ứng viên nào có xác suất lớn hơn sẽ là

đầu ra của thuật toán) Khi đó, độ nhảy cảm của hàm ø được dịnh nghĩa như

sau:

linh nghĩa 1.6 (Độ nhạy cảm toàn cục của hàm trọng số x4c suat) Goi # ta

tập hợp các giá trị có thể của dâu ra và ä: NIP x @ RDO nhạy cẩm Au

được xác định bởi công thức:

Au max max |u(D,7) u(P',r)|

trong đó D,IŸ lẫy trên tắt cả các bộ dữ liệu đầu vào là hàng xám của nhau

Giống với cd ché Laplace, co ché mũ tạo ra xáo trộn đầu ra dựa trên độ

Trang 18

Chứng mình, Giả sử x,y là 2 đữ liệu hàng xóm và r là giá trị bất kỳ nằm

trong tập đầu ra Khi đó:

4 exp ay} ): ( exp?) )

1Aw regexp ey”

<exn(§) (6) (Eten?) Lrearexp St)

=exp(£)

Vay cơ chế mũ là e-thuẳn wy DP

thuật toán Differential Privacy

Trong khi thêm nhiễu giúp tạo ra chiếc khiên bảo vệ dữ liệu người dùng,

việc ảnh hưởng đến độ chính xác và qua đó ảnh hưởng khả năng ứng đụng của thuật toán trong phân tích đữ liệu lớn là điều không thể tránh khỏi Đối với các cơ chế tạo ra Differential Privacy cho thuật toán ngẫu nhiên chúng tôi giới thiệu ở trên, rõ ràng khi muốn hằng số đặc trưng cho mức rủi rd rò rỉ thông tin

cá nhân £ càng bé thì giá trị nhiễu cần thêm để xáo trộn dữ liệu đầu ra càng

ln Trong phần này, chúng tôi sẽ nghiền cứu mối rương quan này đựa trên việc quan sát kết quả của thuật toán phân lớp Naive Bayes dam bao DP

Thuật toán Gaussian Naivc Bayes giá sử rằng dữ liệu đầu vào tuân theo

luật phân phối chuẩn từ đó tính toán xác suất hậu nghiệm nhằm sử đụng để

12

Trang 19

phân lớp Trong quá trình thực hiện thuật toán, 2 đại lượng thong kê được

sử dụng là trung bình và phương sai Do đó, thuật toán được giới thiệu trong

[3] thêm nhiễu Laplace vào cả trung bình và phương sai để tạo ra thuật toán

Gaussian Naive Bayes thoả mãn DP

Differentially Private Naive Bayes Accuracy

Hinh 1.1: Ảnh hưởng của e đối với kết quả phân lớp

Tiếp theo, chúng tôi sẽ sử dụng mã nguồn mở thuật toán Gaussian Naive Bayes da dude thêm nhiễu Laplace dé dim bao Differential Privacy ctia IBM [4] dé minh hoạ mối tương quan giữa lượng thông tin rò rỉ và độ chính xác của

thuật toán Đồ thị[I I]thể hiện hiệu năng của thuật toán phụ thuộc vào lượng

thông tin rửi ro £ trong khoảng từ 10~Ê đến 10Ẻ Với mỗi giá trị của e, chúng

tôi tiền hành chạy thuật toán 200 lần và lấy trung bình sai số phân lớp để tạo

ra đồ thị trơn hơn Quan sát đồ thị, ta có thể thấy độ chính xác phân lớp tương

đối thấp khi e rất bé và tăng lên nhanh chóng khi £ tăng dần đến 10°

Như vậy, mặc dù khả năng bảo vệ và tính chính xác của một thuật toán DP đều nên được tối ưu, cải tiền một đại lượng sẽ dẫn đến sự xấu đi của đại lượng còn lại Tuỳ thuộc vào thuật toán và dữ liệu được nghiên cứu, độ dốc của đồ

thị chỉ mối tương quan này có thể khác nhau Vì vậy, với mỗi ứng dụng trên

một tập dữ liệu cụ thể, điểm cân bằng giữa hiệu năng và mức độ bảo vệ của thuật cần được nghiên cứu dựa trên mục đích của việc phân tích dữ liệu

13

Trang 20

Chương 2

Differential Privacy với

thuật toán rừng ngẫu nhiên

Trong chương này, chúng lôi trình bày một thuật toán rừng ngẫu nhiên

thoá mãn DP có sửa đổi từ thuật toán của Li [5] và Patil [6] Trong khi thuật

toán của Li va Patil thém một lớp nhiễu Laplace mỗi khi có truy vẫn số được

gọi từ tập đữ liệu, chúng tôi chọn cách lược bỏ bước này với giả thiết tin tặc

chỉ có quyền truy cập vào dữ liệu đầu ra và mô hình cây Các truy vẫn số cụ

thể hên trong thuật toán do đó vẫn được bảo mật Thuật toán trình bày dưới

đây sử dụng cơ chế mũ trong quá trình chọn đặc trưng tại mỗi lần phân nhánh,

đo đó tạo ra cây quyết định với cách phân nhánh xác xuất thay vì tắt định như

thuật toán rừng ngẫu nhiên thông thường

Trang 21

2.1 Thuật toán rừng ngẫu nhiên thoả mãn DP

cho bài toán phân lớp

"Thông thường, thuật toán ring ngẫu nhiên sử dụng hàm Tnformation Gain

hoặc Gini Index để xác dịnh tiêu chuẩn phân nhánh Đối với thuật toán rừng

ngẫu nhién ap dung Differential Privacy, ching tôi chọn hầm Gini Indcx âm

Mã giá của thuật toán được thể hiện trơng thuật toán 1.

Trang 22

Algorithm 1: Thuật toán rừng ngẫu nhiên dim bao DP

Result: Ritng ngẫu nhiên phân lớp đảm bảo I3ifferential Privacy

Tnpnt: Ð: Tập huắn luyện; 8: Số lượng cây quyết định; P;;: Ngân sách

riêng tư; ä: Độ sâu; s⁄ = {A\, Az}: Tập các trường thông,

tin của đữ liệu đùng phân lớp

1 E— fru/B,E— rủ

z fur b=!, ,B do

3 | Lấy mẫu ngẫu nhiên Z với kích thước ||;

4 Xây đựng cây quyết định lập lại các bước sau cho đến khi — Ũ

1 Chọn ngẫu nhiên m trường thông tin từ đ đặc trưng đầu vào m thong

thường là V4

2 Sử dụng ed chế mũ bằng cách chọn đặc trưng rẽ nhánh A với xác suất

cxp (— x,4(Z,4))

Laem EXP (-s&jalz,a))

ở đây g la Gini index ctia die trưng A

3 Phân nhánh nút hiện tại thành 2 nút con, gán b = b— |

send

ø Output là một tập hợp các cây quyết định; việc phân lớp một dữ liệu

đầu vão mới được tổng hợp từ kết quả phân loại của các cây quyết

định

16

Trang 23

Rõ ràng, tính toán độ nhạy cảm của Gini Index là quan trọng trong việc thực thi cở chế mũ Firedman trong [7| chỉ ra rằng ham Gini index có độ nhạy

Chứng mình Với hai lập dữ liệu hàng xóm bất kỳ, vì chúng chỉ khác nhau

duy nhất 5 1 ban ghi z, nên nếu giả sử r¿ — 7 thì chúng †a chỉ cần quan tâm

Trang 24

Suy ra:

S(4œim) € 2

Từ định lý trên, ta có thể xây dựng thuật toán phân nhánh cho cây quyết

định sử dụng cơ chế mũ như sau (xem thuật toán 2)

Algorithm 2: Cơ chế mũ sử dụng để chọn đặc trưng phân nhánh

Result: Dac trưng phần nhánh

Input: 7: Tập dữ liệu; e# — {A, Á„}: Tập hợp các đặc trưng của

đữ liệu; £: hằng số đặc trưng cho lượng thông tin rủi ro

1 idx < random.choice((1, ,2], probability = prob_array)

Chon Ajg, cling với điểm chia spliting_point|idx|

Tiêu đề	Luận văn ứng dụng differential privacy trong các thuật toán học máy
Tác giả	Trần Bảo Trung
Người hướng dẫn	PGS. TS. Đỗ Đức Thuận
Trường học	Đại học Bách Khoa Hà Nội
Chuyên ngành	Toán Tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	48
Dung lượng	731,65 KB