Ngoài ra, để kiểm tra ảnh hưởng DP đến độ chính xác của các dự báo của thuật toán học máy, tác giả xây dựng thuật toán rừng ngẫu nhiên phiền bản áp dụng DP và sử đụng thư viện Sklearn's
Trang 1TRUONG DAI HOC BACH KHOA HA NOI
LUAN VAN THAC Si
UNG DUNG DIFFERENTIAL PRIVACY
TRONG CAC THUAT TOAN HOC MAY
TRAN BAO TRUNG baotrungk40pbe@ gmail.com
Nganh Toan Tin
Giảng viên hưởng dẫn: PGS TS Đỗ Đức Thuận
Hà Nội, 11/2021
Trang 2TRUONG DAI HOC BACH KHOA HA NOI
LUAN VAN THAC Si
UNG DUNG DIFFERENTIAL PRIVACY
TRONG CAC THUAT TOAN HOC MAY
TRAN BAO TRUNG baotrungk40pbe@ gmail.com
Nganh Toan Tin
Giảng viên hướng dẫn: PGS TS Đã Đức Thuận Chữ kỉ của GVHD
Hà Nội, 11/2021
Trang 3LỜI CẮM ƠN
Lời đầu tiên, tác giả xin bày tổ lòng biết ơn chân thành và sân sắc nhất tới PGS TS Đề Đức Thuận, người đã tận tình hướng dẫn, giúp đã và động viên
tác giả trong suốt quá trình thực hiện luận vấn này
Tac gia xin trân trọng câm dn Viện Toán ứng dụng và Tin học, Đại học Bách khoa Hà Nội dã tạo mọi diễu kiện thuận lợi cho tác giả trong quá trình học lập và nghiên cứu Xin cảm ơn các thầy cô, các bạn sinh viên, học viên
cao học của Viện Toán ứng dụng và Tin học đã giúp đỡ, trao đổi cùng tác
giả những kiến thức và kinh nghiệm quý báu để giúp cho luận văn này được
hoàn thiện hơn Tác giả cũng xin gửi lời cẩm ơn chân thành tới các bạn trong chương trình RIPS Singapore 2019 đã hỗ trợ tác giả trong quá trình làm việc
và tạo điều kiện cho tác giả trong thời gian nghiên cứu và thực hiện để tài này Cuối cùng, tác giã xin kính tặng những người thân yêu nhất của mình niềm
hạnh phúc và vinh dự to lớn nay!
Trang 4TOM TAT NOI DUNG LUAN VAN
Hiện nay, rò rỉ thông tin cá nhân của người đùng luôn là vấn đẻ dược quan
tâm hàng đầu đổi với các công ty thu thập, sử dụng và công khai dữ liệu người
dùng thường xuyên như Facebook, Grab, Google Để giải quyết vẫn đề này,
một trong những giải nháp được các công ty và nhà nghiên cứu quan tâm gần đây là sử dụng Differcntial Privacy Luận văn tìm hiểu về Diffcrcntial Privacy
(viết tắt là DP) và áp dụng của nó trong các thuật toán học máy
Luan văn thạc sĩ sẽ trình bày lại lý thuyết toán học về Differential Privacy cũng như các phương, pháp cài dặt DP vào các thuật toán học máy, đặc biệt
tập trưng vào thuật toán rừng ngẫu nhiên (Random Forest) Ngoài ra, để kiểm
tra ảnh hưởng DP đến độ chính xác của các dự báo của thuật toán học máy,
tác giả xây dựng thuật toán rừng ngẫu nhiên phiền bản áp dụng DP và sử đụng thư viện Sklearn's Random Forest để tính các độ đo liên quan Dữ liệu được
sử đựng để nghiên cứu là dữ liệu hành trình các chuyến đi taxi ở New York
City (NYC taxi dataset)
Tw kha: Differential Privacy, độ nhạy cắm toàn cục, cơ chế Laplace, co
chế mũ, rững ngẫu nhiên, độ nhạy cẩm trơn
11à Nội, ngày 30 tháng 11 năm 2021
Kí và ghỉ ro bọ lên Kí và ghỉ rõ họ lên
Trang 5Muc luc
1.2 _ Ví dụ về mô hình Differential Privacy| 8
13) Coiche Laplace 6 eee ee men RENE ESE 9
4: COCKS MU ss 4 4G 4H HG PES ROSS HAE EAGER II
T5 _ Tương quan giữa hiệu năng và an toàn của thuật toán Differ-
(2.1 _ Thuật toán rừng ngầu nhiên thoả mãn DP cho bài toán phân lớp.| 15
Trang 6BS inh toán độ nhạy GINH HUILI|l¿ š 3 376231926 5g ÉE Rš§$ 28
3.4 _ Lẫy mâu ngẫu nhiên và tổng hợp kết quả với rừng ngẫu nhién] 29
3.5 Lấy mâu ngâu nhiên và tổng hợp kết quả với XGboost| 31
| Ứng dụng của Differential Privacy trong các thuật toán khác 33
4.1 Thuật toán DBSCAN đấm báo Differential Privacy| 33
[4.2 Differenial Privacy trong học sẫu] 35
4.2.1 _ Thuật toán hướng giảm gradient ngau nhiên đảm bảo
Trang 7Danh muc tir viét tat
DP Riéng tu vi phin - Differential Privacy
RE' Thuật toán rừng ngẫu nhién - Random Forest
SGD Thuật loán hướng giảm nhanh nhất ngẫu nhiên - Stochastic Gradient
Decent
Trang 8Danh mục hình vẽ và bảng
1I Ảnh hưởng của £ đôi với ket quả phân lóp Messe Gaius & Sam dee 13
2 Hiệu năng của 3 thuật Toán random forest tren bo dữ eu iris
Trang 9Lời nói dau
Từ việc tham khảo các nghiên cứu gần dây, tác giả nhận thấy rằng có 4 phương pháp chính để đạt được Differential Privacy Về cơ bản, cả 4 phương
pháp đều có cùng cd chế tạo DP là thêm nhiễu vào quá trình thực thi thuật toán nhưng khác nhau ở vị trí thêm nhiễu Phương pháp dầu tiên là xáo trộn
đầu vào (Input perturbation) bing cách thêm trực tiếp nhiễu thống kê vào dit
liệu thô ban đầu, từ đó tạo ra dữ liệu tổng hợp (Synthetic dafa) có thể dùng
để phân tích bằng các thuật toán học máy thông thường Phương pháp thứ 2
và thứ 3 lần lượt là sử dụng cơ chế hàm mũ (Exponential mechanism) và xáo trộn hàm mục tiêu (Objective perturbation) nhằm đáo bảo quá trình học trong
thuật toán học máy thoả mãn DP Phương pháp cuối cùng là xáo trộn đầu ra (Output perturbation) bing cách thêm nhiễu vào dầu ra nhằm ngăn chặn các
phương pháp thu thập thông tin thông qua giải mã ngược, thông kê trên đầu
ra
Với luận văn này, tác giả tập trung vào phương pháp thêm nhiễu vào quá
trình bọc cửa các thuật (oán học máy, thể hiện nó thông qua thuật toán rừng
ngẫu nhiền và phương pháp xáo trộn đầu ra, thể hiện nó thông qua kỹ thuật
mẫu ngẫu nhiên và tổng hợp kết quả Để tao ra thuật toán rừng ngẫu nhiên
thoả mãn DP, dầu tiên tác giả xây đựng lại thuật toán rừng ngẫu nhiên, sử
dụng Sklearn và bộ dữ liệu Iris để đánh giá độ chính xác phân lớp của thuật
Trang 10toán Sau đó, tác giả tiền hành thêm nhiễu thống kê vào quá trình thuật toán
xây dựng cây phân loại nhằm tạo ra kết quả phân lớp thoả mãn DP Với đầu
1a mới này, chúng tôi tiếp tục sử dụng Sklcarn dé dánh giá độ chính xác của
kết quả phân lớp và cuối cùng là áp dụng thuật toán rừng ngẫu nhiên phiên
bản DP vào bộ đữ liện hành trình NYC taxi dataset Đỗi với hài toán hồi quy,
nhiéu Laplace cé tinh cht thich nghỉ được thêm ở đầu ra của thuật toán rừng
ngẫu nhiên hoặc XGboosi
Luận văn gồm 4 chương với nội đung:
+ Chương 1: Lý thuyết và các định lý liên quan đến khẩi niệm DE
» Chương 2: Cài đặt [2P vào thuật toán rừng ngấu nhiên
+ Chương 3: Giải quyết bài toán hồi quy với thuật toán rừng ngẫu nhiên
sử dụng kỹ thuật lẫy mẫu ngẫu nhiên và tổng hợp kết quả
* Chương 4: Tháo luận các thuận toán khác có cài dat DP
Luận văn được hoàn thành trong chương trình Thạc sĩ Khoa học ngành Toán tin tại Viện Tuán ứng dụng và Tin học, Đại học Bách Khoa Hà Nội dưới
sự hướng dan cia PGS, TS Đỗ Đức Thuận
Mặc đù được hoàn thành với nhiều cố gắng nhưng do những hạn chế về
thời gian và kinh nghiệm, luận văn này không thể tránh khỏi những sai sót Tác giả rất mong nhận dược những ý kiến đóng góp quý báu từ thầy cô và các
ban hoc viên để luận văn được hoàn thiện hơn nữa.
Trang 11Chương 1
Differential Privacy
1ý thuyết về Differential Privacy (riêng tư vi phần) được đưa ra lần đầu tiên bởi Dwork |1], cung cấn mô hình thống kẽ nhằm bảo vệ dữ liệu riêng tư
của một cá nhân trong quả trình công khai một số thông tìn khác của họ nhằm
phục vụ mục đích nghiên cứu Nguyên lý hoạt động của mô hình dựa trên việc đâm bảo rằng hất kỳ thông tin ngoài lễ (so với đữ liệu được công hd) dude sit dụng trong dầu vàa của một thuật toán thông kê bất kỳ, với mục dích xác dinh
đanh tính người dùng, sẽ không làm thay đổi đáng kể đầu ra của thuật toắn
đó, so với dữ liệu ban đầu
Sau một số vụ rò rỉ thông tin khách hàng, dến từ việc tìn tặc kết hợp nhiều
nguồn dữ liệu khác nhau [2], các ứng đụng của Differential Privacy gần day được các nhà khoa học quan tầm nghiên cứu, đặc biệt là các công ty thu thập
và công bố dữ liệu lớn của người dùng như Grab, Google, Netflix
Mội số ưu điểm của Differial Privacy có thể kể đến như:
1 Không phụ thuộc vào một kịch bản lắn công cụ thể nào của lin tặc, phân tích mức độ an toàn dựa trên trường hợp xâu nhat (the worst-case
analysis)
2 Ngăn chặn tân công liên kết dữ liệu
5
Trang 123 Đánh giá lượng thông tin ro ri (privacy loss)
4 Ngăn chặn rủi ro hậu xử lý (dữ liệu đầu ra của một thuật toán học máy
có trang bi Differential Privacy không làm tăng tính rủi ro để lộ thông
tin cá nhân so với đữ liệu dầu vào)
Trước khí đi vào định nghia cila Differential Privacy, ta cin mé hinh hoá
không pian dữ liệu
Định nghĩa 1.1 Cho đập và trụ 2ˆ gồm tắt cả các bản ghỉ Một bộ dữ liệu
x Id vector của không gian ÑLŸÌ, trong đố xị là số lượng bản ghỉ loại ¡ chứa
trong +
Tiếp theo, ta cần định nghĩa khoảng cách giữa hai bộ dữ liệu trong không
gian dữ liệu
Định nghĩa 1.2 Khoảng cách giữa hai bộ dữ liệu x.y c NỈ? được xác định
thông qua chuẩn ly:
2
dx,y) = [xl = Y byl
a1
Dễ thấy rằng khoảng cách giữa hai bộ dữ liệu x,y € NI#Ì bằng khoảng
cách Hamming giữa chúng (số bản ghi khác nhau giữa hai hộ đữ liệu) Khí
đó, hai đữ liệu x,y được gọi là hàng xóm nếu chúng sai khác nhau đúng 1 bản ghi
Differential Privacy cung cấp lý thuyết toán học chặt chế giúp ta lượng hoá rủi ro rò rỉ dữ liệu riêng tư
Trang 13Định nghĩa 1.3 Thudt todn ngẫu nhiên 2 la (e,8)-DP néu voi moi déu ra
O của „#, và với mọi đầu vào hàng xóm D, D,
Pr @(D) = O] < cxp(£)Pr[(P) = ö]+ã
Trong trường hợp 5 = 0, thuat todn ngẫu nhiên ## dược gọi là thuẫn tuý
Differential Privacy Xét bất kỳ một thuật toán thuần tuý Differential Privacy,
với e rất bé, dé thấy rằng xác suất quan sát được một đâu ra bắt kỳ gần như
giống nhan dối với các dữ liệu dầu vào hàng xóm Từ đó, đâm bảo không thé
xác định chính xác một cá nhân bất ky Ui tập dữ liệu hàng xóm của nó theo
nghĩa xác suất
Trong luận văn này, chúng tôi chỉ tập trung khai thác các thuật toán thuần
Wy Differential Privacy
Mật trong những tính chất quan trọng của thuật toán đâm bao DP 1a cho
đù ta tấc động một thuật toán tuỳ ý vào kết quả dầu ra của thuật toán ban dầu thì kết quả cuối cùng van dim bao DP Qua đó ngặn chặn việc khai thác thong
tin thông qua xử lý hậu kỳ kết quả
Định lý 1.1 Giả sử 1d thuật toán thoả mãn e—DP, khi đó với mọi thuật
toán s#, hợp của chúng là số (sấ|) vẫn thoả mẫn E~DP
Chứng mình Gọi D,D' là hai dữ liệu hàng xóm, Z là tập hợp dầu ra của
of, Vat 1a một đầu ra tuỳ ý của thuật toán 2 Khi đó:
Trong định lý trên thuật (oán ,42 không có quyền truy cập vào đầu vào D
của «Z¡ Trong trường hợp chúng ta sử dụng kết hợp cho nhiễu thuật toán DP
7
Trang 14có tham số khả năng bảo vệ thông tin riêng tư khác nhau với cùng một đầu
vào, thì định lý sau khẳng định thuật toán tổng hợp của chúng vẫn đảm bảo
DP
Định lý 1.2 Giả sử øi là thuật toán thaả mãn €\—DP, of la thudt todn thod
mén &-DP Khi đó, thuật toán ý (D) = 35(ì(D),D) thoả mãn (E4 + £›)~
DP
Chiing mink Goi D,D! 1a hai dit Hién hing x6m, 14 tip hop dau ra cia
of, vat Ji mot dan ra tu¥ ý của thuật toán s#s Khi đó:
1⁄2 Ví dụ về mô hinh Differential Privacy
Giê sử một tổ chức xã hội tiến hành khảo sát trực tuyến hành vi hút thuốc
lá của người dùng Dwork dễ xuất một thuật toán ngẫu nhiên ghi lại kết quả
khảo sát như sau:
1 Tung một dồng xu
2 NÊu ra mặt sắp, ghi lại dúng hành vi của khách hàng
3 Nếu ra mặt nrgửa, lung đồng xu thêm một lần nữa
4, Õ lần tưng thứ hai, nếu ra mặt ngửa thì ghỉ có và ghỉ không nếu ra mặt
sắp.
Trang 15Bằng một vài tính toán xác suất, dễ thấy rằng đây là một thuật toán In3-
DE Ở đây, không mắt tính tổng quát, giả sử Ó — ”yes”, trường hợp Ó — “ne”
chứng minh hoàn toàn tương tự
Pr[Z(D)=Ơ| _ — PrlResponse=Yes|Smokel 3/4 - 3
Pr[.#()=Ó| — Pr[Response= Yes| Non-Smoker] 1/4 ˆ
Do đó, thật toán ngẫu nhiên trên cung cấp sự bảo vệ thông tin cho người
được khảo sát với một mực độ nhất định, khi kết quả được ghi nhận một cách
ngẫu nhiên hơn là tắt định
1.3 Cơ chế Laplace
Một trong những cách cơ bản để tạo ra thuật toán Differential Privacy
là thêm nhiễu vào đầu ra Cơ ché Laplace thém nhiễu tuân theo phân phối Laplacc vào các dầu ra của các bước sử dụng truy vẫn số như trung bình cộng,
trung vị, đếm số lượng phẩn tử, tổng các phần tử của đữ liệu Tham số của cơ
chế Laplace thay déi phy thudc vao độ nhạy cảm của truy vấn
Định nghĩn 1.4 (Độ nhạy cẫm toàn cục của hàm truy vẫn số) Giả sử ƒ là truy vần số với dầu ra là có dang vector sé thie f > NIT — BE Khi dó, độ nhạy
cẩm Aƒ của truy vấn ƒ được xác định nhụ sau"
Aƒ:— max | ⁄- max| /(Ð) ƒ(Ð) - ƒ( =ƒ(Đ)|,
trong đó 13,1 lấy trên tắt cả các đữ liệu đầu vào là hàng xóm của nhau
Một cách trực quan, rõ rầng độ nhạy cắm của truy vấn đo sự biến đổi của
đầu ra, khi ta thay đổi nhỏ dữ liệu dầu vào Từ đó, định lượng giá trị nhiễu cần
thêm vào nhằm mục đích che dấu sự thay đổi đó.
Trang 16Định nghĩa 1.5 Voi moi truy van sé f, co ché Laplace thém nhiễu vào đầu ra
của ƒ theo công thức:
-#i(B,/(),£) :— /(Ð) 1 Œị, ,f¿)
trong dó Y¡ là biển ngẫu nhiên tuân theo phân phối Lap(Aƒ/£)
Từ định nghĩa trên, ta thấy rằng khi độ nhạy cảm Áƒ lớn, và ta muốn rủi
To rò rỉ thông tin cá nhân £ bé thì giá trị nhiễu cần thêm vào sẽ tương đối lớn
Định lý 1.3 Cơ chế Laplace rao ra thuậi toán €-thudn tuy Differential Pri-
vacy
Chứng mình Giả sử x,y là hai dit lign hang x6m tuy ¥, hay [a ||x ||, — 1
Goi py, py thea thứ tự là hàm mật độ xác suất của „ý; (x, ƒ(-),£) và #,@,f(-),£)
Trang 1714 Coché ma,
Trong phan tridc, ching ti di gidi thiéu cd ché Laplace thém nhiễu có
phần phối Laplace nhằm xáo trộn dần ra của các truy vấn số Tuy nhiên, trong
một số trường hợp, đặc tính của dữ Hệu không phù hợp với thay đổi quá lớn của giá trị đầu ra (như giá thầu) hoặc đữ liệu chứa các thồng tin chỉ nhận hữu hạn giá trị rồi rạc (chẳng hạn biến nhị phân 0, 1) việc thêm nhiễu Laplace là
không có ý nghĩa Cơ chế mũ tạo ra dựa trên việc thay vì xáo trộn trực tiếp giá
trị của biến đầu ra, sẽ xáo trộn xác suất mà một giá trị được chọn làm đầu ra
trong tập hữu hạn các giá trị có thể
Giả sử trong một thuật toán tuỳ ý, hàm trọng số xác suất œ là hàm số được
sử dụng để chọn ra ứng viễn đầu ra (thông thường, hàm » tính xác suất một
ứng viên đầu ra được chọn và do đó ứng viên nào có xác suất lớn hơn sẽ là
đầu ra của thuật toán) Khi đó, độ nhảy cảm của hàm ø được dịnh nghĩa như
sau:
linh nghĩa 1.6 (Độ nhạy cảm toàn cục của hàm trọng số x4c suat) Goi # ta
tập hợp các giá trị có thể của dâu ra và ä: NIP x @ RDO nhạy cẩm Au
được xác định bởi công thức:
Au max max |u(D,7) u(P',r)|
trong đó D,IŸ lẫy trên tắt cả các bộ dữ liệu đầu vào là hàng xám của nhau
Giống với cd ché Laplace, co ché mũ tạo ra xáo trộn đầu ra dựa trên độ
Trang 18Chứng mình, Giả sử x,y là 2 đữ liệu hàng xóm và r là giá trị bất kỳ nằm
trong tập đầu ra Khi đó:
4 exp ay} ): ( exp?) )
1Aw regexp ey”
<exn(§) (6) (Eten?) Lrearexp St)
=exp(£)
Vay cơ chế mũ là e-thuẳn wy DP
thuật toán Differential Privacy
Trong khi thêm nhiễu giúp tạo ra chiếc khiên bảo vệ dữ liệu người dùng,
việc ảnh hưởng đến độ chính xác và qua đó ảnh hưởng khả năng ứng đụng của thuật toán trong phân tích đữ liệu lớn là điều không thể tránh khỏi Đối với các cơ chế tạo ra Differential Privacy cho thuật toán ngẫu nhiên chúng tôi giới thiệu ở trên, rõ ràng khi muốn hằng số đặc trưng cho mức rủi rd rò rỉ thông tin
cá nhân £ càng bé thì giá trị nhiễu cần thêm để xáo trộn dữ liệu đầu ra càng
ln Trong phần này, chúng tôi sẽ nghiền cứu mối rương quan này đựa trên việc quan sát kết quả của thuật toán phân lớp Naive Bayes dam bao DP
Thuật toán Gaussian Naivc Bayes giá sử rằng dữ liệu đầu vào tuân theo
luật phân phối chuẩn từ đó tính toán xác suất hậu nghiệm nhằm sử đụng để
12
Trang 19phân lớp Trong quá trình thực hiện thuật toán, 2 đại lượng thong kê được
sử dụng là trung bình và phương sai Do đó, thuật toán được giới thiệu trong
[3] thêm nhiễu Laplace vào cả trung bình và phương sai để tạo ra thuật toán
Gaussian Naive Bayes thoả mãn DP
Differentially Private Naive Bayes Accuracy
Hinh 1.1: Ảnh hưởng của e đối với kết quả phân lớp
Tiếp theo, chúng tôi sẽ sử dụng mã nguồn mở thuật toán Gaussian Naive Bayes da dude thêm nhiễu Laplace dé dim bao Differential Privacy ctia IBM [4] dé minh hoạ mối tương quan giữa lượng thông tin rò rỉ và độ chính xác của
thuật toán Đồ thị[I I]thể hiện hiệu năng của thuật toán phụ thuộc vào lượng
thông tin rửi ro £ trong khoảng từ 10~Ê đến 10Ẻ Với mỗi giá trị của e, chúng
tôi tiền hành chạy thuật toán 200 lần và lấy trung bình sai số phân lớp để tạo
ra đồ thị trơn hơn Quan sát đồ thị, ta có thể thấy độ chính xác phân lớp tương
đối thấp khi e rất bé và tăng lên nhanh chóng khi £ tăng dần đến 10°
Như vậy, mặc dù khả năng bảo vệ và tính chính xác của một thuật toán DP đều nên được tối ưu, cải tiền một đại lượng sẽ dẫn đến sự xấu đi của đại lượng còn lại Tuỳ thuộc vào thuật toán và dữ liệu được nghiên cứu, độ dốc của đồ
thị chỉ mối tương quan này có thể khác nhau Vì vậy, với mỗi ứng dụng trên
một tập dữ liệu cụ thể, điểm cân bằng giữa hiệu năng và mức độ bảo vệ của thuật cần được nghiên cứu dựa trên mục đích của việc phân tích dữ liệu
13
Trang 20Chương 2
Differential Privacy với
thuật toán rừng ngẫu nhiên
Trong chương này, chúng lôi trình bày một thuật toán rừng ngẫu nhiên
thoá mãn DP có sửa đổi từ thuật toán của Li [5] và Patil [6] Trong khi thuật
toán của Li va Patil thém một lớp nhiễu Laplace mỗi khi có truy vẫn số được
gọi từ tập đữ liệu, chúng tôi chọn cách lược bỏ bước này với giả thiết tin tặc
chỉ có quyền truy cập vào dữ liệu đầu ra và mô hình cây Các truy vẫn số cụ
thể hên trong thuật toán do đó vẫn được bảo mật Thuật toán trình bày dưới
đây sử dụng cơ chế mũ trong quá trình chọn đặc trưng tại mỗi lần phân nhánh,
đo đó tạo ra cây quyết định với cách phân nhánh xác xuất thay vì tắt định như
thuật toán rừng ngẫu nhiên thông thường
Trang 212.1 Thuật toán rừng ngẫu nhiên thoả mãn DP
cho bài toán phân lớp
"Thông thường, thuật toán ring ngẫu nhiên sử dụng hàm Tnformation Gain
hoặc Gini Index để xác dịnh tiêu chuẩn phân nhánh Đối với thuật toán rừng
ngẫu nhién ap dung Differential Privacy, ching tôi chọn hầm Gini Indcx âm
Mã giá của thuật toán được thể hiện trơng thuật toán 1.
Trang 22Algorithm 1: Thuật toán rừng ngẫu nhiên dim bao DP
Result: Ritng ngẫu nhiên phân lớp đảm bảo I3ifferential Privacy
Tnpnt: Ð: Tập huắn luyện; 8: Số lượng cây quyết định; P;;: Ngân sách
riêng tư; ä: Độ sâu; s⁄ = {A\, Az}: Tập các trường thông,
tin của đữ liệu đùng phân lớp
1 E— fru/B,E— rủ
z fur b=!, ,B do
3 | Lấy mẫu ngẫu nhiên Z với kích thước ||;
4 Xây đựng cây quyết định lập lại các bước sau cho đến khi — Ũ
1 Chọn ngẫu nhiên m trường thông tin từ đ đặc trưng đầu vào m thong
thường là V4
2 Sử dụng ed chế mũ bằng cách chọn đặc trưng rẽ nhánh A với xác suất
cxp (— x,4(Z,4))
Laem EXP (-s&jalz,a))
ở đây g la Gini index ctia die trưng A
3 Phân nhánh nút hiện tại thành 2 nút con, gán b = b— |
send
ø Output là một tập hợp các cây quyết định; việc phân lớp một dữ liệu
đầu vão mới được tổng hợp từ kết quả phân loại của các cây quyết
định
16
Trang 23Rõ ràng, tính toán độ nhạy cảm của Gini Index là quan trọng trong việc thực thi cở chế mũ Firedman trong [7| chỉ ra rằng ham Gini index có độ nhạy
Chứng mình Với hai lập dữ liệu hàng xóm bất kỳ, vì chúng chỉ khác nhau
duy nhất 5 1 ban ghi z, nên nếu giả sử r¿ — 7 thì chúng †a chỉ cần quan tâm
Trang 24Suy ra:
S(4œim) € 2
Từ định lý trên, ta có thể xây dựng thuật toán phân nhánh cho cây quyết
định sử dụng cơ chế mũ như sau (xem thuật toán 2)
Algorithm 2: Cơ chế mũ sử dụng để chọn đặc trưng phân nhánh
Result: Dac trưng phần nhánh
Input: 7: Tập dữ liệu; e# — {A, Á„}: Tập hợp các đặc trưng của
đữ liệu; £: hằng số đặc trưng cho lượng thông tin rủi ro
1 idx < random.choice((1, ,2], probability = prob_array)
Chon Ajg, cling với điểm chia spliting_point|idx|