Hướng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư, cácnghiên cứu theo hướng này cho phép một nhóm các thành viên, mỗi thành viên có một tập dữ liệu riêng, có thể hợp tá
Trang 1(Distributed solutions in privacy preserving data mining)
Chuyên ngành: B o đ m toán h c cho máy tính và h th ng tính toán
Mã s : 62 46 35 01
TÓM T T LU N ÁN TI N S TOÁN H C
Hà N i - 2011
Trang 2Chương 1GIỚI THIỆU1.1 Tổng quan về khai phá dữ liệu có đảm bảo tính riêng tư
Hiện nay, khai phá dữ liệu (KPDL) đóng vai trò quan trọng trong nhiều lĩnhvực, nó cung cấp cho chúng ta các công cụ hiệu quả để khai phá ra các tri thứchữu dụng từ các cơ sở dữ liệu Tuy nhiên, tiến trình khai phá dữ liệu có thể dẫnđến việc vi phạm các thông tin riêng tư và lĩnh vực khai phá dữ liệu có đảm bảotính riêmg tư (PPDM) đã ra đời [Verykios et al., 2004] Các nghiên cứu trong lĩnhvực này cho phép khai phá dữ liệu trong khi bảo vệ các thông tin riêng tư ở cấp
độ cá nhân hoặc cấp độ tổ chức
Về cơ bản, có ba hướng chính trong lĩnh vực PPDM [Charu and Yu, 2008].Hướng thứ nhất là công bố dữ liệu có đảm bảo tính riêng tư, các nghiên cứu tronghướng này cho phép một tổ chức (thành viên-party) công bố tập dữ liệu cho cácnhà nghiên cứu khai thác, trong khi đảm bảo tính riêng tư cho dữ liệu được công
bố Hướng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư, cácnghiên cứu theo hướng này cho phép một nhóm các thành viên, mỗi thành viên
có một tập dữ liệu riêng, có thể hợp tác khai phá trên tập dữ liệu liên kết của cácthành viên, trong khi đảm bảo tính riêng tư cho dữ liệu của mỗi thành viên Có haitình huống dữ liêu phân tán cơ bản là phân tán ngang và phân tán dọc Hướng thứ
ba là khai phá dữ liệu của người dùng có đảm bảo tính riêng tư, hướng này nghiêncứu tình huống bao gồm một người KPDL (Miner) và một số luợng lớn người dùng(user), các người dùng không truyền thông với nhau mà chỉ truyền thông với ngườiKPDL và mỗi người dùng sở hữu một bản ghi dữ liệu Các nghiên cứu này chochép người KPDL học các mô hình từ dữ liệu của các người dùng trong khi bảo vệcác thuộc tính nhạy cảm của mỗi người dùng
Cho đến thời điểm này, đã có nhiều giải pháp được đề xuất để giải quyết các vấn
đề trong PPDM [Kargupta et al., 2003], [Dowd et al., 2005], [Vaidya et al., 2008]v.v., chất lượng của mỗi giải pháp được đánh giá dựa trên ba thuộc tính căn bản:mức độ duy trì tính riêng tư, tính chính xác so với thuật toán gốc và tính hiệuquả Tuy nhiên, vấn đề ở đây là mỗi giải pháp thường chỉ áp dụng được cho mộttình huống dữ liệu phân tán cụ thể hoặc cho một thuật toán khai phá dữ liệu cụthể Mặc dù một số có thể áp dụng cho nhiều hơn một thuật toán nhưng độ chínhxác lại thấp so với yêu cầu Một số giải pháp đạt được độ chính xác cao, nhưng lạigiảm tính riêng tư Hơn thế nữa, vẫn thiếu giải pháp cho nhiều tính huống thực tếhoặc các thuật toán khai phá dữ liệu cụ thể
Trang 31.2 Các đóng góp chính của luận án
Đóng góp chính của luận án là bốn giải pháp cho bốn vấn đề trong PPDM:
1 Xác định một tình huống mới, gọi là 2PFD (2-part fully distributed setting)
và đề xuất các giao thức cho họ các thuật toán học dựa trên tính toán tầnsuất có đảm bảo tính riêng tư trong tình huống này
2 Phát triển các giao thức mới để nâng cao tính riêng tư cho việc khai phá tậpphổ biến trong dữ liệu phân tán dọc Một thuộc tính quan trọng của các giaothức này tốt hơn các giao thức trước đây là chúng có thể đảm bảo sự riêng
tư đầy đủ cho các thành viên tham gia Thuộc tính này cho phép các giaothức không cần bất kỳ thành viên tin cậy nào, cũng như không có sự thôngđồng của bất kỳ nhóm thành viên nào có thể làm lộ thông tin riêng tư củamỗi thành viên
3 Phát triển hai giao thức mới cho thuật toán phân cụm EM có đảm bảo tínhriêng tư trong dữ liệu phân tán ngang Khác với giao thức trước đây yêu cầu
ít nhất ba thành viên tham gia và không chống được sự thông đồng Các giaothức đã đề xuất cho phép số thành viên tham gia có thể là hai hoặc nhiềuhơn, hơn thế nữa nó chống lại được sự thông đồng lên đến n-2 thành viên
4 Đề xuất một kỹ thuật biến đổi tuyến tính để thiết kế các giao thức đảm bảotính riêng tư cho việc phát hiện các phần tử ngoại lai dựa trên thống kê cho
cả hai tình huống dữ liệu phân tán ngang và phân tán dọc
Các giao thức được đánh giá dựa trên các tiêu chuẩn phổ biến như: tính riêng tư,tính đúng đắn, tính hiệu quả và khả năng mở rộng Mặc dù mỗi vấn đề trong luận
án này được phát biểu một cách độc lập, nhưng chúng cũng có thể được phát biểutrong một khuôn khổ chung khi tập dữ liệu được phân mảnh theo một cách nào đótrên một số thành viên hoặc một số lớn người dùng, vấn đề là tìm ra các giải pháp
để đạt được tri thức trên tập dữ liệu liên kết từ các nguồn phân tán này trong khiđảm bảo tính riêng tư cho mỗi thành viên hoặc người dùng
1.3 Tổ chức luận án
Luận án bao gồm sáu chương, 109 trang A4 Chương 1 giới thiệu tổng quan vềPPDM và các vấn đề liên quan Chương 2 trình bày các khái niệm và công cụ cơbản về tính toán bảo mật nhiều thành viên Chương 3 đề xuất các giao thức choviệc KPDL dựa trên tần suất có đảm bảo tính riêng tư trong 2PFD Chương 4 đềxuất các giao thức để nâng cao tính riêng tư trong việc phát hiện tập phổ biến.Chương 5 phát triển các giao thức phân cụm dữ liệu có đảm bảo tính riêng tư.Chương 6 đề xuất các giao thức phát hiện các phần tử ngoại lai có đảm bảo tínhriêng tư Cuối cùng là phần kết luận của luận án
Trang 4Chương 2CÁC CÔNG CỤ TÍNH TOÁN BẢO MẬT NHIỀU THÀNH VIÊNChương này sẽ nhắc lại một số khái niệm cơ bản của tính toán bảo mật nhiềuthành viên (SMC) và giới thiệu các công cụ tính toán bảo mật mà sẽ sử dụng đểthiết kế các giao thức PPDM trong các chương sau.
2.1 Một số khái niệm cơ bản
Định nghĩa 2.1 (Hàm nhỏ) Gọi N là một tập các số tự nhiên Chúng ta nói rằng
n > n0
poly(n)
bố xác suất được đánh chỉ số bằng tham số n (thường được đề cập như là kích thướccác biến ngẫu nhiên tương ứng với các phân bố đó), ta nói rằng chúng không thểphân biệt, nếu mọi thuật toán thời gian đa thức xác suất A, ta có:
Hàm tính toán bảo mật nhiều thành viên: Trong hệ thống phân tán có nthành viên (party) Một vấn đề tính toán nhiều thành viên (n-party) bảo mật cóthể phát biểu như là việc tính hàm sau:
f (x1, x2, , xn) 7→ (f1(x1, x2, , xn), , fn(x1, x2, , xn))
cầu rằng thông tin riêng tư về mỗi giá trị đầu vào (input ) là được bảo vệ, và bởivậy mỗi thành viên tham gia không thể học được bất kỳ thông tin gì khác ngoàigiá trị đầu ra (output): yi = fi(x1, x2, , xn)
Bảo mật trong mô hình Semi-honest: Trong một hệ thống phân tán, gọi π là
sát (View) của thành viên thứ i trong quá trình tính toán của π với đầu vào x (ký
Trang 5nhiên được tạo ra trong khi tính toán Với mỗi I ⊂ [1, n], ký hiệu I = {i1, , it},
fI(x)=(yi 1, , yi t) và viewπ
I(x) = (I, viewπ
i1(x), , viewπ
i t(x)) Gọi OU T P U T (x) làtập tất cả các output của π Trong mô hình Semi-honest chúng ta giả thiết rằng tất
cả các thành viên đều tuân thủ các bước tính toán của giao thức Tuy nhiên, một
số thành viên tham gia trong giao thức có thể thông đồng với nhau, nhằm chia sẻthông tin nhận được trong quá trình thực thi giao thức để làm bộc lộ ra các thôngtin riêng tư của thành viên khác
Định nghĩa 2.3 Một giao thức tính toán n-party cho việc tính hàm f( ) là bảomật trong mô hình semi-honest, nếu tồn taị một thuật toán thời gian đa thức xácsuất được ký hiệu là S, sao cho với mỗi I ⊂ [1, n], chúng ta có
{S(xi1, , xi t, fI(x)), f (x))} ≡ {viewc π
I(x), OU T P U T (x)}
Về cơ bản, định nghĩa này phát biểu rằng sự quan sát của các thành viên trong
viên Luận án này thiết kế các giao thức PPDM dựa trên mô hình Semi-honest,trong luận án cũng sử dụng định lý tổng hợp (Composition Theorem) đã đượcchứng minh trong [Goldreich, 2004]
2.2 Tính toán bảo mật
Chia sẻ bảo mật: Chia sẻ bảo mật là các phương pháp cho phép chia một giá trịmật cho nhiều thành viên bằng một cách nào đó mà không có thành viên nào biếtgiá trị mật đó, nhưng nó dễ dàng tính được giá trị mật đó bằng việc kết hợp các giátrị chia sẻ cho các thành viên Ví dụ, sơ đồ chia sẻ mật của Shamir [Shamir, 1979]hoặc giao thức chia sẻ giá trị trung bình được trình bày trong chương 5
Tính tổng bảo mật (SSC - Secure sum computation): Vấn đề SSC bao gồm
(x1, , xn) → x1 + + xn
Sơ đồ mã hóa ElGamal cải biên [Hirt and Sako, 2000]: Giả sử p và q là
có bậc q Gọi g là một bộ sinh của G, f = hgi và x được chọn ngẫu nhiên trong
Trang 6nhiên k ∈ [1, , q − 1] và tính toán C = (C1 = fmhk, C2 = gk) Việc giải mã C cần
2)−1, sau đó tính f từ fm.Chú ý rằng, khi m lớn việc giải mã sẽ không hiệu quả Tuy nhiên, trong cácgiao thức của luận án này, chúng ta chỉ cần kiểm tra có hay không m có nhận mộtgiá trị cho trước không, ví dụ m = 0 hoặc m = c, ở đây c là hằng số nhỏ Bởi vậy,
nó sẽ tương đương với việc kiểm tra có hay không:
Giả thiết DDH: Cho các giá trị ngẫu nhiên a, b, c ∈ [0, q −1], giả thiết DDH phátbiểu rằng: {ga, gb, gab
}≡ {gc a, gb, gc
}Đánh giá đa thức bảo mật (OPE - Oblivious polynomial evaluation):Trong vấn đề này có hai thành viên tham gia, một người gửi Alice và một người
i=0aiyi có bậc k trên trườnghữu hạn F và input của Bob là một phần tử x ∈ F (ở đây k là giá trị công khai).Một giao thức cho vấn đề OPE [Naor and Pinkas, 1999] là để Bob đạt được P (x)
mà không biết được bất kỳ thông tin gì về đa thức P , và Alice không học được bất
kỳ thông tin gì về x Nói cách khác, một giao thức OPE là để thực hiện tính hàmsau đây:
(P (y), x) → (∅, P (x))Chia sẻ tích vô hướng bảo mật (SSP - Secure scalar product): Giả thiếtrằng hai véc tơ A = (a1, , an) và B = (b1, , bn) được sở hữu bằng hai thành viêntương ứng Alice và Bob Một giao thức chia sẻ tích vô hướng bảo mật nhằm cho
Nói cách khác, một giao thức SSP là để thực hiện tính hàm sau:
(A, B)→ (r1, r2)|r1 + r2 = A· BTính toán hàm log cơ số tự nhiên bảo mật ln x [Kantarcioglu, 2005]: Mục
ln (x) là để tính hàm sau:
(x1, x2) → (y1, y2)|y1 + y2 = ln (x1 + x2)
Trang 7Chương 3KHAI PHÁ DỮ LIỆU DỰA TRÊN TẦN SUẤT CÓ ĐẢM BẢO TÍNH
RIÊNG TƯ TRONG TÌNH HUỐNG 2PFD3.1 Giới thiệu
Trong 2PFD, tập dữ liệu gồm n bản ghi được phân tán trên 2n người dùng,trong đó mỗi bản ghi được sở hữu bởi hai người dùng khác nhau, một người dùngbiết một số giá trị thuộc tính trong khi người dùng còn lại biết các thuộc tính cònlại của bản ghi Giả thiết rằng các thuộc tính của mỗi người dùng là nhạy cảm vàmỗi người dùng không muốn bộc lộ các giá trị thuộc tính cho việc khai phá dữ liệu.Một người Miner với mục đích là học các mô hình khai phá dữ liệu dựa trên tính tầnsuất, ví dụ như học các luật phân lớp, trong khi đảm bảo sự riêng tư cho mỗi ngườidùng Các giải pháp ngẫu nhiên [Evfimievski et al., 2002, Kargupta et al., 2003,Dowd et al., 2005] có thể giải quyết vấn đề này, tuy nhiên chúng phải cân bằnggiữa mức độ duy trì tính riêng tư và mức độ chính xác Chương này đề xuất mộtphương pháp dựa trên mật mã, nó đảm bảo tốt tính riêng tư cho mỗi người dùngtrong khi giữ được tính chính xác Đóng góp chính của chương này là xây dựng mộtphương pháp cho phép Miner tính toán tần suất có đảm bảo tính riêng tư trong2PFD Để minh họa khả năng ứng dụng của phương pháp, luận án đã thiết kế mộtgiao thức học có đảm có tính riêng tư cho bộ phân lớp naive Bayes Các kết quảđánh giá thực nghiệm chỉ ra rằng phương pháp này là tương đối hiệu quả
3.2 Tính toán tần suất có đảm bảo tính riêng tư trong 2PFD
3.2.1 Phát biểu bài toán
Vấn đề tính tần suất của một bộ giá trị thuộc tính trong tình huống 2PFD có
giao thức tính toán đảm bảo tính riêng tư cho hàm sau:
(u1, v1, , un, vn) 7→ X
uivi
Ký hiệu này ngụ ý rằng mỗi cặp người dùng cung cấp các input cho giao thức vàMiner chỉ nhận output f mà không biết bất kỳ thông tin gì khác
Trang 83.2.2 Định nghĩa về việc đảm bảo tính riêng tư
Định nghĩa chung về việc đảm bảo tính riêng tư trong mô hình semi-honest đãđược giới thiệu trong chương 2 Định nghĩa đưa ra trong chương này có thể xemnhư trường hợp riêng của định nghĩa chung Về cơ bản, định nghĩa phát biểu rằngviệc tính toán là đảm bảo tính riêng tư nếu sự quan sát kết hợp của Miner và các
trình thực thi giao thức có thể mô phỏng hiệu quả bằng một thuật toán thời gian
đa thức xác suất, việc mô phỏng dựa trên những gì mà Miner và các người dùngnày đã quan sát trong giao thức, từ kết quả f, các thông tin mà chúng biết và cácthông tin công khai Do đó, Miner và các dùng không trung thực không thể đạtđược bất kỳ thông tin gì ngoại trừ f
3.2.3 Giao thức tính toán tần suất
Giao thức được thiết kế dựa trên các thuộc tính đồng cấu của sơ đồ mã hóaElGamal cải biên Giả sử p và q là hai số nguyên tố lớn mà q|(p−1), gọi G là nhóm
pi, qi và các khóa công khai Pi = gpi, Qi = gqi Ta định nghĩa,
được biết trước bởi người dùng Giao thức được trình bày trong Hình 3.1
3.2.4 Phân tích giao thức
Trong luận án đã cung cấp các chứng minh về tính đúng đắn và tính riêng tưcho giao thức Tính riêng tư được chỉ ra dựa trên thuộc tính không thể phân biệtcủa sơ đồ mã hóa ElGamal dưới giả thiết DDH
Định lý 3.1 Nếu tất cả người dùng tuân thủ quy tắc của giao thức trong Hình3.1 Miner sẽ tính chính xác f như đã định nghĩa trong phần 3.2.1
Định lý 3.2 Giả sử f < n, giao thức trong Hình 3.1 đảm bảo tính riêng tư chomỗi người dùng trung thực chống lại Miner và lên đến 2n-2 người dùng không trungthực Trong trường hợp với chỉ hai người dùng trung thực, kết luận trên vẫn đúngkhi mà hai người dùng đó không giữ các giá trị thuộc tính của cùng một bản ghi
Trang 9• Phase 1 Each user U i does as follows:
– Randomly choose k i from {1, , q − 1}.
– Compute C (i) = (C1(i), C2(i)) = (g u i Xki
i , g k i ) – Send C (i) to the miner
• Phase 2 Each user V i does the follows:
– Get C (i) from the miner
– Randomly choose r i from {1, , q − 1}
– if v i = 0 then compute R (i) = (R(i)1 , R(i)2 , R(i)3 )=(Xri
i X q i , g r i , Y p i ) – if v i = 1 then compute R (i) = (R(i)1 , R(i)2 , R(i)3 )=(g u i Xri +k i
i X q i , g r i +k i , Y p i ) – Send R (i) to the miner.
• Phase 3 Each user U i does as follows:
– Get R (i) from the miner.
– Compute K(u i , v i ) = (K1(i), K2(i)) = (R(i)1 (R(i)2 ) − x i X y i , R(i)3 Y x i )
– Send K(u i , v i ) to the miner
• Phase 4 The miner does as follows:
– Compute d =
n Y i=1
K1(i)
K2(i)– Find f from {0, 1, , n} that satisfies g f = d
– Output f
Hình 3.1: Giao thức tính toán tần suất3.2.5 Đánh giá hiệu quả của giao thức tính toán tần suất
phép nhân modular và nhiêu nhất n phép so sánh Để đánh giá hiệu quả của giaothức trong thực tế chúng ta xây dựng một thí nghiệm sử dụng ngôn ngữ C# trênmột máy tính PC Đo lường thời gian tính toán của giao thức với n khác nhau, từ
1000 đến 5000 Ta chọn |p| = 1024 bits và |q| = 160 bits, các cặp khóa và các giá
trung bình 21ms và 29ms, cho việc tính toán ở bước thứ nhất và bước thứ ba Mỗi
gần tuyến tính theo n, ví dụ khi n = 5000, Miner cần khoảng 460 ms
3.3 Khai phá dữ liệu dựa trên tính tần suất trong 2PFD
Phương pháp tính toán tần suất là rất quan trọng trong các ứng dụng PPDM
mà việc học của chúng dựa trên tần suất, ví dụ như học bộ phân lớp naive Bayes,
Trang 10khai phá luật kết hợp, học cây quyết định ID3, phân tích tương quan Pearson, v.v.Trong luận án đã minh họa khả năng ứng dụng của phương pháp bằng việc sử dụng
nó để xây dựng giao thức học bộ phân lớp naive Bayes có đảm bảo tính riêng tư.3.4 Cải tiến giao thức tính toán tần suất
3.4.1 Giao thức cải tiến
Một vấn đề của giao thức tính toán tần suất là nếu chỉ một người dùng khôngtham gia vào giao thức thì người Miner sẽ không tính được giá trị tần suất Mụcđích cải tiến là để cho phép Miner có thể tính được tần suất f từ dữ liệu của tập
(t > k, ở đây k là ngưỡng cho trước) Phần này phát triển ý tưởng của hệ thống giải
mã ngưỡng [Noack and Spitz, 2009] để giải quyết vấn đề trên Cho sơ đồ ngưỡng(n, k), ý tưởng cơ bản là, một khóa mật được chia sẻ giữa n người dùng, bởi vậychỉ tập T của k người dùng có thể giải mã dựa trên phương pháp nội suy lagrangetrên mũ của thành phần thứ hai của mã hóa mà không cần biết khóa mật Vấn đềnày được giải quyết dựa trên sơ đồ chia sẻ mật (n, k)-Shamir Trong giao thức cải
(xi, Xi = gx i) và Vi có (pi, Pi = gp i) Trong giao thức, H = gx 0 +p 0 được thông báonhư tham số chung Giao thức được trình bày trong Hình 3.7
3.4.2 Phân tích giao thức
thức này thêm hai bước 4 và 5 để tính thành phần thứ hai từ k cặp người dùng.Giao thức cũng chống lại sự thông đồng lên đến 2k − 2 người dùng cùng với Miner
Độ phức tạp tính toán của mỗi người dùng tăng lên 1 phép tính mũ modular Độphức tạp tính toán của Miner thay đổi không đáng kể
3.5 Kết luận chương
Chương này đã đề xuất một phương pháp cho việc khai phá dữ liệu dựa trêntính tần suất có đảm bảo tính riêng tư trong tình huống 2PFD Phương pháp đãđảm bảo tốt tính riêng tư cho mỗi người dùng mà vẫn giữ được tính đúng đắn.Luận án đã minh họa khả năng ứng dụng của phương pháp bằng việc áp dụng nó
để thiết kế một giao thức cho việc học bộ phân lớp naive Bayes Luận án cũng đã
Trang 11• Phase 1 Each user U i does as follows:
– Randomly choose k i from {1, , q − 1}.
– Compute C (i) = (C1(i), C2(i)) = (g u i Xki
i , g k i ) – Send C (i) to the miner.
• Phase 2 Each user V i does the follows:
– Get C (i) from the miner,
– Randomly choose r i and q i from {1, , q − 1},
– if v i = 0 then compute R (i) = (R(i)1 , R(i)2 , R(i)3 )=(Xri
i H q i , g r i , g q i ) – if v i = 1 then compute R (i) = (R(i)1 , R(i)2 , R(i)3 )=(g u i Xri +k i
i H q i , g r i +k i , g q i ) – Send R (i) to the miner.
• Phase 3 Each user U i does as follows:
– Get R (i) from Miner.
– Randomly choose y i from {1, , q − 1},
– Compute K (i) = (K1(i), K2(i)) = (R(i)1 (R(i)2 ) −xiH yi, R3(i)g yi)
– Send K (i) to Miner.
• Phase 4 Miner computes K = Y
i∈S
K2(i)
• Phase 5 The users does as follows:
– Each U i computes a i = K x i and sends a i to Miner
– Each V i computes b i = K pi and sends b i to Miner
• Phase 6 Miner does as follows:
– Compute K ′
= Y t∈T (a t b t )Qj∈T ,j6=t
−j t−j
– Compute d = Q n
i=1 K1(i)
K ′ – Find f from {0, 1, , n} that satisfies g f = d
– Output f.
Hình 3.7: Giao thức tính toán tần suất cải tiếnthảo luận một phương pháp cải tiến dựa trên sơ đồ chia sẻ mật của Shamir, việccải tiến cho phép Miner có thể đạt được giá trị tần suất mà không yêu cầu sự thamgia đầy đủ của n cặp người dùng
Trang 12Chương 4NÂNG CAO TÍNH RIÊNG TƯ CHO VIỆC KHAI PHÁ TẬP PHỔ
BIẾN TRONG DỮ LIỆU PHÂN MẢNH DỌC4.1 Giới thiệu
Chương này đề xuất các giao thức cho việc khai phá các tập phổ biến trong
mô hình dữ liệu phân mảnh dọc Các giao thức này cho phép một số thành viên(mỗi thành viên giữ tập các thuộc tính của cùng tập các giao dịch) hợp tác để khaiphá tập phổ biến trên tập dữ liệu liên kết của các thành viên trong khi bảo vệ cácthông tin riêng tư của mỗi thành viên Một số giao thức đã được đề xuất cho vấn
đề này [Zhong, 2007, Vaidya and Clifton, 2005, Han and Ng, 2007] Tuy nhiên, cácgiao thức này hoặc là chỉ chống lại được sự thông đồng của nhiều nhất n − 2 thànhviên trong n thành viên tham gia giao thức hoặc là yêu cầu một thành viên tin cậykhông thông đồng Mục đích của chương này là đề xuất các giao thức có khả năngđảm bảo được sự riêng tư đầy đủ cho thành viên, do đó chúng có khả chống lại
sự thông đồng của một nhóm thành viên bất kỳ trong khi không yêu cầu bất kỳthành viên tin cậy nào Hơn thế nữa luận án đã đề xuất ra hai giao thức mà chophép các thành viên lựa chon hai cấp độ riêng tư khác nhau: một giao thức khôngbộc lộ bất kỳ thông tin gì, trong khi giao thức còn lại chỉ bộc lộ độ hỗ trợ của tậpphổ biến
4.2 Phát biểu bài toán
Vấn đề khai phá luật kết hợp và tập phổ biến đã được giới thiệu chi tiết trong[Cheung et al., 1996] Gọi I là tập các mục của tập D bao gồm m giao dịch Gọi
là để tìm ra các luật có dạng X → Y , sao cho P r(X ∪ Y ) ≥ α và P r(X|Y ) ≥ β Ởđây các giá trị α và β được định nghĩa trước bởi người dùng Giả sử X bao gồm kmục gọi là k-itemset, X được gọi là tập phổ biến nếu P r(X) ≥ α (hoặc độ hỗ trợcủa X: X.count ≥ t = α|D|.) Vấn đề kỹ thuật chính trong khai phá luật kết hợp
là xác định các tập phổ biến
Giả sử D được phân mảnh dọc trên n thành viên và các thành viên mong muốnhợp tác để tìm ra các tập phổ biến trên D Mục đích là thiết kế các giao thức đểđạt được các tập phổ biến trong khi đảm bảo sự riêng tư cho mỗi thành viên thamgia Ở đây xem xét việc bảo vệ thông tin riêng tư cho mỗi giao dịch cũng như bảo
vệ thông tin về các tham số khác như độ hỗ trợ của mỗi tập mục
Trang 13Việc xác định một tập phổ biến trong tình huống này có thể được phát biểu nhưsau: Có n thành viên P1, , Pn, mỗi Pi có một véc tơ tương ứng Ui = (ui1, , uim),
xác định tập phổ biến có đảm bảo tính riêng tư là để kiểm tra xem có hay không
j=1
viên là không bị bộc lộ cho thành viên khác
4.3 Định nghĩa về việc đảm bảo tính riêng tư
Tương tự như định nghĩa về việc đảm bảo tính riêng tư trong chương 3, địnhnghĩa của chương này cũng được phát biểu như một trường hợp riêng của địnhnghĩa 2.3 Tuy nhiên, khác với chương 3, trong mô hình tính toán của chương này,chúng ta giả thiết mỗi thành viên tham gia trong giao thức đều có thể truyền thôngvới nhau, vì vậy vai trò của mỗi thành viên là như nhau Do đó, định nghĩa nàytương tự như định nghĩa 2.3, chỉ khác là giao thức đã đề xuất dựa trên hệ mã hóaElGamal và mỗi thành viên được giả thiết là có một cặp khóa Bởi vậy, trong Viewcủa mỗi thành viên sẽ bao gồm các khóa công khai của các thành viên còn lại vàmỗi khóa mật được coi như một thành phần của input
4.4 Giao thức không bộc lộ độ hỗ trợ
4.4.1 Tổng quan
Giả sử X là một tập phổ biến và s = X.count thì t ≤ s ≤ m Do đó sẽ tồn tạimột giá trị 0 trong danh sách λ ={λ1 = s− 1 − t, λ2 = s− 2 − t, , λk = s− k − t},
ở đây k = m − t Nếu s được biết bằng các thành viên, thì rõ ràng vấn đề xác định
vệ tính riêng tư, chúng ta không thể bộc lộ giá trị này, do đó phần này xây dựngmột giao thức để xác định có hay không tồn tại một giá trị 0 trong danh sách λ
mà không bộc lộ bất kỳ thông tin gì Ý tưởng cơ bản như sau, gọi p và q là hai số
đích của giao thức là để tính toán đảm bảo tính riêng tư cho hàm sau:
ngẫu nhiên, bởi vậy giao thức đã đề xuất sẽ không bộc lộ bất cứ thông tin gì Để
Trang 14đạt được mục đích này, chúng tôi sẽ kết hợp hai kỹ thuật sau [Zhong et al., 2009,Hirt and Sako, 2000, Zhong et al., 2005]:
gxi), ta định nghĩa: y = Qn
khai chung để mã hóa Việc giải mã yêu cầu tất cả các thành viên tham gia Sơ đồnày có hai thuộc tính đồng cấu cộng và đồng cấu nhân, các thuộc tính này là rấtquan trọng để đạt được mục tiêu tính toán của chúng ta
Kỹ thuật ngẫu nhiên hóa: là một giao thức chạy trên mạng gồm một số
α1′, , αm′ được tạo ra từ tập hoán vị và mã hóa lại từ tập input Thuộc tính bảomật của giao thức này dựa trên tính chất không thể phân biệt được vị trí của mỗiinput khi quan sát trên tập output Trong giao thức của chúng ta mỗi thành viên
sẽ đóng vai trò như một mix server
4.4.2 Giao thức
Giao thức được trình bày trong Hình 4.1
4.4.3 Phân tích tính đúng đắn
Định lý 4.1 Nếu tất cả các thành viên tuân thủ các bước của giao thức và tồn tại
tồn tại giá trị bằng 1 trong danh sách giải mã thì s < t
4.4.4 Phân tích tính riêng tư
Đặc tính bảo mật quan trọng của giao thức này tốt hơn các giao thức trước đây
ở chỗ nó không giả thiết sự tồn tại của bất kỳ kiểu thành viên tin cậy nào Thêmvào đó, giao thức có thể kháng lại sự thông đồng của một tập các thành viên bấtkỳ
Định lý 4.2 Giao thức trong Hình 4.1 đảm bảo sự riêng tư cho mỗi thành viênchống lại sự thông đồng lên đến n − 1 thành viên không trung thực
4.4.5 Phân tích hiệu năng
Độ phức tạp truyền thông là O(nm|p|) bits Độ phức tạp tính toán O(nm) phép
mũ modular và O(mn) phép nghịch đảo Tuy nhiên các phép toán này có thể thựchiện đồng thời bằng mỗi thành viên Do đó, độ phức tạp tổng cộng là O(m) phép
mũ modular và phép nghịch đảo Như vậy, độ phức tạp tính toán và truyền thông
là tương đương với giao thức trong [Zhong, 2007]