tóm tắt luận án nghiên cứu xây dựng một số giải pháp đảm bảo an toàn thông tin trong quá trình khai phá dữ liệu

Hướng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư, cácnghiên cứu theo hướng này cho phép một nhóm các thành viên, mỗi thành viên có một tập dữ liệu riêng, có thể hợp tá

Trang 1

(Distributed solutions in privacy preserving data mining)

Chuyên ngành: B o đ m toán h c cho máy tính và h th ng tính toán

Mã s : 62 46 35 01

TÓM T T LU N ÁN TI N S TOÁN H C

Hà N i - 2011

Trang 2

Chương 1GIỚI THIỆU1.1 Tổng quan về khai phá dữ liệu có đảm bảo tính riêng tư

Hiện nay, khai phá dữ liệu (KPDL) đóng vai trò quan trọng trong nhiều lĩnhvực, nó cung cấp cho chúng ta các công cụ hiệu quả để khai phá ra các tri thứchữu dụng từ các cơ sở dữ liệu Tuy nhiên, tiến trình khai phá dữ liệu có thể dẫnđến việc vi phạm các thông tin riêng tư và lĩnh vực khai phá dữ liệu có đảm bảotính riêmg tư (PPDM) đã ra đời [Verykios et al., 2004] Các nghiên cứu trong lĩnhvực này cho phép khai phá dữ liệu trong khi bảo vệ các thông tin riêng tư ở cấp

độ cá nhân hoặc cấp độ tổ chức

Về cơ bản, có ba hướng chính trong lĩnh vực PPDM [Charu and Yu, 2008].Hướng thứ nhất là công bố dữ liệu có đảm bảo tính riêng tư, các nghiên cứu tronghướng này cho phép một tổ chức (thành viên-party) công bố tập dữ liệu cho cácnhà nghiên cứu khai thác, trong khi đảm bảo tính riêng tư cho dữ liệu được công

bố Hướng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư, cácnghiên cứu theo hướng này cho phép một nhóm các thành viên, mỗi thành viên

có một tập dữ liệu riêng, có thể hợp tác khai phá trên tập dữ liệu liên kết của cácthành viên, trong khi đảm bảo tính riêng tư cho dữ liệu của mỗi thành viên Có haitình huống dữ liêu phân tán cơ bản là phân tán ngang và phân tán dọc Hướng thứ

ba là khai phá dữ liệu của người dùng có đảm bảo tính riêng tư, hướng này nghiêncứu tình huống bao gồm một người KPDL (Miner) và một số luợng lớn người dùng(user), các người dùng không truyền thông với nhau mà chỉ truyền thông với ngườiKPDL và mỗi người dùng sở hữu một bản ghi dữ liệu Các nghiên cứu này chochép người KPDL học các mô hình từ dữ liệu của các người dùng trong khi bảo vệcác thuộc tính nhạy cảm của mỗi người dùng

Cho đến thời điểm này, đã có nhiều giải pháp được đề xuất để giải quyết các vấn

đề trong PPDM [Kargupta et al., 2003], [Dowd et al., 2005], [Vaidya et al., 2008]v.v., chất lượng của mỗi giải pháp được đánh giá dựa trên ba thuộc tính căn bản:mức độ duy trì tính riêng tư, tính chính xác so với thuật toán gốc và tính hiệuquả Tuy nhiên, vấn đề ở đây là mỗi giải pháp thường chỉ áp dụng được cho mộttình huống dữ liệu phân tán cụ thể hoặc cho một thuật toán khai phá dữ liệu cụthể Mặc dù một số có thể áp dụng cho nhiều hơn một thuật toán nhưng độ chínhxác lại thấp so với yêu cầu Một số giải pháp đạt được độ chính xác cao, nhưng lạigiảm tính riêng tư Hơn thế nữa, vẫn thiếu giải pháp cho nhiều tính huống thực tếhoặc các thuật toán khai phá dữ liệu cụ thể

Trang 3

1.2 Các đóng góp chính của luận án

Đóng góp chính của luận án là bốn giải pháp cho bốn vấn đề trong PPDM:

1 Xác định một tình huống mới, gọi là 2PFD (2-part fully distributed setting)

và đề xuất các giao thức cho họ các thuật toán học dựa trên tính toán tầnsuất có đảm bảo tính riêng tư trong tình huống này

2 Phát triển các giao thức mới để nâng cao tính riêng tư cho việc khai phá tậpphổ biến trong dữ liệu phân tán dọc Một thuộc tính quan trọng của các giaothức này tốt hơn các giao thức trước đây là chúng có thể đảm bảo sự riêng

tư đầy đủ cho các thành viên tham gia Thuộc tính này cho phép các giaothức không cần bất kỳ thành viên tin cậy nào, cũng như không có sự thôngđồng của bất kỳ nhóm thành viên nào có thể làm lộ thông tin riêng tư củamỗi thành viên

3 Phát triển hai giao thức mới cho thuật toán phân cụm EM có đảm bảo tínhriêng tư trong dữ liệu phân tán ngang Khác với giao thức trước đây yêu cầu

ít nhất ba thành viên tham gia và không chống được sự thông đồng Các giaothức đã đề xuất cho phép số thành viên tham gia có thể là hai hoặc nhiềuhơn, hơn thế nữa nó chống lại được sự thông đồng lên đến n-2 thành viên

4 Đề xuất một kỹ thuật biến đổi tuyến tính để thiết kế các giao thức đảm bảotính riêng tư cho việc phát hiện các phần tử ngoại lai dựa trên thống kê cho

cả hai tình huống dữ liệu phân tán ngang và phân tán dọc

Các giao thức được đánh giá dựa trên các tiêu chuẩn phổ biến như: tính riêng tư,tính đúng đắn, tính hiệu quả và khả năng mở rộng Mặc dù mỗi vấn đề trong luận

án này được phát biểu một cách độc lập, nhưng chúng cũng có thể được phát biểutrong một khuôn khổ chung khi tập dữ liệu được phân mảnh theo một cách nào đótrên một số thành viên hoặc một số lớn người dùng, vấn đề là tìm ra các giải pháp

để đạt được tri thức trên tập dữ liệu liên kết từ các nguồn phân tán này trong khiđảm bảo tính riêng tư cho mỗi thành viên hoặc người dùng

1.3 Tổ chức luận án

Luận án bao gồm sáu chương, 109 trang A4 Chương 1 giới thiệu tổng quan vềPPDM và các vấn đề liên quan Chương 2 trình bày các khái niệm và công cụ cơbản về tính toán bảo mật nhiều thành viên Chương 3 đề xuất các giao thức choviệc KPDL dựa trên tần suất có đảm bảo tính riêng tư trong 2PFD Chương 4 đềxuất các giao thức để nâng cao tính riêng tư trong việc phát hiện tập phổ biến.Chương 5 phát triển các giao thức phân cụm dữ liệu có đảm bảo tính riêng tư.Chương 6 đề xuất các giao thức phát hiện các phần tử ngoại lai có đảm bảo tínhriêng tư Cuối cùng là phần kết luận của luận án

Trang 4

Chương 2CÁC CÔNG CỤ TÍNH TOÁN BẢO MẬT NHIỀU THÀNH VIÊNChương này sẽ nhắc lại một số khái niệm cơ bản của tính toán bảo mật nhiềuthành viên (SMC) và giới thiệu các công cụ tính toán bảo mật mà sẽ sử dụng đểthiết kế các giao thức PPDM trong các chương sau.

2.1 Một số khái niệm cơ bản

Định nghĩa 2.1 (Hàm nhỏ) Gọi N là một tập các số tự nhiên Chúng ta nói rằng

n > n0

poly(n)

bố xác suất được đánh chỉ số bằng tham số n (thường được đề cập như là kích thướccác biến ngẫu nhiên tương ứng với các phân bố đó), ta nói rằng chúng không thểphân biệt, nếu mọi thuật toán thời gian đa thức xác suất A, ta có:

Hàm tính toán bảo mật nhiều thành viên: Trong hệ thống phân tán có nthành viên (party) Một vấn đề tính toán nhiều thành viên (n-party) bảo mật cóthể phát biểu như là việc tính hàm sau:

f (x1, x2, , xn) 7→ (f1(x1, x2, , xn), , fn(x1, x2, , xn))

cầu rằng thông tin riêng tư về mỗi giá trị đầu vào (input ) là được bảo vệ, và bởivậy mỗi thành viên tham gia không thể học được bất kỳ thông tin gì khác ngoàigiá trị đầu ra (output): yi = fi(x1, x2, , xn)

Bảo mật trong mô hình Semi-honest: Trong một hệ thống phân tán, gọi π là

sát (View) của thành viên thứ i trong quá trình tính toán của π với đầu vào x (ký

Trang 5

nhiên được tạo ra trong khi tính toán Với mỗi I ⊂ [1, n], ký hiệu I = {i1, , it},

fI(x)=(yi 1, , yi t) và viewπ

I(x) = (I, viewπ

i1(x), , viewπ

i t(x)) Gọi OU T P U T (x) làtập tất cả các output của π Trong mô hình Semi-honest chúng ta giả thiết rằng tất

cả các thành viên đều tuân thủ các bước tính toán của giao thức Tuy nhiên, một

số thành viên tham gia trong giao thức có thể thông đồng với nhau, nhằm chia sẻthông tin nhận được trong quá trình thực thi giao thức để làm bộc lộ ra các thôngtin riêng tư của thành viên khác

Định nghĩa 2.3 Một giao thức tính toán n-party cho việc tính hàm f( ) là bảomật trong mô hình semi-honest, nếu tồn taị một thuật toán thời gian đa thức xácsuất được ký hiệu là S, sao cho với mỗi I ⊂ [1, n], chúng ta có

{S(xi1, , xi t, fI(x)), f (x))} ≡ {viewc π

I(x), OU T P U T (x)}

Về cơ bản, định nghĩa này phát biểu rằng sự quan sát của các thành viên trong

viên Luận án này thiết kế các giao thức PPDM dựa trên mô hình Semi-honest,trong luận án cũng sử dụng định lý tổng hợp (Composition Theorem) đã đượcchứng minh trong [Goldreich, 2004]

2.2 Tính toán bảo mật

Chia sẻ bảo mật: Chia sẻ bảo mật là các phương pháp cho phép chia một giá trịmật cho nhiều thành viên bằng một cách nào đó mà không có thành viên nào biếtgiá trị mật đó, nhưng nó dễ dàng tính được giá trị mật đó bằng việc kết hợp các giátrị chia sẻ cho các thành viên Ví dụ, sơ đồ chia sẻ mật của Shamir [Shamir, 1979]hoặc giao thức chia sẻ giá trị trung bình được trình bày trong chương 5

Tính tổng bảo mật (SSC - Secure sum computation): Vấn đề SSC bao gồm

(x1, , xn) → x1 + + xn

Sơ đồ mã hóa ElGamal cải biên [Hirt and Sako, 2000]: Giả sử p và q là

có bậc q Gọi g là một bộ sinh của G, f = hgi và x được chọn ngẫu nhiên trong

Trang 6

nhiên k ∈ [1, , q − 1] và tính toán C = (C1 = fmhk, C2 = gk) Việc giải mã C cần

2)−1, sau đó tính f từ fm.Chú ý rằng, khi m lớn việc giải mã sẽ không hiệu quả Tuy nhiên, trong cácgiao thức của luận án này, chúng ta chỉ cần kiểm tra có hay không m có nhận mộtgiá trị cho trước không, ví dụ m = 0 hoặc m = c, ở đây c là hằng số nhỏ Bởi vậy,

nó sẽ tương đương với việc kiểm tra có hay không:

Giả thiết DDH: Cho các giá trị ngẫu nhiên a, b, c ∈ [0, q −1], giả thiết DDH phátbiểu rằng: {ga, gb, gab

}≡ {gc a, gb, gc

}Đánh giá đa thức bảo mật (OPE - Oblivious polynomial evaluation):Trong vấn đề này có hai thành viên tham gia, một người gửi Alice và một người

i=0aiyi có bậc k trên trườnghữu hạn F và input của Bob là một phần tử x ∈ F (ở đây k là giá trị công khai).Một giao thức cho vấn đề OPE [Naor and Pinkas, 1999] là để Bob đạt được P (x)

mà không biết được bất kỳ thông tin gì về đa thức P , và Alice không học được bất

kỳ thông tin gì về x Nói cách khác, một giao thức OPE là để thực hiện tính hàmsau đây:

(P (y), x) → (∅, P (x))Chia sẻ tích vô hướng bảo mật (SSP - Secure scalar product): Giả thiếtrằng hai véc tơ A = (a1, , an) và B = (b1, , bn) được sở hữu bằng hai thành viêntương ứng Alice và Bob Một giao thức chia sẻ tích vô hướng bảo mật nhằm cho

Nói cách khác, một giao thức SSP là để thực hiện tính hàm sau:

(A, B)→ (r1, r2)|r1 + r2 = A· BTính toán hàm log cơ số tự nhiên bảo mật ln x [Kantarcioglu, 2005]: Mục

ln (x) là để tính hàm sau:

(x1, x2) → (y1, y2)|y1 + y2 = ln (x1 + x2)

Trang 7

Chương 3KHAI PHÁ DỮ LIỆU DỰA TRÊN TẦN SUẤT CÓ ĐẢM BẢO TÍNH

RIÊNG TƯ TRONG TÌNH HUỐNG 2PFD3.1 Giới thiệu

Trong 2PFD, tập dữ liệu gồm n bản ghi được phân tán trên 2n người dùng,trong đó mỗi bản ghi được sở hữu bởi hai người dùng khác nhau, một người dùngbiết một số giá trị thuộc tính trong khi người dùng còn lại biết các thuộc tính cònlại của bản ghi Giả thiết rằng các thuộc tính của mỗi người dùng là nhạy cảm vàmỗi người dùng không muốn bộc lộ các giá trị thuộc tính cho việc khai phá dữ liệu.Một người Miner với mục đích là học các mô hình khai phá dữ liệu dựa trên tính tầnsuất, ví dụ như học các luật phân lớp, trong khi đảm bảo sự riêng tư cho mỗi ngườidùng Các giải pháp ngẫu nhiên [Evfimievski et al., 2002, Kargupta et al., 2003,Dowd et al., 2005] có thể giải quyết vấn đề này, tuy nhiên chúng phải cân bằnggiữa mức độ duy trì tính riêng tư và mức độ chính xác Chương này đề xuất mộtphương pháp dựa trên mật mã, nó đảm bảo tốt tính riêng tư cho mỗi người dùngtrong khi giữ được tính chính xác Đóng góp chính của chương này là xây dựng mộtphương pháp cho phép Miner tính toán tần suất có đảm bảo tính riêng tư trong2PFD Để minh họa khả năng ứng dụng của phương pháp, luận án đã thiết kế mộtgiao thức học có đảm có tính riêng tư cho bộ phân lớp naive Bayes Các kết quảđánh giá thực nghiệm chỉ ra rằng phương pháp này là tương đối hiệu quả

3.2 Tính toán tần suất có đảm bảo tính riêng tư trong 2PFD

3.2.1 Phát biểu bài toán

Vấn đề tính tần suất của một bộ giá trị thuộc tính trong tình huống 2PFD có

giao thức tính toán đảm bảo tính riêng tư cho hàm sau:

(u1, v1, , un, vn) 7→ X

uivi

Ký hiệu này ngụ ý rằng mỗi cặp người dùng cung cấp các input cho giao thức vàMiner chỉ nhận output f mà không biết bất kỳ thông tin gì khác

Trang 8

3.2.2 Định nghĩa về việc đảm bảo tính riêng tư

Định nghĩa chung về việc đảm bảo tính riêng tư trong mô hình semi-honest đãđược giới thiệu trong chương 2 Định nghĩa đưa ra trong chương này có thể xemnhư trường hợp riêng của định nghĩa chung Về cơ bản, định nghĩa phát biểu rằngviệc tính toán là đảm bảo tính riêng tư nếu sự quan sát kết hợp của Miner và các

trình thực thi giao thức có thể mô phỏng hiệu quả bằng một thuật toán thời gian

đa thức xác suất, việc mô phỏng dựa trên những gì mà Miner và các người dùngnày đã quan sát trong giao thức, từ kết quả f, các thông tin mà chúng biết và cácthông tin công khai Do đó, Miner và các dùng không trung thực không thể đạtđược bất kỳ thông tin gì ngoại trừ f

3.2.3 Giao thức tính toán tần suất

Giao thức được thiết kế dựa trên các thuộc tính đồng cấu của sơ đồ mã hóaElGamal cải biên Giả sử p và q là hai số nguyên tố lớn mà q|(p−1), gọi G là nhóm

pi, qi và các khóa công khai Pi = gpi, Qi = gqi Ta định nghĩa,

được biết trước bởi người dùng Giao thức được trình bày trong Hình 3.1

3.2.4 Phân tích giao thức

Trong luận án đã cung cấp các chứng minh về tính đúng đắn và tính riêng tưcho giao thức Tính riêng tư được chỉ ra dựa trên thuộc tính không thể phân biệtcủa sơ đồ mã hóa ElGamal dưới giả thiết DDH

Định lý 3.1 Nếu tất cả người dùng tuân thủ quy tắc của giao thức trong Hình3.1 Miner sẽ tính chính xác f như đã định nghĩa trong phần 3.2.1

Định lý 3.2 Giả sử f < n, giao thức trong Hình 3.1 đảm bảo tính riêng tư chomỗi người dùng trung thực chống lại Miner và lên đến 2n-2 người dùng không trungthực Trong trường hợp với chỉ hai người dùng trung thực, kết luận trên vẫn đúngkhi mà hai người dùng đó không giữ các giá trị thuộc tính của cùng một bản ghi

Trang 9

• Phase 1 Each user U i does as follows:

– Randomly choose k i from {1, , q − 1}.

– Compute C (i) = (C1(i), C2(i)) = (g u i Xki

i , g k i ) – Send C (i) to the miner

• Phase 2 Each user V i does the follows:

– Get C (i) from the miner

– Randomly choose r i from {1, , q − 1}

– if v i = 0 then compute R (i) = (R(i)1 , R(i)2 , R(i)3 )=(Xri

i X q i , g r i , Y p i ) – if v i = 1 then compute R (i) = (R(i)1 , R(i)2 , R(i)3 )=(g u i Xri +k i

i X q i , g r i +k i , Y p i ) – Send R (i) to the miner.

– Get R (i) from the miner.

– Compute K(u i , v i ) = (K1(i), K2(i)) = (R(i)1 (R(i)2 ) − x i X y i , R(i)3 Y x i )

– Send K(u i , v i ) to the miner

• Phase 4 The miner does as follows:

– Compute d =

n Y i=1

K1(i)

K2(i)– Find f from {0, 1, , n} that satisfies g f = d

– Output f

Hình 3.1: Giao thức tính toán tần suất3.2.5 Đánh giá hiệu quả của giao thức tính toán tần suất

phép nhân modular và nhiêu nhất n phép so sánh Để đánh giá hiệu quả của giaothức trong thực tế chúng ta xây dựng một thí nghiệm sử dụng ngôn ngữ C# trênmột máy tính PC Đo lường thời gian tính toán của giao thức với n khác nhau, từ

1000 đến 5000 Ta chọn |p| = 1024 bits và |q| = 160 bits, các cặp khóa và các giá

trung bình 21ms và 29ms, cho việc tính toán ở bước thứ nhất và bước thứ ba Mỗi

gần tuyến tính theo n, ví dụ khi n = 5000, Miner cần khoảng 460 ms

3.3 Khai phá dữ liệu dựa trên tính tần suất trong 2PFD

Phương pháp tính toán tần suất là rất quan trọng trong các ứng dụng PPDM

mà việc học của chúng dựa trên tần suất, ví dụ như học bộ phân lớp naive Bayes,

Trang 10

khai phá luật kết hợp, học cây quyết định ID3, phân tích tương quan Pearson, v.v.Trong luận án đã minh họa khả năng ứng dụng của phương pháp bằng việc sử dụng

nó để xây dựng giao thức học bộ phân lớp naive Bayes có đảm bảo tính riêng tư.3.4 Cải tiến giao thức tính toán tần suất

3.4.1 Giao thức cải tiến

Một vấn đề của giao thức tính toán tần suất là nếu chỉ một người dùng khôngtham gia vào giao thức thì người Miner sẽ không tính được giá trị tần suất Mụcđích cải tiến là để cho phép Miner có thể tính được tần suất f từ dữ liệu của tập

(t > k, ở đây k là ngưỡng cho trước) Phần này phát triển ý tưởng của hệ thống giải

mã ngưỡng [Noack and Spitz, 2009] để giải quyết vấn đề trên Cho sơ đồ ngưỡng(n, k), ý tưởng cơ bản là, một khóa mật được chia sẻ giữa n người dùng, bởi vậychỉ tập T của k người dùng có thể giải mã dựa trên phương pháp nội suy lagrangetrên mũ của thành phần thứ hai của mã hóa mà không cần biết khóa mật Vấn đềnày được giải quyết dựa trên sơ đồ chia sẻ mật (n, k)-Shamir Trong giao thức cải

(xi, Xi = gx i) và Vi có (pi, Pi = gp i) Trong giao thức, H = gx 0 +p 0 được thông báonhư tham số chung Giao thức được trình bày trong Hình 3.7

3.4.2 Phân tích giao thức

thức này thêm hai bước 4 và 5 để tính thành phần thứ hai từ k cặp người dùng.Giao thức cũng chống lại sự thông đồng lên đến 2k − 2 người dùng cùng với Miner

Độ phức tạp tính toán của mỗi người dùng tăng lên 1 phép tính mũ modular Độphức tạp tính toán của Miner thay đổi không đáng kể

3.5 Kết luận chương

Chương này đã đề xuất một phương pháp cho việc khai phá dữ liệu dựa trêntính tần suất có đảm bảo tính riêng tư trong tình huống 2PFD Phương pháp đãđảm bảo tốt tính riêng tư cho mỗi người dùng mà vẫn giữ được tính đúng đắn.Luận án đã minh họa khả năng ứng dụng của phương pháp bằng việc áp dụng nó

để thiết kế một giao thức cho việc học bộ phân lớp naive Bayes Luận án cũng đã

Trang 11

– Randomly choose k i from {1, , q − 1}.

– Compute C (i) = (C1(i), C2(i)) = (g u i Xki

i , g k i ) – Send C (i) to the miner.

• Phase 2 Each user V i does the follows:

– Get C (i) from the miner,

– Randomly choose r i and q i from {1, , q − 1},

– if v i = 0 then compute R (i) = (R(i)1 , R(i)2 , R(i)3 )=(Xri

i H q i , g r i , g q i ) – if v i = 1 then compute R (i) = (R(i)1 , R(i)2 , R(i)3 )=(g u i Xri +k i

i H q i , g r i +k i , g q i ) – Send R (i) to the miner.

– Get R (i) from Miner.

– Randomly choose y i from {1, , q − 1},

– Compute K (i) = (K1(i), K2(i)) = (R(i)1 (R(i)2 ) −xiH yi, R3(i)g yi)

– Send K (i) to Miner.

• Phase 4 Miner computes K = Y

i∈S

K2(i)

• Phase 5 The users does as follows:

– Each U i computes a i = K x i and sends a i to Miner

– Each V i computes b i = K pi and sends b i to Miner

• Phase 6 Miner does as follows:

– Compute K ′

= Y t∈T (a t b t )Qj∈T ,j6=t

−j t−j

– Compute d = Q n

i=1 K1(i)

K ′ – Find f from {0, 1, , n} that satisfies g f = d

– Output f.

Hình 3.7: Giao thức tính toán tần suất cải tiếnthảo luận một phương pháp cải tiến dựa trên sơ đồ chia sẻ mật của Shamir, việccải tiến cho phép Miner có thể đạt được giá trị tần suất mà không yêu cầu sự thamgia đầy đủ của n cặp người dùng

Trang 12

Chương 4NÂNG CAO TÍNH RIÊNG TƯ CHO VIỆC KHAI PHÁ TẬP PHỔ

BIẾN TRONG DỮ LIỆU PHÂN MẢNH DỌC4.1 Giới thiệu

Chương này đề xuất các giao thức cho việc khai phá các tập phổ biến trong

mô hình dữ liệu phân mảnh dọc Các giao thức này cho phép một số thành viên(mỗi thành viên giữ tập các thuộc tính của cùng tập các giao dịch) hợp tác để khaiphá tập phổ biến trên tập dữ liệu liên kết của các thành viên trong khi bảo vệ cácthông tin riêng tư của mỗi thành viên Một số giao thức đã được đề xuất cho vấn

đề này [Zhong, 2007, Vaidya and Clifton, 2005, Han and Ng, 2007] Tuy nhiên, cácgiao thức này hoặc là chỉ chống lại được sự thông đồng của nhiều nhất n − 2 thànhviên trong n thành viên tham gia giao thức hoặc là yêu cầu một thành viên tin cậykhông thông đồng Mục đích của chương này là đề xuất các giao thức có khả năngđảm bảo được sự riêng tư đầy đủ cho thành viên, do đó chúng có khả chống lại

sự thông đồng của một nhóm thành viên bất kỳ trong khi không yêu cầu bất kỳthành viên tin cậy nào Hơn thế nữa luận án đã đề xuất ra hai giao thức mà chophép các thành viên lựa chon hai cấp độ riêng tư khác nhau: một giao thức khôngbộc lộ bất kỳ thông tin gì, trong khi giao thức còn lại chỉ bộc lộ độ hỗ trợ của tậpphổ biến

4.2 Phát biểu bài toán

Vấn đề khai phá luật kết hợp và tập phổ biến đã được giới thiệu chi tiết trong[Cheung et al., 1996] Gọi I là tập các mục của tập D bao gồm m giao dịch Gọi

là để tìm ra các luật có dạng X → Y , sao cho P r(X ∪ Y ) ≥ α và P r(X|Y ) ≥ β Ởđây các giá trị α và β được định nghĩa trước bởi người dùng Giả sử X bao gồm kmục gọi là k-itemset, X được gọi là tập phổ biến nếu P r(X) ≥ α (hoặc độ hỗ trợcủa X: X.count ≥ t = α|D|.) Vấn đề kỹ thuật chính trong khai phá luật kết hợp

là xác định các tập phổ biến

Giả sử D được phân mảnh dọc trên n thành viên và các thành viên mong muốnhợp tác để tìm ra các tập phổ biến trên D Mục đích là thiết kế các giao thức đểđạt được các tập phổ biến trong khi đảm bảo sự riêng tư cho mỗi thành viên thamgia Ở đây xem xét việc bảo vệ thông tin riêng tư cho mỗi giao dịch cũng như bảo

vệ thông tin về các tham số khác như độ hỗ trợ của mỗi tập mục

Trang 13

Việc xác định một tập phổ biến trong tình huống này có thể được phát biểu nhưsau: Có n thành viên P1, , Pn, mỗi Pi có một véc tơ tương ứng Ui = (ui1, , uim),

xác định tập phổ biến có đảm bảo tính riêng tư là để kiểm tra xem có hay không

j=1

viên là không bị bộc lộ cho thành viên khác

4.3 Định nghĩa về việc đảm bảo tính riêng tư

Tương tự như định nghĩa về việc đảm bảo tính riêng tư trong chương 3, địnhnghĩa của chương này cũng được phát biểu như một trường hợp riêng của địnhnghĩa 2.3 Tuy nhiên, khác với chương 3, trong mô hình tính toán của chương này,chúng ta giả thiết mỗi thành viên tham gia trong giao thức đều có thể truyền thôngvới nhau, vì vậy vai trò của mỗi thành viên là như nhau Do đó, định nghĩa nàytương tự như định nghĩa 2.3, chỉ khác là giao thức đã đề xuất dựa trên hệ mã hóaElGamal và mỗi thành viên được giả thiết là có một cặp khóa Bởi vậy, trong Viewcủa mỗi thành viên sẽ bao gồm các khóa công khai của các thành viên còn lại vàmỗi khóa mật được coi như một thành phần của input

4.4 Giao thức không bộc lộ độ hỗ trợ

4.4.1 Tổng quan

Giả sử X là một tập phổ biến và s = X.count thì t ≤ s ≤ m Do đó sẽ tồn tạimột giá trị 0 trong danh sách λ ={λ1 = s− 1 − t, λ2 = s− 2 − t, , λk = s− k − t},

ở đây k = m − t Nếu s được biết bằng các thành viên, thì rõ ràng vấn đề xác định

vệ tính riêng tư, chúng ta không thể bộc lộ giá trị này, do đó phần này xây dựngmột giao thức để xác định có hay không tồn tại một giá trị 0 trong danh sách λ

mà không bộc lộ bất kỳ thông tin gì Ý tưởng cơ bản như sau, gọi p và q là hai số

đích của giao thức là để tính toán đảm bảo tính riêng tư cho hàm sau:

ngẫu nhiên, bởi vậy giao thức đã đề xuất sẽ không bộc lộ bất cứ thông tin gì Để

Trang 14

đạt được mục đích này, chúng tôi sẽ kết hợp hai kỹ thuật sau [Zhong et al., 2009,Hirt and Sako, 2000, Zhong et al., 2005]:

gxi), ta định nghĩa: y = Qn

khai chung để mã hóa Việc giải mã yêu cầu tất cả các thành viên tham gia Sơ đồnày có hai thuộc tính đồng cấu cộng và đồng cấu nhân, các thuộc tính này là rấtquan trọng để đạt được mục tiêu tính toán của chúng ta

Kỹ thuật ngẫu nhiên hóa: là một giao thức chạy trên mạng gồm một số

α1′, , αm′ được tạo ra từ tập hoán vị và mã hóa lại từ tập input Thuộc tính bảomật của giao thức này dựa trên tính chất không thể phân biệt được vị trí của mỗiinput khi quan sát trên tập output Trong giao thức của chúng ta mỗi thành viên

sẽ đóng vai trò như một mix server

4.4.2 Giao thức

Giao thức được trình bày trong Hình 4.1

4.4.3 Phân tích tính đúng đắn

Định lý 4.1 Nếu tất cả các thành viên tuân thủ các bước của giao thức và tồn tại

tồn tại giá trị bằng 1 trong danh sách giải mã thì s < t

4.4.4 Phân tích tính riêng tư

Đặc tính bảo mật quan trọng của giao thức này tốt hơn các giao thức trước đây

ở chỗ nó không giả thiết sự tồn tại của bất kỳ kiểu thành viên tin cậy nào Thêmvào đó, giao thức có thể kháng lại sự thông đồng của một tập các thành viên bấtkỳ

Định lý 4.2 Giao thức trong Hình 4.1 đảm bảo sự riêng tư cho mỗi thành viênchống lại sự thông đồng lên đến n − 1 thành viên không trung thực

4.4.5 Phân tích hiệu năng

Độ phức tạp truyền thông là O(nm|p|) bits Độ phức tạp tính toán O(nm) phép

mũ modular và O(mn) phép nghịch đảo Tuy nhiên các phép toán này có thể thựchiện đồng thời bằng mỗi thành viên Do đó, độ phức tạp tổng cộng là O(m) phép

mũ modular và phép nghịch đảo Như vậy, độ phức tạp tính toán và truyền thông

là tương đương với giao thức trong [Zhong, 2007]

Định dạng
Số trang	28
Dung lượng	490,05 KB