1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bảo vệ tính riêng tư trong khai phá dữ liệu cho dữ liệu dựa trên vị trí (LBS)

132 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 132
Dung lượng 2,68 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Từ đó, sẽ đề ra giải pháp hoặc cải tiến các giải thuật/framework sẵn có để có thể thực hiện tốt công việc bảo vệ tính riêng tư trong khai phá dữ liệu đối với dữ liệu vị trí.. Tuy nhiên,

Trang 1

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN

THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 19 tháng 8 năm 2010

Trang 2

- -oOo -

Tp HCM, ngày 21 tháng 01 năm 2010

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: TRƯƠNG TUẤN ANH Phái: Nam

Ngày, tháng, năm sinh: 29-09-1985 Nơi sinh: Quảng Trị Chuyên ngành: Khoa học Máy tính MSHV: 00708185

1- TÊN ĐỀ TÀI:

BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI PHÁ DỮ LIỆU CHO

DỮ LIỆU DỰA TRÊN VỊ TRÍ (LBS)

2- NHIỆM VỤ LUẬN VĂN:

- Tìm hiểu lí thuyết về bảo vệ tính riêng tư, dịch vụ dựa trên vị trí và khai phá dữ liệu

- Phân tích điểm mạnh, điểm yếu của các giải pháp đã đề nghị và lựa chọn giải pháp thích hợp

- Đề xuất giải pháp để bảo vệ tính riêng tư cho dữ liệu dựa trên vị trí

3- NGÀY GIAO NHIỆM VỤ: 21/01/2010

4- NGÀY HOÀN THÀNH NHIỆM VỤ: 02/07/2010

Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

(Họ tên và chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên và chữ ký)

(Họ tên và chữ ký)

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính Tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy bằng cấp ở trường này hoặc trường khác

Trương Tuấn Anh

Luận văn Thạc sĩ

Trang 4

LỜI CẢM ƠN

Quá trình hai năm học tập tại trường Đại học Bách khoa Thành phố Hồ Chí Minh đã qua và luận văn tốt nghiệp là thành quả cuối cùng thể hiện sự tổng kết những kiến thức, những nỗ lực của bản thân học viên Để có được những thành quả này, cho phép em bày tỏ lòng biết ơn sâu sắc đến toàn thể các thầy cô giáo trường Đại học Bách khoa Thành phố Hồ Chí Minh, đặc biệt là thầy cô Khoa Khoa học và Kỹ thuật Máy tính Chính những kinh nghiệm, những kiến thức quý báu mà thầy cô đã truyền đạt cho em đã giúp em giải quyết được rất nhiều vấn đề

để đi đến kết quả cuối cùng

Cho em được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất đến Tiến sĩ Đặng Trần Khánh, người đã hướng dẫn và giúp đỡ em trong suốt quá trình thực hiện luận văn Những ý kiến đóng góp, những gợi ý giải quyết vấn đề của thầy đã góp phần quan trọng cho sự thành công của đề tài luận văn này

Tôi cũng xin được gửi lời cảm ơn đến anh chị, bạn bè, đồng nghiệp đã giúp

đỡ và đóng góp những ý kiến quý báu cho tôi trong suốt quá trình hoàn thành luận văn

Cho con gửi lời cảm ơn đến ba mẹ và những người thân trong gia đình đã luôn chia sẻ, động viên và cổ vũ tinh thần, giúp con vượt qua khó khăn trong suốt quá trình học tập cũng như trong thời gian làm luận văn

Xin cảm ơn tất cả mọi người

Thành phố Hồ Chí Minh, tháng 8 năm 2010

Trương Tuấn Anh

Luận văn Thạc sĩ

Trang 5

TÓM TẮT

Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và mạng không dây, các ứng dụng thông tin di động đã phát triển mạnh mẽ và đã tạo ra nhiều tiền đề cho các hướng nghiên cứu mới Trong đó, các nghiên cứu về dịch vụ dựa trên vị trí (Location based service) đã trở thành hướng nghiên cứu chính trong lĩnh vực này

Với sự phát triển của các dịch vụ dựa trên vị trí, các thông tin về vị trí có thể

sẽ được thu thập bởi các cá nhân hoặc tổ chức nào đó và thông qua quá trình khai phá dữ liệu, các thông tin có ích sẽ được rút trích ra Vấn đề đặt ra là việc khai phá

dữ liệu đối với các dữ liệu về vị trí có thể phổ biến các thông tin “nhạy cảm” của người sử dụng nào đó Do đó, rõ ràng là người sử dụng không muốn phổ biến thông tin vị trí của mình cho người khác xem, điều này cũng hợp lý vì những thông tin này có thể được dùng cho những mục đích xấu mà người sử dụng không mong muốn Tuy nhiên, các ứng dụng data mining lại mong muốn thông tin phải chính xác để có thể cho kết quả thật sự hiệu quả Chính những yêu cầu này đã đặt

ra một thách thức lớn cho các nhà nghiên cứu tập trung sâu vào lĩnh vực này Rõ ràng, một giải thuật/framework hiệu quả để đảm bảo tính riêng tư của người sử dụng đồng thời cung cấp cho ứng dụng data mining những thông tin cần thiết để

có thể cho những kết quả hiệu quả

Luận văn này sẽ tập trung vào việc bảo vệ tính riêng tư của người sử dụng khi họ sử dụng dịch vụ Luận văn sẽ đề nghị các framework/giải thuật để bảo vệ tính riêng tư của người sử dụng đồng thời cân bằng giữa việc bảo vệ tính riêng tư

và hiệu quả của khai phá dữ liệu

Luận văn Thạc sĩ

Trang 6

ABSTRACT

With the rapid development of information technology and wireless network, the mobile services have been developed quickly and opened many research directions Among them, the research about the location based services is one of the main research directions

With the development of the location based services, the organizations or individuals can collect the location information of the users Through the datamining process, they can infer the valuable information However, this process can expose the “sensitive” information of the user Therefore, the user does not want to publish their location information Contrary, the data mining process wants the input data which are more accurate so that it can output information which is trust This contrary requires a framework/algorithm to protect the user’s privacy and provide the essential information to the datamining process at the same time

The thesis will focus on protecting the user’s privacy when they use the location services The thesis also proposes some framework/algorithm which tradeoff between the privacy protection and the effect of the datamining process

Luận văn Thạc sĩ

Trang 7

MỤC LỤC

Chương I Giới thiệu đề tài 2

I Tổng quan 2

II Đối tượng nghiên cứu 3

III Tính cấp thiết của đề tài 3

IV Vị trí của đề tài 3

V Các công việc liên quan 4

VI Tính khả thi của đề tài 4

VII Ý nghĩa của đề tài 4

Chương II Tổng quan về bảo vệ tính riêng tư trong khai phá dữ liệu 6

I Bảo vệ tính riêng tư cho các dữ liệu trước khi khai phá 6

1 Phương pháp Randomization 6

2 Phương pháp K-Anonymity 8

3 Phương pháp L-Diversity 15

4 T-Closeness 17

5 Query Auditing 19

II Bảo vệ tính riêng tư trong khi khai phá dữ liệu 20

III Thay đổi kết quả khai phá dữ liệu để bảo vệ tính riêng tư 21

1 Che dấu luật kết hợp (Association Rule Hiding) 21

2 Giảm tính hiệu quả của bộ phân loại 22

3 Inference Control và Query Auditing 23

IV So sánh đặc điểm của các hướng tiếp cận trong bảo vệ tính riêng tư 23

V Bảo vệ tính riêng tư trong khai phá dữ liệu phân tán (distributed data) 24

Luận văn Thạc sĩ

Trang 8

Chương III Bảo vệ tính riêng tư trong các dịch vụ dựa trên vị trí (Location-based

services) 27

I Tổng quan 27

II Các phương pháp bảo vệ tính riêng tư trong LBS 29

1 Kiến trúc không cộng tác (Non-Cooperative Architecture) 29

2 Kiến trúc có sự tham gia thành phần trung tâm tin cậy (Centralized Trusted Party Architecture) 30

3 Kiến trúc cộng tác ngang hàng (Peer to Peer Cooperative Architecture) 33

Chương IV Bảo vệ tính riêng tư trong khai phá dữ liệu trên các dịch vụ dựa trên vị trí36 I Những điểm yếu của việc áp dụng k-anonymity cho việc bảo vệ tính riêng tư trong khai phá dữ liệu dựa trên vị trí 36

II Spatio-Temporal Anonymization 37

III Grid-Based Anonymization 41

1 Khái niệm và đặc điểm 41

2 Kiến trúc hệ thống 43

3 Các giải thuật phục vụ cho khai phá dữ liệu 44

4 Đánh giá các điểm yếu của giải pháp dựa trên Grid 46

Chương V Bảo vệ tính riêng tư trong khai phá dữ liệu trên các dịch vụ dựa trên vị trí theo hướng tiếp cận dùng lưới tương thích 50

I Vấn đề cần giải quyết 50

II Giải pháp lưới tương thích 51

1 Các định nghĩa 51

2 Kiến trúc 52

3 Vấn đề phủ lấp với hướng tiếp cận lưới tương thích 53

4 Giải thuật 54

Luận văn Thạc sĩ

Trang 9

5 Đánh giá chất lượng 60

III Đánh giá giải pháp lưới tương thích 61

1 Phương pháp 61

2 Tập dữ liệu 63

3 Kết quả 63

Chương VI BẢO ĐẢM K-ANONYMITY CHO BẢNG DỮ LIỆU VỊ TRÍ 67

I Giới thiệu 67

II Các phương pháp bảo vệ 67

III Hướng tiếp cận dùng lưới để đảm bảo k-anonymity cho dữ liệu vị trí 69

1 Các định nghĩa 69

2 Giải thuật 71

IV K-anonymity cho dữ liệu không-thời gian (spatio-temporal data) 75

1 Thảo luận 75

2 Giải thuật 79

3 Đánh giá 82

Chương VII HƯỚNG TIẾP CẬN BẢO ĐẢM K-ANONYMITY CHO BẢNG DỮ LIỆU VỊ TRÍ CÓ QUAN TÂM ĐẾN LUẬT KẾT HỢP 84

I Giới thiệu 84

II Các khái niệm 84

III Tính toán các giá trị 86

IV Giải thuật 88

V Đánh giá phương pháp bảo đảm k-anonimity cho dữ liệu vị trí có quan tâm đến luật kết hợp 93

1 Phương pháp 93

2 Dữ liệu 93 Luận văn Thạc sĩ

Trang 10

3 Kết quả 93 Chương VIII KẾT LUẬN 95 Chương IX TÀI LIỆU THAM KHẢO 96

Luận văn Thạc sĩ

Trang 11

MỤC LỤC HÌNH

Hình 2.1 Hai bảng thông tin có chung thuộc tính 8

Hình 2.2 Một cây tổng quát hóa thuộc tính 10

Hình 2.3 Bảng tổng quát hóa nhất 10

Hình 2.4 Giải thuật Samarati 12

Hình 2.5 Đánh chỉ số 13

Hình 2.6 Cây tập hợp liệt kê 13

Hình 2.7 Biểu diễn không gian giá trị 14

Hình 2.8 Thực hiện giải huật Mondrian 14

Hình 3.1 Ứng dụng LBS 27

Hình 3.2 Kiến trúc không cộng tác 29

Hình 3.3 Kiến trúc Centralized Trusted Party 31

Hình 3.4 Mix Zone 32

Hình 3.5 Quadtree Spatial Cloaking 32

Hình 3.6 Nearest–Neighbor k-Anonymizing 33

Hình 3.7 Kiến trúc cộng tác ngang hàng 34

Hình 3.8 Sự thành lập nhóm 34

Hình 4.1 Spatial-Temporal anonymization 38

Hình 4.2 Delay Time Factor 39

Hình 4.3 Giao của các Anonymization Rectangle 40

Hình 4.4 Grid-Based Anonymization 41

Hình 4.5 Biểu diễn quỹ đạo trên lưới 42

Hình 4.6 Kiến trúc hệ thống 43

Hình 4.7 Tìm vùng mật độ 47

Luận văn Thạc sĩ

Trang 12

Hình 4.8 Giải pháp Multi-grid 48

Hình 5.1 Vấn đề của hướng tiếp cận ngẫu nhiên 50

Hình 5.2 Lưới (a) và Vùng nặc danh (b) 51

Hình 5.3 Hai lưới với điểm bắt đầu 52

Hình 5.4 Kiến trúc thành phần trung tâm tin cậy 52

Hình 5.5 Hai vùng nặc danh với các thông tin yêu cầu khác nhau 53

Hình 5.6 Vấn đề che phủ 54

Hình 5.7 Vùng phủ lấp không hoàn toàn (a) và phủ lấp hoàn toàn (b) 56

Hình 5.8 Vùng phủ lấp (a) và vùng phủ lấp cực đại (b) 56

Hình 5.9 Vùng phủ lấp quá nhỏ 57

Hình 5.10 Điểm gốc di động 58

Hình 5.11 Giải thuật hàm overlap_area_getting() 60

Hình 6.1 Lưới (a) và Vùng nặc danh (b) 69

Hình 6.2 Vùng 3-anonymization 70

Hình 6.3 Vùng nặc danh tốt hơn 70

Hình 6.4 Định nghĩa cell (a) và định nghĩa vùng nặc danh (b) 70

Hình 6.5 Vùng nặc danh cực đại với hai threshold tx và ty 71

Hình 6.6 Nặc danh hóa các tuple tới grid cell 73

Hình 6.7 Vòng lặp đầu tiên: Nặc danh hóa cho tuple No 9 (a) và vùng nặc danh cực đại (maximal anonymization) (b) 74

Hình 6.8 Vòng lặp thứ 2: Vùng maximal anonymization 74

Hình 6.9 Vòng lặp thứ 3: Vùng maximal anonymization 75

Hình 6.10 Vùng maximal anonymization cho dữ liệu không-thời gian 78

Luận văn Thạc sĩ

Trang 13

MỤC LỤC BẢNG

Bảng 2.1 Bảng dữ liệu PT 9

Bảng 2.2 Bảng dữ liệu thỏa mãn 4-anonymity 11

Bảng 2.3 Bảng dữ liệu ví dụ 15

Bảng 2.4 Bảng dữ liệu sau khi 3-diversity 16

Bảng 2.5 Bảng dữ liệu ví dụ 2 17

Bảng 2.6 Bảng dữ liệu sau khi diversity 18

Bảng 2.7 Bảng ví dụ phân tán dọc 25

Bảng 2.8 Phân tán dọc 25

Bảng 6.1 Một bảng dữ liệu vị trí 73

Bảng 6.2 Một phiên bản 3-anonymous 75

Bảng 6.3 Bảng nguồn với dữu liệu thời gian 76

Bảng 6.4 Phiên bản 2-anonymous 77

Bảng 6.5 Một phiên bản 2-anonymous khác 77

Bảng 6.6 Bảng dữ liệu không-thời gian 77

Bảng 6.7 Tổng quát hóa thuộc tính thời gian 78

Bảng 6.8 Kết quả đánh giá 83

Luận văn Thạc sĩ

Trang 14

GIỚI THIỆU ĐỀ TÀI

Luận văn Thạc sĩ

Trang 15

Chương I Giới thiệu đề tài

I Tổng quan

Khai phá dữ liệu (Data mining) được định nghĩa là “quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… “ [1] hay là “quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có” [2] Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được thu thập và lưu trữ ngày một tích luỹ nhiều lên Họ lưu trữ các dữ liệu này với suy nghĩ rằng trong các dữ liệu này chứa đựng các thông tin tiềm ẩn nào

đó và có ích cho họ trong tương lai Mặt khác, người ta mong muốn có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có Với những lý do như vậy, các phương pháp quản trị và khai thác

cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá

dữ liệu Hiện nay, khai phá dữ liệu cũng đã trở thành một khuynh hướng nghiên cứu chính của các nhà nghiên cứu Trong đó, các lo ngại về tính riêng tư (privacy) trong data mining cũng đã đặt ra một cơ sở, một hướng nghiên cứu mới cho các nhà nghiên cứu

Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và mạng không dây, các ứng dụng thông tin di động đã phát triển mạnh mẽ và đã tạo ra nhiều tiền

đề cho các hướng nghiên cứu mới Trong đó, các nghiên cứu về LBS (Location based service) đã trở thành hướng nghiên cứu chính trong lĩnh vực này Vấn đề đặt

ra là việc khai phá dữ liệu đối với các dữ liệu về vị trí, rõ ràng, người sử dụng không muốn phổ biến thông tin vị trí của mình cho người khác xem, điều này cũng hợp lý vì những thông tin này có thể được dùng cho những mục đích xấu Tuy nhiên, các ứng dụng data mining lại mong muốn thông tin phải chính xác để có thể cho kết quả thật sự hiệu quả

Chính những yêu cầu này đã đặt ra một thách thức lớn cho các nhà nghiên cứu tập trung sâu vào lĩnh vực này Rõ ràng, một giải thuật/framework hiệu quả để đảm bảo tính riêng tư của người sử dụng đồng thời cung cấp cho ứng dụng data mining những thông tin cần thiết để có thể cho những kết quả hiệu quả

Luận văn Thạc sĩ

Trang 16

II Đối tượng nghiên cứu

Đề tài tập trung nghiên cứu vào các phương pháp, giải thuật, framework để bảo vệ tính riêng tư trong khai phá dữ liệu đối với dữ liệu dựa trên vị trí Từ đó, sẽ

đề ra giải pháp hoặc cải tiến các giải thuật/framework sẵn có để có thể thực hiện tốt công việc bảo vệ tính riêng tư trong khai phá dữ liệu đối với dữ liệu vị trí Đối tượng nghiên cứu chủ yếu của đề tài sẽ tập trung chính vào hai đối tượng: bảo vệ tính riêng tư trong khai phá dữ liệu và dữ liệu dựa trên vị trí (LBS) Tính riêng tư trong khai phá dữ liệu là một lĩnh vực rông lớn với nhiều hướng nghiên cứu khác nhau Đề tài sẽ tập trung đi vào một lĩnh vực của nó, đó là tính riêng tư trong khai phá dữ liệu trên các đối tượng dữ liệu dựa trên vị trí

III Tính cấp thiết của đề tài

Các dịch vụ dựa trên vị trí ngày càng phát triển cùng với sự phát triển của mạng không dây và thiết bị di động, các dịch vụ này ngày càng chứng tỏ được sự tiện lợi, tính hữu ích của nó và thu hút nhiều người sử dụng tham gia Tuy nhiên,

sự phát triển của nó cũng đi kèm với những bất tiện cũng như bộc lộ các vấn đề

mà không thể lường trước được, ví dụ như việc rò rỉ các thông tin cá nhân, các thông tin nhạy cảm…

Những yêu cầu về tính riêng tư trong việc khai phá dữ liệu dựa trên vị trí đã thu hút nhiều nhà nghiên cứu vào lĩnh vực này, đồng thời, một số giải thuật/framework cũng đã được đề nghị để có thể giải quyết vấn đề này Tuy nhiên, lĩnh vực này mới được khám phá ở những năm gần đây nên số lượng các nhà nghiên cứu cũng như các bài báo, giải thuật vẫn chưa nhiều Điều này đã đặt ra cho các nhà nghiên cứu tập trung tìm tòi để phát triển mới hoặc cải tiến các giải thuật/framework có sẵn nhằm đáp ứng nhu cầu cấp thiết trong lĩnh vực này

Đề tài nghiên cứu này sẽ phát triển hoặc cải tiến các giải thuật/framework có sẵn để làm tăng tính hiệu quả của các giải thuật/framework nhằm góp phần vào việc giải quyết vấn đề cấp bách ở trên

IV Vị trí của đề tài

Đề tài sẽ tập trung đi sâu vào một nhánh của bảo vệ tính riêng tư trong data mining, đó là phát triển hoặc cải tiến một thuật giải để bảo vệ tính riêng tư trong data mining đối với dữ liệu dựa trên vị trí (LBS) Một số thuật giải đã được các nhà nghiên cứu đề nghị và đề tài sẽ tìm ra những điểm yếu, điểm mạnh trong các thuật giải đó, từ đó sẽ đề nghị cách để phát triển hoặc cải tiến giải thuật/framework phù hợp hơn, giải quyết những điểm yếu kém của giải thuật/framework

Luận văn Thạc sĩ

Trang 17

Hiện nay, các công trình nghiên cứu sâu về lĩnh vực này đang còn rất ít, do

đó, các bài báo cũng như các giải thuật cũng còn rất ít và còn nhiều điểm hạn chế Tập trung đi sâu vào lĩnh vực này được xem là một hướng chính và cần thiết trong giai đoạn hiện nay

V Các công việc liên quan

Đề tài sẽ được chia làm hai phần chính:

- Tìm hiểu về bảo vệ tính riêng tư trong data mining và các giải thuật của nó, đồng thời, tìm ra những điểm yếu, điểm mạnh của nó

- Tìm hiểu về LBS và sử dụng các kiến thức ở phần trước để chọn ra giải thuật/framework thích hợp cho việc bảo vệ tính riêng tư trong khai phá dữ liệu đối với dữ liệu dựa trên vị trí Từ đó, sẽ cải tiến hoặc phát triển giải thuật/framework nhằm giảm thiểu các điểm yếu của nó và tăng tính hiệu quả, tính sử dụng của nó

VI Tính khả thi của đề tài

Nhu cầu cấp thiết của lĩnh vực về LBS sẽ tạo ra những thu hút lớn đối với các nhà nghiên cứu và sự quan tâm của các doanh nghiệp trong lĩnh vực ứng dụng LBS Các đề tài nghiên cứu về lĩnh vực này rõ ràng sẽ có tính khả thi trong việc ứng dụng trên thực tế

Mặt khác, các giải thuật/framework dù có tốt cũng tồn tại những điểm yếu của nó mà tác giả hoặc là chưa biết, hoặc là chưa giải quyết Do đó, đề tài sẽ có tính khả thi trong việc cải tiến hoặc phát triển một giải thuật/framework để đảm bảo tính riêng tư trong khai phá dữ liệu dựa trên vị trí

VII Ý nghĩa của đề tài

Đề tài thành công sẽ góp phần vào việc ứng dụng các dịch vụ dựa trên vị trí một cách hiệu quả, tăng độ tin cậy cũng như tính chính xác của ứng dụng Đồng thời sẽ góp phần vào việc tăng thêm những đóng góp cho lĩnh vực nghiên cứu về bảo vệ tính riêng tư trong khai phá dữ liệu đối với dữ liệu dựa trên vị trí

Đề tài sẽ góp phần giải quyết yêu cầu cấp thiết của nguời sử dụng trong việc bảo vệ thông tin riêng tư của mình, tránh việc sử dụng các thông tin riêng tư của mình vào các mục đích không tốt Với sự phát triển mạnh mẽ của dịch vụ thông tin

di động, đề tài sẽ đề nghị một phương pháp cải tiến làm tăng tính bảo mật các thông tin cần thiết, từ đó, tạo niềm tin cho người sử dụng vào các dịch vụ thông tin

di động

Luận văn Thạc sĩ

Trang 18

CƠ SỞ LÍ THUYẾT

Luận văn Thạc sĩ

Trang 19

Chương II Tổng quan về bảo vệ tính riêng tư trong

khai phá dữ liệu

Hiện nay, có rất nhiều cách phân loại các kỹ thuật bảo vệ tính riêng tư trong data mining khác nhau, trong đề tài này sẽ đề cập đến một cách phân loại tổng quát nhất, đó là việc phân loại dựa trên thời điểm tiến hành việc bảo vệ tính riêng

tư Dựa vào cách xác định này, ta có thể định ra 3 nhóm chủ yếu: Các kỹ thuật bảo

vệ tính riêng tư áp dụng cho dữ liệu trước khi được khai phá; các kỹ thuật áp dụng trong khi khai phá dữ liệu và các kỹ thuật áp dụng trên kết quả khai phá Đề tài sẽ giới thiệu một số kỹ thuật trong các nhóm này

I Bảo vệ tính riêng tư cho các dữ liệu trước khi khai phá

Đối với hướng này, các kỹ thuật sẽ tiến hành việc biến đổi các dữ liệu nguồn (hay còn gọi là các dữ liệu đầu vào cho ứng dụng data mining) trước khi các dữ liệu đó được đưa vào ứng dụng khai phá dữ liệu Một số kỹ thuật sẽ được giới thiệu trong nhóm này bao gồm: randomization, k-Anonymity, l-diversity, query auditing

Tóm lại, ta có một định nghĩa về phương pháp randomization như sau:

Cho một tập các record dữ liệu X = {x 1 x N } Cho mỗi record xi ∈ X, ta

thêm vào các hỗn tạp được lấy từ phân bố xác suất f Y (y) được diễn tả bởi y 1 y N

Luận văn Thạc sĩ

Trang 20

Cuối cùng ta có một tập các record đã được trộn lẫn (distorted record) x 1 + y 1

x N + y N hay được kí hiệu z 1 z N

Một cách tổng quát, có hai cách chính để hiện thực phương pháp randomization, đó là:

- Value-Class Membership: trong cách này, phương pháp randomizaton

được hiện thực bằng cách các giá trị của các thuộc tính được tách ra thành các khoảng (interval) Ví dụ như một người không muốn tiết lộ thông tin chính xác mình kiếm được 4000$ trong một năm cho người khác biết, do đó, thông tin này

sẽ được biến đổi thành 0$ - 20000$

Các interval giữa các thuộc tính cũng như trong cùng thuộc tính của các record khác nhau cũng có thể khác nhau Cách này được dùng chủ yếu cho việc che giấu các thông tin cá nhân mà thôi

- Value Distortion: trong cách này, thay vì sử dụng giá trị thật sự (giá trị

nguồn) của các record, ta sẽ thực hiện việc biến đổi giá trị này bằng cách thêm vào các giá trị ngẫu nhiên từ một hàm phân bố công khai Các hàm phân bố thường được sử dụng trong cách này là Uniform Distribution và Gaussian Distribution Tùy thuộc vào hàm phân bố được sử dụng mà ta có thể thêm vào các giá trị để

biến đổi dữ liệu nguồn

Hai chiến lược chính được áp dụng cho phương pháp randomization, đó là additive strategy và multiplicative strategy:

- Additive strategy: thực hiện việc biến đổi dữ liệu nguồn dựa trên việc cộng thêm các giá trị ngẫu nhiên được lấy từ hàm phân bố xác suất công khai nhằm che giấu các giá trị thực của dữ liệu

- Multiplicative strategy: thực hiện việc biến đổi dữ liệu tương tự như chiến lược cộng nhưng sử dụng phép nhân để thêm dữ liệu ngẫu nhiên vào dữ liệu nguồn

Luận văn Thạc sĩ

Trang 21

Một điểm mạnh của phương pháp này đó là việc không cần một server tin cậy (trusted server), điều này là vì các record có thể được thêm nhiễu độc lập với nhau, do đó không cần phải thu thập hết tất cả các dữ liệu rồi mới thực hiện việc randomization Tại thời điểm thu thập dữ liệu, dữ liệu có thể bị biến đổi ngay và trả về cho bên yêu cầu, do đó phương pháp này có thể được thực hiện tại thời điểm thu thập dữ liệu, không cần thông qua một server tin cậy

Tuy phương pháp này khá đơn giản cho việc hiện thực và ứng dụng, nó cũng bộc lộ hạn chế, đó là sự độc lập giữa các dữ liệu khi tiến hành việc randomization lại tạo cơ hội cho việc kết hợp các thông tin của các record lại để có thể lấy ra hoặc xây dựng lại các thông tin riêng tư nào đó mà không thể ngăn chặn được Do

đó, các thông tin này có thể phổ biến không mong muốn

2 Phương pháp K-Anonymity

Các thuộc tính dữ liệu có thể chứa các thông tin “nhạy cảm”, điều đó rất phổ biến hiện nay khi mà các thông tin cá nhân có thể được lưu giữ trực tuyến, các thông tin nhạy cảm đó có thể bao gồm: số CMND, mật khẩu, tình trạng lương… Như vậy, việc truy xuất thông tin có thể làm cho việc phổ biến các thông tin này ra bên ngoài

Một cách “thơ ngây” (naive) để loại bỏ việc phổ biến các thông tin này là xóa

bỏ các thông tin này trước khi trả về kết quả truy xuất, như vậy, các thông tin nhạy cảm không còn để có thể bị xem xét bởi kẻ tấn công

Một vấn đề đặt ra là các thông tin từ các thuộc tính khác nhau trong cùng bảng hoặc ở các bảng khác nhau cũng có thể gây nên việc trích rút thông tin riêng

tư trong đó, hãy xem ví dụ sau:

Hình 2.1 Hai bảng thông tin có chung thuộc tính Luận văn Thạc sĩ

Trang 22

Hai bảng cơ sở dữ liệu trên có 3 thuộc tính chung, mặc dù có thể bỏ các thuộc tính nhạy cảm như tên, địa chỉ… thì các thuộc tính này cũng có thể được xác định thông qua các thuộc tính chung này cộng thêm một số các thông tin thêm

Để giải quyết vấn đề trên, một giải pháp đã được đưa ra, đó là phương pháp k-anonymity Trong phương pháp này, nhóm dữ liệu sẽ được biến đổi để có thể chống lại việc lấy lại (re-identification) các thông tin đã được bỏ để bảo vệ tính riêng tư Ý tưởng chính của phương pháp này là làm sao cho mọi tuple trong dữ liệu được trả về cho bên yêu cầu phải không được phân biệt trong k tuple khác nhau, điều đó có nghĩa là trong bảng dữ liệu trả về phải có ít nhất k tuple giống nhau cho bất kỳ tuple nào

Một khái niệm cần được đề cập đến, đó là Quasi-identifier: đây là tập các thuộc tính mà k-anonymity thực hiện trên nó, cho ví dụ:

Xem xét bảng dữ liệu:

Bảng 2.1 Bảng dữ liệu PT

Ở đây, tập quasi-identifier là {Marital status, Sex, Hours} và bảng dữ liệu

trên thỏa mãn k-anonymity với k <= 2, điều này dễ nhận thấy vì có ít nhất 2 tuple giống nhau

Hai công nghệ chính được đề cập để thực hiện k-anonymity đó là generalization và suppression:

Generalization: thay thế giá trị thuộc tính của record dữ liệu bởi phiên bản

tổng quát hơn của chúng

Hãy xem xét một cây tổng quát như sau:

Luận văn Thạc sĩ

Trang 23

Hình 2.2 Một cây tổng quát hóa thuộc tính Dựa vào cây tổng quát này, ta có thể tiến hành việc tổng quát hóa để đảm bảo k-anonymity như sau:

Hình 2.3 Bảng tổng quát hóa nhất Đây là phiên bản tổng quát hóa nhất dựa vào cây tổng quát hóa ở trên, đối với phiên bản này, việc tổng quát hóa được thực hiện cho cả 3 thuộc tính trong quasi-identifier, phiên bản này đảm bảo k-anonymity với k <= 66

Một phiên bản khác của việc tổng quát hóa là:

Luận văn Thạc sĩ

Trang 24

Bảng 2.2 Bảng dữ liệu thỏa mãn 4-anonymity Đối với phiên bản này, việc tổng quát hóa sẽ được thực hiện trên thuộc tính Sex, dễ dàng thấy rằng phiên bản này đảm bảo k-anonymity với k <= 4

Suppression: thực hiện việc che giấu các thông tin riêng tư bằng cách xóa bỏ

hoặc “nén” chúng lại trước khi phổ biến thông tin đó

Một ví dụ của trường hợp này đó là một giá trị chính xác của thuộc tính có thể được thay thế bởi giá trị ít thông tin hơn, ví dụ một người muốn che giấu thông tin lương theo giờ của mình là 23.45$, anh ta sẽ thực hiện việc “nén” nó và đưa ra giá trị 20$, một ví dụ nữa là về thông tin độ tuổi, các độ tuổi trên 70 có thể được làm tròn xuống còn 70…

Nếu ứng dụng data mining yêu cầu quyền truy xuất đầy đủ vào các thông tin nhạy cảm để phục vụ cho một mục đích nào đó thì công nghệ này không nên được

sử dụng, bởi vì nó sẽ làm cho thông tin chính xác bị biến đổi, không còn có ý nghĩa nữa đối với việc khai phá

Để đảm bảo k-anonymity trong khai phá dữ liệu, một số giải thuật đã được giới thiệu: giải thuật Samarati, giải thuật Bayardo-Agrawal, giải thuật Incognito, giải thuật xấp xỉ…

Giải thuật của Samarati: mục tiêu của giải thuật này là tìm một k-minimal

tổng quát hóa nhưng lại nén ít tuple nhất Định nghĩa một MaxSup là giới hạn của

số các tupe có thể nén lại, giải thuật sẽ tính toán một tổng quát hóa nhưng lại thỏa mãn giới hạn này

Càng đi lên cao trong cây phân cấp, số các tuple bị xóa đi để đảm bảo tổng quát hóa càng cao, do đó, giải thuật sẽ tiến hành tìm kiếm từ dưới lên trên trong cây phân cấp này Cho h là chiều cao của cây phân cấp, giải thuật sẽ tiến hành đánh giá các giải pháp tại chiều cao ⎣h/2⎦ , nếu như có ít nhất một bảng đảm bảo k-anonimyty thì giải thuật sẽ ước lượng tại chiều cao ⎣h/4⎦, nếu không có giải pháp

Luận văn Thạc sĩ

Trang 25

nào thỏa mãn thì giải thuật sẽ ước lượng tại ⎣3h/4⎦ Cuối cùng, sẽ tìm mức thấp nhất của chiều cao thỏa mãn ràng buộc k-anonimity

Cho ví dụ: QI = {Marital_status, Sex}, k = 4, MaxSup = 1 và các miền của các thuộc tính như ví dụ ở phía trên

Hình 2.4 Giải thuật Samarati Giải thuật sẽ tiến hành ước lượng tại chiều cao ⎣3/2⎦, sẽ có (M0, S1) và (M1,

S0) thỏa mãn Bởi vì cả hai đề thỏa mãn 4-anonymity nên sẽ tiếp tục ước lượng tại

⎣3/4⎦, sẽ có (M0, S0), vì giải pháp này muốn thỏa mãn 4-anonymity thì phải nén ít nhất hai thuộc tính (divorced, F), do đó sẽ không thỏa mãn ràng buộc MaxSup = 1, vậy (M0, S1) và (M1, S0) là 2 giải pháp cuối cùng

An} là một tập có thứ tự Mỗi thuộc tính Ai có miền trị tương ứng là Di Chia miền trị D của mỗi thuộc tính Ai thành 1 tập các interval có thứ tự {I1, I2, …Im} không giao nhau để mà I1 ∪ I2 ∪ …∪ Im = D và ∀vi ∈ Ii, ∀vj ∈ Ij, nếu i < j thì vi < vj Mỗi Ii sẽ được đánh chỉ số với một số nguyên

Xét ví dụ sau với bảng dữ liệu đã cho như phần trên, cho quasi-identiier QI = {marital_status, sex} Thứ tự giữa các thuộc tính là marital_status, sex Thứ tự giữa các trị trong mỗi thuộc tính là: married, divorced, single cho thuộc tính marital_status và F, M cho sex Ta sẽ có hình sau:

Luận văn Thạc sĩ

Trang 26

Hình 2.5 Đánh chỉ số Mặc định, giá trị chỉ số nhỏ nhất của mỗi thuộc tính sẽ luôn có mặt trong bất kỳ sự tổng quát hóa của thuộc tính đó Một sự tổng quát hóa được thể hiện thông qua việc hội các tập tổng quát của mỗi miền trị của các thuộc tính

Như ví dụ trên, chỉ số nhỏ nhất của Marital_status là 1, của Sex là 4 mỗi thuộc tính, ta có: {1,3} biểu diễn cho thuộc tính Marrital_status và {4,5} cho Sex {1,3} phù hợp với 〈[married hoặc divorced], [single]〉, {4,5} phù hợp với 〈[F], [M]〉

Tập rỗng {} sẽ biểu diễn sự tổng quát hóa nhất khi các thuộc tính được tổng quát hóa về giá trị tổng quát nhất của nó Trong ví dụ trên, {} sẽ biễu diễn {1} cho Marital_status và {4} cho Sex

Giải thuật sẽ tiến hành việc xây dựng một set enumeration tree trên tập các chỉ số mà không có sự lặp lại, mỗi node con của nốt n của cây có thể được hình thành thông qua việc nối một thành phần của tập chỉ số vào node n

Hình 2.6 Cây tập hợp liệt kê Mỗi node trong cây sẽ biểu diễn việc tổng quát hóa như thế nào, do đó, ta sẽ duyệt cây để chọn ra cách tổng quát hóa đáp ứng yêu cầu

Luận văn Thạc sĩ

Trang 27

Một điểm yếu của cây này là khi số chỉ số lớn, ta phải duyệt 2|I| node Tuy nhiên, ta có thể áp dụng chiến lược heuristic nhánh và cạnh (branch-pruning) Khi duyệt đến một node n, sẽ tính chi phí kết hợp với các node con của n, nếu không thể tối ưu thì cây con với gốc là n sẽ bị bỏ qua không cần duyệt nữa

Giải thuật Mondrian: sử dụng giải thuật tham lam để phân chia vùng không

gian giá trị cho đến khi thỏa mãn k-anonymity

Một bảng sẽ được biểu diễn bởi một tập các điểm trong không gian giá trị Vùng không gian này sau đó được phân chia sao cho tất cả các vùng con đều chứa

ít nhất k điểm Hãy xem ví dụ:

Cho bảng dữ liệu như ví dụ trên QI = {Marital_status, Sex} và muốn k = 10 Khi biểu diễn trong không gian giá trị, ta có:

Hình 2.7 Biểu diễn không gian giá trị

Ta sẽ tiến hành các bước chia không gian đó cho tới khi mỗi vùng đều chứa ít nhất 10 điểm

Hình 2.8 Thực hiện giải huật Mondrian Luận văn Thạc sĩ

Trang 28

Cuối cùng ta sẽ có hình bên phải nhất Các tuple trong cùng một vùng sẽ được tổng quát về giá trị của một tuple nào đó trong vùng

Tóm lại, đối với phương pháp k-anonymity, một server tin cậy (trusted server) sẽ được yêu cầu Điều này là vì các giá trị thuộc tính chỉ được anonymity khi mà nó đã được thu thập đầy đủ, do đó, phải cần có một trusted server để lưu trữ các thông tin thu thập được và tiến hành việc anonymity, đây là một điểm yếu của k-anonymity

Ngoài ra, k-anonymity có thể được tiến hành trước hoặc sau khi khai phá dữ liệu, tức là việc anonymity được tiến hành trên dữ liệu đầu vào hay là tiến hành nặc danh hóa kết quả của data mining

3 Phương pháp L-Diversity

Một câu hỏi được đặt ra cho phương pháp k-anonymity ở trên, đó là liệu nó

đã thực sự an toàn cho việc đảm bảo tính riêng tư? Ta hãy xem xét các trường hợp sau:

Cho bảng dữ liệu

Bảng 2.3 Bảng dữ liệu ví dụ

Ta dễ dàng thấy bảng dữ liệu trên sẽ thỏa mãn với k <= 4 Một câu hỏi đặt ra

là khi người tấn công muốn biết tình trạng bệnh tật của một người có ZipCode =

13085, Age = 36, ứng dụng sẽ trả về 4 tuple tương ứng (9, 10, 11, 12) Một điều đặc biệt là cả 4 tuple này đều có chung tình trạng bệnh tật, do đó người tấn công

Luận văn Thạc sĩ

Trang 29

không cần biết cụ thể là tuple nào, họ có thể quyết định ngay người minh muốn biết có tình trạng là Cancer

Một trường hợp khác, đó là khi người tấn công có một chút kiến thức nền về

tự nhiên, lịch sử… Anh ta muốn xem thông tin của một người có ZipCode =

13098, Age = 25 và người đó đến từ Nhật Bản, anh ta sẽ có 4 tuple tương ứng 1, 2,

3, 4 Anh ta cũng có kiến thực rằng tỉ lệ người Nhật bị bệnh đau tim là rất ít, hầu như không hề xảy ra, do đó, anh ta có thể quyết định ngay người mình muốn biết thông tin bị ảnh hưởng bởi virus (Viral Infection)

Rõ ràng, bảng dữ liệu trên không đủ mạnh để có thể bảo đảm tính riêng tư không bị rò rỉ Thông tin nhạy cảm không đủ “anonymity” để mà có thể không bị suy ra Do đó, người ta đã đặt ra một giải pháp, được gọi là l-diversity

Trong phương pháp này, các thông tin nhạy cảm được biến đổi đề mà nó cũng chống lại việc bị nhận dạng lại bởi kẻ tấn công, Một bảng đuợc gọi là l-diversity nếu như nó đảm bảo k-anonymity cho các quasi–identifier và các thông tin nhạy cảm cũng đồng thời đảm bảo “l-anonymity”, tức là các thông tin nhạy cảm sẽ được nặc danh trong các thông tin khác Hãy xem xét bảng sau:

Bảng 2.4 Bảng dữ liệu sau khi 3-diversity Bảng trên sẽ đảm bảo k-anonymity với k <= 4 nhưng đồng thời cũng là một 3-diversity

Bằng cách cài đặt các thông số l, chúng ta có thể đảm bảo việc tấn công bởi 2

cách như đã nói ở trên sẽ không thực hiện được

Luận văn Thạc sĩ

Trang 30

4 T-C

diversity Một đặc điểm của

l-ó không quan tâm đến xác suất phân bố của các giá trị thuộc tính

ệu Tuy nhiên, trong thực tế, tập dữ liệu thực thường có sự chênh lệch

nào đó hay không Giá trị của huộc tính này là positive và nega

g có thể lợi dụng kết quả để dẫn xuất ra một thông tin nhạy cảm nào đó, xem

Dữ liệu nguồn có một thuộc tính nhạy cảm là kết quả kiểm tra các cá thể có

bị nhiễm một virus

tive Giả sử dữ liệu có 100000 dòng, trong đó 99% là negative và 1% là positive Rõ ràng giá trị negative sẽ chiếm ưu thế so với positive, do đó, để tạo ra một bảng mà thỏa mãn l-diversity với l = 2 cho thuộc tính nhạy cảm này sẽ rất khó khăn

Một trường hợp nữa mà l-diversity có thể không bảo đảm được đó là người tấn côn

Luận văn Thạc sĩ

Trang 31

No ZIP Code Age Salary Disease

đó cho trước Một bảng được gọi là thỏa t-closeness nếu mọi lớp tương đương của

, p2, , pm} là phân phối của một thuộc tính nhạy cảm nào đ

thuộc tính nhạy cảm trong toàn bộ bảng Độ sai biệt là D(P, Q)

Bảng 2 dữ l

, họ có thể dẫn xuất ra thông tin nhạy c

ất thấp và mắc bệnh về dạ dày Đây là một kiểu tấn công tương tự (Similarity)

Định nghĩa t-Gần nhau: Một lớp tương đương (tập các record trong cùng

P D

1 2

1 )

, (

Luận văn Thạc sĩ

Trang 32

c câu truy vấn đã từng được trả lời để xem xét rằng việc kết hợp với câu truy vấn

xuất ra các thông tin nhạy cảm vi phạm với các chính sách riêng

ry Auditing:

Query Auditing: Đó là việc kiểm tra câu truy vấn, nếu như nó vi phạm các

chính

iểm tra này, đó là Offline Auditor và Online Auditor

h riêng tư hay không Đối với loại Auditor này, một đ

= m

i i

q

p p Q

P D

1log)

,(

Dựa vào công thức này để tính ra kết quả và so sánh với gi

Xem xét trong ngữ cảnh của Cơ sở dữ liệu, Auditing là quá trình kiểm tra cá

hiện tại có thể dẫn

tư nào đó hay không

Có hai phương pháp chính để thực hiện kỹ thuật này, đó là: Query Output Perturbation và Que

Query Output Perturbation: Quá trình này là việc thực hiện thêm các hỗn

tạp (noise) vào trong kết quả của câu truy vấn để có thể đảm bảo tính riêng tư chứa trong kết quả

sách về riêng tư thì sẽ từ chối trả về kết quả của câu truy vấn, còn ngược lại thì vẫn trả về kết quả bình thường

Việc quyết định câu truy vấn có vi phạm các chính sách về tính riêng tư hay không có thể được thực hiện thông qua các bộ Auditor Có hai loại Auditor để thực hiện việc k

Offline Auditor: Đối với loại auditor này, việc thực hiện kiểm tra chỉ dựa trên

thông tin của câu truy vấn hiện tại, nghĩa là nó sẽ kiểm tra xem câu truy vấn hiện tại có vi phạm các chính sách về tín

iểm yếu có thể dễ dàng nhận ra đó là việc kết hợp thông tin của các câu truy vấn khác nhau ở tại những thời điểm khác nhau có thể làm cho kẻ tấn công suy ra các thông tin nhạy cảm ảnh hưởng đến tính riêng tư

Online Auditor: Đối với loại auditor này, việc kiểm tra sẽ tiến hành không

chỉ dựa vào thông tin của câu truy vấn hiện tại mà nó còn kết hợp các câu truy vấn

đã từng trả lời trước đây của người yêu cầu này để quyết định việc có vi phạm hay

Luận văn Thạc sĩ

Trang 33

không các chính sách về tính riêng tư Trong auditor này, tuy nó đã khắc phục được điểm yếu của offline auditor, nhưng đồng thời nó cũng có điểm yếu của chính nó, cho ví dụ như sau: người tấn công sẽ truy vấn tổng lương của một nhóm ngườ

để thực hiện việc kiểm tra cũng chưa thực sự hiệu quả, các định

Một điểm yếu của Online Auditor đó là nó cần phải có một vùng đệm để lưu trữ các thông tin câu truy vấn ở quá khứ phục vụ cho việc kiểm tra sau này, việc thiết kế vùng đệm này có kích thước bao nhiêu cũng là một vấn đề, làm sao cho vừa tiết kiệm vùng nhớ, vừa đủ hiệu quả để việc kiểm tra chính xác

Một vấn đề cũng đáng quan tâm trong phương pháp Query Auditing đó là hiện nay, các giải thuật

nghĩa về tính riêng tư cũng còn chưa thông nhất, ví dụ như thông tin lương là thuộc tính riêng tư của cá nhân, nhưng trên thực tế, thông tin lương của các nhóm người liên quan như trong một gia đình cũng nên được xem là riêng tư Một vấn

đề nữa mà Auditing có thể đem lại sự bất tiện, đó là việc từ chối các

gười truy vấn thấy thật sự cần thiết, trong khi auditor lại quyết định nó vi phạm chính sách riêng tư và từ chối, ví dụ như tính tổng người bị nhiễm HIV trong một công ty chẳng hạn

Bảo vệ tính riêng tư trong khi khai phá dữ liệu

Về mặt lí thuyết, đây cũng là một thời điểm có thể thực hiện việc bảo vệ tính riêng tư, tuy nhiên, mục tiêu trong khi khai phá dữ liệu là sử dụng các luật, các tính toán… để trích rút các thông tin cần thiết, do đó, việc can thiệp sâu vào quá trính trích rút thông tin này có thể gây nên những vấn đề đối với tính hiệu quả của ứng dụng khai phá dữ liệu

Một số hướng tiếp cận được đề nghị cho việc bảo đảm

phá dữ liệu:

- Tích hợp các kỹ thuật đã được đề nghị cho việc bảo vệ tính riêng tư vào trong ứng dụng data mining: đối với hướng tiếp cận này, việc áp dụng các kỹ thuật như randomization, k-anonymity… lồng với từng bước trong quá trình khai phá

dữ liệu Trong quá trình trích xu

Luận văn Thạc sĩ

Trang 34

việc

dữ liệu cho việc khai phá bị biến đổi qua nhiều lần

c tính chất đúng

Association Rule Hiding là một quá trình thay đổi dữ liệu để che dấu các

ng tới dữ liệu và các luật khôn

sử dụng cho mục đích riêng của mình

làm này có thể gây nên hậu quả là ứng dụng data mining có thể chạy chậm và không hiệu quả do

- Thay đổi các luật, thuật toán sử dụng trong khai phá dữ liệu để tích hợp thêm phần bảo vệ tính riêng tư: đối với hướng tiếp cận này, các luật, thuật tóan được sử dụng trong khai phá dữ liệu sẽ được thay đổi để tích hợp thêm chức năng bảo vệ tính riêng tư Hướng tiếp cận này sẽ gặp khó khăn bởi vì việc tích hợp thêm các chức năng bảo vệ tính riêng tư vào các luật, thuật tóan này sẽ làm cho việc trích rút kết quả khai phá không còn được tin cậy, mặt khác, rất khó để có thể chèn thêm các chức năng vào các luật, thuật tóan bởi vì nó sẽ làm phá vỡ cá

đắn vốn có của các luật, thuật tóan khai phá dữ liệu Tóm lại, việc bảo đảm tính riêng tư trong quá trình khai phá dữ liệu cũng là một hướng giải quyết trong vấn đề bảo vệ tính riêng tư trong khai phá dữ liệu Tuy nhiên, việc đi theo hướng này hiện nay chưa được chú ý do gặp nhiều vấn đề như

đã đề cập ở trên

Thay đổi kết quả khai phá dữ liệu để bảo vệ tính riêng tư

Trong phần này sẽ nói về các kỹ thuật để thay đổi kế

ữ liệu sao cho các thông tin riêng tư không bị dẫn xuất ra, các kỹ thuật giới thiệu bao gồm: Che dấu luật kết hợp, giảm tính hiệu quả của bộ phân loại, inference control và query auditing

Che dấu luật kế

Một trong những tiện ích của ứng dụng khai phá dữ liệu là nó sẽcác luật để từ đó, cung cấp cho các tổ chức, doanh nghiệp các quyết

í dụ, một siêu thị sẽ dựa vào thông tin của lịch sử mua hàng của các khách hàng đề nhận xét rằng, người mua hàng khi mua bơ, họ sẽ mua thêm bánh mì, do

đó, siêu thị sẽ sắp xếp lại để quầy hàng bơ gần quầy bánh mì…

thông tin luật dẫn xuất nhạy cảm mà không ảnh hưở

g nhạy cảm khác

Một ví dụ là siêu thị nhận thấy rằng người dùng mua bánh mì thì thường mua

bơ của hãng Cheese, do đó, siêu thị sẽ cung cấp bơ của hãng khác kèm theo khuyến mãi để cạnh tranh với Cheese, như vậy trong trường hợp này, luật kết hợp bánh mì -> bơ Cheese là một luật nhạy cảm, nó được siêu thị

Luận văn Thạc sĩ

Trang 35

Xét

n

ƒ

ậy (confidence) c% nếu: (|X∪Y|/|X|)*100 = c

ƒ ỗ trợ (support) s% if: (|X∪Y|/ N)*100 = s

Với N là số transaction, |A| là số item trong tập A

ƒ T supports X-là một tập item trong I nếu X ⊆ T

ƒ Association Rule: X => Y với X ⊂ I, Y ⊂ I và X ∩ Y = ∅

ƒ X ⇒ Y có độ tin c

X ⇒ Y có độ h

ũng có định nghĩa:

• MST: Minimum Support Threshold

• MCT: Minimum Confidence Threshold

a nói rằng, một luật là không nhạy cảm nếu độ hỗ trợ và độ tin hấp hơn MST và MCT

Như vậy, ý tưởng chính của kỹ thuật này là tí

uật nào là nhạy cảm, luật nào là

hai loại trước Sau đó, dựa và kết qủ

ảm ạy cảm thành các luật không ch

ướng chính để biến đổi luật nhạy c

g chắc chắn, đó là: giảm bớt độ tin cậy và giảm bớt độ hỗ trợ

Một trong những tác vụ cơ bản của ứng dụng khai phá dữ liệu truyền thống là phân lọai dữ liệu tuy nhiên, việc phân loại dữ liệu có thể gây nên việc rò rỉ những thông tin nhạy cảm, do đó, vấn đề đặt ra là phải bảo vệ những thông tin nhạy cảm này

Ý tưởng chính của kỹ thu t này là làm giảm tính hiệu quả của bộ phân loại bằng cách che dấu các luật nhạy cảm Hầu như các luật phân loại đề sử dụng các luật kết hợp, suy diễn trong quá trình khai phá, do đó, các kỹ thuậ

Luận văn Thạc sĩ

Trang 36

cho luật kết hợp cũng có thể được sử dụng trong kỹ thuật này Các luật kết hợp sẽ được

3

Các câu truy vấn được cung cấp bởi hệ thống có thể gây nên sự phát tán thông

để bảo vệ tính riêng tư,

ảm từ các câu truy vấn hoặc từ sự kết

riêng tư bởi vì hướng tiếp cận bảo vệ tính riêng tư tại thời điểm khai phá ít được quan tâm

là nó không quan tâm đến độ tin cậy của ứng dụng khai phá dữ liệu, bởi vì việc che dấu thông tin sẽ được thực hiện trước khi dữ liệu được phổ biến tới

Inference Control và Query Auditing

tin riêng tư như đã từng đề cập trong phần Query Auditing Sự phát tán thông tin có thể là xác định chính xác thông tin riêng tư (full disclosure) hoặc giới hạn lại vùng giá trị của thuộc tính nhạy cảm (part disclosure)

Hai kỹ thuật chính đê làm giảm sự phát tán thông tin nhạy cảm này:

- Query Inference Control: Dữ liệu sẽ bị mờ hóa

làm cho việc dẫn xuất các thông tin nhạy c

hợp của các câu truy vấn sẽ bị loại trừ

- Query Auditing: sẽ kiểm tra câu truy vấn có vi phạm tính riêng tư hay không, nếu vi phạm thì sẽ bị từ chối, nếu không vi phạm thì kết quả vẫn trả về bình thường

ánh đặc điểm của các hướng tiếp cận trong bảo vệ tính r

Trong ba hướng tiếp cận đã được đề cập ở trên, ta sẽ tập trung vào việc đánh giá hai hướng tiếp cận: bảo vệ tính riêng tư trước khi khai phá dữ liệu và thay đổi kết quả khai phá dữ liệu để bảo vệ tính

Đối với hướng tiếp cận bảo vệ tính riêng tư trước khi khai phá dữ liệu, điểm mạnh của nó

ứng dụng data mining, do đó, sau khi đã biến đổi dữ liệu để bảo vệ tính riêng tư,

ệu có thể được đưa tới nhiều ứng dụng khai phá dữ liệu khác nhau

Một điểm yếu của hướng tiếp cận bảo vệ tính riêng tư trước khi khai phá dữ liệu đó là việc dữ liệu đã bị biến đổi, do đó ứng dụng data mining có thể cho kết quả không như mong muốn Để ứng dụng data m

những yêu cầu của nó là phải có tập dữ liệu vào đủ tốt và tin cậy, do đó, với

dữ liệu đã bị biến đổi, ứng dụng data mining sẽ căn cứ trên tập dữ liệu này và tiến hành khai phá, việc cho ra kết quả không tin cậy sẽ xảy ra

Luận văn Thạc sĩ

Trang 37

Ngược lại, hướng tiếp cận thay đổi kết quả khai phá dữ liệu lại có điểm mạnh

là kết quả khai phá dữ liệu có thể tin cậy được, điều này là do dữ liệu nguồn chưa

bị biế

V

nghiệp không muốn phổ biến các thông tin bí mật, nhạy cảm của mình Do

đó, các giao thức phục vụ cho nhu cầu này đã được nghiên cứu, trong đề cương

n đổi, do đó việc khai phá sẽ dựa trên dữ liệu gốc, kết quả sẽ đáng tin cậy Tuy nhiên, một điểm yếu của hướng tiếp cận này là ứng dụng data mining phải thực sự tin cậy hoặc là việc khai phá dữ liệu đó phải được làm tại nơi nắm giữ dữ liệu

Bảo vệ tính riêng tư trong khai phá dữ liệu phân tán (distributed data)

Ngày nay, dữ liệu dùng cho khai phá được phân tán trên nhiều nơi, server khác nhau, do đó việc bảo vệ tính riêng tư cho trường hợp này cũng là một vấn đề nghiên cứu mới Thực tế, các doanh nghiệp, tổ chức muốn đưa ra các quyết định chính xác cho mình thì cần căn cứ không chỉ dữ liệu mình thu thập được mà còn dựa vào dữ liệu của các doanh nghiệp, tổ chức khác thu thập Vấn đề đặt ra là các doanh

này chỉ giới thiệu vắn tắt các giao thức này

Trong thực tế, dữ liệu thường được phân tán theo hai loại là phân tán ngang

và phân tán dọc:

Phân tán ngang: Các dòng dữ liệu sẽ được phân tán tại các nơi khác nhau Một cơ sở dữ liệu sẽ được phân mảnh tại n địa diểm khác nhau S1, S2,…, Sn sao cho DB = DB1 U DB2 U … U DBn

Phân tán dọc: Tất cả giá trị của những thuộc tính khác nhau sẽ được đặt tại những nơi khác nhau Một ví dụ cho khái niệm này là cho bộ dữ liệu về thời tiết gồm có 5 thuộc tính sau:

Luận văn Thạc sĩ

Trang 38

Bảng 2.7 Bảng ví dụ phân tán dọc Phân tán dọc bộ dữ liệu trên để lưu trữ ở hai địa điểm, ta sẽ có 2 thuộc tính đầu được lưu ở vị trí 1, ba thuộc tính còn lại được lưu ở vị trí thứ 2:

Bảng 2.8 Phân tán dọc Một đặc điểm khác nhau giữa phân tán ngang và phân tán dọc là trong phân tán ngang, các parties có thể chứa các bộ thuộc tính dữ liệu giống nhau, nhưng đối với phân tán dọc, các parties sẽ chứa các bộ thuộc tính dữ liệu khác nhau

Luận văn Thạc sĩ

Trang 39

Mục đích của bảo vệ tính riêng tư là làm sao cho các thông tin riêng tư tại các parties không bị phổ biến ra bên ngoài (tức là các parties khác không thể biết được), do đó, nó rất gần với khái niệm về mã hóa dữ liệu Trên thực tế, lĩnh vực bảo vệ tính riêng tư trong dữ liệu phân tán rất gần với khái niệm secure multi-party computations (SMC: tính toán bảo mật đa thành phần), do đó, lĩnh vực này cũng được gọi bởi tên “các công nghệ mã hóa”

Mục tiêu của lĩnh vực này là nhằm thiết kế ra các giao thức, các hướng tiếp cận phục vụ cho việc mã hóa và truyền nhận dữ liệu giữa các parties, ví dụ như 2 parties muốn trao đổi dữ liệu bảo mật với nhau, mỗi parties đều có những thông tin riêng mà không muốn cho parties kia biết, họ sẽ tiến hành việc tính toán một hàm chung chứa các thông tin cần trao đổi mà không làm phổ biến các thông tin riêng của mỗi bên Đối với phân tán ngang, các giao thức mã hõa được đề nghị là: Secure Sum, Secure Comparison, Secure Dot Product, Secure Union, Secure Logarithm, Secure Poly Evaluation [22] Đối với phân tán dọc, có các hướng tiếp cận như là Classification, Association Rule Mining, tìm kiếm các dị thường (các thông tin có khả năng bị phổ biến) trong dữ liệu để loại bỏ [22]

Luận văn Thạc sĩ

Trang 40

Chương III Bảo vệ tính riêng tư trong các dịch vụ dựa

trên vị trí (Location-based services)

I Tổng quan

Dịch vụ dựa trên vị trí là các ứng dụng khai thác các thông tin dựa trên vị trí của người sử dụng để từ đó, cung cấp kết quả cho yêu cầu của người sử dụng Dịch vụ dựa trên vị trí được ứng dụng trong nhiều lĩnh vực khác nhau, nó là sự kết hợp của các công nghệ GIS, Mobile Internet, Web GIS…

Hình 3.1 Ứng dụng LBS Với sự gia tăng mạnh mẽ của các ứng dụng dựa trên vị trí cũng như các công nghệ dò tìm vị trí hiện đại, dường như tính riêng tư, bí mật về vị trí của con người ngày càng bị xâm phạm Một khi yêu cầu ứng dụng cung cấp dịch vụ, người sử dụng đồng thời phải cung cấp vị trí của mình để ứng dụng khai thác có thể cho kết quả chính xác hơn, ví dụ như người sử dụng muốn tìm một trạm xăng gần nhất thì phải cung cấp vị trí hiện tại của mình trên bản đồ cho ứng dụng dựa trên vị trí Tuy nhiên, người sử dụng lại không muốn cung cấp chính xác vị trí của mình

do lo ngại những kẻ tấn công có thể lợi dụng để làm ảnh huởng đến mình Do đó

họ đặt ra một yêu cầu là muốn sử dụng dịch vụ dựa trên vị trí này nhưng liệu có cách nào có thể bảo đảm vị trí của họ không bị phổ biến hay không, liệu họ có thể tin tưởng các nhà cung cấp dịch vụ hay không Trên thực tế, mỗi nhà cung cấp dịch vụ không chỉ là một cá nhân mà có thể là một nhóm người, một tổ chức, do

đó việc bảo đảm các thông tin bí mật mà chỉ dựa vào sự tin tưởng của các nhà

Luận văn Thạc sĩ

Ngày đăng: 04/04/2021, 00:33

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] V.S. Verykios, E. Bertino, I.N. Fovino, L.P. Provenza, Y. Saygin, and Y. Theodoridis: State-of-the-Art in Privacy Preserving Data Mining, ACM SIGMOD Record, vol. 3, no. 1, pp. 50-57, Mar. 2004 Sách, tạp chí
Tiêu đề: State-of-the-Art in Privacy Preserving Data Mining
[4] Charu C. Aggarwal, Philip S. Yu: An Introduction to Privacy-Preserving Data Mining. Book titled “Privacy-Preserving Data Mining, Models and Algorithms”, Vol 34, 2008 Springer Science Business Media, LLC, ISBN: 978-0-387-70991- 8, pp. 1-11 Sách, tạp chí
Tiêu đề: An Introduction to Privacy-Preserving Data Mining". Book titled “"Privacy-Preserving Data Mining, Models and Algorithms
[5] Charu C. Aggarwal, Philip S. Yu: A General Survey of Privacy-Preserving Data Mining: Models and Algorithms. Book titled “Privacy-Preserving Data Mining, Models and Algorithms”, Vol 34, 2008 Springer Science Business Media, LLC, ISBN: 978-0-387-70991-8, pp. 11-53 Sách, tạp chí
Tiêu đề: A General Survey of Privacy-Preserving Data Mining: Models and Algorithms". Book titled “"Privacy-Preserving Data Mining, Models and Algorithms
[6] Murat Kantarcio˘glu and Jiashun Jin and Chris Clifton: When do data mining results violate privacy?, in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, 2004 Sách, tạp chí
Tiêu đề: When do data mining results violate privacy
[7] Alexandre Evfimievski, Tyrone Grandison: Privacy Preserving Data Mining, IBM Almaden Research Center, 650 Harry Road, San Jose, California 95120, USA, 2006 Sách, tạp chí
Tiêu đề: Privacy Preserving Data Mining
[8] R. Agrawal and R. Srikant: Privacy Preserving Data Mining, in Proc. ACM SIGMOD Conf. Management of Data, pp. 439-450, May 2000 Sách, tạp chí
Tiêu đề: Privacy Preserving Data Mining
[9] Y. Lindell and B. Pinkas: Privacy Preserving Data Mining, in Advances in Cryptology (CRYPTO'00), pp. 36-53, 2000 Sách, tạp chí
Tiêu đề: Privacy Preserving Data Mining
[10] Chris Clifton and Murat Kantarcioglu and Jaideep Vaidya: Defining Privacy for Data Mining, in Proceedings of the National Science Foundation Workshop on Next Generation Data Mining, November 1-3, 2002, Baltimore, MD Sách, tạp chí
Tiêu đề: Defining Privacy for Data Mining
[11] Pinkas B.: Cryptographic Techniques for Privacy-Preserving Data Mining. ACM SIGKDD Explorations, vol. 4, no. 2, pp. 12-19, 2002 Sách, tạp chí
Tiêu đề: Cryptographic Techniques for Privacy-Preserving Data Mining
[12] Gy˝oz˝o Gid´ofalvi, Xuegang Huang, Torben Bach Pedersen: Privacy- Preserving Data Mining on Moving Object Trajectories, in Proceedings of the 8th International Conference on Mobile Data Management, May 7–11, 2007, Mannheim, Germany Sách, tạp chí
Tiêu đề: Privacy-Preserving Data Mining on Moving Object Trajectories
[13] Valerie Bennett, Andrew Capella: Location-based services, IBM Techinical Library, Mar 2002 Sách, tạp chí
Tiêu đề: Location-based services
[14] Gabriel Ghinita, Panos Kalnis, Ali Khoshgozaran, Cyrus Shahabi, Kian-Lee Tan: Private queries in location based services: anonymizers are not necessary, in International Conference on Management of Data, Proceedings of the 2008 ACM SIGMOD international conference on Management of data, Vancouver, Canada Sách, tạp chí
Tiêu đề: Private queries in location based services: anonymizers are not necessary
[15] Mohamed F. Mokbel: Privacy in Location-based Services: State-of-the-art and Research Directions, mokbel@cs.umn.eud, Department of Computer Science and Engineering, University of Minnesota Sách, tạp chí
Tiêu đề: Privacy in Location-based Services: State-of-the-art and Research Directions
[16] Christian S. Jensen: Privacy for Spatial Queries and Data, www.cs.aau.dk/~csj, May 2009 Sách, tạp chí
Tiêu đề: Privacy for Spatial Queries and Data
[17] Claudio Bettini, Sergio Mascetti, and X. Sean Wang: Privacy Protection through Anonymity in Location-based Services, Book titled “Handbook of Database Security: Applications and Trends”, 2008 Springer Science Business Media, LLC, ISBN: 978-0-387-48532-4, pp. 509-531 Sách, tạp chí
Tiêu đề: Privacy Protection through Anonymity in Location-based Services", Book titled “"Handbook of Database Security: Applications and Trends
[19] Jochen Schiller and Agnès Voisard: Location-Based Services, Morgan Kaufmann, pages: 255, ISBN-10: 1558609296, 2004 Sách, tạp chí
Tiêu đề: Location-Based Services
[20] Rob Flickenger: Building Wireless Community Networks, O'Reilly Media, pages: 182, ISBN 10: 0-596-00502-4, June 2003 Sách, tạp chí
Tiêu đề: Building Wireless Community Networks
[21] A. Civilis, C. S. Jensen, and S. Pakalnis: Techniques for Efficient Road- Network-Based Tracking of Moving Objects, In TKDE, 17(5), pp. 698–712, 2005 Sách, tạp chí
Tiêu đề: Techniques for Efficient Road-Network-Based Tracking of Moving Objects
[22] M. F. Mokbel, C. -Y. Chow, and W. G. Aref: The New Casper: Query Processing for Location Services without Compromising Privacy. In Proc.VLDB, pp. 763–774, 2006 Sách, tạp chí
Tiêu đề: The New Casper: Query Processing for Location Services without Compromising Privacy
[1] Wikipedia, 2009, Definition for data mining, http://en.wikipedia.org/wiki/Data_mining (5/2009) [2] Wikipedia, 2009, Khái niệm khai phá dữ liệu,http://vi.wikipedia.org/wiki/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB%87u (5/2009) Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm