1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng mô hình đánh giá chất lượng cho dữ liệu ẩn danh về sức khỏe sử dụng trong bài toán thống kê

63 109 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 2,17 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong quá chuyển đổi chuyển đổi dữ liệu, điều quan trọng là giảm thiểu việc mất thông tin để duy trì chất lượng dữ liệu, có nhiều mô hình đánh giá chất lượng được đề xuất nhưng vẫn chưa

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TOÁN PHÂN LOẠI THỐNG KÊ

Chuyên ngành : Khoa học máy tính

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 8 năm 2020

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : TS Lê Hồng Trang

5 Ủy viên: TS Nguyễn Văn Vũ

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

Ngày, tháng, năm sinh: 03/01/1986 Nơi sinh: Ninh Bình

Chuyên ngành: Khoa Học Máy Tính Mã số : 60.48.01.01

I TÊN ĐỀ TÀI:

XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ CHẤT LƯỢNG CHO DỮ LIỆU ẨN DANH VỀ SỨC KHỎE SỬ DỤNG TRONG BÀI TOÁN PHÂN LOẠI THỐNG KÊ

II NHIỆM VỤ VÀ NỘI DUNG

Nghiên cứu các phương pháp đánh giá chất lượng của mô hình ẩn danh K-anonymity đối với các dữ liệu về sức khỏe để sử dụng tỏng bài toán phân loại thống kê

- Nghiên cứu các kỹ thuật ẩn danh họ k-anonymity

- Nghiên cứu, đánh giá các mô hình đánh giá chất lượng dữ liệu

- Lựa chọn mô hình đánh giá chất lượng cho tập dữ liệu dùng trong bài toán phân loại thống kê

III NGÀY GIAO NHIỆM VỤ : 10/02/2020

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2020

V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): TS Lê Hồng Trang

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành và sâu sắc đếnTS Lê Hồng Trang, cám ơn thầy

đã tận tình hướng dẫn và định hướng cho tôi trong suốt thời gian thực hiện luận văn Nhờ

sự hướng dẫn và giúp đỡ từ thầy đã giúp tôi hoàn thành luận văn này

Xin chân thành cảm ơn quý thầy cô trong trường Đại Học Bách Khoa, đặc biệt là các thầy cô trong Khoa Khoa học và Kỹ thuật Máy tính đã truyền đạt cho tôi nhiều kiến thức hữu ích trong suốt quá trình theo học tại trường

Tôi cũng xin gửi lời cảm ơn đến bạn bè, gia đình cũng như đồng nghiệp, những người đã giúp đỡ và tạo điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu

Đặng Thế Hùng

Trang 5

TÓM TẮT ĐỀ TÀI

Khi dữ liệu sức khỏe ở cấp độ cá nhân được chia sẻ trong nghiên cứu y sinh, quyền riêng tư của bệnh nhân phải được bảo vệ Điều này thường đạt được với các phương pháp khử nhận dạng dữ liệu (k-anonymity), dữ liệu sẽ được chuyển đổi để tránh bị nhận dạng lại Một trong những trường hợp điển hình là sử dụng dữ liệu làm đầu vào cho những mô hình dự đoán cho việc khai phá dữ liệu và hỗ trợ quyết định, ví dụ như để suy ra kết quả chuẩn đoán phương pháp trị liệu Trong quá chuyển đổi chuyển đổi dữ liệu, điều quan trọng là giảm thiểu việc mất thông tin để duy trì chất lượng dữ liệu, có nhiều mô hình đánh giá chất lượng được đề xuất nhưng vẫn chưa nêu cụ thể các trường hợp sử dụng cho những mô hình này, trong luận văn này sẽ so sánh đánh giá các phương pháp đo chất lượng thông tin của dữ liệu thông tin ẩn danh và thử nghiệm trên dữ liệu về y tế nhằm tìm

ra những bộ dữ liệu ẩn danh tốt nhất sử dụng cho các mô hình dự đoán ví dụ mô hình Logistic Regression

ABSTRACT

When individual-level health data is shared in biomedical research, a patient's privacy must be protected This is often achieved with methods of k-anonymity, the data will be transformed to avoid being re-identified One of the typically cases is the use of data as input for predictive models for data mining and decision support, for example, to infer the outcome of a diagnostic procedure During data transformation, it is important to minimize the loss of information to maintain data quality, there are many quality assessment models that are proposed but have yet to specify use cases for these models In this thesis, we will compare and assess methods of measuring information quality of de-identified data and test on medical data to find the best result sets to use for the predict model ,e.g the Logistic Regression model

Trang 6

LỜI CAM ĐOAN

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện

và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác

Ngày 03 tháng 08 năm 2020

Đặng Thế Hùng

Trang 7

DANH MỤC CHỮ VIẾT TẮT

ID Identifier QI,QID Quasi-identifiers

SA Sensitive attribute DGH Domain Generalization Hierarchy VGH Value Generalization Hierarchy

EC Equivalence classes GHD Generalization Hierarchies Domain

GL Generalization Lattice OLA Optimal Lattice Anonymization Prec Precision

AECS Average Equivalence Class Size NUE Non-Uniform Entropy

CM Classification Metric SDA Single dimensional algorithm CBA Cell-based algorithm

Trang 8

DANH MỤC HÌNH ẢNH

Hình 1-1 Truy vết từ tập dữ liệu được ẩn danh đơn giản [18]

Hình 1-2 Tái định danh dữ liệu bằng tấn công liên kết [18]

Hình1-3 Các bước để ẩn danh dữ liệu với họ k-Anonymization

Bảng 2-1 Việc chỉ khử định danh (de-identify)

Bảng 2-2 Ví dụ của k-anonymization với k 2 và QI={Race,Birth,Gender,Zip}

Bảng 2-3 Tập dữ liệu khi thỏa mô hình k-anonymity khi sử dụng cả hai phép tổng quát hóa (generalization) và bỏ bớt(suppression)

Hình 2-4 Cây phân cấp tổng quát hóa (DGH) và giá trị (Value domain hierarchy) Zip bao gồm các tác vụ suppression

Hình 2-5 Cây phân cấp tổng quát hoá miền (DGH) và giá tri (VGH) chủng tộc bao gồm tác vụ bỏ bớt [10]

Hình 2-6 Bằng việc tấn công liên kết hai bảng, kẻ địch vẫn không suy ra được gì

Bảng 2-7 Các cuộc tấn công trên mô hình K-anonymity

Bảng 2-8 Một tập dữ liệu thỏa mãn mô hình l-diversity

Bảng 2-9 Dữ liệu minh họa entropy l-diverse

Hình 2-10 Tấn công tương tự phá vỡ mô hình l-diversity: kết luận Bob có lương thấp và mắc bệnh tiêu hoá

Bảng 2-11 Bảng dữ liệu được xử lý t-closeness với t0.167 tương ứng với mức lương

và t = 0, 278 tương ứng với dịch bệnh [17]

Hình 2-12 Một trường hợp   Presence

Hình 2-13 Bảng Riêng T

Hình 2-14 Bảng công khai bên ngoài P

Bảng 2-15 Bảng dữ liệu minh hoạ -Presence

Hình 2-16 Ví dụ về cây tổng quá (GHD) của hai thuộc tính Age và Gender

Hình 2-17 Lưới tổng quát hóa của hai thuộc tính age và gender

Hình 2-18 Mô phỏng duyệt lưới tổng quát của DataFly và Igreedy

Hình 2-19 Mô phỏng thuật toán duyệt GL của Incognito

Hình 2-20 Mô phỏng thuật toán OLA

Trang 9

Hình 2-21 Mô phỏng thuật toán Flash

Hình 3-1 DGH của thuộc tính Race(E) và Zip(Z)

Hình 3-2 Ánh xạ của thuộc tính Education sang dạng số học

Bảng 3-3 D1 Original dataset

Bảng 3-4 D2 Outlier suppressed optimal SDA and CBA output

Bảng 3-5 D3 optimal SDA with output Outlier

Bảng 3-6 D4 optimal CDA with output Outlier

Bảng 4-1 Mô tả dữ liệu sức khỏe

Bảng 4.2 Kết quả thực nghiêm với k 5,l 2

Bảng 4.3 Kết quả thực nghiêm với k 10,l2

Bảng 4.4 Các độ đo khác khi sử dụng hàm tối ưu hóa bằng độ đo CM

Trang 10

Mục lục

1 Dữ liệu mở 11

2 Vấn đề bảo vệ tính riêng tư 13

3 Các kỹ thuật ẩn danh dữ liệu 14

4 Mục tiêu của đề tài 16

Chương II Các kỹ thuật ẩn danh dữ liệu 17

1.Các kỹ thuật ẩn danh hóa dữ liệu 17

1.1 K-anonymity 17

1.2 L-diversity 25

1.3 T-closeness 30

1.4  -Presence 31

2 Các giải thuật duyệt cây tổng quát để ẩn danh dữ liệu 33

2.1 Data fly và Igreedy 34

2.2 Incognito 35

2.3 OLA(Optimal Lattice Anonymization) và Flash 36

Chương 3: Đo độ hữu dụng của dữ liệu ẩn danh 40

1 Categorical Precision 40

2 Loss of information (Intensity) 43

3 Non-Uniform Entropy 44

4 Average Equivalence Class Size (AECS) 46

5 Discernibility 46

6 Kullback-Leibler (K-L) Divergence 47

7 Ambiguity 49

8 Classification Metric 49

Chương 4 :Thực nghiệm đánh giá 52

1 Mô tả dữ liệu 52

2 Đo hiệu suất của mô hình logistic regression 54

3 Đánh giá mô hình chất lượng dữ liệu 55

3.1 Thực nghiệm 1 55

3.2 Thực nghiệm 2 56

4 Kết Luận và hướng phát triển 58

Trang 11

TÀI LIỆU THAM KHẢO 59

Chương I: Giới thiệu

2, 11, 12, 13] Mặc dù mang lại nhiều lợi ích cho xã hội, các hệ thống dữ liệu mở phải đối mặt với rất nhiều vấn đề như phải có các hệ thống quản trị dữ liệu hiệu quả, Trong đó, nổi bật nhất và cấp thiết phải có giải pháp để giải quyết vấn đề quan trọng là bảo mật và tính riêng tư Rõ ràng, các tập dữ liệu mở được chia sẻ có thể đã thu thập và lưu trữ các thông tin riêng tư nhạy cảm của các đối tượng như người sử dụng, tổ chức, doanh nghiệp

và môi trường cuộc sống xung quanh để phục vụ cho các hoạt động của tổ chức (từ doanh nghiệp đến chính phủ) Khi các tập dữ liệu đó được công bố thành dạng dữ liệu mở thì sẽ ảnh hưởng đến các đạo luật về xâm phạm quyền riêng tư, bảo mật dữ liệu mà các tổ chức

đó phải tuân thủ Do đó, các dữ liệu nhạy cảm, mang tính riêng tư phải được loại bỏ/che giấu trước khi công khai dữ liệu Hơn nữa, đặc điểm dữ liệu trong các hệ thống dữ liệu

mở hiện nay là lớn, không cấu trúc, đa dạng, nhiều nguồn và sinh ra liên tục (ví dụ như các hệ thống dữ liệu của các ứng dụng đô thị thông minh), do đó, vấn đề bảo vệ tính riêng

tư dữ liệu đang trở thành những thách thức cho các tổ chức muốn công khai dữ liệu mà chưa giải quyết được một cách hiệu quả Trong xã hội thông tin được toàn cầu hóa, thật khó để áp dụng những kỹ thuật chỉ để thỏa các chính sách bảo mật duy nhất dành cho một

tổ chức nhất định Do đó, cần tìm hiểu để xây dựng một kiến trúc nền tảng phù hợp đi kèm với các kỹ thuật xử lý dữ liệu nhằm bảo vệ tính riêng tư trước khi công khai dữ liệu

Trang 12

mà vẫn đảm bảo tối đa được chất lượng dữ liệu cho việc phân tích, tính sẵn sàng và liên tục của hệ thống cũng như sự khả tương thích với các đặc điểm dữ liệu (ứng dụng) khác nhau, đặc biệt là trong môi trường smart city Dữ liệu mở tuy không phải là một khái niệm mới nhưng cùng với sự phát triển của Internet và công nghệ hiện nay, dữ liệu mở đang và sẽ trở thành một trong những hướng nghiên cứu nổi bật và tất yếu, đặc biệt trong các môi trường “smart cities/nations” [1] Các dữ liệu được “open” trên Internet hiện nay

đa phần là dữ liệu chính phủ trong nhiều lĩnh vực như giao thông, y tế, giáo dục, viễn thông, v.v [11, 12] Lấy ví dụ về lĩnh vực viễn thông, dữ liệu mở có thể được dùng vào nhiều ứng dụng có thể kể đến như sau [2]:

- Bản đồ trạm phát sóng [4]: Bản đồ các trạm phát sóng (base station) cung cấp thông tin

vị trí trạm phát sóng của các nhà mạng cùng các khả năng kỹ thuật của chúng (3G, 4G, etc.) Từ đó, các nhà mạng có thể tiến hành việc khai thác, lắp đặt mới hoặc thuê trạm phát sóng từ nhà mạng khác khi muốn triển khai dịch vụ Các nhà cung cấp dịch vụ mới cũng có thể thuê hạ tầng có sẵn (từ nhiều nhà mạng khác nhau) để vừa hợp tác và cũng vừa là đối thủ cạnh tranh về kinh doanh lẫn nhau (co-opertition) Ngữ cảnh này rất tiềm năng về kinh doanh cũng như tiềm ẩn nhiều thách thức, nhất là đối với các đơn vị cung cấp dịch vụ viễn thông truyền thống ở Việt Nam hiện nay

- Dữ liệu từ khách hàng: Nhiều ứng dụng trên smartphones không phụ thuộc vào nhà cung cấp dịch vụ viễn thông và thông qua chúng, người ta có thể thu thập được rất nhiều thông tin (như vị trí, tốc độ, các hình ảnh/video, etc.) [15] Những thông tin này có thể được các đối thủ của một nhà cung cấp viễn thông nào đó dùng để phát triển các dịch vụ mới, tăng lợi thế cạnh tranh Những khách hàng đang dùng mạng của nhà cung cấp này hoàn toàn có thể cung cấp dũ liệu cho các nhà cung cấp khác (qua các smartphone apps) nếu họ có hạ tầng dữ liệu mở phù hợp cùng các tiện tích hợp lư đem lại khi khách hàng đồng ý chia sẻ dữ liệu Vấn đề này không còn lại viễn cảnh mà bắt đầu diễn ra hàng ngày

- Bản đồ cáp quang [3]: Bản đồ cáp quang sẽ cung cấp vị trí lắp đặt cáp quang tương tự như bản đồ giao thông hay bản đồ đường dẫn nước trong thành phố Thông qua bản đồ này, các nhà cung cấp dịch vụ quốc gia và tư nhân có thể xác định được vị trí các cáp quang đã được lắp đặt, từ đó có kế hoạch để khai thác hoặc lắp đặt dịch vụ mới phù hợp

Trang 13

- Bản đồ quang phổ: Khi bản đồ cáp quang được hoàn thành cũng là lúc các nhà cung cấp dịch vụ sẽ chú ý hơn đến các dịch vụ mạng không dây (như WiFi, Bluetooth) Bản đồ quang phổ cho các dịch vụ không dây này sẽ thể hiện thông tin quang phổ được cấp phát

ở tần số nào, tại thời điểm nào và ai được phép sử dụng Tuy thông tin này chỉ mới được triển khai gần đây ở các nước Châu Phi, Nigeria và Kenya, nhưng bản đồ quang phổ hứa hẹn sẽ là một bước tiến vượt bậc trong việc khai thác và nâng cao chất lượng dịch vụ mạng không dây

- Nghiên cứu y sinh hiện đại[1] Chia sẻ thông tin về y tế là một điều bắt buộc khi phát triển các ứng dụng nhằm nâng cao chất lượng khám, chữa, phòng bệnh Hầu hêt các bệnh viện trên thế giới đều cố gắng chia sẻ những thông tinh về y tế của mình nhằm phục vụ cho mục đích phát triển và nghiên cứu Khi dữ liệu sức khỏe cá nhân được chia sẻ trong y sinh nghiên cứu, sự riêng tư của bệnh nhân phải được bảo vệ Dữ liệu sau khi ẩn danh sẽ được công khai, để tiếp tục sử dụng và các mục đích khác cho việc nghiên cứu trong y học, việc cân bằng giữa tính riêng tư và chất lượng dữ liệu sẽ tạo ra một bộ dữ liệu tốt nhất

2 Vấn đề bảo vệ tính riêng tƣ

Một trong những yêu cầu cấp thiết hàng đầu khi tiến hành “open” dữ liệu là đảm bảo tính riêng tư cho người dùng [5, 6] Thông thường, đảm bảo tính riêng tư thường được cụ thể hóa ở từng giai đoạn, mục đích theo nhiều cách tiếp cận khác nhau, ví dụ như khai phá dữ liệu bảo vệ tính riêng tư và công khai dữ liệu bảo vệ tính riêng tư (Privacy Preserving Data Mining [7, 8] và Privacy Preserving Data Publishing [9, 10]) là những cách tiếp cận phổ biến Những kỹ thuật bảo vệ trong các hướng tiếp cận này có thể dùng

để khai phá hoặc công khai dữ liệu mà không có thông tin định danh cá nhân Tuy nhiên, hai giải pháp này có cùng nhược điểm là chưa thiết lập phương pháp để tái sử dụng dữ liệu (second use) trong môi trường dữ liệu mở, đây cũng là một trong những yêu cầu tất yếu với bản chất của loại dữ liệu này Nhìn chung, có rất nhiều kỹ thuật để bảo vệ thông tin riêng tư, trong đó, nổi bật nhất có thể đề cập là mã hóa dữ liệu được chia sẻ, ẩn danh người dùng và điều khiển truy xuất Trong đó, phương pháp mã hóa sẽ gây ra nhiều tốn kém khi vận hành do lượng dữ liệu lớn và đa dạng Bên cạnh đó, dữ liệu mở có thể được thu thập từ nhiều nguồn thông tin, nhiều tổ chức Việc này dẫn đến thách thức khi cần

Trang 14

định nghĩa một cơ chế điều khiển truy xuất linh hoạt có thể áp dụng cho mọi tổ chức Trong khi đó, ẩn danh người dùng được xem là một bước không thể thiếu trước khi tiến hành công khai dữ liệu Có nhiều phương pháp ẩn danh người dùng (và các thông tin cá nhân liên quan nếu cần) đã được nghiên cứu nhưng vẫn chưa có cách tiếp cận cụ thể nào được xác định cho dữ liệu mở, đặc biệt là trong môi trường vạn vật kết nối cũng như smart city Các tác giả của [18] đã đưa ra bốn đề xuất để bảo vệ tính riêng tư cho dữ liệu

mở, qua đó cũng cho thấy sự phức tạp của loại dữ liệu này:

- Xác định rõ lợi ích và rủi ro trước khi thiết kế và hiện thực chương trình dữ liệu mở

- Xem xét quyền riêng tư ở từng giai đoạn của vòng đời dữ liệu

- Phát triển cấu trúc vận hành và quy trình để quản lý tính riêng tư

Nhấn mạnh sự tham gia và quyền ưu tiên của cộng đồng như một khía cạnh tất yếu của chương trình quản lý dữ liệu

3 Các kỹ thuật ẩn danh dữ liệu

Ẩn danh (Anonymization), một bước không thể thiếu trước khi tiến hành công khai

dữ liệu, là một công nghệ chìa khóa hỗ trợ bảo vệ tính riêng tư ở nhiều mức độ khác nhau, đáp ứng được nhiều yêu cầu ứng dụng cũng như chính sách/luật khác nhau Để bảo vệ tính riêng tư dữ liệu, ẩn danh là một kỹ thuật phổ biến và có nhiều cách tiếp cận đã được nghiên cứu và phát triển Một vài kỹ thuật ẩn danh nền tảng có thể kể đến như:

- Nén và thu giảm dữ liệu: Những dữ liệu nhạy cảm có thể được loại bỏ hoặc thực hiện việc mã hóa cá nhân (Pseudonymization) bằng cách thay thế hoặc kết hợp các thuộc tính định danh (Quasi-identifier) như họ tên, ngày tháng năm sinh thành một con số mã hóa,

và hash function là một giải pháp để thực hiện việc này

- Thay đổi thuộc tính: thuộc tính có thể được biến đổi nhằm hạn chế sự rò rỉ của thông tin

cá nhân Một vài cách để thay đổi thuộc tính như là tổng quát hóa (generalization) trong

đó dữ liệu chi tiết có thể được thay thế bằng dữ liệu ở các mức trừu tượng cao hơn hoặc thực hiện việc mã hóa theo biên (top/bottom coding) để gom nhóm các giá trị nhạy cảm

Trang 15

- Xáo trộn dữ liệu (Perturbation): một số phương pháp có thể kể đến như tổng hợp dữ liệu thành phần (micro-aggregation) trong đó dữ liệu có thể được phân thành các nhóm và giá trị thuộc tính của mỗi nhóm được thay thế bằng trị đại diện; thêm điểm nhiễu (noise injection) ngẫu nhiên vào dữ liệu; hoán đổi (data swapping) dữ liệu giữa các hàng với nhau

Việc sử dụng ẩn danh đều gặp phải một vấn đề thử thách là việc cân bằng giữa lượng thông tin mất đi và mức độ an toàn về tính riêng tư dữ liệu đạt được [14] Hay nói cách khác, điểm cốt yếu của ẩn danh là mức độ ẩn danh Mức độ ẩn danh càng cao thì càng khó định danh chủ dữ liệu, như vậy sẽ khó sử dụng dữ liệu cho các dịch vụ vì dữ liệu sau khi ẩn danh theo mức này chứa rất ít thông tin, và ngược lại [18] Như vậy, bài toán đặt ra là phải lựa chọn mức độ ẩn danh phù hợp cho từng loại dịch vụ H ình 1-1 cho thấy phương pháp ẩn danh đơn giản dù che dấu được định danh của chủ dữ liệu nhưng lưu vết được hành động của chủ dữ liệu này

Hình 1.1 Truy vết từ tập dữ liệu được ẩn danh đơn giản [18]

Một thách thức khác trong việc ẩn danh cho dữ liệu mở là nguy cơ liên kết giữa các tập dữ liệu từ cùng một nguồn, đã được ẩn danh, có thể dẫn đến rò rỉ thông tin (de-identification sang re-identification) Hình 1-2 cho thấy một ví dụ trong việc có thể

Trang 16

suy ra thông tin định danh của chủ dữ liệu khi liên kết hai tập dữ liệu đã được định danh Giải pháp được các tác giả của [18] đề xuất để giải quyết trường hợp này là trước khi công bố dữ liệu, phải kiểm tra lại toàn bộ dữ liệu từ cùng một nguồn đã được công bố trước đó Tại Việt Nam, đa phần các bộ dữ liệu được công khai dưới định dạng PDF sau khi bỏ đi thông tin định danh của chủ dữ liệu, hoặc công khai dưới dạng dữ liệu thống kê, nhưng vẫn không áp dụng phương pháp ẩn danh linh hoạt nào để bảo vệ tính riêng tư cần thiết cho các chủ dữ liệu này Do đó, việc đề xuất một kỹ thuật ẩn danh để bảo vệ tính riêng tư cho dữ liệu mở tại Việt Nam nói riêng là vô cùng cấp thiết

Trong khi các hướng tiếp cận nền tảng nói trên gặp khó khăn trong việc định nghĩa

ra các độ đo về mức độ bảo vệ tính riêng tư, thì một vài hướng tiếp cận mới hơn như anonymity, l-diverse và t-closeness có thể được kết hợp để giải quyết vấn đề này và đó là hướng tiếp cận tôi sẽ nghiên cứu sâu hơn để sử dụng nhằm đạt được sự bảo vệ tính riêng

k-tư cho những nguồn dữ liệu mở của tổ chức trong khi vẫn đảm bảo các yêu cầu về kỹ thuật cho việc phân tích các dữ liệu mở này khi chúng được công bố

Hình 1-2 Tái định danh dữ liệu bằng tấn công liên kết [18]

4 Mục tiêu của đề tài

Các bước khi tiến hành ẩn danh dữ liệu được tóm tắt như hình sau

Trang 17

Hinh1.3 Các bước để ẩn danh dữ liệu với họ k-Anonymization Bài toán phân loại thống kê là trường hợp phổ biến cho các dữ liệu cá nhân với mục đích nhằm dự đoán một giá trị mục tiêu dựa trên các tập giá trị thuộc tính khác càng chính xác càng tốt Một mô hình được triển khai là học có giám sát dựa trên tập huấn luyện, với việc các thuộc tính ngày càng nhiều dẫn đến không gian giải pháp rất lớn, nên việc huấn luyện để tính hiệu suất cho từng phương án đầu ra tốn một lượng thời gian là phương án không khả thi về mặt thời gian, vì thế nên công việc xây dựng các bước tiền

xử lý sẽ giúp cải thiện hiệu suất của bài toán phân loại, và một trong số đó là tìm ra một

mô hình đánh giá chất lượng phù hợp nhằm tối ưu hóa các kết quả ẩn danh đầu ra giảm thiểu số lượng của các phương án trong không gian giải pháp, ngoài ra việc so sánh sự ảnh hưởng của các phương pháp đo lường chất lượng khác nhau sẽ góp phần tìm ra kết

quả tốt nhất cho bài toán Đó cũng chính là mục tiêu của luận văn “ XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ CHẤT LƯỢNG CHO DỮ LIỆU ẨN DANH VỀ SỨC KHỎE SỬ DỤNG TRONG BÀI TOÁN PHÂN LOẠI THỐNG KÊ ”

Chương II Các kỹ thuật ẩn danh dữ liệu 1.Các kỹ thuật ẩn danh hóa dữ liệu

Trang 18

cứu sinh tiến sĩ của đại học MIT - Hoa Kỳ, đã dùng chỉ $20 đô để mua tập dữ liệu về bản ghi cử tri phổ thông có chứa các định danh rõ ràng (tên, đia chỉ) và dữ liệu nhân khẩu học (mã ZIP và ngày sinh) để tấn công liên kết bộ dữ liệu đang nổi tiếng lúc đó của ngài thống đốc và bỏ phong bì, gởi cho ông ấy bản ghi chứa dữ liệu của ông

Tên Ngày sinh Giới tính Mã bưu điện Bệnh

Bảng 2-1: Việc chỉ khử định danh (de-identify), như tập dữ liệu trên là cắt bỏ các PII (hay ID), thì không thể chống lại được tấn công liên kết lại định danh bằng các định

danh gần đúng (quasi-identifiers)

Điều đó chứng tỏ: chỉ với việc khử định danh thì không thể bảo vệ tính riêng tư của chủ sở hữu bản ghi mà nó còn phụ thuộc vào các định danh gần đúng (Quasi identifier) Từ đó, trong luận án tiến sĩ của mình và các bài nghiên cứu phát triển sau đó, giáo sư Latanya Sweeney đã đưa ra mô hình riêng tư k-anonymity [20]: Cho RT(A1, , An) là một bảng dữ liệu và QIRT là đinh danh gần đúng của nó RT được cho là thỏa mãn tính k-anonymity khi và chỉ khi mỗi chuỗi giá trị trong RT[QIRT] xuất hiện với ít nhất k lần xuất hiện trong RT[QIRT] Theo định nghĩa trên, dữ liệu có thuộc tính k-anonymity nếu bản ghi của một người có trong bản xuất bản không thể được phân biệt với ít nhất k - 1 cá nhân khác có dữ liệu cũng được xuất bản trong cùng bản phát hành Nếu một bản ghi trong bảng có một số giá tri QI, thì có ít nhất k - 1 bản ghi khác cũng có giá tri QI Nói cách khác, kích thước nhóm tương đương tối thiểu (minimum equivalence class size) có cùng giá trị QI ít nhất là k Một bảng dữ liệu thỏa mãn yêu cầu này được gọi là k-anonymity Ta có thể suy luận ra rằng: với giải thiết rằng mỗi bản ghi

Trang 19

trong tập dữ liệu đại diện một và chỉ một cá thể tương ứng ngoài đời thực thì xác suất suy luận ra một nạn nhân với một bản ghi cụ thể thông qua QI tối đa là 1

Bảng 2-2: Ví dụ của k-anonymization với k=2 và QI={Race,Birth,Gender,Zip}

Để đạt được mô hình riêng tư này, thì hai tác vụ cơ bản là tổng quát hoá (generalization) và bỏ bớt (suppression) [21] Cho một thuộc tính A, tổng quát hoá cho một thuộc tính là một hàm trên A, f : A→B là một tổng quát hoá Hay

1 1

h

A

cho một hệ thống phân cấp khái quát hóa miền DGH A cho thuộc tính A, nếu v iA i

h A

Trang 20

Một mối quan hệ như vậy ngụ ý sự tồn tại của một hệ thống phân cấp tổng quát hóa giá trị

(value generalization hierarchy -VGH) VGHA cho thuộc tính A Tác vụ tổng quát hoá là

tác vụ quan trọng nhất trong mô hình này Nó chia cách hiện thực mô hình này thành hai loại: chiến lược địa phương (local strategy) hay chiến lược toàn cục (global strategy) Giả

sử ta có tập dữ liệu như sau:

Mã bưu điện Tuổi

Mã bưu điện Tuổi

4217 30-34

4217 30-34

1742 30-34

1742 30-34 Tổng quát hóa địa phương (Local recoding) không có ràng buộc đó: nó cho phép chọn một khái quát hóa khác nhau cho mỗi bản ghi Giá trị 34 trong cột tuổi có thể không

bị ảnh hưởng đối với một bản ghi và được tổng quát hóa cho bản ghi khác:

Mã bưu điện Tuổi

1742 30-34

1742 30-34 Tổng quát hóa toàn cục thường giúp phân tích dữ liệu trên dữ liệu tổng quát dễ dàng hơn Tiêu biểu cho chiến lược này có các hệ thống và giải thuật thường được làm baseline để đánh giá: Datafly (1997) [21], Samarati (2001) [22], -Argus (1996) [23], MinGen (2002) [20], Incognito (2005) [24]; trong khi tổng quát hóa cục bộ cho phép giữ nhiều lợi ích hơn với chi phí biểu diễn dữ liệu phức tạp hơn một chút Tiêu biểu cho chiến lược này là Mondrian (2006) [25] Trong thực tế, các chương trình thường xây dựng cây

Trang 21

phân cấp tổng quát hoá (generalization hierarchy) để lựa chọn và tận dụng độ hữu dụng Tuy nhiên, không phải lúc nào tập dữ liệu cũng có thể tổng quát hoá được Khi đó ta cần tác vụ bỏ bớt Ví dụ đối với tập dữ liệu sau:

Mã bưu điện Tuổi

kể độ hữu dụng của dữ liệu kết quả Vì vậy, một giải pháp đơn giản để đối phó với các giá trị ngoại lệ như vậy chỉ đơn giản là xóa chúng khỏi dữ liệu Sử dụng cả tổng quát hóa và bỏ bớt trong ví dụ này có thể dẫn đến một bảng ẩn danh với k = 2:

Mã bưu điện Tuổi

4217 30-39

4217 30-39 1000-1999 75-79 1000-1999 75-79 Bảng 2-3 Tập dữ liệu khi thỏa mô hình k-anonymity khi sử dụng cả hai phép tổng quát

hóa (generalization) và bỏ bớt(suppression)

Trang 22

Sử dụng phương pháp này, thường có ít bản ghi trong bảng được chuyển đổi hơn

so với bản gốc Do đó tập dữ liệu được xuất bản sẽ nhỏ hơn so với tập gốc Trên các tập

dữ liệu lớn, cho phép một tỷ lệ nhỏ các bản ghi bi loại bỏ thường cho phép kết quả được

ẩn danh mà không yêu cầu quá nhiều phép tổng quát hoá Tuy nhiên, đây cũng là một thách thức trong quá trình hiện thực giải thuật thoả mãn mô hình này vì nếu làm không tốt thì sẽ làm tổn hao, mất đi một phần lớn dữ liệu, giảm độ hữu dụng của tập dữ liệu Một tập dữ liệu khi được thoả được mô hình k-anonymity sẽ giải quyết các cuộc tấn công liên kết bản ghi: Released Table

Race Birth Gender Zip Problem T1 Black 1965 m 0214* Short breath T2 Black 1965 m 0214* Chest pain T3 Black 1905 f 0213* hypertension T4 Black 1965 f 0213* hypertension T5 Black 1964 f 0213* obersity T6 Black 1964 f 0213* Chest pain

T10 White 1967 m 0213* Chest pain T11 White 1967 m 0213* Chest pain External data source

Name Birth Gender Zip Race

Andre 1964 m 02135 White

Beth 1964 f 55410 Black Hình 2-6 Bằng việc tấn công liên kết hai bảng, kẻ địch vẫn không suy ra được gì

Trang 23

Tuy vậy, nếu SA của các bản ghi là đồng nhất thì mô hình riêng tư này bi phá vỡ Cuộc tấn công này được gọi là tấn công đồng nhất (homogeneity attack) Ví dụ, Alice và Bob là hàng xóm Một ngày nọ, Bob ngã bệnh và được xe cứu thương đưa đến bệnh viện Nhìn thấy xe cứu thương, Alice bắt đầu đi tìm hiểu về căn bệnh mà Bob đang mắc phải Alice phát hiện ra bảng ẩn danh k-anonymity với k = 4 của hồ sơ bệnh nhân nội trú hiện tại được xuất bản bởi bệnh viện (Bảng 2.7), và cô biết rằng một trong các bản ghi trong bảng này chứa dữ liệu Bob Alice là hàng xóm của Bob nên cô biết rằng Bob là một người

31 tuổi, quốc tich Mỹ sống và có mã bưu điện là 13053 Dựa vào tập dữ liệu đó, Alice biết rằng số bản ghi của Bob là 9,10,11 hoặc 12 Với EC đó, tất cả những bệnh nhân đó đều có cùng một tình trạng y tế (ung thư), và do đó Alice có thể dễ dàng đưa ra kết luận rằng Bob bị ung thư [19]

Trang 24

(background knowledge attack) Ví dụ, Alice có một người bạn tên là Masayoshi, người được đưa vào cùng bệnh viện với Bob, và hồ sơ bệnh nhân cũng xuất hiện trong bảng trong Bảng 2.7 Alice biết rằng Masayoshi là một đàn ông Nhật Bản 21 tuổi, hiện đang sống ở mã bưu điện 13068 Dựa trên thông tin này, Alice biết rằng thông tin của Masayoshi có trong hồ sơ số 1,2,3 hoặc 4 Không có thêm thông tin, Alice không chắc liệu Masayoshi có bi bệnh truyền nhiễm hay bị bệnh tim hay không Tuy nhiên, theo thống kê dân số, chúng ta biết rằng người Nhật có tỷ lệ mắc bệnh tim rất thấp Do đó Alice kết luận với sự chắc chắn là Masayoshi bi bệnh truyền nhiễm [19]

Bên cạnh đó, một điểm yếu cố hữu mà các giải thuật hiện thực mô hình riêng tư này vướng phải là khi số chiều dữ liệu tăng lên thì lượng dữ liệu cần để thoả mãn giải thuật tăng theo hàm mũ [26] Ta có thể tổng kết những điểm sau về mô hình này:

- Khi số chiều càng lớn thì lượng đinh danh gần đúng càng nhiều dẫn đến xác suất bi tấn công liên kết càng cao

- Chọn k bằng bao nhiêu? Đây là một câu hỏi khó vì thực tế với từng tập dữ liệu khác nhau thì chọn k sẽ rất khác nhau Việc này đòi hỏi phải phân tích kỹ lưỡng giữa độ hữu

Trang 25

dụng - rủi ro (utility - risk) Ví dụ, một kinh nghiệm được đưa ra là nên chọn k từ 5 đến 15 đối với tập dữ liệu nhạy cảm cao như là dữ liệu y tế nhưng điều này là khá mơ hồ Chọn k tối ưu chịu ảnh hưởng từ nhiều lý thuyết tuỳ theo mục đích và quyết đinh sử dụng dữ liệu khác nhau của người dùng

1.2 L-diversity

Câu chuyện về cuộc tấn công thực tế của Latanya Sweeney và mô hình của bà đề xuất chưa dừng ở đó mà nó chỉ là một cột mốc quan trọng đánh dấu quyền riêng tư của con người liên quan trực tiếp đến quyền riêng tư trên Internet của người ấy Trong quá trình nghiên cứu thì các nhà khoa học đã phát hiện ra điểm yếu của mô hình này ở cuộc

tấn công đồng nhất l-diversity là mô hình riêng tư được đưa ra để giải quyết những nguy

cơ từ cuộc tấn công này Mô hình l-diversity [19] đòi hỏi các EC phải chứa ít nhất l giá tri

nhạy cảm được "biểu diễn tốt"

Bảng 2-8 Một tập dữ liệu thỏa mãn mô hình 1-diversity

Có thể có nhiều cách hiểu khác nhau về thế nào là "biểu diễn tốt" Cách đơn giản

nhất là đảm bảo rằng có ít nhất l giá tri riêng biệt cho thuộc tính nhạy cảm trong mỗi EC

Mô hình này có tên gọi là distinct l-diversity (hay còn có tên khác là p-sensitive

k-anonymity[27]) Mô hình này tự động thoả mãn mô hình k-anonymization, khi k = l vì

mỗi EC đều chứa ít nhất l bản ghi Tuy nhiên, distinct l-diversity không thể ngăn chặn các

Trang 26

cuộc tấn công suy luận xác suất (probabilistic inference attacks) vì một số giá trị nhạy cảm thường xảy ra thường xuyên hơn các nhóm khác trong một nhóm, cho phép người tấn công kết luận rằng một bản ghi trong nhóm rất có khả năng có các giá trị đó Ví dụ,

bệnh cúm thì phổ biến hơn HIV Điều này thúc đẩy hai khái niệm mạnh mẽ hơn về

l-diversity sau Một bảng dữ liệu được gọi là entropy l-diverse nếu với mỗi EC:

Bảng 2-9 Dữ liệu minh họa entropy l-diverse

Với bảng trên ta có EC1 <Giáo viên, nam, [35-40> thì entropy là:

Trang 27

Vì vậy bảng trên thỏa mãn entropy ldeversity l( 1.8) Một hạn chế của entropy

l-diversity là nó không cung cấp phép đo rủi ro dựa trên xác suất, có xu hướng trực quan hơn đối với người giữ dữ liệu Ví dụ ở bảng trên entropy bằng 1.8 không mang ý nghĩa mức độ rủi ro người tấn công có xác suất 75% thành công để suy ra HIV (trong đó có 3 trong số 4 chủ sở hữu hồ sơ trong nhóm EC bị nhiễm HIV) Ngoài ra, rất khó để chỉ định các mức bảo vệ khác nhau dựa trên độ nhạy và tần số khác nhau của các giá trị nhạy cảm

Một cách tiếp cận khác của l-diversity là đệ quy cũng của cùng tác giả A

Machanavajjhala, D Kifer, J Gehrke, và M Venkitasubramaniam đưa ra [19]:

 Cho c0 là một hằng số và S là SA Cho S1, ,S là các giá trị của S xuất hiện m

trong một EC Cho f1, , f là tần số tương ứng của chúng Cho f m (1),…,f(m) là những số được sắp xếp theo thứ tự không tăng Một bảng là recursive (c, l)-

diverse nếu mọi nhóm QID thỏa mãn (1) ()

m

i l

c f i f

  với một vài hằng số c

Điểm cốt yếu của mô hình recursive (c, l)-diversity là nó đảm bảo rằng giá trị

thường xuyên nhất không xuất hiện quá thường xuyên và các giá trị ít thường xuyên hơn

không xuất hiện quá hiếm Một EC là một recursive (c, l)-diverse nếu tần số của giá trị

nhạy cảm thường xuyên nhất nhỏ hơn tổng tần số của m l 1 giá trị nhạy cảm ít thường xuyên nhất nhân với một hằng số c do nhà xuất bản chỉ định Khi người tấn công loại trừ một số giá trị nhạy cảm có thể có của nạn nhân bằng cách áp dụng kiến thức nền, bất đẳng thức vẫn được giữ cho các giá trị còn lại; do đó, những cái còn lại vẫn khó suy luận Một

bảng được coi là có tính (c, l)-diversity nếu tất cả các EC của nó có tính (c, l)-diversity Việc khởi tạo này ít hạn chế hơn so với entropy l-diversity vì với một c lớn hơn, là một

tham số độc lập với tần số của các giá tri nhạy cảm, có thể làm giảm sự hạn chế

Một quan điểm phổ biến trong các tài liệu là l-diversity nên thay thế

k-anonymization Trong thực tế, nó phụ thuộc vào kich bản xuất bản dữ liệu Thông thường tấn công liên kết liên quan đến dữ liệu từ hai nguồn, một bảng T1 chứa tên và danh tính của các cá nhân (ví dụ: danh sách cử tri) và một bảng T2 chứa các thuộc tính nhạy cảm (ví dụ: dữ liệu y tế) và cả hai đều chứa thuộc tính QID k-anonymization phù hợp để ẩn

Trang 28

danh T1 và l-diversity phù hợp để ẩn danh T2 Theo nghĩa này, hai khái niệm riêng tư này

không phải là đối thủ cạnh tranh, mà là các công cụ khác nhau được sử dụng trong các tình huống khác nhau

Tuy nhiên, l-diversity có giới hạn của việc mặc nhiên giả định rằng mỗi thuộc tính

nhạy cảm nhận các giá trị phân bố đều trên miền của nó Trong trường hợp tần số của các giá tri nhạy cảm không giống nhau, việc đạt được sự đa dạng có thể gây ra sự mất mát tiện ích dữ liệu lớn Xét một ví dụ như sau ta có một bảng kết quả xét nghiệm HIV(âm tính và dương tính) có 10000 hồ sơ, với 99% trong số đó là âm tính và chỉ 1% là dương tính, hai giá trị có độ nhạy rất khác nhau Người ta sẽ không phiền khi được biết là được kiểm tra âm tính, bởi vì sau đó một người giống như 99% dân số, nhưng người ta sẽ không muốn ai biết được khi kết quả là dương tính Trong trường hợp này, tính đa dạng 2

là không cần thiết đối với một lớp tương đương không tồn tại chỉ có hồ sơ là tiêu cực Để

có một bảng 2 đa dạng riêng biệt, chỉ có thể có tối đa 10000 × 1% = 100 lớp tương đương(EC) và mất thông tin sẽ lớn Cũng lưu ý rằng vì entropy của thuộc tính nhạy cảm

trong bảng tổng thể là rất nhỏ, nếu người ta sử dụng đa dạng entropy l, l phải được đặt

thành một giá trị nhỏ [16]

Cuộc tấn công trên là cuộc tấn công suy luận xác suất Một trường hợp cụ thể hơn cuộc tấn công này là cuộc tấn công xiên Tức là khi tập dữ liệu bi quá xiên (skewness) Cũng như ví dụ xét nghiệm HIV ở trên giả sử ta có một EC với 49 hồ sơ dương tính và 1

hồ sơ âm tính, EC thỏa mãn 2-diversity nhưng những người trong lớp này phải đối mặt với khả năng âm tính rất cao(98%) so với 1 % của toàn bộ hồ sơ đây cũng là một vi phạm

rất nghiêm trọng về tính riêng tư mà l-diversity mắc phải

Bên cạnh đó, đôi khi SA trở nên mơ hồ và l-diversity thì không xem xét ngữ nghĩa của SA Xét bảng sau:

Mã bưu điện Tuối Bệnh 42** 20-29 AIDS 42** 20-29 Viêm gan B 17** 30-39 Đau dạ dày 17** 30-39 Cảm

Trang 29

Xét EC1 <42**,20-29>, ta thấy tuy rằng nó thoả mãn l-diversity với l = 2 mà người tấn công không thể đưa ra kết luận cụ thể nạn nhân bị mắc bệnh gì (AIDS hay bệnh viêm gan B) nhưng người tấn công hoàn toàn có thể đưa ra kết luận rằng nạn nhân bị mắc các bệnh liên quan đến truyền nhiễm qua đường tình dục Kết luận này đương nhiên là đúng và vi phạm quyền riêng tư cá nhân Cuộc tấn công này là tấn công tương tự

3-diversity patient table Zip code Age Salary Disease

467** 2* 20k Gastric Ulcer 467** 2* 30k Gastritis 467** 2* 40k Stomach cancer 4790* >40 50k Gastritis

4790* >40 100k Flu 4790* >40 70k Bronchitis

Hình 2- 10 Tấn công tương tự phá vỡ mô hình l-diversity: kết luận Bob có lương thấp và

mắc bệnh tiêu hoá

Ta có thể tổng kết những điểm sau về mô hình này

Những điểm mạnh:

- Giải quyết được lớp lớn các cuộc tấn công lộ thành viên

- Giải quyết được lớp lớn các cuộc tấn công tiết lộ thuộc tính nhạy cảm

- Giải quyết được lớp lớn các cuộc tấn công tiết lộ danh tính

- Giải quyết được tấn công đồng nhất - điểm hạn chế của mô hình k-anonymization

Những điểm hạn chế:

- Tấn công suy luận xác suất: dựa vào đặt điểm phân bố không đồng điều của SA, người tấn công có thể khai thác được tính riêng tư của chủ bản ghi Tiêu biểu là tấn công xiên

Để giải quyết nguy cơ này có thể dùng kết hợp với mô hình t-closessness

- Mô hình l-diversity không xem xét ngữ nghĩa của các giá tri nhạy cảm Điều đó thể hiện qua cuộc tấn công tương tự

- Thực tế khi áp dụng các giải thuật cho mô hình này thì độ hữu dụng giảm đáng kể như phân tích ở trên, phải bỏ bớt (supression) đi nhiều bản ghi

Trang 30

- Tấn công kiến thức nền vẫn là điểm hạn chế cố hữu của mô hình này

- Khi số chiều càng lớn thì lượng đinh danh gần đúng càng nhiều dẫn đến xác suất bi tấn công liên kết càng cao

1.3 T-closeness

Trong hai phần trước, ta đã lần lượt đi qua hai mô hình riêng tư dữ liệu nổi tiếng k- anonymization cùng l-diversity trong việc giải quyết nguy cơ về cuộc tấn công đồng nhất Nhưng một lần nữa, lĩnh vực riêng tư dữ liệu lại cho ta thấy chỉ giải quyết một cuộc tấn công đơn thuần như vậy là chưa đủ Các nhà khoa học Ninghui Li, Tiancheng Li và Suresh Venkatasubramanian đã đề xuất ra mô hình t-closeness mang hơi hướng nguyên tắc không thông tin áp dụng lên đối với các SA để giải quyết các cuộc tấn công suy luận xác suất, cụ thể hơn là tấn công xiên [28]

(Nguyên tắc t-closeness) Một lớp tương đương được cho là có t-closeness nếu khoảng

cách giữa phân phối thuộc tính nhạy cảm trong lớp này và phân phối thuộc tính trong toàn

bộ bảng không quá ngưỡng t Một bảng được cho là có độ gần t nếu tất cả các lớp tương đương thoả t-closeness t-closenes sử dụng hàm Earth Mover distance (EMD) để đo sự

"gần gũi" giữa hai phân phối của các giá tri nhạy cảm và đòi hỏi sự gần gũi phải nằm trong ngưỡng t Ngưỡng t đưa ra giới hạn trên về sự khác biệt giữa phân phối các giá tri thuộc tính nhạy cảm trong một nhóm ẩn danh so với sự phân phối toàn cục của các giá tri (Charu Aggarwal và Philip S Yu [29]) Đối với các thuộc tính số, sử dụng ẩn danh với t-closeness có hiệu quả hơn nhiều phương pháp khai thác dữ liệu bảo vệ quyền riêng tư khác

Trang 31

đe doạ khác, rất đơn giản và dễ thấy nhưng những mô hình riêng tư để giải quyết nó lại xuất hiện sau Đó là mối đe doạ đến từ việc trong một số trường hợp, sự hiện diện (hoặc vắng mặt) của bản ghi nạn nhân trong tập dữ liệu đã tiết lộ thông tin nhạy cảm của nạn nhân Ví dụ, ở hình 2.12 ta có một bảng chung công khai về dữ liệu cá nhân đã được ẩn danh hóa từ bảng P (P*3), một bác sỹ muốn chia sẻ một bảng con T*3 là tổng quát hóa của bảng T Việc chia sẻ này sẽ tạo ra một xác suất xuất hiện của các EC giữa hai bảng đươc định nghĩa trong khoảng (min,max) với ví dụ ở dưới ta có: T*3: (1/2;2/3) present T Trong

ví dụ dưới việc công khai bảng T*3 dễ vị phạm đến tính riêng tư dễ nhận thấy các hồ sơ sẽ

bị tấn công liên kết và bằng các QI các hồ sơ trong một EC của T*3 đều có chung giá trị Sen, để giải quyết vấn đề này một mô hình dữ liệu  -Presence được M Ercan Nergiz, M Atzori, và C W Clifton [30] đề xuất để giải quyết mối đe doạ [31]:

 (  Presence) Cho một bảng công khai bên ngoài P và một bảng riêng T, định nghĩa rằng   Presence giữ cho một khái quát T* của T với

Ngày đăng: 27/01/2021, 12:50

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[28] A. Machanavajjhala, D. Kifer, J. Gehrke and M. Venkitasubramaniam, l-diversity: Privacy beyond k-anonymity, Transactions on Knowledge Discovery from Data 1 (2007), 24–35 Sách, tạp chí
Tiêu đề: Transactions on Knowledge Discovery from Data
Tác giả: A. Machanavajjhala, D. Kifer, J. Gehrke and M. Venkitasubramaniam, l-diversity: Privacy beyond k-anonymity, Transactions on Knowledge Discovery from Data 1
Năm: 2007
[35] L. Sweeney, Achieving k-anonymity privacy protection using generalization and suppression, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10 (2002), 571–588. ACM Sách, tạp chí
Tiêu đề: International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems
Tác giả: L. Sweeney, Achieving k-anonymity privacy protection using generalization and suppression, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10
Năm: 2002
[36]V.S. Iyengar, Transforming data to satisfy privacy constraints, International Conference on Knowledge Discovery and Data Mining, ACM, 2002, 279–288 Sách, tạp chí
Tiêu đề: International Conference on Knowledge Discovery and Data Mining
[36] A. De Waal and L. Willenborg, Information loss through global recoding and local suppression, Netherlands Official Statistics 14 (1999), 17–20 Sách, tạp chí
Tiêu đề: Netherlands Official Statistics
Tác giả: A. De Waal and L. Willenborg, Information loss through global recoding and local suppression, Netherlands Official Statistics 14
Năm: 1999
[38]R.J. Bayardo and R. Agrawal, Data privacy through optimal kanonymization, International Conference on Data Engineering, IEEE, 2005, 217–228 Sách, tạp chí
Tiêu đề: International Conference on Data Engineering
[39] M.E. Nergiz and C. Clifton, Thoughts on k-anonymization, International Conference on Data Engineering, IEEE, 2006, 96 Sách, tạp chí
Tiêu đề: International Conference on Data Engineering
[41] T. L. Bailey and C. Elkan, “Estimating the accuracy of learned concepts,” in Proc. 13th International Joint Conference on Artifical Intelligence. San Francisco, CA, USA:Morgan Kaufmann Publishers Inc., 1993, pp. 895–900 Sách, tạp chí
Tiêu đề: Estimating the accuracy of learned concepts,” in "Proc. "13th International Joint Conference on Artifical Intelligence
[42]A. Inan, M. Kantarcioglu, and E. Bertino, “Using anonymized data for classification,” in 25th International Conference on Data Engineering. IEEE, 2009, pp. 429–440 Sách, tạp chí
Tiêu đề: Using anonymized data for classification,” in "25th International Conference on Data Engineering
[43]K. El Emam and B. Malin, “Appendix B: Concepts and methods for de-identifying clinical trial data,” in Sharing clinical trial data: Maximizing benefits, minimizing risk.The National Academies Press, 2015 Sách, tạp chí
Tiêu đề: Appendix B: Concepts and methods for de-identifying clinical trial data,” in "Sharing clinical trial data: Maximizing benefits, minimizing risk
[2] Open data in telecom, https://manypossibilities.net/2017/06/the-case-for-open-data-intelecoms/,10/2017 Link
[4] Canadian Cellular Towers Map, http://sms-sgs.ic.gc.ca/eic/site/sms-sgsprod.nsf/eng/h_00010.html, 10/2017 Link
[11] The home of the U.S. Government‟s open data: https://www.data.gov/ , 10/2017 Link
[17] Vietnam Open Educational Resources – VOER, http://voer.edu.vn/, 05/2018 Link
[6] Zhang, K., Ni, J., Yang, K., Liang, X., Ren, J., &amp; Shen, X. S. (2017). Security and Privacy in Smart City Applications: Challenges and Solutions. IEEE Communications Magazine, 55(1), 122-129 Khác
[7] Rakesh Agrawal, Ramakrishnan Srikant: Privacy-preserving data mining, SIG-MOD, Vol. 29, pp. 439-450, 2000 Khác
[8] Yehuda Lindell, Benny Pinkas: Privacy Preserving Data Mining, Journal of Cryptology, Vol. 15, pp. 177-206, 2002 Khác
[9] Bee-Chung Chen, Daniel Kifer, Kristen LeFevre, Ashwin Machanavajjhala: Privacy- Preserving Data Publishing, Foundations and Trends in Databases, 2(1-2), pp. 1-167, 2009 Khác
[10] Benjamin C. M. Fung, Ke Wang, Rui Chen, Philip S. Yu: Privacy-preserving data publishing: A survey of recent developments, ACM Computing Surveys, 42(4), 2010 Khác
[13] Open Data Institute: Applying blockchain technology in global data infrastructure, Technical report, 2016 Khác
[14] Yuichi Nakamura, Kanae Matsui and Hiroaki Nishi: Anonymization Infrastructure for Secondary Use of Data, The International Conference on Internet Comp. and Big Data, 2014 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w