Trong quá chuyển đổi chuyển đổi dữ liệu, điều quan trọng là giảm thiểu việc mất thông tin để duy trì chất lượng dữ liệu, có nhiều mô hình đánh giá chất lượng được đề xuất nhưng vẫn chưa
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TOÁN PHÂN LOẠI THỐNG KÊ
Chuyên ngành : Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 8 năm 2020
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : TS Lê Hồng Trang
5 Ủy viên: TS Nguyễn Văn Vũ
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
Ngày, tháng, năm sinh: 03/01/1986 Nơi sinh: Ninh Bình
Chuyên ngành: Khoa Học Máy Tính Mã số : 60.48.01.01
I TÊN ĐỀ TÀI:
XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ CHẤT LƯỢNG CHO DỮ LIỆU ẨN DANH VỀ SỨC KHỎE SỬ DỤNG TRONG BÀI TOÁN PHÂN LOẠI THỐNG KÊ
II NHIỆM VỤ VÀ NỘI DUNG
Nghiên cứu các phương pháp đánh giá chất lượng của mô hình ẩn danh K-anonymity đối với các dữ liệu về sức khỏe để sử dụng tỏng bài toán phân loại thống kê
- Nghiên cứu các kỹ thuật ẩn danh họ k-anonymity
- Nghiên cứu, đánh giá các mô hình đánh giá chất lượng dữ liệu
- Lựa chọn mô hình đánh giá chất lượng cho tập dữ liệu dùng trong bài toán phân loại thống kê
III NGÀY GIAO NHIỆM VỤ : 10/02/2020
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2020
V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): TS Lê Hồng Trang
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đếnTS Lê Hồng Trang, cám ơn thầy
đã tận tình hướng dẫn và định hướng cho tôi trong suốt thời gian thực hiện luận văn Nhờ
sự hướng dẫn và giúp đỡ từ thầy đã giúp tôi hoàn thành luận văn này
Xin chân thành cảm ơn quý thầy cô trong trường Đại Học Bách Khoa, đặc biệt là các thầy cô trong Khoa Khoa học và Kỹ thuật Máy tính đã truyền đạt cho tôi nhiều kiến thức hữu ích trong suốt quá trình theo học tại trường
Tôi cũng xin gửi lời cảm ơn đến bạn bè, gia đình cũng như đồng nghiệp, những người đã giúp đỡ và tạo điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu
Đặng Thế Hùng
Trang 5TÓM TẮT ĐỀ TÀI
Khi dữ liệu sức khỏe ở cấp độ cá nhân được chia sẻ trong nghiên cứu y sinh, quyền riêng tư của bệnh nhân phải được bảo vệ Điều này thường đạt được với các phương pháp khử nhận dạng dữ liệu (k-anonymity), dữ liệu sẽ được chuyển đổi để tránh bị nhận dạng lại Một trong những trường hợp điển hình là sử dụng dữ liệu làm đầu vào cho những mô hình dự đoán cho việc khai phá dữ liệu và hỗ trợ quyết định, ví dụ như để suy ra kết quả chuẩn đoán phương pháp trị liệu Trong quá chuyển đổi chuyển đổi dữ liệu, điều quan trọng là giảm thiểu việc mất thông tin để duy trì chất lượng dữ liệu, có nhiều mô hình đánh giá chất lượng được đề xuất nhưng vẫn chưa nêu cụ thể các trường hợp sử dụng cho những mô hình này, trong luận văn này sẽ so sánh đánh giá các phương pháp đo chất lượng thông tin của dữ liệu thông tin ẩn danh và thử nghiệm trên dữ liệu về y tế nhằm tìm
ra những bộ dữ liệu ẩn danh tốt nhất sử dụng cho các mô hình dự đoán ví dụ mô hình Logistic Regression
ABSTRACT
When individual-level health data is shared in biomedical research, a patient's privacy must be protected This is often achieved with methods of k-anonymity, the data will be transformed to avoid being re-identified One of the typically cases is the use of data as input for predictive models for data mining and decision support, for example, to infer the outcome of a diagnostic procedure During data transformation, it is important to minimize the loss of information to maintain data quality, there are many quality assessment models that are proposed but have yet to specify use cases for these models In this thesis, we will compare and assess methods of measuring information quality of de-identified data and test on medical data to find the best result sets to use for the predict model ,e.g the Logistic Regression model
Trang 6LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện
và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác
Ngày 03 tháng 08 năm 2020
Đặng Thế Hùng
Trang 7DANH MỤC CHỮ VIẾT TẮT
ID Identifier QI,QID Quasi-identifiers
SA Sensitive attribute DGH Domain Generalization Hierarchy VGH Value Generalization Hierarchy
EC Equivalence classes GHD Generalization Hierarchies Domain
GL Generalization Lattice OLA Optimal Lattice Anonymization Prec Precision
AECS Average Equivalence Class Size NUE Non-Uniform Entropy
CM Classification Metric SDA Single dimensional algorithm CBA Cell-based algorithm
Trang 8DANH MỤC HÌNH ẢNH
Hình 1-1 Truy vết từ tập dữ liệu được ẩn danh đơn giản [18]
Hình 1-2 Tái định danh dữ liệu bằng tấn công liên kết [18]
Hình1-3 Các bước để ẩn danh dữ liệu với họ k-Anonymization
Bảng 2-1 Việc chỉ khử định danh (de-identify)
Bảng 2-2 Ví dụ của k-anonymization với k 2 và QI={Race,Birth,Gender,Zip}
Bảng 2-3 Tập dữ liệu khi thỏa mô hình k-anonymity khi sử dụng cả hai phép tổng quát hóa (generalization) và bỏ bớt(suppression)
Hình 2-4 Cây phân cấp tổng quát hóa (DGH) và giá trị (Value domain hierarchy) Zip bao gồm các tác vụ suppression
Hình 2-5 Cây phân cấp tổng quát hoá miền (DGH) và giá tri (VGH) chủng tộc bao gồm tác vụ bỏ bớt [10]
Hình 2-6 Bằng việc tấn công liên kết hai bảng, kẻ địch vẫn không suy ra được gì
Bảng 2-7 Các cuộc tấn công trên mô hình K-anonymity
Bảng 2-8 Một tập dữ liệu thỏa mãn mô hình l-diversity
Bảng 2-9 Dữ liệu minh họa entropy l-diverse
Hình 2-10 Tấn công tương tự phá vỡ mô hình l-diversity: kết luận Bob có lương thấp và mắc bệnh tiêu hoá
Bảng 2-11 Bảng dữ liệu được xử lý t-closeness với t0.167 tương ứng với mức lương
và t = 0, 278 tương ứng với dịch bệnh [17]
Hình 2-12 Một trường hợp Presence
Hình 2-13 Bảng Riêng T
Hình 2-14 Bảng công khai bên ngoài P
Bảng 2-15 Bảng dữ liệu minh hoạ -Presence
Hình 2-16 Ví dụ về cây tổng quá (GHD) của hai thuộc tính Age và Gender
Hình 2-17 Lưới tổng quát hóa của hai thuộc tính age và gender
Hình 2-18 Mô phỏng duyệt lưới tổng quát của DataFly và Igreedy
Hình 2-19 Mô phỏng thuật toán duyệt GL của Incognito
Hình 2-20 Mô phỏng thuật toán OLA
Trang 9Hình 2-21 Mô phỏng thuật toán Flash
Hình 3-1 DGH của thuộc tính Race(E) và Zip(Z)
Hình 3-2 Ánh xạ của thuộc tính Education sang dạng số học
Bảng 3-3 D1 Original dataset
Bảng 3-4 D2 Outlier suppressed optimal SDA and CBA output
Bảng 3-5 D3 optimal SDA with output Outlier
Bảng 3-6 D4 optimal CDA with output Outlier
Bảng 4-1 Mô tả dữ liệu sức khỏe
Bảng 4.2 Kết quả thực nghiêm với k 5,l 2
Bảng 4.3 Kết quả thực nghiêm với k 10,l2
Bảng 4.4 Các độ đo khác khi sử dụng hàm tối ưu hóa bằng độ đo CM
Trang 10Mục lục
1 Dữ liệu mở 11
2 Vấn đề bảo vệ tính riêng tư 13
3 Các kỹ thuật ẩn danh dữ liệu 14
4 Mục tiêu của đề tài 16
Chương II Các kỹ thuật ẩn danh dữ liệu 17
1.Các kỹ thuật ẩn danh hóa dữ liệu 17
1.1 K-anonymity 17
1.2 L-diversity 25
1.3 T-closeness 30
1.4 -Presence 31
2 Các giải thuật duyệt cây tổng quát để ẩn danh dữ liệu 33
2.1 Data fly và Igreedy 34
2.2 Incognito 35
2.3 OLA(Optimal Lattice Anonymization) và Flash 36
Chương 3: Đo độ hữu dụng của dữ liệu ẩn danh 40
1 Categorical Precision 40
2 Loss of information (Intensity) 43
3 Non-Uniform Entropy 44
4 Average Equivalence Class Size (AECS) 46
5 Discernibility 46
6 Kullback-Leibler (K-L) Divergence 47
7 Ambiguity 49
8 Classification Metric 49
Chương 4 :Thực nghiệm đánh giá 52
1 Mô tả dữ liệu 52
2 Đo hiệu suất của mô hình logistic regression 54
3 Đánh giá mô hình chất lượng dữ liệu 55
3.1 Thực nghiệm 1 55
3.2 Thực nghiệm 2 56
4 Kết Luận và hướng phát triển 58
Trang 11TÀI LIỆU THAM KHẢO 59
Chương I: Giới thiệu
2, 11, 12, 13] Mặc dù mang lại nhiều lợi ích cho xã hội, các hệ thống dữ liệu mở phải đối mặt với rất nhiều vấn đề như phải có các hệ thống quản trị dữ liệu hiệu quả, Trong đó, nổi bật nhất và cấp thiết phải có giải pháp để giải quyết vấn đề quan trọng là bảo mật và tính riêng tư Rõ ràng, các tập dữ liệu mở được chia sẻ có thể đã thu thập và lưu trữ các thông tin riêng tư nhạy cảm của các đối tượng như người sử dụng, tổ chức, doanh nghiệp
và môi trường cuộc sống xung quanh để phục vụ cho các hoạt động của tổ chức (từ doanh nghiệp đến chính phủ) Khi các tập dữ liệu đó được công bố thành dạng dữ liệu mở thì sẽ ảnh hưởng đến các đạo luật về xâm phạm quyền riêng tư, bảo mật dữ liệu mà các tổ chức
đó phải tuân thủ Do đó, các dữ liệu nhạy cảm, mang tính riêng tư phải được loại bỏ/che giấu trước khi công khai dữ liệu Hơn nữa, đặc điểm dữ liệu trong các hệ thống dữ liệu
mở hiện nay là lớn, không cấu trúc, đa dạng, nhiều nguồn và sinh ra liên tục (ví dụ như các hệ thống dữ liệu của các ứng dụng đô thị thông minh), do đó, vấn đề bảo vệ tính riêng
tư dữ liệu đang trở thành những thách thức cho các tổ chức muốn công khai dữ liệu mà chưa giải quyết được một cách hiệu quả Trong xã hội thông tin được toàn cầu hóa, thật khó để áp dụng những kỹ thuật chỉ để thỏa các chính sách bảo mật duy nhất dành cho một
tổ chức nhất định Do đó, cần tìm hiểu để xây dựng một kiến trúc nền tảng phù hợp đi kèm với các kỹ thuật xử lý dữ liệu nhằm bảo vệ tính riêng tư trước khi công khai dữ liệu
Trang 12mà vẫn đảm bảo tối đa được chất lượng dữ liệu cho việc phân tích, tính sẵn sàng và liên tục của hệ thống cũng như sự khả tương thích với các đặc điểm dữ liệu (ứng dụng) khác nhau, đặc biệt là trong môi trường smart city Dữ liệu mở tuy không phải là một khái niệm mới nhưng cùng với sự phát triển của Internet và công nghệ hiện nay, dữ liệu mở đang và sẽ trở thành một trong những hướng nghiên cứu nổi bật và tất yếu, đặc biệt trong các môi trường “smart cities/nations” [1] Các dữ liệu được “open” trên Internet hiện nay
đa phần là dữ liệu chính phủ trong nhiều lĩnh vực như giao thông, y tế, giáo dục, viễn thông, v.v [11, 12] Lấy ví dụ về lĩnh vực viễn thông, dữ liệu mở có thể được dùng vào nhiều ứng dụng có thể kể đến như sau [2]:
- Bản đồ trạm phát sóng [4]: Bản đồ các trạm phát sóng (base station) cung cấp thông tin
vị trí trạm phát sóng của các nhà mạng cùng các khả năng kỹ thuật của chúng (3G, 4G, etc.) Từ đó, các nhà mạng có thể tiến hành việc khai thác, lắp đặt mới hoặc thuê trạm phát sóng từ nhà mạng khác khi muốn triển khai dịch vụ Các nhà cung cấp dịch vụ mới cũng có thể thuê hạ tầng có sẵn (từ nhiều nhà mạng khác nhau) để vừa hợp tác và cũng vừa là đối thủ cạnh tranh về kinh doanh lẫn nhau (co-opertition) Ngữ cảnh này rất tiềm năng về kinh doanh cũng như tiềm ẩn nhiều thách thức, nhất là đối với các đơn vị cung cấp dịch vụ viễn thông truyền thống ở Việt Nam hiện nay
- Dữ liệu từ khách hàng: Nhiều ứng dụng trên smartphones không phụ thuộc vào nhà cung cấp dịch vụ viễn thông và thông qua chúng, người ta có thể thu thập được rất nhiều thông tin (như vị trí, tốc độ, các hình ảnh/video, etc.) [15] Những thông tin này có thể được các đối thủ của một nhà cung cấp viễn thông nào đó dùng để phát triển các dịch vụ mới, tăng lợi thế cạnh tranh Những khách hàng đang dùng mạng của nhà cung cấp này hoàn toàn có thể cung cấp dũ liệu cho các nhà cung cấp khác (qua các smartphone apps) nếu họ có hạ tầng dữ liệu mở phù hợp cùng các tiện tích hợp lư đem lại khi khách hàng đồng ý chia sẻ dữ liệu Vấn đề này không còn lại viễn cảnh mà bắt đầu diễn ra hàng ngày
- Bản đồ cáp quang [3]: Bản đồ cáp quang sẽ cung cấp vị trí lắp đặt cáp quang tương tự như bản đồ giao thông hay bản đồ đường dẫn nước trong thành phố Thông qua bản đồ này, các nhà cung cấp dịch vụ quốc gia và tư nhân có thể xác định được vị trí các cáp quang đã được lắp đặt, từ đó có kế hoạch để khai thác hoặc lắp đặt dịch vụ mới phù hợp
Trang 13- Bản đồ quang phổ: Khi bản đồ cáp quang được hoàn thành cũng là lúc các nhà cung cấp dịch vụ sẽ chú ý hơn đến các dịch vụ mạng không dây (như WiFi, Bluetooth) Bản đồ quang phổ cho các dịch vụ không dây này sẽ thể hiện thông tin quang phổ được cấp phát
ở tần số nào, tại thời điểm nào và ai được phép sử dụng Tuy thông tin này chỉ mới được triển khai gần đây ở các nước Châu Phi, Nigeria và Kenya, nhưng bản đồ quang phổ hứa hẹn sẽ là một bước tiến vượt bậc trong việc khai thác và nâng cao chất lượng dịch vụ mạng không dây
- Nghiên cứu y sinh hiện đại[1] Chia sẻ thông tin về y tế là một điều bắt buộc khi phát triển các ứng dụng nhằm nâng cao chất lượng khám, chữa, phòng bệnh Hầu hêt các bệnh viện trên thế giới đều cố gắng chia sẻ những thông tinh về y tế của mình nhằm phục vụ cho mục đích phát triển và nghiên cứu Khi dữ liệu sức khỏe cá nhân được chia sẻ trong y sinh nghiên cứu, sự riêng tư của bệnh nhân phải được bảo vệ Dữ liệu sau khi ẩn danh sẽ được công khai, để tiếp tục sử dụng và các mục đích khác cho việc nghiên cứu trong y học, việc cân bằng giữa tính riêng tư và chất lượng dữ liệu sẽ tạo ra một bộ dữ liệu tốt nhất
2 Vấn đề bảo vệ tính riêng tƣ
Một trong những yêu cầu cấp thiết hàng đầu khi tiến hành “open” dữ liệu là đảm bảo tính riêng tư cho người dùng [5, 6] Thông thường, đảm bảo tính riêng tư thường được cụ thể hóa ở từng giai đoạn, mục đích theo nhiều cách tiếp cận khác nhau, ví dụ như khai phá dữ liệu bảo vệ tính riêng tư và công khai dữ liệu bảo vệ tính riêng tư (Privacy Preserving Data Mining [7, 8] và Privacy Preserving Data Publishing [9, 10]) là những cách tiếp cận phổ biến Những kỹ thuật bảo vệ trong các hướng tiếp cận này có thể dùng
để khai phá hoặc công khai dữ liệu mà không có thông tin định danh cá nhân Tuy nhiên, hai giải pháp này có cùng nhược điểm là chưa thiết lập phương pháp để tái sử dụng dữ liệu (second use) trong môi trường dữ liệu mở, đây cũng là một trong những yêu cầu tất yếu với bản chất của loại dữ liệu này Nhìn chung, có rất nhiều kỹ thuật để bảo vệ thông tin riêng tư, trong đó, nổi bật nhất có thể đề cập là mã hóa dữ liệu được chia sẻ, ẩn danh người dùng và điều khiển truy xuất Trong đó, phương pháp mã hóa sẽ gây ra nhiều tốn kém khi vận hành do lượng dữ liệu lớn và đa dạng Bên cạnh đó, dữ liệu mở có thể được thu thập từ nhiều nguồn thông tin, nhiều tổ chức Việc này dẫn đến thách thức khi cần
Trang 14định nghĩa một cơ chế điều khiển truy xuất linh hoạt có thể áp dụng cho mọi tổ chức Trong khi đó, ẩn danh người dùng được xem là một bước không thể thiếu trước khi tiến hành công khai dữ liệu Có nhiều phương pháp ẩn danh người dùng (và các thông tin cá nhân liên quan nếu cần) đã được nghiên cứu nhưng vẫn chưa có cách tiếp cận cụ thể nào được xác định cho dữ liệu mở, đặc biệt là trong môi trường vạn vật kết nối cũng như smart city Các tác giả của [18] đã đưa ra bốn đề xuất để bảo vệ tính riêng tư cho dữ liệu
mở, qua đó cũng cho thấy sự phức tạp của loại dữ liệu này:
- Xác định rõ lợi ích và rủi ro trước khi thiết kế và hiện thực chương trình dữ liệu mở
- Xem xét quyền riêng tư ở từng giai đoạn của vòng đời dữ liệu
- Phát triển cấu trúc vận hành và quy trình để quản lý tính riêng tư
Nhấn mạnh sự tham gia và quyền ưu tiên của cộng đồng như một khía cạnh tất yếu của chương trình quản lý dữ liệu
3 Các kỹ thuật ẩn danh dữ liệu
Ẩn danh (Anonymization), một bước không thể thiếu trước khi tiến hành công khai
dữ liệu, là một công nghệ chìa khóa hỗ trợ bảo vệ tính riêng tư ở nhiều mức độ khác nhau, đáp ứng được nhiều yêu cầu ứng dụng cũng như chính sách/luật khác nhau Để bảo vệ tính riêng tư dữ liệu, ẩn danh là một kỹ thuật phổ biến và có nhiều cách tiếp cận đã được nghiên cứu và phát triển Một vài kỹ thuật ẩn danh nền tảng có thể kể đến như:
- Nén và thu giảm dữ liệu: Những dữ liệu nhạy cảm có thể được loại bỏ hoặc thực hiện việc mã hóa cá nhân (Pseudonymization) bằng cách thay thế hoặc kết hợp các thuộc tính định danh (Quasi-identifier) như họ tên, ngày tháng năm sinh thành một con số mã hóa,
và hash function là một giải pháp để thực hiện việc này
- Thay đổi thuộc tính: thuộc tính có thể được biến đổi nhằm hạn chế sự rò rỉ của thông tin
cá nhân Một vài cách để thay đổi thuộc tính như là tổng quát hóa (generalization) trong
đó dữ liệu chi tiết có thể được thay thế bằng dữ liệu ở các mức trừu tượng cao hơn hoặc thực hiện việc mã hóa theo biên (top/bottom coding) để gom nhóm các giá trị nhạy cảm
Trang 15- Xáo trộn dữ liệu (Perturbation): một số phương pháp có thể kể đến như tổng hợp dữ liệu thành phần (micro-aggregation) trong đó dữ liệu có thể được phân thành các nhóm và giá trị thuộc tính của mỗi nhóm được thay thế bằng trị đại diện; thêm điểm nhiễu (noise injection) ngẫu nhiên vào dữ liệu; hoán đổi (data swapping) dữ liệu giữa các hàng với nhau
Việc sử dụng ẩn danh đều gặp phải một vấn đề thử thách là việc cân bằng giữa lượng thông tin mất đi và mức độ an toàn về tính riêng tư dữ liệu đạt được [14] Hay nói cách khác, điểm cốt yếu của ẩn danh là mức độ ẩn danh Mức độ ẩn danh càng cao thì càng khó định danh chủ dữ liệu, như vậy sẽ khó sử dụng dữ liệu cho các dịch vụ vì dữ liệu sau khi ẩn danh theo mức này chứa rất ít thông tin, và ngược lại [18] Như vậy, bài toán đặt ra là phải lựa chọn mức độ ẩn danh phù hợp cho từng loại dịch vụ H ình 1-1 cho thấy phương pháp ẩn danh đơn giản dù che dấu được định danh của chủ dữ liệu nhưng lưu vết được hành động của chủ dữ liệu này
Hình 1.1 Truy vết từ tập dữ liệu được ẩn danh đơn giản [18]
Một thách thức khác trong việc ẩn danh cho dữ liệu mở là nguy cơ liên kết giữa các tập dữ liệu từ cùng một nguồn, đã được ẩn danh, có thể dẫn đến rò rỉ thông tin (de-identification sang re-identification) Hình 1-2 cho thấy một ví dụ trong việc có thể
Trang 16suy ra thông tin định danh của chủ dữ liệu khi liên kết hai tập dữ liệu đã được định danh Giải pháp được các tác giả của [18] đề xuất để giải quyết trường hợp này là trước khi công bố dữ liệu, phải kiểm tra lại toàn bộ dữ liệu từ cùng một nguồn đã được công bố trước đó Tại Việt Nam, đa phần các bộ dữ liệu được công khai dưới định dạng PDF sau khi bỏ đi thông tin định danh của chủ dữ liệu, hoặc công khai dưới dạng dữ liệu thống kê, nhưng vẫn không áp dụng phương pháp ẩn danh linh hoạt nào để bảo vệ tính riêng tư cần thiết cho các chủ dữ liệu này Do đó, việc đề xuất một kỹ thuật ẩn danh để bảo vệ tính riêng tư cho dữ liệu mở tại Việt Nam nói riêng là vô cùng cấp thiết
Trong khi các hướng tiếp cận nền tảng nói trên gặp khó khăn trong việc định nghĩa
ra các độ đo về mức độ bảo vệ tính riêng tư, thì một vài hướng tiếp cận mới hơn như anonymity, l-diverse và t-closeness có thể được kết hợp để giải quyết vấn đề này và đó là hướng tiếp cận tôi sẽ nghiên cứu sâu hơn để sử dụng nhằm đạt được sự bảo vệ tính riêng
k-tư cho những nguồn dữ liệu mở của tổ chức trong khi vẫn đảm bảo các yêu cầu về kỹ thuật cho việc phân tích các dữ liệu mở này khi chúng được công bố
Hình 1-2 Tái định danh dữ liệu bằng tấn công liên kết [18]
4 Mục tiêu của đề tài
Các bước khi tiến hành ẩn danh dữ liệu được tóm tắt như hình sau
Trang 17Hinh1.3 Các bước để ẩn danh dữ liệu với họ k-Anonymization Bài toán phân loại thống kê là trường hợp phổ biến cho các dữ liệu cá nhân với mục đích nhằm dự đoán một giá trị mục tiêu dựa trên các tập giá trị thuộc tính khác càng chính xác càng tốt Một mô hình được triển khai là học có giám sát dựa trên tập huấn luyện, với việc các thuộc tính ngày càng nhiều dẫn đến không gian giải pháp rất lớn, nên việc huấn luyện để tính hiệu suất cho từng phương án đầu ra tốn một lượng thời gian là phương án không khả thi về mặt thời gian, vì thế nên công việc xây dựng các bước tiền
xử lý sẽ giúp cải thiện hiệu suất của bài toán phân loại, và một trong số đó là tìm ra một
mô hình đánh giá chất lượng phù hợp nhằm tối ưu hóa các kết quả ẩn danh đầu ra giảm thiểu số lượng của các phương án trong không gian giải pháp, ngoài ra việc so sánh sự ảnh hưởng của các phương pháp đo lường chất lượng khác nhau sẽ góp phần tìm ra kết
quả tốt nhất cho bài toán Đó cũng chính là mục tiêu của luận văn “ XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ CHẤT LƯỢNG CHO DỮ LIỆU ẨN DANH VỀ SỨC KHỎE SỬ DỤNG TRONG BÀI TOÁN PHÂN LOẠI THỐNG KÊ ”
Chương II Các kỹ thuật ẩn danh dữ liệu 1.Các kỹ thuật ẩn danh hóa dữ liệu
Trang 18cứu sinh tiến sĩ của đại học MIT - Hoa Kỳ, đã dùng chỉ $20 đô để mua tập dữ liệu về bản ghi cử tri phổ thông có chứa các định danh rõ ràng (tên, đia chỉ) và dữ liệu nhân khẩu học (mã ZIP và ngày sinh) để tấn công liên kết bộ dữ liệu đang nổi tiếng lúc đó của ngài thống đốc và bỏ phong bì, gởi cho ông ấy bản ghi chứa dữ liệu của ông
Tên Ngày sinh Giới tính Mã bưu điện Bệnh
Bảng 2-1: Việc chỉ khử định danh (de-identify), như tập dữ liệu trên là cắt bỏ các PII (hay ID), thì không thể chống lại được tấn công liên kết lại định danh bằng các định
danh gần đúng (quasi-identifiers)
Điều đó chứng tỏ: chỉ với việc khử định danh thì không thể bảo vệ tính riêng tư của chủ sở hữu bản ghi mà nó còn phụ thuộc vào các định danh gần đúng (Quasi identifier) Từ đó, trong luận án tiến sĩ của mình và các bài nghiên cứu phát triển sau đó, giáo sư Latanya Sweeney đã đưa ra mô hình riêng tư k-anonymity [20]: Cho RT(A1, , An) là một bảng dữ liệu và QIRT là đinh danh gần đúng của nó RT được cho là thỏa mãn tính k-anonymity khi và chỉ khi mỗi chuỗi giá trị trong RT[QIRT] xuất hiện với ít nhất k lần xuất hiện trong RT[QIRT] Theo định nghĩa trên, dữ liệu có thuộc tính k-anonymity nếu bản ghi của một người có trong bản xuất bản không thể được phân biệt với ít nhất k - 1 cá nhân khác có dữ liệu cũng được xuất bản trong cùng bản phát hành Nếu một bản ghi trong bảng có một số giá tri QI, thì có ít nhất k - 1 bản ghi khác cũng có giá tri QI Nói cách khác, kích thước nhóm tương đương tối thiểu (minimum equivalence class size) có cùng giá trị QI ít nhất là k Một bảng dữ liệu thỏa mãn yêu cầu này được gọi là k-anonymity Ta có thể suy luận ra rằng: với giải thiết rằng mỗi bản ghi
Trang 19trong tập dữ liệu đại diện một và chỉ một cá thể tương ứng ngoài đời thực thì xác suất suy luận ra một nạn nhân với một bản ghi cụ thể thông qua QI tối đa là 1
Bảng 2-2: Ví dụ của k-anonymization với k=2 và QI={Race,Birth,Gender,Zip}
Để đạt được mô hình riêng tư này, thì hai tác vụ cơ bản là tổng quát hoá (generalization) và bỏ bớt (suppression) [21] Cho một thuộc tính A, tổng quát hoá cho một thuộc tính là một hàm trên A, f : A→B là một tổng quát hoá Hay
1 1
h
A
cho một hệ thống phân cấp khái quát hóa miền DGH A cho thuộc tính A, nếu v iA i và
h A
Trang 20Một mối quan hệ như vậy ngụ ý sự tồn tại của một hệ thống phân cấp tổng quát hóa giá trị
(value generalization hierarchy -VGH) VGHA cho thuộc tính A Tác vụ tổng quát hoá là
tác vụ quan trọng nhất trong mô hình này Nó chia cách hiện thực mô hình này thành hai loại: chiến lược địa phương (local strategy) hay chiến lược toàn cục (global strategy) Giả
sử ta có tập dữ liệu như sau:
Mã bưu điện Tuổi
Mã bưu điện Tuổi
4217 30-34
4217 30-34
1742 30-34
1742 30-34 Tổng quát hóa địa phương (Local recoding) không có ràng buộc đó: nó cho phép chọn một khái quát hóa khác nhau cho mỗi bản ghi Giá trị 34 trong cột tuổi có thể không
bị ảnh hưởng đối với một bản ghi và được tổng quát hóa cho bản ghi khác:
Mã bưu điện Tuổi
1742 30-34
1742 30-34 Tổng quát hóa toàn cục thường giúp phân tích dữ liệu trên dữ liệu tổng quát dễ dàng hơn Tiêu biểu cho chiến lược này có các hệ thống và giải thuật thường được làm baseline để đánh giá: Datafly (1997) [21], Samarati (2001) [22], -Argus (1996) [23], MinGen (2002) [20], Incognito (2005) [24]; trong khi tổng quát hóa cục bộ cho phép giữ nhiều lợi ích hơn với chi phí biểu diễn dữ liệu phức tạp hơn một chút Tiêu biểu cho chiến lược này là Mondrian (2006) [25] Trong thực tế, các chương trình thường xây dựng cây
Trang 21phân cấp tổng quát hoá (generalization hierarchy) để lựa chọn và tận dụng độ hữu dụng Tuy nhiên, không phải lúc nào tập dữ liệu cũng có thể tổng quát hoá được Khi đó ta cần tác vụ bỏ bớt Ví dụ đối với tập dữ liệu sau:
Mã bưu điện Tuổi
kể độ hữu dụng của dữ liệu kết quả Vì vậy, một giải pháp đơn giản để đối phó với các giá trị ngoại lệ như vậy chỉ đơn giản là xóa chúng khỏi dữ liệu Sử dụng cả tổng quát hóa và bỏ bớt trong ví dụ này có thể dẫn đến một bảng ẩn danh với k = 2:
Mã bưu điện Tuổi
4217 30-39
4217 30-39 1000-1999 75-79 1000-1999 75-79 Bảng 2-3 Tập dữ liệu khi thỏa mô hình k-anonymity khi sử dụng cả hai phép tổng quát
hóa (generalization) và bỏ bớt(suppression)
Trang 22Sử dụng phương pháp này, thường có ít bản ghi trong bảng được chuyển đổi hơn
so với bản gốc Do đó tập dữ liệu được xuất bản sẽ nhỏ hơn so với tập gốc Trên các tập
dữ liệu lớn, cho phép một tỷ lệ nhỏ các bản ghi bi loại bỏ thường cho phép kết quả được
ẩn danh mà không yêu cầu quá nhiều phép tổng quát hoá Tuy nhiên, đây cũng là một thách thức trong quá trình hiện thực giải thuật thoả mãn mô hình này vì nếu làm không tốt thì sẽ làm tổn hao, mất đi một phần lớn dữ liệu, giảm độ hữu dụng của tập dữ liệu Một tập dữ liệu khi được thoả được mô hình k-anonymity sẽ giải quyết các cuộc tấn công liên kết bản ghi: Released Table
Race Birth Gender Zip Problem T1 Black 1965 m 0214* Short breath T2 Black 1965 m 0214* Chest pain T3 Black 1905 f 0213* hypertension T4 Black 1965 f 0213* hypertension T5 Black 1964 f 0213* obersity T6 Black 1964 f 0213* Chest pain
T10 White 1967 m 0213* Chest pain T11 White 1967 m 0213* Chest pain External data source
Name Birth Gender Zip Race
Andre 1964 m 02135 White
Beth 1964 f 55410 Black Hình 2-6 Bằng việc tấn công liên kết hai bảng, kẻ địch vẫn không suy ra được gì
Trang 23Tuy vậy, nếu SA của các bản ghi là đồng nhất thì mô hình riêng tư này bi phá vỡ Cuộc tấn công này được gọi là tấn công đồng nhất (homogeneity attack) Ví dụ, Alice và Bob là hàng xóm Một ngày nọ, Bob ngã bệnh và được xe cứu thương đưa đến bệnh viện Nhìn thấy xe cứu thương, Alice bắt đầu đi tìm hiểu về căn bệnh mà Bob đang mắc phải Alice phát hiện ra bảng ẩn danh k-anonymity với k = 4 của hồ sơ bệnh nhân nội trú hiện tại được xuất bản bởi bệnh viện (Bảng 2.7), và cô biết rằng một trong các bản ghi trong bảng này chứa dữ liệu Bob Alice là hàng xóm của Bob nên cô biết rằng Bob là một người
31 tuổi, quốc tich Mỹ sống và có mã bưu điện là 13053 Dựa vào tập dữ liệu đó, Alice biết rằng số bản ghi của Bob là 9,10,11 hoặc 12 Với EC đó, tất cả những bệnh nhân đó đều có cùng một tình trạng y tế (ung thư), và do đó Alice có thể dễ dàng đưa ra kết luận rằng Bob bị ung thư [19]
Trang 24(background knowledge attack) Ví dụ, Alice có một người bạn tên là Masayoshi, người được đưa vào cùng bệnh viện với Bob, và hồ sơ bệnh nhân cũng xuất hiện trong bảng trong Bảng 2.7 Alice biết rằng Masayoshi là một đàn ông Nhật Bản 21 tuổi, hiện đang sống ở mã bưu điện 13068 Dựa trên thông tin này, Alice biết rằng thông tin của Masayoshi có trong hồ sơ số 1,2,3 hoặc 4 Không có thêm thông tin, Alice không chắc liệu Masayoshi có bi bệnh truyền nhiễm hay bị bệnh tim hay không Tuy nhiên, theo thống kê dân số, chúng ta biết rằng người Nhật có tỷ lệ mắc bệnh tim rất thấp Do đó Alice kết luận với sự chắc chắn là Masayoshi bi bệnh truyền nhiễm [19]
Bên cạnh đó, một điểm yếu cố hữu mà các giải thuật hiện thực mô hình riêng tư này vướng phải là khi số chiều dữ liệu tăng lên thì lượng dữ liệu cần để thoả mãn giải thuật tăng theo hàm mũ [26] Ta có thể tổng kết những điểm sau về mô hình này:
- Khi số chiều càng lớn thì lượng đinh danh gần đúng càng nhiều dẫn đến xác suất bi tấn công liên kết càng cao
- Chọn k bằng bao nhiêu? Đây là một câu hỏi khó vì thực tế với từng tập dữ liệu khác nhau thì chọn k sẽ rất khác nhau Việc này đòi hỏi phải phân tích kỹ lưỡng giữa độ hữu
Trang 25dụng - rủi ro (utility - risk) Ví dụ, một kinh nghiệm được đưa ra là nên chọn k từ 5 đến 15 đối với tập dữ liệu nhạy cảm cao như là dữ liệu y tế nhưng điều này là khá mơ hồ Chọn k tối ưu chịu ảnh hưởng từ nhiều lý thuyết tuỳ theo mục đích và quyết đinh sử dụng dữ liệu khác nhau của người dùng
1.2 L-diversity
Câu chuyện về cuộc tấn công thực tế của Latanya Sweeney và mô hình của bà đề xuất chưa dừng ở đó mà nó chỉ là một cột mốc quan trọng đánh dấu quyền riêng tư của con người liên quan trực tiếp đến quyền riêng tư trên Internet của người ấy Trong quá trình nghiên cứu thì các nhà khoa học đã phát hiện ra điểm yếu của mô hình này ở cuộc
tấn công đồng nhất l-diversity là mô hình riêng tư được đưa ra để giải quyết những nguy
cơ từ cuộc tấn công này Mô hình l-diversity [19] đòi hỏi các EC phải chứa ít nhất l giá tri
nhạy cảm được "biểu diễn tốt"
Bảng 2-8 Một tập dữ liệu thỏa mãn mô hình 1-diversity
Có thể có nhiều cách hiểu khác nhau về thế nào là "biểu diễn tốt" Cách đơn giản
nhất là đảm bảo rằng có ít nhất l giá tri riêng biệt cho thuộc tính nhạy cảm trong mỗi EC
Mô hình này có tên gọi là distinct l-diversity (hay còn có tên khác là p-sensitive
k-anonymity[27]) Mô hình này tự động thoả mãn mô hình k-anonymization, khi k = l vì
mỗi EC đều chứa ít nhất l bản ghi Tuy nhiên, distinct l-diversity không thể ngăn chặn các
Trang 26cuộc tấn công suy luận xác suất (probabilistic inference attacks) vì một số giá trị nhạy cảm thường xảy ra thường xuyên hơn các nhóm khác trong một nhóm, cho phép người tấn công kết luận rằng một bản ghi trong nhóm rất có khả năng có các giá trị đó Ví dụ,
bệnh cúm thì phổ biến hơn HIV Điều này thúc đẩy hai khái niệm mạnh mẽ hơn về
l-diversity sau Một bảng dữ liệu được gọi là entropy l-diverse nếu với mỗi EC:
Bảng 2-9 Dữ liệu minh họa entropy l-diverse
Với bảng trên ta có EC1 <Giáo viên, nam, [35-40> thì entropy là:
Trang 27Vì vậy bảng trên thỏa mãn entropy ldeversity l( 1.8) Một hạn chế của entropy
l-diversity là nó không cung cấp phép đo rủi ro dựa trên xác suất, có xu hướng trực quan hơn đối với người giữ dữ liệu Ví dụ ở bảng trên entropy bằng 1.8 không mang ý nghĩa mức độ rủi ro người tấn công có xác suất 75% thành công để suy ra HIV (trong đó có 3 trong số 4 chủ sở hữu hồ sơ trong nhóm EC bị nhiễm HIV) Ngoài ra, rất khó để chỉ định các mức bảo vệ khác nhau dựa trên độ nhạy và tần số khác nhau của các giá trị nhạy cảm
Một cách tiếp cận khác của l-diversity là đệ quy cũng của cùng tác giả A
Machanavajjhala, D Kifer, J Gehrke, và M Venkitasubramaniam đưa ra [19]:
Cho c0 là một hằng số và S là SA Cho S1, ,S là các giá trị của S xuất hiện m
trong một EC Cho f1, , f là tần số tương ứng của chúng Cho f m (1),…,f(m) là những số được sắp xếp theo thứ tự không tăng Một bảng là recursive (c, l)-
diverse nếu mọi nhóm QID thỏa mãn (1) ()
m
i l
c f i f
với một vài hằng số c
Điểm cốt yếu của mô hình recursive (c, l)-diversity là nó đảm bảo rằng giá trị
thường xuyên nhất không xuất hiện quá thường xuyên và các giá trị ít thường xuyên hơn
không xuất hiện quá hiếm Một EC là một recursive (c, l)-diverse nếu tần số của giá trị
nhạy cảm thường xuyên nhất nhỏ hơn tổng tần số của m l 1 giá trị nhạy cảm ít thường xuyên nhất nhân với một hằng số c do nhà xuất bản chỉ định Khi người tấn công loại trừ một số giá trị nhạy cảm có thể có của nạn nhân bằng cách áp dụng kiến thức nền, bất đẳng thức vẫn được giữ cho các giá trị còn lại; do đó, những cái còn lại vẫn khó suy luận Một
bảng được coi là có tính (c, l)-diversity nếu tất cả các EC của nó có tính (c, l)-diversity Việc khởi tạo này ít hạn chế hơn so với entropy l-diversity vì với một c lớn hơn, là một
tham số độc lập với tần số của các giá tri nhạy cảm, có thể làm giảm sự hạn chế
Một quan điểm phổ biến trong các tài liệu là l-diversity nên thay thế
k-anonymization Trong thực tế, nó phụ thuộc vào kich bản xuất bản dữ liệu Thông thường tấn công liên kết liên quan đến dữ liệu từ hai nguồn, một bảng T1 chứa tên và danh tính của các cá nhân (ví dụ: danh sách cử tri) và một bảng T2 chứa các thuộc tính nhạy cảm (ví dụ: dữ liệu y tế) và cả hai đều chứa thuộc tính QID k-anonymization phù hợp để ẩn
Trang 28danh T1 và l-diversity phù hợp để ẩn danh T2 Theo nghĩa này, hai khái niệm riêng tư này
không phải là đối thủ cạnh tranh, mà là các công cụ khác nhau được sử dụng trong các tình huống khác nhau
Tuy nhiên, l-diversity có giới hạn của việc mặc nhiên giả định rằng mỗi thuộc tính
nhạy cảm nhận các giá trị phân bố đều trên miền của nó Trong trường hợp tần số của các giá tri nhạy cảm không giống nhau, việc đạt được sự đa dạng có thể gây ra sự mất mát tiện ích dữ liệu lớn Xét một ví dụ như sau ta có một bảng kết quả xét nghiệm HIV(âm tính và dương tính) có 10000 hồ sơ, với 99% trong số đó là âm tính và chỉ 1% là dương tính, hai giá trị có độ nhạy rất khác nhau Người ta sẽ không phiền khi được biết là được kiểm tra âm tính, bởi vì sau đó một người giống như 99% dân số, nhưng người ta sẽ không muốn ai biết được khi kết quả là dương tính Trong trường hợp này, tính đa dạng 2
là không cần thiết đối với một lớp tương đương không tồn tại chỉ có hồ sơ là tiêu cực Để
có một bảng 2 đa dạng riêng biệt, chỉ có thể có tối đa 10000 × 1% = 100 lớp tương đương(EC) và mất thông tin sẽ lớn Cũng lưu ý rằng vì entropy của thuộc tính nhạy cảm
trong bảng tổng thể là rất nhỏ, nếu người ta sử dụng đa dạng entropy l, l phải được đặt
thành một giá trị nhỏ [16]
Cuộc tấn công trên là cuộc tấn công suy luận xác suất Một trường hợp cụ thể hơn cuộc tấn công này là cuộc tấn công xiên Tức là khi tập dữ liệu bi quá xiên (skewness) Cũng như ví dụ xét nghiệm HIV ở trên giả sử ta có một EC với 49 hồ sơ dương tính và 1
hồ sơ âm tính, EC thỏa mãn 2-diversity nhưng những người trong lớp này phải đối mặt với khả năng âm tính rất cao(98%) so với 1 % của toàn bộ hồ sơ đây cũng là một vi phạm
rất nghiêm trọng về tính riêng tư mà l-diversity mắc phải
Bên cạnh đó, đôi khi SA trở nên mơ hồ và l-diversity thì không xem xét ngữ nghĩa của SA Xét bảng sau:
Mã bưu điện Tuối Bệnh 42** 20-29 AIDS 42** 20-29 Viêm gan B 17** 30-39 Đau dạ dày 17** 30-39 Cảm
Trang 29Xét EC1 <42**,20-29>, ta thấy tuy rằng nó thoả mãn l-diversity với l = 2 mà người tấn công không thể đưa ra kết luận cụ thể nạn nhân bị mắc bệnh gì (AIDS hay bệnh viêm gan B) nhưng người tấn công hoàn toàn có thể đưa ra kết luận rằng nạn nhân bị mắc các bệnh liên quan đến truyền nhiễm qua đường tình dục Kết luận này đương nhiên là đúng và vi phạm quyền riêng tư cá nhân Cuộc tấn công này là tấn công tương tự
3-diversity patient table Zip code Age Salary Disease
467** 2* 20k Gastric Ulcer 467** 2* 30k Gastritis 467** 2* 40k Stomach cancer 4790* >40 50k Gastritis
4790* >40 100k Flu 4790* >40 70k Bronchitis
Hình 2- 10 Tấn công tương tự phá vỡ mô hình l-diversity: kết luận Bob có lương thấp và
mắc bệnh tiêu hoá
Ta có thể tổng kết những điểm sau về mô hình này
Những điểm mạnh:
- Giải quyết được lớp lớn các cuộc tấn công lộ thành viên
- Giải quyết được lớp lớn các cuộc tấn công tiết lộ thuộc tính nhạy cảm
- Giải quyết được lớp lớn các cuộc tấn công tiết lộ danh tính
- Giải quyết được tấn công đồng nhất - điểm hạn chế của mô hình k-anonymization
Những điểm hạn chế:
- Tấn công suy luận xác suất: dựa vào đặt điểm phân bố không đồng điều của SA, người tấn công có thể khai thác được tính riêng tư của chủ bản ghi Tiêu biểu là tấn công xiên
Để giải quyết nguy cơ này có thể dùng kết hợp với mô hình t-closessness
- Mô hình l-diversity không xem xét ngữ nghĩa của các giá tri nhạy cảm Điều đó thể hiện qua cuộc tấn công tương tự
- Thực tế khi áp dụng các giải thuật cho mô hình này thì độ hữu dụng giảm đáng kể như phân tích ở trên, phải bỏ bớt (supression) đi nhiều bản ghi
Trang 30- Tấn công kiến thức nền vẫn là điểm hạn chế cố hữu của mô hình này
- Khi số chiều càng lớn thì lượng đinh danh gần đúng càng nhiều dẫn đến xác suất bi tấn công liên kết càng cao
1.3 T-closeness
Trong hai phần trước, ta đã lần lượt đi qua hai mô hình riêng tư dữ liệu nổi tiếng k- anonymization cùng l-diversity trong việc giải quyết nguy cơ về cuộc tấn công đồng nhất Nhưng một lần nữa, lĩnh vực riêng tư dữ liệu lại cho ta thấy chỉ giải quyết một cuộc tấn công đơn thuần như vậy là chưa đủ Các nhà khoa học Ninghui Li, Tiancheng Li và Suresh Venkatasubramanian đã đề xuất ra mô hình t-closeness mang hơi hướng nguyên tắc không thông tin áp dụng lên đối với các SA để giải quyết các cuộc tấn công suy luận xác suất, cụ thể hơn là tấn công xiên [28]
(Nguyên tắc t-closeness) Một lớp tương đương được cho là có t-closeness nếu khoảng
cách giữa phân phối thuộc tính nhạy cảm trong lớp này và phân phối thuộc tính trong toàn
bộ bảng không quá ngưỡng t Một bảng được cho là có độ gần t nếu tất cả các lớp tương đương thoả t-closeness t-closenes sử dụng hàm Earth Mover distance (EMD) để đo sự
"gần gũi" giữa hai phân phối của các giá tri nhạy cảm và đòi hỏi sự gần gũi phải nằm trong ngưỡng t Ngưỡng t đưa ra giới hạn trên về sự khác biệt giữa phân phối các giá tri thuộc tính nhạy cảm trong một nhóm ẩn danh so với sự phân phối toàn cục của các giá tri (Charu Aggarwal và Philip S Yu [29]) Đối với các thuộc tính số, sử dụng ẩn danh với t-closeness có hiệu quả hơn nhiều phương pháp khai thác dữ liệu bảo vệ quyền riêng tư khác
Trang 31đe doạ khác, rất đơn giản và dễ thấy nhưng những mô hình riêng tư để giải quyết nó lại xuất hiện sau Đó là mối đe doạ đến từ việc trong một số trường hợp, sự hiện diện (hoặc vắng mặt) của bản ghi nạn nhân trong tập dữ liệu đã tiết lộ thông tin nhạy cảm của nạn nhân Ví dụ, ở hình 2.12 ta có một bảng chung công khai về dữ liệu cá nhân đã được ẩn danh hóa từ bảng P (P*3), một bác sỹ muốn chia sẻ một bảng con T*3 là tổng quát hóa của bảng T Việc chia sẻ này sẽ tạo ra một xác suất xuất hiện của các EC giữa hai bảng đươc định nghĩa trong khoảng (min,max) với ví dụ ở dưới ta có: T*3: (1/2;2/3) present T Trong
ví dụ dưới việc công khai bảng T*3 dễ vị phạm đến tính riêng tư dễ nhận thấy các hồ sơ sẽ
bị tấn công liên kết và bằng các QI các hồ sơ trong một EC của T*3 đều có chung giá trị Sen, để giải quyết vấn đề này một mô hình dữ liệu -Presence được M Ercan Nergiz, M Atzori, và C W Clifton [30] đề xuất để giải quyết mối đe doạ [31]:
( Presence) Cho một bảng công khai bên ngoài P và một bảng riêng T, định nghĩa rằng Presence giữ cho một khái quát T* của T với