một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng tư
Trang 1Một số tìm hiểu
về khai phá dữ liệu bảo vệ tính riêng tư
Hà Quang Thụy Phòng TN Công nghệ tri thức, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Ngày 06 tháng 11 năm 2012
Nội dung
Đặt vấn đề Xuất xứ Khái niệm Tình hình nghiên cứu về PPDM Một số tiếp cận và thuật toán PPDM Một số tiếp cận
Thuật toán PPDM cho một vài bài toán
Xu hướng nghiên cứu PPDM
Tiêu đề báo cáo:
“khai phá dữ liệu”
“tính riêng tư” và “bảo vệ tính riêng tư”
“một số tìm hiểu”
November 7, 2012
Trang 21 Đặt vấn đề
• Nội dung
Sơ bộ về Khai phá dữ liệu
Sơ bộ về khai phá dữ liệu bảo vệ tính riêng tư
Tình hình nghiên cứu về tính riêng tư
1a Sơ bộ về khai phá dữ liệu
dữ liệu” “the age of Big Data” [SF11]
Mô hình quá trình khai phá dữ liệu được cải tiến, phù hợp với mục tiêu kinh doanh và mục tiêu phát triển tổ chức Một số mô hình thiên hướng công nghệ.
November 7, 2012
[FPS96] Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996) From
Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge
Discovery and Data Mining 1996: 1-34.
[SF11] Gregory Piatetsky-Shapiro, Usama Fayyad (2011) An Introduction to SIGKDD
and A Reflection on the Term ‘Data Mining’, KDD Newsletter, July 2011, 13
Trang 3(1):102-Quá trình KPDL [FPS96]
Quá trình KPDL [HK06]
[HK06] J Han and M Kamber (2006) Data Mining-Concepts and Techniques (2 nd
edition), Morgan Kaufmann, 2006.
Tiếng Việt “khai mỏ ?”
Trang 4Chuẩn công nghiệp CRISP-DM, 2000
[CCKKR00] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas
Reinartz, Colin Shearer and Rüdiger Wirth (2000) CRISP-DM 1.0:
Step-by-step data mining guide, The CRISP-DM consortium, August 2000.
Mô hình quá trình C-KDD, 2010
[Pan10] Ding Pan (2010) An Integrative Framework for Continuous Knowledge
Discovery, Journal of Convergence Information Technology (JCIT), 5 (3):
Trang 546-Khai phá dữ liệu quá trình [IEEE-TFPM12]
[IEEE-TFPM] The IEEE Task Force on Process Mining (2012) Process Mining Manifesto, http://www.win.tue.nl/ieeetfpm/downloads/Process%20Mining%20Manifesto.pdf
KPDL : tính liên ngành [HK06]
November 7, 2012
Trang 6KPDL : lĩnh vực hấp dẫn
Data Mining và Machine Learning: Tốp thuật ngữ mọi lĩnh vực nghiên cứu !
http://www.researcherid.com/Home.action?returnCode=ROUTER.Unauthorized&SrcApp=CR&Init=Yes
Số bài báo với tiêu đề chứa “Data Mining” cơng bố hàng năm theo Google Scholar
* KDD-2011 (San Diego, CA, USA): hơn 1.100 người tham gia từ khắp nơi trên thế giới [SF11]
ACM-SIGKDD : Tổ chức nghề KDD [SF11]
November 7, 2012
The Association for Computing Machinery's Special Interest Group on Knowledge
Discovery and Data Mining.http://www.sigkdd.org/index.php
Knowledge Discovery in Data (KDD) đầu tiên, Gregory Piatetsky-Shapiro, 1989;
KDD tồn cầu đầu tiên, Usama Fayyad và Ramasamy Uthurusamy, 1998
2006: Cơng bố chương trình đào tạo về KDD
Giải thưởng thường niên:The Innovation Award và the Service Award : “Nobel”
prizes of data mining [SF11] SIGKDD Doctoral Dissertation Award (Từ 2008)
• Một số nhà khoa học
Usama M Fayyad:Chief Data Officer and Executive Vice President, Yahoo! Inc.,
Chair, ACM SIGKDD Gregory Piatetsky-Shapiro:the President ofKDnuggets,
Former Chair, ACM SIGKDD ,
The Innovation Award: Dr J Ross Quinlan, Dr Christos Faloutsos, Dr Padhraic
Smyth, Dr Raghu Ramakrishnan, Dr Usama M Fayyad, Dr Ramakrishnan
Srikant, Dr Leo Breiman, Dr Jiawei Han, Dr Heikki Manilla, Dr Jerome H.
Friedman, và Dr Rakesh Agrawal
The Service Award: Dr Bharat Rao, Prof Osmar R Zạane, Dr Sunita
Sarawagi, Dr Robert Grossman, Dr Won Kim, The Weka team, Dr Xindong Wu,
Dr Usama Fayyad, Dr Ramasamy Uthurusamy, và Dr Gregory Shapiro
Trang 7Piatetsky-1.b Khai phá dữ liệu bảo vệ tính riêng tư
• Nhu cầu bảo vệ tính riêng tư [AS00]
Hầu hết người sử dụng web quan tâm bảo vệ tính riêng tư
Theo thống kê
17% tuyệt đối không cung cấp thông tin riêng tư
56% cung cấp thông tin riêng tư nếu có biện pháp bảo vệ
27% sẵn sàng cung cấp thông tin riêng tư
và
86% cho rằng cung cấp thông tin cá nhân để nhận một lợi ích nào đó
là sự lựa chọn cá nhân
82% coi trọng chính sách bào vệ tính riêng tư trong hệ thống
Mức độ bảo mật các thuộc tính riêng tư khác nhau (họ tên, nghề nghiệp, lứa tuổi, sở thích, nơi cư trú, vị trí hiện tại…) là khác nhau
[AS00] Rakesh Agrawal, Ramakrishnan Srikant (2000) Privacy-Preserving Data
Mining, SIGMOD Conference 2000: 439-450
( 525 chỉ dẫn – ACM Digital Labrary , 1910 chỉ dẫn- Google Scholar )
KPDL vi phạm tính riêng tư: Ví dụNovember 7, 2012
• Gregory Piatetsky-Shapiro [Shap95]
Phát hiện mẫu mua hàng ⇒ gửi quảng cáo quá mức tới khách hàng ⇒ phiền toái cho khách hàng
Hãng Lotus: Kế hoạch bán đĩa CD-ROM chứa dữ liệu 100 triệu hộ gia đình (120 triệu khách hàng) tạo ra bão phản đối.
• A Divanis & V S Verykios [DV09], D O’Leary [Leary95]
Danh tính cá nhân được chỉ dẫn từ dữ liệu hoặc tri thức liên quan tới cá nhân bị tiết lộ cho bên thứ ba không tin cậy Ví dụ, tri thức về nhóm người có nguy cơ cao về bệnh tật có thể dẫn tới tình huống người quản
lý có hành động buộc thôi việc một nhân viên có khả năng thuộc nhóm tương ứng với mẫu nói trên
Bí mật thương mại nhạy cảm của doanh nghiệp bị tiết lộ từ dữ liệu hoặc tri thức tạo lợi thế cho đối thủ cạnh tranh
[Shap95] Gregory Piatetsky-Shapiro (1995) Guidelines for Eating of the Tree of Knowledge,
or Knowledge Discovery in Databases vs Personal Privacy, Experts Annual Index, 10(2): 46-47.
[DV09] Aris Gkoulalas-Divanis, Vassilios S Verykios (2009) An overview of privacy
preserving data mining ACM Crossroads 15(4) (2009)
[Leary95] Daniel O'Leary (1995) Some Privacy Issues in Knowledge Discovery: OECD
Personal Privacy Guidelines, Experts Annual Index, 10(2): 48-52.
Trang 8KPDL vi phạm tính riêng tư: Ví dụ (tiếp)
• Dự án Total Information Awareness (TIA) của Bộ Quốc phòng Mỹ có khai phá dữ liệu
Phản đối của the ACM U.S Public Policy Committee (USACM) : TIA có thể tạo ra rủi ro an ninh (Security Risks), rủi ro riêng tư (Privacy Risks), rủi ro kinh tế (Economic Risks), rủi ro cá nhân (Personal Risks)
Dự luật S.188/2003 nghiêm cấm khai phá dữ liệu được đề xuất
Một dự án PH tri thức lớn đòi hỏi nhiều công nghệ mà công nghệ KPDL chỉ là một trong số đó
Công nghệ KPDL dựa trên nền tảng lâu đời phân tích thống kê và trí tuệ nhân tạo song chưa hoàn hảo Tính không hoàn hảo của mọi công nghệ.
Để đảm bảo riêng tư thì cần phát triển nghiên cứu và triển khai ứng dụng
về KPDL liên quan (đặc biệt là KPDL bảo mật dữ liệu và bảo vệ tính
riêng tư: data security and privacy-preserving data mining)
[Kim03] Won Kim (2003) “Data Mining” Is NOT Against Civil Liberties, ACM Special
Interest Group on Knowledge Discovery and Data Mining,
www.acm.org/sigkdd/, June 30, 2003.
Quản lý danh tiếngNovember 7, 2012
• Quản lý danh tiếng (Reputation Management)
quan trọng
Hệ thống quản lý danh tiếng trực tuyến trên Internet
Optima)
Hệ thống tìm kiếm thực thể
oNhà khoa học: ví dụ DBLP ( http://www.informatik.uni-trier.de/~ley/db/ ), ArnetMiner ( http://www.arnetminer.org/ )
oNgười và doanh nghiệp: ví dụ zoominfo ( http://www.zoominfo.com/ ), iSearch ( http://www.isearch.com )
Xếp hạng trường đại học
Trang 9DBLP: trier.de/~ley/pers/hd/n/Nguyen:Hung_Son.html
http://www.informatik.uni-Cung cấp thông tin cá nhân: Quảng bá thông tin về nhà khoa học
ArnetMiner: nguyen-670591.html
http://arnetminer.org/person/hung-son-November 7, 2012
Quáng bá thông tin có cung cấp tiểu sử cá nhân song đảm bảo tính riêng tư
Trang 10Quản lý danh tiếng và bảo vệ tính riêng tư
• Quản lý danh tiếng và Bảo vệ tính riêng tư
Quảng bá danh tiếng rộng đảm bảo tránh tiết lộ riêng tư cao
Việt Nam: MC Đan Lê
“Thông tin báo chí và bí mật đời tư: Ranh giới mong manh”
tu-Ranh-gioi-mong-manh-tpp.html
http://www.tienphong.vn/Phap-Luat/598230/Thong-tin-bao-chi-va-bi-mat-doi-“Tham luận của MC Đan Lê về việc báo chí xâm hại đời tư”
viec-bao-chi-xam-hai-doi-tu-tpp.html
http://www.tienphong.vn/van-nghe/598438/Tham-luan-cua-MC-Dan-Le-ve-“Ranh giới mỏng manh”:
Các quy định pháp luật: Cần chi tiết quy định tình huống vi phạm khi tiết lộriêng tư bất hợp pháp
• Daniel O'Leary [Leary95]
Nội dung hướng dẫn của OECD về dữ liệu riêng tư
Liên hệ với phát hiện tri thức
1 Nguyên tắc giới hạn thu thập dữ liệu
Dữ liệu nên được thu được hợp pháp và công bằng
Dữ liệu rất nhạy cảm không nên nắm bắt
2 Nguyên tắc chất lượng dữ liệu
Dữ liệu liên quan đến mục đích dùng, chính xác, đầy đủ & cập nhật
Biện pháp thích hợp cần được thi hành để đảm bảo nguyên tắc này
3 Nguyên tắc đặc tả mục đích sử dụng dữ liệu
Mục đích dùng dữ liệu cần được xác định rõ ràng
Dữ liệu cần bị hủy nếu chúng không còn phục vụ mục đích
Trang 11Tám (8) nguyên tắc OECD (tiếp) [Leary95]
4 Nguyên tắc giới hạn sử dụng dữ liệu
Dùng dữ liệu cho các mục đích khác so với đặc tả chỉ có thể được tiếnhành khi có đồng ý của đối tượng dữ liệu hoặc của cơ quan pháp luật
5 Nguyên tắc bảo vệ dữ liệu
Cần có thủ tục bảo vệ chống lại sự mất mát, hư hỏng, tiêu hủy, hoặc sửdụng lạm dụng dữ liệu
6 Nguyên tắc mở
Cần thông báo mở về việc thu thập, lưu trữ và sử dụng dữ liệu cá nhân
Phát hiện tri thức từ dữ liệu cần được tuyên bố cho đối tượng dữ liệu
Nguyên tắc mở: kiểm soát hoạt động phát hiện tri thức không phù hợp
7 Nguyên tắc sự tham gia của cá nhân
Đối tượng DL có quyền truy cập và phản đối dữ liệu liên quan đến họ
8 Nguyên tắc trách nhiệm thi hành
Cần một cơ chế thi hành (bộ điều khiển) chịu trách nhiệm thi hành tất cảcác nguyên tắc trên đây
Khái niệm về PPDM
November 7, 2012
• Khai phá dữ liệu bảo vệ tính riêng tư
Privacy-Preserving Data Mining (PPDM): “Khai phá dữ liệu bảo vệ tính riêng tư”
Khái quát [VBFPS04…] “KPDL trong đó thuật toán khai phá
dữ liệu phải giải quyết tác dụng phụ nảy sinh từ dữ liệu riêng tư” (KPDL BVTRT <> An toàn thông tin)
Cụ thể hơn [DV09…]: “KPDL có liên quan với các vấn đề riêng tư quan hệ quá trình khai phá dữ liệu, đặc biệt:
(a) bảo vệ tính riêng tư trong phiên bản dữ liệu
(b) giữ gìn tính riêng tư khi một tập các bên đối tác phối hợp KPDL
(c) bảo vệ các mẫu tri thức nhạy cảm có nguồn gốc từ việc áp dụng các công cụ khai phá dữ liệu”.
[VBFPS04] Verykios V S., Bertino E., Fovino I N., Provenza L P., Saygin Y., Theodoridis Y
(2004) State-of-the-art in privacy preserving data mining, ACM SIGMOD Record, 33
(1):50-57, 2004.
[AY08] Charu C Aggarwal, Philip S Yu (2008) Privacy-Preserving Data Mining: A Survey,
Handbook of Database Security 2008: 431-460
Trang 12Nghiên cứu về PPDM
• 1995: Tạp chí IEEE Expert tổ chức một diễn đàn nhỏ về PPDM
Gregory Piatetsky-Shapiro [Shap95] và Daniel O'Leary [Leary95] nêu một số luận điểm có tính khái quát
• 2008: Charu C Aggarwal, Philip S Yu (Eds., 2008) Privacy-Preserving
Data Mining - Models and Algorithms, Advances in Database Systems Vol 34 Springer 2008, ISBN 978-0-387-70991-8.
Số bài báo với tiêu đề chứa “Privacy-Preserving Data Mining” (Data Mining)
công bố hàng năm theo Google Scholar (10/2012)
Các mô hình riêng tư khác nhau
Tồn tại kỹ thuật tạo ra các mô hình KPDL không tiết lộ thông tin ?
Ràng buộc pháp luật ? Không cấm chia sẻ dữ liệu mà chỉ cần nó được bảo vệ
[Clifton11] Chris Clifton (2011) Privacy-Preserving Data Mining at 10: What’s Next?, Keynote
at the Ninth Australasian Data Mining Conference (AusDM 2011), Ballarat, Australia,
Trang 132 Mô hình và thuật toán PPDM [ Yasien07]
• Ba mức PPDM [ Yasien07 ]: mỗi mức ⇔ lớp thuật toán
Mức dữ liệu: Biến đổi dữ liệu
Mức thuật toán KPDL: Tích hợp giao thức PP trong thuật toán DM
Mức lực chọn và trình diễn tri thức kết quả: Đánh giá
[Yasien07] Ahmed HajYasien (2007) Preserving Privacy in Association Rule Mining,
PhD Thesis, Griffith University (Australia), 2007.
• Mô hình tin cậy bên thứ ba (Trust Third Party Mode)
Tin và nhờ cậy hoàn toàn vào một bên thứ ba
Mô hình lý tưởng
Bên thứ ba: thủ lĩnh / bên thứ ba khác
• Mô hình nửa tin cậy ( Semi-honest Model)
Dựa trên giao thức truyền thông tin của thuật toán KPDL
Mỗi bên tham gia
thi hành bảo vệ tính riêng tư theo giao thức
tự do sử dụng dữ liệu đầu vào nhận được (dữ liệu này đã được biến đổi tại nơi cung cấp)
Mô hình phổ biến hiện thời
November 7, 2012
[Vaidya04] Jaideep Shrikant Vaidya (2004) Privacy Preserving Data Mining over Vertically
Partitioned Data, PhD Thesis, Purdue University.
Trang 14Mô hình PPDM (tiếp) [ Vaidya04 ]
• Mô hình “độc hại” (Malicious Model)
Mỗi bên tự tối đa lợi ích cá nhân và tự chịu trách nhiệm
Cho phép đi chệch giao thức
Từ chối tham gia ngay từ lần gọi đầu tiên
Có thể tự thay đổi đầu vào được cung cấp
Hủy bỏ tham gia sớm hơn dự kiến
Xây dựng giao thức là khó khăn
• Mô hình khuyến khích tương thích ( Incentive Compatibility )
Giao thức khuyến khích tương thích
Mỗi bên tối đa lợi ích nếu làm theo giao thức mô tả trước
Phát hiện bên gian lận hoặc bên chịu thiệt thòi
• Phân tán dữ liệu
Phân tán dọc – ngang – cả dọc và ngang
Bảo vệ tính riêng tư cả tác nhân cung cấp dữ liệu lẫn tác nhân KPDL
Nội dung chính: Xây dựng giao thức bảo vệ tính riêng tư tại các bên và khi kết hợp
• Biến đổi dữ liệu
Dùng sơ đồ sửa đổi dữ liệu từ CSDL nguồn
Sơ đồ sửa đổi dữ liệu cần phù hợp với chính sách bảo mật
dữ liệu của tổ chức quản lý dữ liệu
gây nhiễu (perturbation): 1 ⇔ 0 hoặc nhiễu khác
chặn (blocking): thay giá trị thuộc tính bằng ký hiệu kiểu “?”
tổng hợp/hợp nhất: nhóm một số giá trị thuộc tính vào một lớp thô tạo độ trừu tượng
tráo đổi: tráo đổi các giá trị của các bản ghi cá nhân
chọn mẫu để cho phép phát hành dữ liệu
November 7, 2012
Trang 15Năm chiều tham chiếu PPDM (tiếp) [ VBFPS04 ]
• Thuật toán KPDL bảo vệ tính riêng tư
Thuật toán che giấu dữ liệu được bao gói như một thành phần của thuật toán KPDL
Mạnh: Linh hoạt sửa đổi dữ liệu
Yếu: Khó khăn thi hành “nhúng” biến đổi DL vào TT KPDL
• Che giấu dữ liệu hoặc luật
Che giấu DL nguồn hoặc DL tổng hợp đa qua biến đổi
Biến đổi theo chẩn đoán chính sách chính sách che giấu
• Bảo vệ đặc trưng riêng tư
Không biến đổi toàn bộ dữ liệu mà chỉ biến đổi thuộc tính/đặc trưng trực tiếp/gián tiếp về tính riêng tư.
Đây là chiều được khuyến khích
• Một thuật toán PPDM có thể tích hợp các chiều
Heuristic-Based Methods
theo quan niệm: biến đổi /tinh chế dữ liệu là một bài toán NP-khó
chuẩn đoán dựa trên kinh nghiệm có lợi thế loại bỏ mẫu nhạy cảm
Cryptography-Based Methods
PPDM tiến hành trên cơ sở cộng tác của nhiều bên tham gia
Tính toán an toàn nhiều bên (Secure Multiparty Computation - SMC)
Mỗi bên có DL riêng, đủ năng lực thi hành t/toán KPDL trên DL riêng, không muốn công bố kết quả KPDL của bản thân cho các bên khác
• Phương pháp dựa trên thiết kế lại
Reconstruction -Based Methods
DL nguồn được tạo nhiễu, được tổng hợp: đầu vào thuật toán KPDL
November 7, 2012
Trang 162.b PPDM luật kết hợp phân đoạn dọc
• Phát biểu bài toán [Vaidya04]
(k≥2) phân đoạn dọc P1, P2,…, Pk;
Thuật toán Apriori ngoại trừ dòng 12 !
Khai phá luật kết hợp và tập phổ biến: sơ bộ
• Một số ví dụ về luật kết hợp (association rule)
“98% khách hàng mua tạp chí thể thao thì cũng mua các
tạp chí về ôtô” Ö sự kết hợp giữa “tạp chí thể thao” với
“tạp chí về ôtô”
“60% khách hàng mua bia tại siêu thị đều mua bỉm trẻ em”
Ö sự kết hợp giữa “bia” với “bỉm trẻ em”
“máy xay cà phê”
“85% bệnh nhân Stanislas ăn chay thì bị bệnh tim mạch”
Ö sự kết hợp giữa “ăn chay” với “bệnh tim mạch”
“90% bệnh nhân Stanislas uống thuốc hạ lipid trong máu Cerivastatin thì bị tác động xấu khi điều trị” Ö kết hợp giữa
“uống thuốc Cerivastatin ” với “tác động xấu khi điều trị”
November 7, 2012