1. Trang chủ
  2. » Công Nghệ Thông Tin

một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng tư

24 1,3K 9
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng tư
Tác giả Hà Quang Thụy
Trường học Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Bài báo cáo
Năm xuất bản 2012
Thành phố Hà Nội
Định dạng
Số trang 24
Dung lượng 3,08 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng tư

Trang 1

Một số tìm hiểu

về khai phá dữ liệu bảo vệ tính riêng tư

Hà Quang Thụy Phòng TN Công nghệ tri thức, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Ngày 06 tháng 11 năm 2012

Nội dung

Đặt vấn đề Xuất xứ Khái niệm Tình hình nghiên cứu về PPDM Một số tiếp cận và thuật toán PPDM Một số tiếp cận

Thuật toán PPDM cho một vài bài toán

Xu hướng nghiên cứu PPDM

Tiêu đề báo cáo:

“khai phá dữ liệu”

“tính riêng tư” và “bảo vệ tính riêng tư”

“một số tìm hiểu”

November 7, 2012

Trang 2

1 Đặt vấn đề

• Nội dung

ƒ Sơ bộ về Khai phá dữ liệu

ƒ Sơ bộ về khai phá dữ liệu bảo vệ tính riêng tư

ƒ Tình hình nghiên cứu về tính riêng tư

1a Sơ bộ về khai phá dữ liệu

dữ liệu” “the age of Big Data” [SF11]

ƒMô hình quá trình khai phá dữ liệu được cải tiến, phù hợp với mục tiêu kinh doanh và mục tiêu phát triển tổ chức Một số mô hình thiên hướng công nghệ.

November 7, 2012

[FPS96] Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996) From

Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge

Discovery and Data Mining 1996: 1-34.

[SF11] Gregory Piatetsky-Shapiro, Usama Fayyad (2011) An Introduction to SIGKDD

and A Reflection on the Term ‘Data Mining’, KDD Newsletter, July 2011, 13

Trang 3

(1):102-Quá trình KPDL [FPS96]

Quá trình KPDL [HK06]

[HK06] J Han and M Kamber (2006) Data Mining-Concepts and Techniques (2 nd

edition), Morgan Kaufmann, 2006.

Tiếng Việt “khai mỏ ?”

Trang 4

Chuẩn công nghiệp CRISP-DM, 2000

[CCKKR00] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas

Reinartz, Colin Shearer and Rüdiger Wirth (2000) CRISP-DM 1.0:

Step-by-step data mining guide, The CRISP-DM consortium, August 2000.

Mô hình quá trình C-KDD, 2010

[Pan10] Ding Pan (2010) An Integrative Framework for Continuous Knowledge

Discovery, Journal of Convergence Information Technology (JCIT), 5 (3):

Trang 5

46-Khai phá dữ liệu quá trình [IEEE-TFPM12]

[IEEE-TFPM] The IEEE Task Force on Process Mining (2012) Process Mining Manifesto, http://www.win.tue.nl/ieeetfpm/downloads/Process%20Mining%20Manifesto.pdf

KPDL : tính liên ngành [HK06]

November 7, 2012

Trang 6

KPDL : lĩnh vực hấp dẫn

Data Mining và Machine Learning: Tốp thuật ngữ mọi lĩnh vực nghiên cứu !

http://www.researcherid.com/Home.action?returnCode=ROUTER.Unauthorized&SrcApp=CR&Init=Yes

Số bài báo với tiêu đề chứa “Data Mining” cơng bố hàng năm theo Google Scholar

* KDD-2011 (San Diego, CA, USA): hơn 1.100 người tham gia từ khắp nơi trên thế giới [SF11]

ACM-SIGKDD : Tổ chức nghề KDD [SF11]

November 7, 2012

ƒ The Association for Computing Machinery's Special Interest Group on Knowledge

Discovery and Data Mining.http://www.sigkdd.org/index.php

ƒ Knowledge Discovery in Data (KDD) đầu tiên, Gregory Piatetsky-Shapiro, 1989;

KDD tồn cầu đầu tiên, Usama Fayyad và Ramasamy Uthurusamy, 1998

ƒ 2006: Cơng bố chương trình đào tạo về KDD

ƒ Giải thưởng thường niên:The Innovation Award và the Service Award : “Nobel”

prizes of data mining [SF11] SIGKDD Doctoral Dissertation Award (Từ 2008)

• Một số nhà khoa học

ƒ Usama M Fayyad:Chief Data Officer and Executive Vice President, Yahoo! Inc.,

Chair, ACM SIGKDD Gregory Piatetsky-Shapiro:the President ofKDnuggets,

Former Chair, ACM SIGKDD ,

ƒ The Innovation Award: Dr J Ross Quinlan, Dr Christos Faloutsos, Dr Padhraic

Smyth, Dr Raghu Ramakrishnan, Dr Usama M Fayyad, Dr Ramakrishnan

Srikant, Dr Leo Breiman, Dr Jiawei Han, Dr Heikki Manilla, Dr Jerome H.

Friedman, và Dr Rakesh Agrawal

ƒ The Service Award: Dr Bharat Rao, Prof Osmar R Zạane, Dr Sunita

Sarawagi, Dr Robert Grossman, Dr Won Kim, The Weka team, Dr Xindong Wu,

Dr Usama Fayyad, Dr Ramasamy Uthurusamy, và Dr Gregory Shapiro

Trang 7

Piatetsky-1.b Khai phá dữ liệu bảo vệ tính riêng tư

• Nhu cầu bảo vệ tính riêng tư [AS00]

ƒ Hầu hết người sử dụng web quan tâm bảo vệ tính riêng tư

ƒ Theo thống kê

ƒ17% tuyệt đối không cung cấp thông tin riêng tư

ƒ56% cung cấp thông tin riêng tư nếu có biện pháp bảo vệ

ƒ27% sẵn sàng cung cấp thông tin riêng tư

ƒ và

ƒ86% cho rằng cung cấp thông tin cá nhân để nhận một lợi ích nào đó

là sự lựa chọn cá nhân

ƒ82% coi trọng chính sách bào vệ tính riêng tư trong hệ thống

ƒMức độ bảo mật các thuộc tính riêng tư khác nhau (họ tên, nghề nghiệp, lứa tuổi, sở thích, nơi cư trú, vị trí hiện tại…) là khác nhau

[AS00] Rakesh Agrawal, Ramakrishnan Srikant (2000) Privacy-Preserving Data

Mining, SIGMOD Conference 2000: 439-450

( 525 chỉ dẫn – ACM Digital Labrary , 1910 chỉ dẫn- Google Scholar )

KPDL vi phạm tính riêng tư: Ví dụNovember 7, 2012

• Gregory Piatetsky-Shapiro [Shap95]

ƒPhát hiện mẫu mua hàng ⇒ gửi quảng cáo quá mức tới khách hàng ⇒ phiền toái cho khách hàng

ƒHãng Lotus: Kế hoạch bán đĩa CD-ROM chứa dữ liệu 100 triệu hộ gia đình (120 triệu khách hàng) tạo ra bão phản đối.

• A Divanis & V S Verykios [DV09], D O’Leary [Leary95]

ƒDanh tính cá nhân được chỉ dẫn từ dữ liệu hoặc tri thức liên quan tới cá nhân bị tiết lộ cho bên thứ ba không tin cậy Ví dụ, tri thức về nhóm người có nguy cơ cao về bệnh tật có thể dẫn tới tình huống người quản

lý có hành động buộc thôi việc một nhân viên có khả năng thuộc nhóm tương ứng với mẫu nói trên

ƒBí mật thương mại nhạy cảm của doanh nghiệp bị tiết lộ từ dữ liệu hoặc tri thức tạo lợi thế cho đối thủ cạnh tranh

[Shap95] Gregory Piatetsky-Shapiro (1995) Guidelines for Eating of the Tree of Knowledge,

or Knowledge Discovery in Databases vs Personal Privacy, Experts Annual Index, 10(2): 46-47.

[DV09] Aris Gkoulalas-Divanis, Vassilios S Verykios (2009) An overview of privacy

preserving data mining ACM Crossroads 15(4) (2009)

[Leary95] Daniel O'Leary (1995) Some Privacy Issues in Knowledge Discovery: OECD

Personal Privacy Guidelines, Experts Annual Index, 10(2): 48-52.

Trang 8

KPDL vi phạm tính riêng tư: Ví dụ (tiếp)

• Dự án Total Information Awareness (TIA) của Bộ Quốc phòng Mỹ có khai phá dữ liệu

ƒPhản đối của the ACM U.S Public Policy Committee (USACM) : TIA có thể tạo ra rủi ro an ninh (Security Risks), rủi ro riêng tư (Privacy Risks), rủi ro kinh tế (Economic Risks), rủi ro cá nhân (Personal Risks)

ƒDự luật S.188/2003 nghiêm cấm khai phá dữ liệu được đề xuất

ƒMột dự án PH tri thức lớn đòi hỏi nhiều công nghệ mà công nghệ KPDL chỉ là một trong số đó

ƒCông nghệ KPDL dựa trên nền tảng lâu đời phân tích thống kê và trí tuệ nhân tạo song chưa hoàn hảo Tính không hoàn hảo của mọi công nghệ.

ƒĐể đảm bảo riêng tư thì cần phát triển nghiên cứu và triển khai ứng dụng

về KPDL liên quan (đặc biệt là KPDL bảo mật dữ liệu và bảo vệ tính

riêng tư: data security and privacy-preserving data mining)

[Kim03] Won Kim (2003) “Data Mining” Is NOT Against Civil Liberties, ACM Special

Interest Group on Knowledge Discovery and Data Mining,

www.acm.org/sigkdd/, June 30, 2003.

Quản lý danh tiếngNovember 7, 2012

• Quản lý danh tiếng (Reputation Management)

quan trọng

ƒ Hệ thống quản lý danh tiếng trực tuyến trên Internet

Optima)

ƒ Hệ thống tìm kiếm thực thể

oNhà khoa học: ví dụ DBLP ( http://www.informatik.uni-trier.de/~ley/db/ ), ArnetMiner ( http://www.arnetminer.org/ )

oNgười và doanh nghiệp: ví dụ zoominfo ( http://www.zoominfo.com/ ), iSearch ( http://www.isearch.com )

ƒ Xếp hạng trường đại học

Trang 9

DBLP: trier.de/~ley/pers/hd/n/Nguyen:Hung_Son.html

http://www.informatik.uni-Cung cấp thông tin cá nhân: Quảng bá thông tin về nhà khoa học

ArnetMiner: nguyen-670591.html

http://arnetminer.org/person/hung-son-November 7, 2012

Quáng bá thông tin có cung cấp tiểu sử cá nhân song đảm bảo tính riêng tư

Trang 10

Quản lý danh tiếng và bảo vệ tính riêng tư

• Quản lý danh tiếng và Bảo vệ tính riêng tư

ƒQuảng bá danh tiếng rộng đảm bảo tránh tiết lộ riêng tư cao

ƒViệt Nam: MC Đan Lê

“Thông tin báo chí và bí mật đời tư: Ranh giới mong manh”

tu-Ranh-gioi-mong-manh-tpp.html

http://www.tienphong.vn/Phap-Luat/598230/Thong-tin-bao-chi-va-bi-mat-doi-“Tham luận của MC Đan Lê về việc báo chí xâm hại đời tư”

viec-bao-chi-xam-hai-doi-tu-tpp.html

http://www.tienphong.vn/van-nghe/598438/Tham-luan-cua-MC-Dan-Le-ve-ƒ“Ranh giới mỏng manh”:

ƒCác quy định pháp luật: Cần chi tiết quy định tình huống vi phạm khi tiết lộriêng tư bất hợp pháp

• Daniel O'Leary [Leary95]

ƒ Nội dung hướng dẫn của OECD về dữ liệu riêng tư

ƒ Liên hệ với phát hiện tri thức

ƒ 1 Nguyên tắc giới hạn thu thập dữ liệu

™Dữ liệu nên được thu được hợp pháp và công bằng

™Dữ liệu rất nhạy cảm không nên nắm bắt

ƒ 2 Nguyên tắc chất lượng dữ liệu

™Dữ liệu liên quan đến mục đích dùng, chính xác, đầy đủ & cập nhật

™Biện pháp thích hợp cần được thi hành để đảm bảo nguyên tắc này

ƒ 3 Nguyên tắc đặc tả mục đích sử dụng dữ liệu

™Mục đích dùng dữ liệu cần được xác định rõ ràng

™Dữ liệu cần bị hủy nếu chúng không còn phục vụ mục đích

Trang 11

Tám (8) nguyên tắc OECD (tiếp) [Leary95]

ƒ 4 Nguyên tắc giới hạn sử dụng dữ liệu

™Dùng dữ liệu cho các mục đích khác so với đặc tả chỉ có thể được tiếnhành khi có đồng ý của đối tượng dữ liệu hoặc của cơ quan pháp luật

ƒ 5 Nguyên tắc bảo vệ dữ liệu

™Cần có thủ tục bảo vệ chống lại sự mất mát, hư hỏng, tiêu hủy, hoặc sửdụng lạm dụng dữ liệu

ƒ 6 Nguyên tắc mở

™Cần thông báo mở về việc thu thập, lưu trữ và sử dụng dữ liệu cá nhân

™Phát hiện tri thức từ dữ liệu cần được tuyên bố cho đối tượng dữ liệu

™Nguyên tắc mở: kiểm soát hoạt động phát hiện tri thức không phù hợp

ƒ 7 Nguyên tắc sự tham gia của cá nhân

™Đối tượng DL có quyền truy cập và phản đối dữ liệu liên quan đến họ

ƒ 8 Nguyên tắc trách nhiệm thi hành

™Cần một cơ chế thi hành (bộ điều khiển) chịu trách nhiệm thi hành tất cảcác nguyên tắc trên đây

Khái niệm về PPDM

November 7, 2012

• Khai phá dữ liệu bảo vệ tính riêng tư

ƒ Privacy-Preserving Data Mining (PPDM): “Khai phá dữ liệu bảo vệ tính riêng tư”

ƒ Khái quát [VBFPS04…] “KPDL trong đó thuật toán khai phá

dữ liệu phải giải quyết tác dụng phụ nảy sinh từ dữ liệu riêng tư” (KPDL BVTRT <> An toàn thông tin)

ƒ Cụ thể hơn [DV09…]: “KPDL có liên quan với các vấn đề riêng tư quan hệ quá trình khai phá dữ liệu, đặc biệt:

ƒ(a) bảo vệ tính riêng tư trong phiên bản dữ liệu

ƒ(b) giữ gìn tính riêng tư khi một tập các bên đối tác phối hợp KPDL

ƒ(c) bảo vệ các mẫu tri thức nhạy cảm có nguồn gốc từ việc áp dụng các công cụ khai phá dữ liệu”.

[VBFPS04] Verykios V S., Bertino E., Fovino I N., Provenza L P., Saygin Y., Theodoridis Y

(2004) State-of-the-art in privacy preserving data mining, ACM SIGMOD Record, 33

(1):50-57, 2004.

[AY08] Charu C Aggarwal, Philip S Yu (2008) Privacy-Preserving Data Mining: A Survey,

Handbook of Database Security 2008: 431-460

Trang 12

Nghiên cứu về PPDM

• 1995: Tạp chí IEEE Expert tổ chức một diễn đàn nhỏ về PPDM

ƒGregory Piatetsky-Shapiro [Shap95] và Daniel O'Leary [Leary95] nêu một số luận điểm có tính khái quát

• 2008: Charu C Aggarwal, Philip S Yu (Eds., 2008) Privacy-Preserving

Data Mining - Models and Algorithms, Advances in Database Systems Vol 34 Springer 2008, ISBN 978-0-387-70991-8.

Số bài báo với tiêu đề chứa “Privacy-Preserving Data Mining” (Data Mining)

công bố hàng năm theo Google Scholar (10/2012)

ƒ Các mô hình riêng tư khác nhau

ƒ Tồn tại kỹ thuật tạo ra các mô hình KPDL không tiết lộ thông tin ?

ƒ Ràng buộc pháp luật ? Không cấm chia sẻ dữ liệu mà chỉ cần nó được bảo vệ

[Clifton11] Chris Clifton (2011) Privacy-Preserving Data Mining at 10: What’s Next?, Keynote

at the Ninth Australasian Data Mining Conference (AusDM 2011), Ballarat, Australia,

Trang 13

2 Mô hình và thuật toán PPDM [ Yasien07]

Ba mức PPDM [ Yasien07 ]: mỗi mức ⇔ lớp thuật toán

ƒMức dữ liệu: Biến đổi dữ liệu

ƒMức thuật toán KPDL: Tích hợp giao thức PP trong thuật toán DM

ƒMức lực chọn và trình diễn tri thức kết quả: Đánh giá

[Yasien07] Ahmed HajYasien (2007) Preserving Privacy in Association Rule Mining,

PhD Thesis, Griffith University (Australia), 2007.

• Mô hình tin cậy bên thứ ba (Trust Third Party Mode)

ƒ Tin và nhờ cậy hoàn toàn vào một bên thứ ba

ƒ Mô hình lý tưởng

ƒ Bên thứ ba: thủ lĩnh / bên thứ ba khác

• Mô hình nửa tin cậy ( Semi-honest Model)

ƒ Dựa trên giao thức truyền thông tin của thuật toán KPDL

ƒ Mỗi bên tham gia

ƒthi hành bảo vệ tính riêng tư theo giao thức

ƒtự do sử dụng dữ liệu đầu vào nhận được (dữ liệu này đã được biến đổi tại nơi cung cấp)

ƒ Mô hình phổ biến hiện thời

November 7, 2012

[Vaidya04] Jaideep Shrikant Vaidya (2004) Privacy Preserving Data Mining over Vertically

Partitioned Data, PhD Thesis, Purdue University.

Trang 14

Mô hình PPDM (tiếp) [ Vaidya04 ]

• Mô hình “độc hại” (Malicious Model)

ƒ Mỗi bên tự tối đa lợi ích cá nhân và tự chịu trách nhiệm

ƒ Cho phép đi chệch giao thức

ƒTừ chối tham gia ngay từ lần gọi đầu tiên

ƒCó thể tự thay đổi đầu vào được cung cấp

ƒHủy bỏ tham gia sớm hơn dự kiến

ƒ Xây dựng giao thức là khó khăn

• Mô hình khuyến khích tương thích ( Incentive Compatibility )

ƒ Giao thức khuyến khích tương thích

ƒ Mỗi bên tối đa lợi ích nếu làm theo giao thức mô tả trước

ƒ Phát hiện bên gian lận hoặc bên chịu thiệt thòi

• Phân tán dữ liệu

ƒPhân tán dọc – ngang – cả dọc và ngang

ƒBảo vệ tính riêng tư cả tác nhân cung cấp dữ liệu lẫn tác nhân KPDL

ƒNội dung chính: Xây dựng giao thức bảo vệ tính riêng tư tại các bên và khi kết hợp

• Biến đổi dữ liệu

ƒDùng sơ đồ sửa đổi dữ liệu từ CSDL nguồn

ƒSơ đồ sửa đổi dữ liệu cần phù hợp với chính sách bảo mật

dữ liệu của tổ chức quản lý dữ liệu

ƒgây nhiễu (perturbation): 1 ⇔ 0 hoặc nhiễu khác

ƒchặn (blocking): thay giá trị thuộc tính bằng ký hiệu kiểu “?”

ƒtổng hợp/hợp nhất: nhóm một số giá trị thuộc tính vào một lớp thô tạo độ trừu tượng

ƒtráo đổi: tráo đổi các giá trị của các bản ghi cá nhân

ƒchọn mẫu để cho phép phát hành dữ liệu

November 7, 2012

Trang 15

Năm chiều tham chiếu PPDM (tiếp) [ VBFPS04 ]

• Thuật toán KPDL bảo vệ tính riêng tư

ƒThuật toán che giấu dữ liệu được bao gói như một thành phần của thuật toán KPDL

ƒMạnh: Linh hoạt sửa đổi dữ liệu

ƒYếu: Khó khăn thi hành “nhúng” biến đổi DL vào TT KPDL

• Che giấu dữ liệu hoặc luật

ƒChe giấu DL nguồn hoặc DL tổng hợp đa qua biến đổi

ƒBiến đổi theo chẩn đoán chính sách chính sách che giấu

• Bảo vệ đặc trưng riêng tư

ƒKhông biến đổi toàn bộ dữ liệu mà chỉ biến đổi thuộc tính/đặc trưng trực tiếp/gián tiếp về tính riêng tư.

ƒĐây là chiều được khuyến khích

• Một thuật toán PPDM có thể tích hợp các chiều

ƒHeuristic-Based Methods

ƒtheo quan niệm: biến đổi /tinh chế dữ liệu là một bài toán NP-khó

ƒchuẩn đoán dựa trên kinh nghiệm có lợi thế loại bỏ mẫu nhạy cảm

ƒCryptography-Based Methods

ƒPPDM tiến hành trên cơ sở cộng tác của nhiều bên tham gia

ƒTính toán an toàn nhiều bên (Secure Multiparty Computation - SMC)

ƒMỗi bên có DL riêng, đủ năng lực thi hành t/toán KPDL trên DL riêng, không muốn công bố kết quả KPDL của bản thân cho các bên khác

• Phương pháp dựa trên thiết kế lại

ƒReconstruction -Based Methods

ƒDL nguồn được tạo nhiễu, được tổng hợp: đầu vào thuật toán KPDL

November 7, 2012

Trang 16

2.b PPDM luật kết hợp phân đoạn dọc

• Phát biểu bài toán [Vaidya04]

(k≥2) phân đoạn dọc P1, P2,…, Pk;

ƒ Thuật toán Apriori ngoại trừ dòng 12 !

Khai phá luật kết hợp và tập phổ biến: sơ bộ

• Một số ví dụ về luật kết hợp (association rule)

ƒ “98% khách hàng mua tạp chí thể thao thì cũng mua các

tạp chí về ôtô” Ö sự kết hợp giữa “tạp chí thể thao” với

“tạp chí về ôtô”

ƒ “60% khách hàng mua bia tại siêu thị đều mua bỉm trẻ em”

Ö sự kết hợp giữa “bia” với “bỉm trẻ em”

“máy xay cà phê”

ƒ “85% bệnh nhân Stanislas ăn chay thì bị bệnh tim mạch”

Ö sự kết hợp giữa “ăn chay” với “bệnh tim mạch”

ƒ “90% bệnh nhân Stanislas uống thuốc hạ lipid trong máu Cerivastatin thì bị tác động xấu khi điều trị” Ö kết hợp giữa

“uống thuốc Cerivastatin ” với “tác động xấu khi điều trị”

November 7, 2012

Ngày đăng: 30/01/2013, 15:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w