Bảo vệ tính riêng tư trong khai thác luật kết hợp từ cơ sở dữ liệu được thuê ngoài

Nghiên cứu trong luận văn này tập trung vào nghiên cứu các thuật toán mã hóa và giải mã của một mô hình sở hữu dữ liệu thuê ngoài, chẳng hạn là một siêu thị cung cấp dữ liệu cho một đơn

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM

-

MAI THẾ PHÚC BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI THÁC LUẬT KẾT HỢP TỪ CƠ SỞ DỮ LIỆU ĐƯỢC

Trang 2

Cán bộ hướng dẫn khoa học:

PGS.TS Võ Đình Bảy

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP HCM ngày 10 tháng 09 năm 2016

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã sửa chữa (nếu có)

Chủ tịch Hội đồng đánh giá LV

PGS TS Quản Thành Thơ

Trang 3

TP HCM, ngày 30 tháng 06 năm 2016

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: MAI THẾ PHÖC Giới tính: Nam

Ngày, tháng, năm sinh: 10/02/1979 Nơi sinh: Thanh Hoá

Chuyên ngành: Công nghệ thông tin MSHV: 1441860051

I- Tên đề tài:

BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI THÁC LUẬT KẾT HỢP TỪ CƠ SỞ

DỮ LIỆU ĐƯỢC THUÊ NGOÀI

II- Nhiệm vụ và nội dung:

- Tìm hiểu về bảo toàn tính riêng tư trong khai thác dữ liệu giao dịch

- Tìm hiểu về kỹ thuật mã hoá, giải mã trong khuôn khổ bảo toàn tính riêng tư trong CSDL thuê ngoài

- Xây dựng chương trình mô phỏng với k-privacy thích hợp

III- Ngày giao nhiệm vụ: 23/01/2016

IV- Ngày hoàn thành nhiệm vụ: 23/06/2016

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này cũng nhƣ các trích dẫn hay tài liệu học thuật tham khảo đã đƣợc cảm ơn đến tác giả và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc

Học viên thực hiện Luận văn

Mai Thế Phúc

Trang 5

và nghiên cứu thực hiện luận văn

Tôi cũng xin gởi lời cảm ơn đến gia đình, bạn bè và những người thân đã luôn quan tâm và giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu hoàn thành luận văn này

Luận văn không thể tránh khỏi những sai sót, rất mong nhận được ý kiến đóng góp của mọi người cho luận văn được hoàn thiện hơn

Tôi xin chân thành cảm ơn

TP Hồ Chí Minh, ngày 30 tháng 06 năm 2016

Mai Thế Phúc

Trang 6

TÓM TẮT

Trong khai thác dữ liệu, khai thác và bảo vệ tính riêng tư từ cơ sở dữ liệu bên ngoài là một hướng nghiên cứu mới Với sự bùng nổ của dữ liệu và điện toán đám mây hiện nay, thách thức đối với khoa học này ngày càng tăng

Ví dụ, một công ty (chủ sở hữu dữ liệu) thiếu chuyên môn hay nguồn lực tính toán có thể thuê ngoài bên thứ ba (máy chủ) khai thác dữ liệu của mình Tuy nhiên,

cả các mặt hàng và các luật kết hợp của các cơ sở dữ liệu bên ngoài được coi là tài sản riêng của công ty (chủ sở hữu dữ liệu) Để bảo vệ sự riêng tư của công ty, chủ sở hữu dữ liệu biến đổi dữ liệu và các mối liên hệ của nó đến máy chủ, gửi truy vấn khai thác đến máy chủ, và phục hồi các mô hình thực sự từ các mô hình trích được từ máy chủ

Nghiên cứu trong luận văn này tập trung vào nghiên cứu các thuật toán mã hóa và giải mã của một mô hình sở hữu dữ liệu thuê ngoài, chẳng hạn là một siêu thị cung cấp dữ liệu cho một đơn vị làm dịch vụ gia công khai thác dữ liệu để nhận về các luật kết hợp từ đơn vị đó.Với yêu cầu phải bảo toàn tính riêng tư của dữ liệu, nghĩa là sẽ không tiết lộ dữ liệu bán hàng cũng như thông tin có được từ việc phân tích khai thác dữ

liệu này

Trang 7

ABSTRACT

In data mining, the exploitation and preserve privacy from external databases is a new research direction With the explosion of data and cloud computing today, the challenge for this science growing For example, a company (data owner) lacking in expertise or computational resources can outsource its mining needs to a third party service provider (server) However, both the items and the association rules of the outsourced database are considered private property of the corporation (data owner) To protect corporate privacy, the data owner transforms its data and ships it to the server, sends mining queries to the server, and recovers the true patterns from the extracted patterns received from the server

Research in this thesis focuses on the study of algorithms of encryption and decryption a data model outside ownership, for example, a supermarket, providing data to a mining company service of data to get the association rules from that supermarket With the request to preserve the privacy of the data, ie will not disclose sales data as well as information obtained from the analysis of this data mining

Trang 8

MỤC LỤC

LỜI CAM ĐOAN i

TÓM TẮT iii

PHẦN MỞ ĐẦU 1

MỤC TIÊU CỦA ĐỀ TÀI: 1

NỘI DUNG NGHIÊN CỨU: 2

PHƯƠNG PHÁP NGHIÊN CỨU 2

CHƯƠNG 1 :TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU 4

1.1 GIỚI THIỆU ĐỀ TÀI 4

1.2 KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 6

1.2.1 Một số khái niệm 6

1.2.2 Khai thác tập phổ biến, luật kết hợp 8

1.3 BẢO TOÀN TÍNH RIÊNG TƯ TRONG KHAI THÁC DỮ LIỆU 15

1.3.1 Phân loại các phương pháp PPDM 17

2.3.2 Đánh giá thuật toán PPDM 18

2.3.2.1 Dựa vào hiệu năng 19

2.3.2.2 Dựa vào tính hữu dụng của dữ liệu 19

2.3.2.3 Dựa vào mức độ không tin chắc 19

2.3.2.4 Dựa vào độ chịu đựng 20

CHƯƠNG 2 :CÁC THUẬT TOÁN BẢO TOÀN TÍNH RIÊNG TƯ 21

2.1 CHỈNH SỬA DỮ LIỆU TRONG CSDL NHỊ PHÂN 21

2.2 THAY GIÁ TRỊ DỮ LIỆU THẬT BẰNG GIÁ TRỊ KHÔNG XÁC ĐỊNH 25 2.3 ẨN TẬP MỤC NHẠY CẢM 29

2.4 THUẬT TOÁN ẨN TẬP MỤC NHẠY CẢM 31

CHƯƠNG 3 KỸ THUẬT MÃ HÓA VÀ GIẢI MÃ DỮ LIỆU 36

Trang 9

3.1 CÁC NGHIÊN CỨU LIÊN QUAN 36

3.1.1 Đặt vấn đề 36

3.1.2 Một số nghiên cứu liên quan 38

3.2 MÃ HÓA VÀ GIẢI MÃ DỮ LIỆU THUÊ NGOÀI 40

3.2.1 Dữ liệu khai thác 40

3.2.2 Mô hình bảo mật 41

3.2.3 Kiến thức của đối thủ 42

3.2.4 Mô hình tấn công 42

3.2.5 Mã hóa và giải mã 44

CHƯƠNG 4 KẾT QUẢ CHƯƠNG TRÌNH THỰC NGHIỆM 54

4.1 MÔI TRƯỜNG THỰC NGHIỆM 54

4.2 KẾT QUẢ THỰC NGHIỆM 55

4.2.1 SỐ GIAO DỊCH GIẢ 55

4.2.2 THỜI GIAN MÃ HÓA 59

4.3 ĐÁNH GIÁ 62

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 64

5.1 ƯUĐIỂM 64

5.2 HẠN CHẾ 65

5.3 HƯỚNG PHÁT TRIỂN 65

TÀI LIỆU THAM KHẢO 66

Trang 10

DANH MỤC CÁC TỪ VIẾT TẮT

CSDL Cơ sở dữ liệu

DB Cơ sở dữ liệu (DataBase)

TDB Cơ sở dữ liệu giao dịch (Transaction DataBase)

Conf Độ đo tin cậy (Confidence)

Supp Độ đo hỗ trợ (Support)

SM Khoảng độ đo an toàn (Safety margin)

SMC Bảo mật tính toán đa thành phần (Secure Multiparty Computation) SMPM Khai thác nhiều bên trên các bộ dữ liệu phân tán (Secure Multiparty

Privatecy Mining) MCT Ngƣỡng tin cậy tối thiểu (MinConf)

MST Ngƣỡng hỗ trợ tối thiểu (MinSupp)

PPDM Khai thác dữ liệu đảm bảo tính riêng tƣ (Privacy Preserving Data

Mining) PPDP Công bố dữ liệu bảo mật tính riêng tƣ (Prevacy Preserving Data

Publishing) PPPP Công bố mô hình bảo mật tính riêng tƣ (Prevacy Preserving Patern

Publishing)

Trang 11

DANH MỤC CÁC BẢNG

Bảng 1.1 Cơ sở dữ liệu giao dịch 7

Bảng 1.2 CSDL y tế 15

Bảng 2.1 Bảng so sánh bốn thuật toán 1a, 1b, 2a, 2b 25

Bảng 2.2 CSDL giao tác gốc D 29

Bảng 2.3 CSDL giao tác mô tả quá trình ẩn AB 30

Bảng 2.4 Sửa giá trị của E trong các bộ chứa ADE 33

Bảng 2.5 Sửa giá trị của E trong các bộ chứa ABE 34

Bảng 3.1 CSDL giao dịch, độ hỗ trợ các mặt hàng 40

Bảng 3.2 TDB và độ hỗ trợ 47

Bảng 3.3 Gom nhóm với Frugal với k=2 48

Bảng 3.4 Gom nhóm với Frugal với k=2 48

Bảng 3.5 Bảng nhiễu 50

Bảng 3.6 Giao dịch giả 51

Bảng 3.7 Bảng băm 52

Bảng 4.1 Cơ sở dữ liệu thực nghiệm 54

Bảng 4.2 Tổng hợp giao dịch giả 55

Bảng 4.3 Thời gian thực thi RobFrugal 59

Trang 12

DANH MỤC CÁC HÌNH

Hình 1.1 Thuật toán Apriori 10

Hình 1.2 Thuật toán khai thác luật kết hợp 14

Hình 2.1 Thuật toán 1a 22

Hình 2.2 Thuật toán 1b 23

Hình 2.3 Thuật toán 2a 24

Hình 2.4 Thuật toán 2b 24

Hình 3.1 Cấu trúc của mô hình dịch vụ khai thác 38

Hình 3.2 Lƣợc đồ mã hóa và giải mã 58

Trang 13

PHẦN MỞ ĐẦU

Lý do chọn đề tài

Cùng với sự phát triển ngày càng mạnh mẽ của ngành công nghệ thông tin, mà nổi bật là sự phát triển của internet, điện toán đám mây các dịch vụ khai thác dữ liệu thuê ngoài (Outsourced) cũng được phát triển như một dịch vụ hình mẫu, cho phép các tổ chức

có nguồn lực hạn chế tính toán hoặc khai thác dữ liệu có thể thuê bên ngoài khai thác dữ liệu của họ [4][17][13] Ví dụ, các dữ liệu hoạt động giao dịch từ những cửa hàng khác nhau của Safeway, một chuỗi cửa hàng hoạt động tại Mỹ và Canada, có thể được chuyển đến một bên thứ ba cung cấp dịch vụ khai thác cho Safeway Việc quản lý Safeway không cần phải sử dụng một đội ngũ các chuyên gia khai thác dữ liệu Bên cạnh đó, họ có thể cắt giảm yêu cầu quản lý dữ liệu cục bộ, vì theo định kỳ dữ liệu được chuyển đến các nhà cung cấp dịch vụ và những người có trách nhiệm duy trì sẽ tiến hành khai thác nó để đáp ứng các yêu cầu từ các nhà phân tích kinh doanh của Safeway Trong ví dụ này, Safeway

là một chủ sở hữu dữ liệu, là một khách hàng (client) và cung cấp dịch vụ được gọi là nhà cung cấp dịch vụ (server) Một trong những vấn đề chính của mô hình này là các server có quyền truy cập vào dữ liệu có giá trị của client và có thể tìm hiểu các thông tin từ nó bằng cách nhìn vào các giao dịch, server có thể tìm hiểu các dữ liệu nhạy cảm mà bên client

không muốn công khai (đơn vị hợp tác, lượt khách, )

Để thực hiện việc chia sẻ dữ liệu cho đối tác khai thác, đồng thời bảo vệ được tính

riêng tư trong cơ sở dữ liệu, đề tài này nghiên cứu về việc khai thác luật kết hợp trong

khuôn khổ bảo vệ tính riêng tư từ dữ liệu giao dịch được thuê ngoài

Mục tiêu của đề tài:

Từ những đòi hỏi ngày càng gắt gao của môi trường kinh doanh, yêu cầu doanh nghiệp phải năng động chia sẻ thông tin của mình cho nhiều đối tượng khác nhau Chẳng hạn công ty thuê bên ngoài khai thác dữ liệu để định hướng chiến lược kinh doanh của mình , vì vậy mà việc bảo vệ thông tin là rất quan trọng của công ty, Hầu hết các doanh

Trang 14

nghiệp ngày nay đều sử dụng các hệ quản trị cơ sở dữ liệu [2] để lưu trữ tập trung tất cả các thông tin quý giá của mình Hiển nhiên hệ thống sẽ là tiêu điểm tấn công của những

kẻ xấu Ở mức độ nhẹ, các cuộc tấn công sẽ làm hệ thống CSDL bị hỏng hóc, hoạt động không ổn định, mất mát dữ liệu làm cho các giao dịch hàng ngày của doanh nghiệp bị đình trệ Nghiêm trọng hơn, các thông tin sống còn của doanh nghiệp bị tiết lộ (như chiến lược kinh doanh, các thông tin về khách hàng, nhà cung cấp, tài chánh, mức lương nhân viên,…) và được đem bán cho các doanh nghiệp đối thủ Có thể nói là thiệt hại của việc thông tin bị rò rỉ là vô cùng lớn

Từ những lý do này, Luận văn nghiên cứu một kỹ thuật mã hóa có thể biến đổi cơ

sở dữ liệu ban đầu D thành D* [4] và gởi CSDL đã mã hoá này cho bên ngoài khai thác nhằm bảo toàn tính riêng tư cho cơ sở dữ liệu của doanh nghiệp Sự bảo vệ này có nghĩa

là kẻ tấn công có một xác suất rất hạn chế trong việc dự đoán các mặt hàng thực tế trong

dữ liệu bán hàng hoặc trong các kết quả khai thác dữ liệu; ngược lại, chủ sở hữu dữ liệu

có thể giải mã một cách hiệu quả các kết quả khai thác và việc mã hóa cơ sở dữ liệu ban đầu có thể được thực hiện một cách hiệu quả

Nội dung nghiên cứu:

Đề tài này nghiên cứu các nội dung chính sau:

- Tìm hiểu về bảo toàn tính riêng tư trong khai thác dữ liệu giao dịch

- Tìm hiểu về kỹ thuật mã hoá, giải mã trong khuôn khổ bảo toàn tính riêng

tư trong CSDL thuê ngoài [4]

- Xây dựng chương trình mô phỏng với k-private thích hợp

Phương pháp nghiên cứu

- Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài

- Tìm tài liệu bởi các từ khoá ―Privatecy-Preserving‖ , ―Mining‖+ ―Association rules‖ + ―Outsoured‖

- Nghiên cứu tổng quan về cơ sở dữ liệu giao dịch

- Nghiên cứu mô hình mã hóa và giải mã Encription/Decription

Trang 15

- Xây dựng chương trình và đánh giá kết quả đạt được

Bố cục luận văn

Luận văn được tổ chức thành năm chương:

Chương 1: Trình bày tổng quan về khai thác dữ liệu và bảo toàn tính riêng tư Chương 2: Trình bày lý thuyết và các thuật toán bảo toàn tính riêng tư

Chương 3: Trình bày lý thuyết, thuật toán và các ví dụ minh họa thuật toán mã hóa

và giải mã dữ liệu sử dụng cho dữ liệu ngoài

Chương 4: Kết quả chương trình thực nghiệm

Chương 5: Kết luận và hướng phát triển

Trang 16

CHƯƠNG 1 TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU

BẢO TOÀN TÍNH RIÊNG TƯ

1.1 GIỚI THIỆU ĐỀ TÀI

Sự phát triển mạnh mẽ của mạng internet hiện nay dẫn đến sự bùng nổ của thông tin, tri thức và với khối lượng dữ liệu ngày càng lớn đã thúc đẩy một lĩnh vực nghiên cứu đầy tiềm năng là khai thác tri thức và khai thác dữ liệu Chúng ta đang bị ngập trong khối

dữ liệu khổng lồ nhưng những dữ liệu thật sự có giá trị thì rất nhỏ Vì vậy, việc khai thác

dữ liệu là quá trình giúp chúng ta có được những dữ liệu có giá trị từ khối dữ liệu khổng

lồ đó

Chẳng hạn tại một siêu thị, qua quá trình khai thác dữ liệu người ta phát hiện ra rằng, nếu một người mua một thùng bia thì thường mua thêm một kilogram khô mực, hay một người mua kem đánh răng thì thường mua thêm bàn chải đánh răng và khăn mặt…

Từ những khai thác dữ liệu đơn giản đó có thể giúp siêu thị đó kinh doanh tốt hơn

Một ví dụ khác về ngành y học, người ta để ý rằng, một số bệnh chỉ xảy ra ở một

số vùng trên trái đất hoặc khi một nhóm người đã mắc một số bệnh thì những người này thường mắc thêm một số bệnh giống nhau nữa… Điều này giúp cho ngành y tế có thể chuẩn bị một số bệnh lạ ở các vùng có địa lý, khí hậu giống nhau hay phòng một số bệnh cho những người đã mắc những bệnh theo quy luật trước đó

Nhiều quốc gia khác nhau cũng có thể liên kết, chia sẻ dữ liệu với nhau để từ đó suy ra các quy luật của bọn tội phạm, khủng bố nhằm hỗ trợ việc truy bắt chúng và ngăn ngừa các cuộc khủng bố đẫm máu có thể sảy ra

Như vậy, khai thác dữ liệu mà cụ thể là khai thác luật kết hợp là một nhiệm vụ khai thác dữ liệu cơ bản, rất có lợi cho nhiều đơn vị, tổ chức và các quốc gia trên thế giới

Trang 17

Tuy nhiên, việc khai thác này khó có thể tiến hành ở một đơn vị hay một tổ chức khi yêu cầu chia sẻ dữ liệu xuất hiện giữa nhiều bên hay khi nhu cầu khai thác dữ liệu thuê cho nhà cung cấp dịch vụ của bên thứ ba Ví dụ, dữ liệu về hoạt động giao dịch của các gian hàng khác nhau trong một chuỗi siêu thị có thể được gửi đến cho bên thứ ba cung cấp dịch vụ khai thác dữ liệu Việc quản lý siêu thị không cần đến một đội ngũ các chuyên gia khai thác dữ liệu nội bộ Bên cạnh đó, họ có thể cắt giảm các yêu cầu về quản lý dữ liệu nội bộ bởi vì các dữ liệu sẽ được định kỳ chuyển đến cho người cung cấp dịch vụ là người phụ trách việc duy trì các dịch vụ này và tiến hành khai thác nhằm đáp ứng yêu cầu

từ các nhà phân tích kinh doanh của chuỗi siêu thị Dự kiến rằng mô hình ―dịch vụ khai thác và quản lý dữ liệu‖ sẽ phát triển với sự ra đời và phổ biến của điện toán đám mây

Trong ví dụ trên chuỗi siêu thị, khách hàng là chủ sở hữu dữ liệu và nhà cung cấp dịch vụ được gọi là máy chủ Một trong những vấn đề chính của mô hình này là máy chủ

có quyền truy cập vào các dữ liệu có giá trị của chủ sở hữu và có thể biết hoặc tiết lộ thông tin nhạy cảm của họ, hoặc khi nhìn vào các giao dịch, máy chủ (hoặc một kẻ xâm nhập có quyền truy cập vào máy chủ) có thể biết sản phẩm (mặt hàng) nào đã được mua cùng nhau, và đến lượt mình, các mô hình khai thác mô tả hành vi của khách hàng trong siêu thị Trong trường hợp này, các giao dịch mua bán và mô hình được khai thác và tất

cả các thông tin có thể lấy từ dữ liệu đều là tài sản của siêu thị và phải được giữ an toàn khỏi máy chủ và bất cứ kẻ xâm nhập nào khác Thực sự là các thông tin lấy từ dữ liệu có thể được các siêu thị sử dụng trong các quyết định tiếp thị quan trọng nhằm cải thiện dịch

vụ của họ

Vấn đề về bảo toàn thông tin cho các bên tham gia khai thác hay bên cung cấp dữ liệu cho dịch vụ khai thác là một vấn đề rất quan trọng và là đề tài nghiên cứu chính của luận văn này

Trang 18

1.2 KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP

1.2.1 Một số khái niệm

Khi dữ liệu được tổ chức theo một cấu trúc, được xử lý và mang đến cho con người những ý nghĩa, những hiểu biết nào đó thì khi đó nó trở thành thông tin có giá trị Một số người có thể quan niệm thông tin là quan hệ giữa các dữ liệu Các dữ liệu được sắp xếp theo một thứ tự hoặc được tập hợp lại theo một ràng buộc nào đó sẽ chứa đựng thông tin Nếu những ràng buộc dữ liệu này được chỉ ra một cách rõ ràng, có ý nghĩa thì

đó là các tri thức

 Tri thức: Là các thông tin được tích hợp, bao gồm các sự kiện và mối quan hệ

giữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu Tri thức có thể được xem như là dữ liệu trừu tượng và tổng quát ở mức độ cao

 Khám phá tri thức: Là quá trình rút trích ra các tri thức chưa được nhận ra,

tiềm ẩn trong các tập dữ liệu lớn một cách tự động Khám phá tri thức hay phát hiện tri thức trong cơ sở dữ liệu là một quá trình gồm một loạt các bước phân tích dữ liệu nhằm rút ra được các thông tin có ích, xác định được các giá trị, quy luật tiềm ẩn trong các khuôn mẫu hay mô hình dữ liệu

 Khai thác dữ liệu: Là một bước trong quá trình khám phá tri thức, gồm các

thuật toán khai thác dữ liệu chuyên dùng với một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu, các mô hình dữ liệu hoặc các thông tin có ích Nói cách khác, mục tiêu của khai thác dữ liệu là rút trích ra những thông tin có giá trị tồn tại trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu

 Dữ liệu giao dịch: Cho I = {i1, i2, …, in} là tập tất cả các mục dữ

liệu (mặt hàng) T = {t1, t2, …, tm} là tập tất cả các giao dịch trong

CSDL giao dịch D CSDL được cho là quan hệ hai ngôi   I  T Nếu mục iI xảy ra trong giao dịch tT thì ta viết là (i, t) , kí hiệu i 

t

Trang 19

 Tập phổ biến (kí hiệu FI): XI được gọi là phổ biến nếu (X) minSupp (với

minSupp là giá trị do người dùng chỉ định)

 Luật kết hợp: Một luật kết hợp có dạng AB, với A  I, B  I và A  B =

Ø Luật AB ngầm chứa trong D với độ đo Supp s, trong đó s là tỷ lệ các giao dịch trong D chứa A  B, được diễn tả bằng xác suất P(A B) Luật

AB có độ đo Conf c trong tập D, thì c là tỷ lệ giữa các giao dịch trong D

chứa A thì chứa luôn B, được diễn tả bằng xác suất P(B/A)

Để minh họa cho các khái niệm trên, ta lấy ví dụ CSDL với các giao dịch sau

Bảng 1.1 Cơ sở dữ liệu giao dịch

Mã giao dịch (Tid)

Giao dịch (Transaction)

 Giao dịch (Transaction): tập các hạng mục được mua trong một giỏ hàng,

lưu kèm với mã giao dịch (TID)

Trang 20

 Tập k-hạng mục (k-itemset): Ví dụ danh sách sản phẩm đơn (1-itemset)

như {A, B, C}, danh sách cặp sản phẩm đi kèm (2-itemset) như {{A,B},{A,C}}, danh sách 3 sản phẩm đi kèm (3-itemset) như {{A,B, C},{B, C, E}}

 Độ hỗ trợ: được kí hiệu (X), hay Supp(X) được tính bằng công thức: Supp(X)=Count(X)/|D| , trong đó: X I

1.2.2 Khai thác tập phổ biến, luật kết hợp

Phát biểu bài toán:

Cho một tập các mục I, một cơ sở dữ liệu giao dịch D, ngưỡng hỗ trợ minSupp, ngưỡng tin cậy minConf Tìm tất cả các luật kết hợp XY trên CSDL D sao cho: Supp(X

Y) ≥ minSupp và conf(XY) ≥ minConf Bài toán khai thác luật kết hợp có thể được

chia ra làm 2 bài toán con được phát biểu trong thuật toán sau:

Nội dung thuật toán

Vào: I, D, minSupp, minConf

Ra: Các luật kết hợp thỏa mãn minSupp và minConf

Phương thức:

(1) Tìm tất cả các tập mục phổ biến từ CSDL D nghĩa là tìm tất cả các tập

mục có độ hỗ trợ lớn hơn hoặc bằng minSupp

(2) Sinh ra các luật từ các tập mục phổ biến sao cho độ tin cậy của luật lớn

hơn hoặc bằng minConf

Trang 21

Apriori là thuật toán khai thác tập kết hợp và từ đó có thể khai thác luật kết hợp do RaKesh Agrawal, Ramakrishnan Srikant đưa ra vào năm 1994, là nền tảng cho việc phát triển những thuật toán sau này Thuật toán sinh tập mục ứng cử từ những tập mục phổ biến ở bước trước, sử dụng kĩ thuật ―tỉa‖ để bỏ đi tập mục ứng cử không thỏa mãn ngưỡng hỗ trợ cho trước

Thuật toán Apriori

Input: Tập các giao dịch D, ngưỡng hỗ trợ minSupp

Output: Tập F bao gồm các tập mục phổ biến trên D

Method:

L 1 = find_frequent_1-itemset(D);

for (k = 2; L k-1 ≠ ; k++)

{C k = Apriori_gen(L k-1 );// sinh tập mục ứng cử mới Ck;

For each giao tác t ∈ D

{//Quét D để đếm

C t = subset(C k , t);// các ứng viên chứa trong t;

Trang 22

Procedure apriori_gen(L k-1 :tập (k-1) item phổ biến)

for each tập item l1  L k-1

for each tập item l2  L k-1

procedure has_infrequent_subset(c: ứng viên tập k item;

L k-1 : các tập (k-1) item phổ biến);// sử dụng kiến thức trước

for each tập con (k-1) s of c

if s  L k-1 then return TRUE;

return FALSE;

Hình 1.1 Thuật toán Apriori

Trong thuật toán này giai đoạn đầu đơn giản chỉ là việc tính độ hỗ trợ của các mục

Để xác định L 1 , ta chỉ giữ lại các mục có độ hỗ trợ lớn hơn hoặc bằng minSupp

Trong các giai đoạn thứ k sau đó (k >1), mỗi giai đoạn gồm có 2 pha:

Trang 23

Pha thứ 1: Các (k-1)-itemset phổ biến trong tập L k-1 tìm được trong giai đoạn

thứ k-1 được dùng để sinh ra các tập mục ứng cử C k bằng cách thực hiện hàm

apriori_gen()

Pha thứ 2: CSDL D sẽ được quét để tính độ hỗ trợ cho mỗi tập mục ứng cử trong

C k Các tập mục ứng cử trong C k mà được chứa trong giao dịch t có thể được xác định một cách hiệu quả bằng việc sử dụng cây băm

Hàm apriori_gen() thực hiện hai bước:

Bước 1- Kết nối: Để tìm L k , một tập ứng viên các tập k item được sinh bởi việc kết L k-1 với chính nó Tập các ứng viên này được đặt là C k Gọi l1 và l2 là các tập item

trong L k-1 Ký hiệu l i [j] chỉ tới item thứ j trong l i (chẳng hạn, l1[k–2] chỉ tới item cuối thứ 2 trong l1) Với quy ước, Apriori giả sử các item trong một giao tác hay tập item

đã được sắp xếp theo thứ tự từ điển Đối với tập (k–1) item, l i nghĩa là các item được

sắp xếp thành l i [1] <l i [2] < … <l i [k-1] Phép kết, L k-1 kết L k-1, được thực

hiện, với các phần tử của L k-1 là khả kết nếu (k–2) items đầu tiên của chúng là chung

Do vậy, các phần tử l1 và l2 của L k-1 được kết nếu (l 1 [1] = l 2 [1])  (l 1 [2]

= l 2 [2])  …  (l 1 [k–2] = l 2 [k–2])  (l 1 [k–1] <l 2 [k–1]) Điều kiện l 1 [k–1] <l 2 [k–1] đơn giản là bảo đảm rằng không có các bản sao được phát sinh Tập item tạo ra bởi việc kết l1 và l2 là l 1 [1], l 1 [2] , … , l 1 [k-2],

l 2 [k-1]

Bước 2 - Cắt tỉa: C k là tập cha của L k, do đó, những phần tử của nó có thể hoặc

không thể phổ biến, nhưng tất cả các tập k item phổ biến thuộc C k Việc quét cơ sở dữ

liệu để xác định số lượng của mỗi ứng viên trong C k sẽ cho kết quả trong việc xác định

của L k (chẳng hạn, tất cả ứng viên có số lượng không nhỏ hơn độ hỗ trợ tối thiểu là phổ

biến theo định nghĩa, và do đó thuộc về L k ) Tuy nhiên, C k có thể khổng lồ, và nó có thể

đòi hỏi việc tính toán cực nhọc

Để giảm kích thước của C k , tính chất Apriori được sử dụng như sau Vài tập (k–1)

Trang 24

items là không phổ biến thì không thể là tập con của một tập k items phổ biến Sau đó, nếu vài tập con (k–1) items của ứng viên tập k items không thuộc L k-1, thì ứng viên

cũng không thể là phổ biến và có thể loại bỏ khỏi C k Việc kiểm tra tập con này có thể hoàn thành một cách nhanh chóng bằng cách giữ một cây băm (hash tree) của tất cả các tập item phổ biến

Ví dụ 1.1: Giả sử ta có có sở dữ liệu giao dịch như trong bảng 1.1, với minSupp

là 50% (=3 items) Các bước thực hiện thuật toán Apriori như sau :

Tiếp tục, kết danh sách L 1 với chính nó (L 1 & L 1 ) để sinh ra bảng ứng viên C 2

Quét C 2 , loại bỏ các item có độ phổ biến nhỏ hơn 3 để được L 2

Trang 25

Danh mục Độ phổ biến C2 Danh mục Độ phổ biến L2

Như vậy, với cơ sở dữ liệu ví dụ sau 4 bước của thuật toán Apriori ta thu được

mười chín tập phổ biến : {{A}, {C}, {D}, {B}, {E}, {AC}, {AB}, {AE},

DỪNG

Trang 26

{CD}, {CB}, {CE}, {DE}, {BE}, {ACB}, {ACE}, {ABE}, {CDE}, {CBE}, {ACBE}}

Thuật toán khai thác luật kết hợp:

Input : tập phổ biến: FI, ngưỡng tin cậy minconf

Output : tập các luật kết hợp AR

Method:

SORT (FI) // hàm sắp xếp tập FI tăng theo k-itemset

AR = 

For each fi  FI with |fi| > 1 do

For each fj  FI with j < i do

if fj  fi then

conf = Sup(fi)/ Sup(fj)

if conf  minConf then

AR = AR {fj  fi \ fj (Sup(fi), conf)}

return AR

Hình 1.2 Thuật toán khai thác luật kết hợp

Với đầu vào các tập phổ biến vừa tính đƣợc ở trên Apriori: FI = {{A}, {C}, {D}, {B}, {E}, {AC}, {AB}, {AE}, {CD}, {CB}, {CE}, {DE}, {BE}, {ACB}, {ACE}, {ABE}, {CDE}, {CBE}, {ACBE}},19 tập phổ biến

Trang 27

BEAC; ACBE; ABEC; CBEA}

1.3 BẢO TOÀN TÍNH RIÊNG TƯ TRONG KHAI THÁC DỮ LIỆU

Bảo toàn tính riêng tư trong khai thác dữ liệu (Privacy Preserving Data Mining – PPDM) có thể được chia làm hai hướng tiếp cận chính Một là ẩn “thông tin nhạy cảm” trong CSDL phát hành và hai là ẩn “tri thức nhạy cảm” được chiết ra từ các CSDL phát

hành thông qua các công cụ PPDM

 Hướng tiếp cận ẩn thông tin nhạy cảm từ CSDL phát hành là hướng nghiên cứu các kỹ thuật che dấu hoặc loại bỏ những thông tin nhạy cảm được quy định bởi người sử dụng chứa trong các CSDL Ví dụ các thông tin như bệnh lý, mức lương, trình độ học vấn… Xét CSDL của một phòng khám được cho trong Bảng 1.2 Trong đó có hai bộ (bộ thứ 2 và 7) có thuộc tính ―bệnh lý‖ là HIV, rõ ràng thông tin này mang tính chất nhạy cảm cần phải loại bỏ hoặc ẩn trước khi công bố Nói tóm lại những thông nhạy cảm được hiểu theo hướng tiếp cận này thường là những thông tin mang tính cá nhân riêng tư được thể hiện một cách rõ ràng trong các CSDL và do người sở hữu CSDL đó quy định Và vấn đề đặt ra là cần phải loại bỏ hoặc che giấu nó trước khi công bố CSDL đó Một số kỹ thuật được đề xuất để giải quyết bài toán này như là: gây nhiễu, khử, xoá, mã hoá…

Trang 28

Nhìn chung các kỹ thuật đã được đề xuất để giải quyết vấn đề ẩn thông tin nhạy cảm tương đối đơn giản và dễ thực hiện Song việc công bố hoặc chia sẻ một CSDL thiếu trung thực (chứa những thông tin ảo) là điều vô nghĩa

 Hướng tiếp cận ẩn tri thức nhạy cảm là hướng nghiên cứu loại bỏ hoặc che giấu những tri thức nhạy cảm được chiết ra thông qua các kỹ thuật PPDM như là luật phân lớp, luật quyết định, luật kết hợp…

Ví dụ: Xét một CSDL của một đại lý phân phối xe ô tô Bằng các công cụ PPDM,

giả sử người ta rút ra được luật quyết định “xe CRV & serie  (18456 - 18997)  lỗi chân ga”, hoặc luật “80% xe CRV sản xuất tại Mỹ thì có đến 60% trong số đó bị lỗi chân phanh” Rõ ràng các luật trên có thể xem là những tri thức nhạy cảm cần phải loại bỏ

hoặc che giấu trước khi công bố CSDL ra bên ngoài Một số kỹ thuật tiêu biểu đã được

đề xuất và nghiên cứu theo hướng tiếp cận này như: kỹ thuật biến dạng (Distortion), kỹ thuật phong tỏa (Blocking), kỹ thuật lọc (Filtering)… Thông qua các thuật toán đã đề xuất, kỹ thuật ẩn tri thức nhạy cảm cũng thể được phân vào hai dạng chính như sau:

Thứ nhất: là ẩn các tập mục được cho là nhạy cảm để ngăn cản việc chiết ra các tri

thức nhạy cảm thông qua các công cụ PPDM

Thứ hai: từ các tri thức nhạy cảm (các luật) tìm ra các tập mục tạo ra chúng rồi sau

đó tiến hành ẩn các tập mục đó

Mục tiêu chính của đảm bảo tính riêng tư trong PPDM là phát triển các thuật toán

để sửa đổi dữ liệu gốc theo một số phương án nào đó, vì vậy dữ liệu và tri thức riêng tư được bảo vệ một cách an toàn Vấn đề phát sinh khi các thông tin mật có thể bị chiết ra từ

dữ liệu phát hành một cách trái phép cũng được gọi là vấn đề ―suy diễn CSDL‖ (database inference)

Trang 29

1.3.1 Phân loại các phương pháp PPDM

Dựa vào một số cách tiếp cận đã được đề xuất gần đây ta có thể phân lớp và phân tích các kỹ thuật khác nhau được phát triển trong lĩnh vực đảm bảo tính riêng tư trong PPDM dựa trên một số hướng tiếp cận như sau:

Hướng tiếp cận thứ nhất: đề cập đến sự phân bố của dữ liệu (Data distribution)

Một số kỹ thuật được phát triển trên dữ liệu tập trung, trong khi đó một số khác hướng vào dữ liệu phân tán Đối với dữ liệu phân tán cũng có thể phân thành hai nhóm, phân mảnh ngang và phân mảnh dọc Phân mảnh ngang đề cập đến trường hợp mà trong đó các bản ghi dữ liệu được phân bố ở nhiều nơi khác nhau, trong khi phân mảnh dọc đề cập đến trường hợp trong đó các giá trị trên các thuộc tính khác nhau của CSDL được phân

bố trong các vùng khác nhau

Hướng tiếp cận thứ hai: đề cập đến các mô hình biến đổi dữ liệu (Data

modification) Nói chung, biến đổi dữ liệu là kỹ thuật được sử dụng để thay đổi những giá trị gốc của một CSDL cần công bố rộng rãi mà tính riêng tư cần được bảo vệ Điều quan trọng là một kỹ thuật biến đổi dữ liệu cần được phối hợp với các nguyên tắc riêng tư được thông qua bởi các tổ chức sở hữu dữ liệu Các phương pháp biến đổi dữ liệu bao gồm:

 Gây nhiễu (Perturbation) là kỹ thuật được thực hiện bằng cách thay đổi một giá trị thuộc tính bởi một giá trị mới (thay giá trị 1 thành 0 hoặc thêm phần tử nhiễu)

 Phong toả (Blocking) là kỹ thuật thay thế một giá trị thuộc tính bởi dấu ―?‖

 Trộn (Merging) là kỹ thuật kết hợp một số giá trị thuộc tính vào trong một lớp tổng quát hơn

Trang 30

 Hoán đổi (Swapping) là kỹ thuật tập trung vào chuyển đổi các giá trị của các bản ghi cá nhân

 Lấy mẫu (Sampling) là kỹ thuật công bố dữ liệu chỉ tập trung vào một nhóm mẫu đặc trưng

Hướng tiếp cận thứ ba: đề cập đến các thuật toán PPDM cần phát triển trong

tương lai Mà trong đó các kỹ thuật ẩn dữ liệu sẽ được tích hợp sẳn vào chúng để phục vụ cho mục tiêu đảm bảo tính riêng tư cá nhân

Hướng tiếp cận thứ tư: đề cập đến việc nên ẩn dữ liệu thô hay những tri thức

được chiết ra từ các công cụ PPDM (Data or rule hiding) Việc ẩn những tri thức được chiết ra từ các CSDL bởi các công cụ PPDM phức tạp hơn vì vậy mà kỹ thuật phát triển theo hướng này chủ yếu là dựa vào heuristic

Hướng tiếp cận thứ năm: là quan trọng nhất, trong đó đề cập đến kỹ thuật bảo

đảm tính riêng tư trong PPDM để sửa đổi có chọn lọc dữ liệu Các kỹ thuật theo hướng nghiên cứu tập trung vào việc bảo vệ tính riêng tư của dữ liệu nhưng cố gắng bảo toàn chất lượng của CSDL phát hành Những kỹ thuật được đề xuất theo hướng tiếp cận này như:

- Các kỹ thuật dựa trên heuristic (Heuristic-based techniques)

- Các kỹ thuật dựa vào mã hoá (Cryptographic-based techniques)

- Các kỹ thuật dựa vào việc tái cấu trúc lại dữ liệu (Reconstruction-based techniques)

2.3.2 Đánh giá thuật toán PPDM

Việc đề ra những tiêu chuẩn hợp lý để đánh giá một thuật toán phục vụ PPDM là rất quan trọng Thông thường, không có thuật toán nào có thể đáp ứng tốt tất cả các tiêu chuẩn đề ra, nên khi so sánh các thuật toán thì chỉ có thể so sánh dựa trên một hoặc một

số tiêu chuẩn mà thôi, và ta đang muốn đạt mức tối ưu ở tiêu chuẩn nào của một thuật toán thì chỉ chọn ra và đánh giá dựa trên tiêu chuẩn đó Cần biết rằng việc chỉnh sửa dữ

Trang 31

liệu để phục vụ cho PPDM làm giảm tính hữu dụng của một cơ sở dữ liệu Thường người

ta dựa trên các độ đo sau để đánh giá một thuật toán PPDM [14]:

2.3.2.1 Dựa vào hiệu năng

Là thời gian cần thiết để thuật toán thực hiện xong việc giấu một tập hợp các thông tin nhạy cảm cho trước Có thể dựa vào chi phí tính toán để đánh giá điều này, hoặc dựa vào số tác vụ trung bình cần thiết để giảm tần suất xuất hiện của thông tin nhạy cảm nào đó đạt mức thấp hơn ngưỡng cho trước Ngoài ra, chi phí đường truyền để chuyển tải thông tin giữa các trạm trong môi trường phân tán cũng cần phải kể đến và giảm thiểu trong các thuật toán PPDM phục vụ cho môi trường phân tán

2.3.2.2 Dựa vào tính hữu dụng của dữ liệu

Được đo trên dữ liệu sau khi áp dụng kỹ thuật đảm bảo tính riêng tư, được tính bằng

độ mất mát thông tin hoặc độ mất chức năng của dữ liệu Để giấu thông tin nhạy cảm, ta thường sửa đổi để làm sai lệch thông tin hoặc làm mất thông tin (ví dụ thay dữ liệu thật bởi giá trị unknown) Khi ta thay đổi cơ sở dữ liệu càng nhiều (để giấu thông tin nhạy cảm) thì

cơ sở dữ liệu càng giảm thông tin chứa đựng trên dữ liệu Độ mất mát thông tin phụ thuộc vào thuật toán khai thác dữ liệu và thuật toán đảm bảo tính riêng tư của dữ liệu Trong bài toán khai thác tìm luật kết hợp, độ mất thông tin tính bằng số luật mất đi (lost rules) và số luật mới xuất hiện (ghost rules), hoặc độ tăng/giảm độ hỗ trợ và độ tin cậy của tất cả các luật

2.3.2.3 Dựa vào mức độ không tin chắc

Được đo trên dữ liệu sau khi đã giấu thông tin nhạy cảm, dựa trên thông tin suy đoán được từ dữ liệu này Thông tin nhạy cảm dù đã được giấu bởi thuật toán nhưng vẫn

có thể bị đoán ra với mức độ không tin chắc nào đó Thuật toán giấu dữ liệu cần đạt được mức độ không tin chắc là cao nhất, nghĩa là người sử dụng dữ liệu (sau khi đã giấu thông tin nhạy cảm) không thể tin chắc vào điều mà họ có được từ việc suy đoán

Trang 32

2.3.2.4 Dựa vào độ chịu đựng

Là quan trọng nhất, để đánh giá thuật toán có thật sự giấu được thông tin nhạy cảm hay không Thường thì thuật toán giấu thông tin nhạy cảm được xây dựng chỉ cho một thuật toán khai thác dữ liệu nào đó, nhưng kẻ tấn công dữ liệu lại thường dùng nhiều thuật toán khai thác khác nhau để khai thác thông tin Vì vậy, một thuật toán giấu thông tin nhạy cảm cần được đánh giá khả năng chịu đựng dựa trên nhiều thuật toán khai thác

Trang 33

CHƯƠNG 2 CÁC THUẬT TOÁN BẢO TOÀN TÍNH RIÊNG TƯ

2.1 CHỈNH SỬA DỮ LIỆU TRONG CSDL NHỊ PHÂN

Đây là bài toán dùng kỹ thuật xáo trộn để thay đổi giá trị nguyên thủy của một cơ sở

dữ liệu nhị phân nhằm giấu một số luật kết hợp cho trước [14] Tác giả dựa trên một số phương pháp (heuristic) để thay đổi giá trị của dữ liệu Bài toán được phát biểu như sau: Cho một CSDL D và hai giá trị: ngưỡng hỗ trợ (MinSupport - MST) và ngưỡng

tin cậy (MinConfidence- MCT), cùng với tập luật nhạy cảm Rh Hãy thay đổi D thành D’sao cho trên D’ không thể khai thác được tập luật Rh nhưng vẫn có thể khai thác được

các luật trong tập R-Rh, với R là tập hợp các luật kết hợp khai thác được từ D

Việc giải quyết bài toán trên bằng cách thay đổi các giao tác để giảm độ hỗ trợ của những itemset lớn là một bài toán NP- khó Vì vậy, giải pháp là dựa trên một số heuristic để chuyển đổi D thành D’ và giữ ở mức tối đa có thể được số lượng luật khai thác được trong

tập luật R - Rh

Có hai giải pháp được đề ra Thứ nhất là giấu những tập phổ biến (frequent itemset)

sinh ra các luật trong tập luật Rh (tức là giảm độ hỗ trợ của chúng) Thứ hai là giảm độ tin

cậy của những luật nhạy cảm

Có bôn chiến lược được đề ra để hiện thực hai giải pháp trên Gọi X  Y là 1 luật

muốn giấu, X  Y  Rh:

- Tăng độ hỗ trợ trên X cho đến khi độ tin cậy của luật bé hơn MST

- Giảm độ hỗ trợ trên X  Y cho đến khi độ tin cậy hoặc độ hỗ trợ của luật bé hơn

giá trị ngưỡng tương ứng

- Giảm độ hỗ trợ trên Y cho đến khi độ tin cậy hoặc độ hỗ trợ của luật bé hơn giá trị

ngưỡng tương ứng

- Giảm độ hỗ trợ của những itemset sinh ra luật cho đến khi chúng bé hơn MST

Thực tế, hầu hết các thuật toán khi thực hiện giấu luật đều sinh ra hiệu ứng lề, đó là hiện

Trang 34

tượng mất luật (lost rule) hoặc sinh ra luật mới (ghost rule) Các luật bị mất đi là do ảnh hưởng của việc thay đổi cơ sở dữ liệu D ban đầu Các luật này lẽ ra phải vẫn còn tồn tại trong cơ sở dữ liệu D’ Các luật mới sinh ra thật sự không hiện diện trong cơ sở dữ liệu D, nhưng do thuật toán thay đổi cơ sở dữ liệu làm xuất hiện những luật không có thật này Các

phương pháp (heuristic) được dùng để giấu Rh sẽ cân nhắc trong quá trình thay đổi dữ liệu

để giảm thiểu hiệu ứng lề này

Cho một giao tác t và một tập itemset S t hỗ trợ toàn phần S nếu giá trị của t tại tất cả các item của S đều bằng 1 t hỗ trợ bán phần S nếu giá trị của t tại ít nhất một item thuộc S

bằng 1 và có ít nhất một giá trị 0 Dưới đây tại các hình 2.1, 2.2, 2.3, 3.4 trình bày bốn thuật

toán: 1a, 1b, 2a và 2b được các tác giả trình bày trong [13]

INPUT: D,Rh,min_conf, min_supp

OUTPUT: D’

Method:

For each rule r in Rh do

{ Tr= {t D /t hỗ trợ toàn phần r}

for each giao tác trong Tr

Đếm số item thuộc r trong giao tác

Sắp xếp giao tác trong Tr tăng dần theo số item mà giao tác hỗ trợ r

repeat until Conf(r) < min_conf or sup(r)< min_sup

{ Chọn giao tác t  Tr hỗ trợ r với số lượng item ít nhất (t là dòng đầu tiên trong Tr)

Chọn item j thuộc rr hỗ trợ (|rr|-1)-itemset ít nhất

Xóa j khỏi t

Giảm độ hỗ trợ của r đi 1

Tính lại độ tin cậy của luật r

Trang 35

INPUT: D, Rh, min_conf, min_supp

OUTPUT: D’

Method:

For each rule r in Rh do

Tr= {t D /t hỗ trợ toàn phần r}

repeat until Conf(r) < min_conf

{Chọn giao tác t  Tr hỗ trợ lr với số lượng item ít nhất (t là dòng đầu tiên trong Tr)

Chọn item j thuộc rr hỗ trợ (|rr|-1)-itemset ít nhất Xóa j khỏi t

repeat until Conf(r) < min_conf

{ Chọn giao tác t  Tr hỗ trợ lr với số lượng item ít nhất (t là dòng đầu tiên trong Tr)

Chọn item j thuộc rr hỗ trợ (|rr|-1)-itemset ít nhất

Xóa j khỏi t

Trang 36

INPUT: L tập các large itemsets, Lh tập các large itemset

cần giấu đi, D, Min_sup

OUTPUT: D’

Method:

Sắp xếp Lh theo thứ tự giảm dần theo kích thước và độ hỗ trợ của các large itemset

For each Z thuộc L

{ Sắp xếp các giao tác thuốc TZ (hỗ trợ Z) theo thứ tự tăng dần của kích thước giao tác

Trang 37

Bảng 2.1 Bảng so sánh bốn thuật toán 1a, 1b, 2a, 2b

Thuật toán

(Algorithms)

Thời gian (Times)

Luật mới (Ghost rule)

Mất luật (Lost rule)

1a Tăng tuyến tính với |D| và |Rh|

Xuất hiện luật mới do tăng Support nên số lượng và kích

thước của FI tăng, tăng khi |Rh|

lượng luật mới giảm khi |D| tăng Có, tăng khi |Rh| tăng

2a Tăng tỷ lệ với |D| và |Rh| lượng luật mới giảm khi |D| tăng Có, nhưng ít ảnh hưởng vì số Có, tăng khi |Rh| tăng

Nhận xét

- Giấu mỗi lần một luật (hoặc tập phổ biến (itemset))

- Giảm độ tin cậy hoặc độ hỗ trợ mỗi lần 1 đơn vị

- Tăng độ hỗ trợ của S (tập itemset S) dựa trên các giao tác hỗ trợ một phần S, chọn giao tác

t có số item =1 nhiều nhất, thay 0 bởi 1 các item của t để t hỗ trợ toàn phần S

- Giảm độ hỗ trợ của S dựa trên các giao tác hỗ trợ toàn phần S, chọn giao tác có số item =1

ít nhất, chọn item thứ j có ảnh hưởng ít nhất đến (|S| -1)-itemset, thay 1 bởi 0

2.2 THAY GIÁ TRỊ DỮ LIỆU THẬT BẰNG GIÁ TRỊ KHÔNG XÁC ĐỊNH

Như đã đề cập ở trên 1.3.1, việc giấu dữ liệu bằng cách thay giá trị thật của dữ liệu bởi giá trị sai, hoặc kỹ thuật tạo nhiễu trên dữ liệu trong một số trường hợp sẽ cho ra hậu quả xấu Giả sử một tổ chức ngành y cho công khai một số dữ liệu mà trước đó đã thực hiện qua kỹ thuật thay thế giá trị thật bởi giá trị sai nhằm giấu một số thông tin riêng tư Các nhà nghiên cứu có thể dùng dữ liệu này cho mục đích khai thác dữ liệu tìm tri thức

Trang 38

Tri thức không đúng tìm từ dữ liệu không chính xác gây ra hậu quả nghiêm trọng đến việc chẩn đoán bệnh và gây nguy hiểm đến tính mạng bệnh nhân

Như vậy, trong một số trường hợp, giấu dữ liệu bằng cách thay thế giá trị thật bởi giá trị ―không biết‖ sẽ an toàn hơn là thay bởi giá trị sai Bài toán được xác định như sau:

Cho một cơ sở dữ liệu D, hãy làm cho tập hợp các luật nhạy cảm cho trước ―mờ‖ đi

(bằng cách làm cho độ tin cậy hoặc độ hỗ trợ giảm) dùng kỹ thuật thay thế giá trị đã biết của dữ liệu bởi giá trị ―không biết‖ với ràng buộc là giảm thiểu hiệu ứng lề ảnh hưởng đến tập luật không nhạy cảm Kỹ thuật này gọi là blocking

Đầu tiên, ta hãy xét ví dụ sau [13] Cho cơ sở dữ liệu D và D’ ứng với thời điểm

trước và sau khi áp dụng kỹ thuật giấu dữ liệu như đã mô tả ở trên như sau:

Trên D, Supp (A  C) = 80%, conf (A  C) = 80%

Tuy nhiên, trên D’, 60%  Supp (A  C)  80%, 60%  conf (A  C)  100% Như vậy, khi trên cơ sở dữ liệu xuất hiện loại giá trị mới là ―không biết ‖ (dùng ký hiệu ―?‖) thì độ hỗ trợ và độ tin cậy sẽ trở thành một khoảng chứ không còn là một giá trị

cụ thể [13]:

Độ hỗ trợ của luật A  B là khoảng: [minSupp (A  B), maxSupp (A  B)]

Độ tin cậy của luật A  B là khoảng: [minConf (A  B), maxConf(A  B)]

Trang 39

Trong đó:

D

B A

B

A ) ( 1 1)sup(





?) (

?) ( ) 0 (

?) ( 1

) 1 ( ) 1 ( )

B A

A

B A

?)(

?)()1(

?)(1

?)(

?)()1(

?)(

?)()1()1()1(

)sup(

max

100

*)sup(

min)

(min

B A

A

B A

A

B A B

A conf

D

B A

A

B A B

A conf

?)(

?)()1(

?)(

?)()1()1()1(

)sup(

min

100

*)sup(

max)(

Khi không có giá trị ―không biết‖ trong cơ sở dữ liệu thì giá trị cực tiểu và cực đại

của độ hỗ trợ chỉ là 1 giá trị là (MST) Trong quá trình thay thế giá trị thật của dữ liệu thành ―?‖ thì giá trị cực tiểu và cực đại bắt đầu tách ra, và bằng cách này, độ không tin

chắc về một luật sẽ tăng, vì thế mà luật được giấu đi Đây là nguyên lý của thuật toán giấu luật theo kỹ thuật này

Ta nhận thấy rằng: một itemset A vẫn còn nhạy cảm khi minSupp(A)  MST Itemset

A sẽ không còn nhạy cảm khi maxSupp(A) < MST A vẫn còn khả năng là nhạy cảm, nhưng không chắc mấy, khi minSupp(A)  MST maxSupp(A) Ta quan tâm đến khả

năng thứ ba này Một cách tương tự khi xét đến độ tin cậy của luật Như vậy, ta giấu luật

bằng cách thay đổi dữ liệu (bởi giá trị ―?‖) để giảm độ hỗ trợ tối thiểu hoặc giảm độ tin

cậy tối thiểu cho đến khi bé hơn giá trị ngưỡng tương ứng Tuy nhiên, vấn đề đặt ra là

Định dạng
Số trang	79
Dung lượng	1,69 MB