1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại việt nam

62 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Ứng Dụng Các Giải Pháp Khai Phá Dữ Liệu Đảm Bảo Tính Riêng Tư Trong Một Số Bài Tốn Phân Tích Dữ Liệu Ngân Hàng Thương Mại Việt Nam
Tác giả ThS. Vũ Duy Hiến, ThS. Nguyễn Dương Hùng, TS. Đinh Trọng Hiếu, ThS. Nguyễn Thị Thu Trang
Trường học Ngân Hàng Nhà Nước Việt Nam Học Viện Ngân Hàng
Chuyên ngành Khoa Học Dữ Liệu
Thể loại Đề Tài Nghiên Cứu Khoa Học Cấp Cơ Sở
Năm xuất bản 2019
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 1,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM HỌC VIỆN NGÂN HÀNG --- ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ NĂM 2019 NGHIÊN CỨU ỨNG DỤNG CÁC GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ TRONG MỘT SỐ BÀ

Trang 1

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM

HỌC VIỆN NGÂN HÀNG

-

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ NĂM 2019

NGHIÊN CỨU ỨNG DỤNG CÁC GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ TRONG MỘT SỐ BÀI TOÁN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG THƯƠNG MẠI VIỆT NAM

MÃ SỐ: DTHV.02/2019

CHỦ NHIỆM ĐỀ TÀI: THS VŨ DUY HIẾN

HÀ NỘI – 2020

Trang 2

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM

HỌC VIỆN NGÂN HÀNG

-

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ NĂM 2019

NGHIÊN CỨU ỨNG DỤNG CÁC GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ TRONG MỘT SỐ BÀI TOÁN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG THƯƠNG MẠI VIỆT NAM

MÃ SỐ: DTHV.02/2019

ThS NGUYỄN THỊ THU TRANG

Trang 3

DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI

STT Học hàm, học vị,

1 ThS Vũ Duy Hiến Chủ nhiệm đề tài Giảng viên Khoa HTTTQL

2 ThS Nguyễn Dương Hùng Thư ký đề tài Giảng viên Khoa HTTTQL

3 TS Đinh Trọng Hiếu Thành viên Giảng viên Khoa HTTTQL

4 ThS Nguyễn Thị Thu Trang Thành viên Giảng viên Khoa HTTTQL

Trang 4

MỤC LỤC

DANH MỤC BẢNG BIỂU iv

DANH MỤC HÌNH VẼ iv

DANH MỤC CÁC CHỮ VIẾT TẮT v

MỞ ĐẦU 1

1 Tính cấp thiết 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

5 Phương pháp nghiên cứu 3

6 Ý nghĩa khoa học và thực tiễn 3

7 Kết cấu đề tài 3

CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU 4

1.1 Tổng quan về lĩnh vực phân tích và khai phá dữ liệu đảm bảo tính riêng tư 4

1.1.1 Giới thiệu 4

1.1.2 Các dạng bài tốn khai phá dữ liệu đảm bảo tính riêng tư 4

1.1.3 Các hướng tiếp cận khai phá dữ liệu đảm bảo tính riêng tư 5

1.2 Cơ sở kỹ thuật của khai phá và phân tích dữ liệu đảm bảo tính riêng tư 9

1.2.1 Cơ sở về khai phá dữ liệu và học máy 9

1.2.2 Cơ sở về mật mã học 15

1.2.3 Tính tốn bảo mật nhiều thành viên 19

1.3 Một số kỹ thuật khai phá dữ liệu đảm bảo tính riêng tư và phân tích, đánh giá 22

1.3.1 Các nghiên cứu đảm bảo tính riêng tư cho thuật tốn cây quyết định ID3 23 1.3.2 Các nghiên cứu đảm bảo tính riêng tư cho thuật tốn phân lớp Nạve Bayes 25

CHƯƠNG 2 THỰC TRẠNG BẢO VỆ THƠNG TIN RIÊNG TƯ TRONG HOẠT ĐỘNG PHÂN TÍCH DỮ LIỆU NGÂN HÀNG 27

2.1 Các nghiên cứu về đảm bảo tính riêng tư cho hoạt động phân tích, khai phá dữ liệu ngân hàng trên thế giới 27 2.2 Thực trạng hoạt động phân tích dữ liệu ngân hàng ở Việt Nam và vấn đề bảo vệ

Trang 5

CHƯƠNG 3: ỨNG DỤNG GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ CHO MỘT SỐ BÀI TOÁN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG 37

3.1 Giải pháp đảm bảo tính riêng tư cho bài toán xếp hạng tín dụng khách hàng của

ngân hàng 37

3.1.1 Giải pháp đảm bảo tính riêng tư của dữ liệu khách hàng trong bài toán xếp hạng tín dụng khách hàng dựa trên mô hình thẻ điểm 38

3.1.2 Giải pháp đảm bảo tính riêng tư của dữ liệu khách hàng trong bài toán xếp hạng tín dụng dựa trên mô hình học máy cây quyết định ID3 40

3.2 Giải pháp đảm bảo tính riêng tư của dữ liệu khách hàng trong bài toán dự báo sự quan tâm của khách hàng về dịch vụ ngân hàng sử dụng kỹ thuật Naive Bayes 43

3.2.1 Giới thiệu 43

3.2.2 Phát biểu bài toán 43

3.2.3 Mô tả các thuộc tính 44

3.2.4 Giải pháp đề xuất 46

3.2.5 Chứng minh tính đúng đắn 47

3.2.6 Phân tích tính riêng tư 47

3.2.7 Thực nghiệm 47

KẾT LUẬN 49

TÀI LIỆU THAM KHẢO 50

Trang 6

DANH MỤC BẢNG BIỂU

Bảng 1 Các dạng bài tốn PPDM và phương pháp tiếp cận 8

Bảng 2 Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân khơng kinh doanh của ngân hàng Vietcombank 29

Bảng 3 Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân khơng kinh doanh của ngân hàng Techcombank 31

Bảng 4 Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân khơng kinh doanh của ngân hàng BIDV 32

DANH MỤC HÌNH VẼ Hình 1 Mơ hình phân tích dữ liệu truyền thống 4

Hình 2 Phương pháp tiếp cận cho các bài tốn PPDM 6

Hình 3 Hai cách tiếp cận trong khai phá dữ liệu đảm bảo tính riêng tư 8

Hình 4 Một ví dụ đơn giản về cây quyết định 10

Hình 5 Thuật tốn Shank’s baby-step giant-step 18

Hình 6 Biến thể của thuật tốn Shank’s baby-step giant-step dựa trên mật mã đường cong elliptic 18

Hình 7 Giao thức tính tích vơ hướng bí mật của Goethals và cộng sự 20

Hình 8 Giao thức tính tổng bí mật của Hao và cộng sự 21

Hình 9 Giải pháp bảo vệ thơng tin riêng tư của khách hàng trong quá trình xếp hạng tín dụng sử dụng mơ hình thẻ điểm 40

Hình 10 Mơ hình phân tích dữ liệu 41

Hình 11 Giải pháp đảm bảo tính riêng tư cho bài tốn xếp hạng tín dụng sử dụng kỹ thuật phân lớp ID3 42

Hình 12 Giải pháp đảm bảo tính riêng tư cho bài tốn dự báo sự quan tâm dịch vụ tiền gửi của khách hàng sử dụng kỹ thuật phân lớp Nạve Bayes 47

Trang 7

DANH MỤC CÁC CHỮ VIẾT TẮT

SMC Tính toán bảo mật nhiều thành viên (secure multi-party computation)

ID3 Iterative Dichotomiserán 3

CNTT Công nghệ thông tin

Trang 8

MỞ ĐẦU

1 Tính cấp thiết

Trong nền kinh tế thị trường, hệ thống các ngân hàng thương mại (NHTM) được

ví như mạch máu của nền kinh tế, giúp vận hành dòng vốn đầu tư và là nơi thực hiện các chính sách tiền tệ, giúp nhà nước điều hành nền kinh tế Để hỗ trợ hoạt động kinh doanh và đạt được những lợi thế cạnh tranh trong kỷ nguyên số hiện nay, các NHTM trên thế giới nói chung và tại Việt Nam nói riêng luôn ý thức được vai trò quan trọng của hoạt động phân tích dữ liệu và ứng dụng kết quả của hoạt động này để giải quyết một số bài toán nghiệp vụ điển hình: phân khúc khách hàng, chấm điểm tín dụng, quảng

bá sản phẩm dịch vụ và phát hiện gian lận Tuy nhiên, quá trình phân tích dữ liệu ngân hàng ở Việt Nam thường xuyên phải sử dụng các thông tin riêng tư nhạy cảm của khách hàng, ví dụ như: thu nhập cá nhân, tài sản sở hữu, gói bảo hiểm nhân thọ đang đầu tư Điều này gây nên ba vấn đề như sau:

- Thứ nhất, trong nhiều trường hợp, khách hàng e ngại cung cấp cho ngân hàng những thông tin mang tính chất riêng tư nhạy cảm

- Thứ hai, quá trình lưu trữ và khai thác dữ liệu chứa thông tin riêng tư nhạy cảm của khách hàng tại ngân hàng gặp phải nhiều rủi ro tiềm ẩn bởi dữ liệu ngân hàng là một trong những đích ngắm ưa thích của tội phạm mạng

- Thứ ba, do dữ liệu ngân hàng chứa những thông tin riêng tư nhạy cảm nên hầu hết các NHTM không sẵn sàng công bố rộng rãi để phục vụ mục đích nghiên cứu và nâng cao chất lượng phân tích dữ liệu Điều này cũng hoàn toàn dễ hiểu bởi việc quản

lý, khai thác, chia sẻ dữ liệu phải tuân thủ các điều luật An ninh mạng, Công nghệ thông tin, Tổ chức tín dụng, Giao dịch điện tử và các thông tư quy định về đảm bảo an toàn, bảo mật hệ thống công nghệ thông tin trong hoạt động ngân hàng của Ngân hàng Nhà nước Hơn nữa, yếu tố cạnh tranh giữa các NHTM cũng là một nguyên nhân dẫn đến vấn đề thứ ba này

Vì vậy, việc nghiên cứu ứng dụng các giải pháp kỹ thuật tiên tiến để khai thác, phân tích dữ liệu ngân hàng trong khi không sử dụng trực tiếp và không lưu trữ dữ liệu chứa thông tin riêng tư nhạy cảm của khách hàng là rất có ý nghĩa đối với các NHTM ở

Việt Nam Xuất phát từ lý do này, nhóm nghiên cứu quyết định lựa chọn đề tài “Nghiên

Trang 9

cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại Việt Nam”

2 Mục tiêu nghiên cứu

Mục tiêu của đề tài bao gồm mục tiêu tổng quát và mục tiêu cụ thể như sau:

- Mục tiêu tổng quát: nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư (privacy-preserving data mining-PPDM) hiệu quả cho một số bài toán phân tích dữ liệu điển hình tại các NHTM ở Việt Nam

- Mục tiêu cụ thể: dựa trên phương pháp tiếp cận của lĩnh vực tính toán bảo mật nhiều thành viên (secure multi-party computation-SMC), đề tài đề xuất các giải pháp khai phá dữ liệu đảm bảo tính riêng tư cho hai bài toán bài toán phân tích dữ liệu điển

hình tại các NHTM ở Việt Nam: xếp hạng (chấm điểm) tín dụng khách hàng sử dụng

mô hình thẻ điểm và mô hình phân lớp dữ liệu và dự báo mức độ quan tâm của khách hàng về dịch vụ tiền gửi có kỳ hạn

3 Đối tượng và phạm vi nghiên cứu

Đề tài có các đối tượng nghiên cứu chính:

- Các giao thức SMC nổi bật dựa trên mật mã học

- Các kỹ thuật PPDM phổ biến dựa trên SMC

- Những bài toán phân tích dữ liệu ngân hàng điển hình tại các NHTM/TCTD ở Việt Nam có sử dụng những thông tin riêng tư nhạy cảm của khách hàng

Với các bài toán ứng dụng cụ thể được thực hiện trong đề tài, phạm vi nghiên cứu được giới hạn trong khuôn khổ hoạt động của các NHTM ở Việt Nam trong bối cảnh hiện nay

4 Nội dung nghiên cứu

Nội dung nghiên cứu cơ bản được trình bày trong đề tài bao gồm:

- Nghiên cứu lựa chọn giải pháp hiệu quả để bảo vệ thông tin riêng tư cho mô hình xếp hạng (chấm điểm) tín dụng khách hàng sử dụng phương pháp thẻ điểm

- Nghiên cứu lựa chọn các giải pháp PPDM hiệu quả cho cây quyết định ID3 và ứng dụng trong bài toán xếp hạng tín dụng khách hàng

Trang 10

- Nghiên cứu lựa chọn các giải pháp PPDM hiệu quả cho kỹ thuật phân lớp dữ liệu Nạve Bayes và ứng dụng trong bài tốn dự báo mức độ quan tâm của khách hàng về dịch vụ tiền gửi cĩ kỳ hạn dựa trên việc khảo sát những khách hàng mà ngân hàng đã tiếp thị

5 Phương pháp nghiên cứu

Đề tài được thực hiện dựa trên sự kết hợp giữa các phương pháp nghiên cứu phân tích, tổng hợp kết hợp với tiến hành thực nghiệm Cụ thể, các phương pháp nghiên cứu phân tích, tổng hợp được áp dụng để phân tích so sánh, đánh giá các kỹ thuật tính tốn, tìm ra những kỹ thuật tính tốn phù hợp, các đề xuất, xây dựng các giải pháp cho bài tốn ứng dụng cần giải quyết Sau đó, phương pháp nghiên cứu thực nghiệm được sử dụng để đánh giá mức độ hiệu quả và khả năng ứng dụng thực tiễn của các giải pháp đã

đề xuất

6 Ý nghĩa khoa học và thực tiễn

- Ý nghĩa khoa học: về mặt lý thuyết, đề tài cung cấp một cách tiếp cận mới cho hoạt động phân tích dữ liệu ngân hàng tại các NHTM ở Việt Nam, cụ thể đó là phương pháp khai phá dữ liệu ngân hàng với ràng buộc bảo vệ bí mật các thơng tin riêng tư và nhạy cảm cĩ trong dữ liệu

- Ý nghĩa thực tiễn: xuất phát từ những yêu cầu thực tế đã phân tích, các giải pháp được đề xuất trong đề tài nghiên cứu này đáp ứng được khả năng bảo vệ bí mật các dữ liệu chứa thơng tin riêng tư nhạy cảm trong khi kết quả phân tích dữ liệu khơng bị ảnh hưởng

7 Kết cấu đề tài

Ngồi phần mở đầu và kết luận, đề tài gồm ba chương chính:

- Chương 1: Tổng quan vấn đề nghiên cứu

- Chương 2: Thực trạng bảo vệ thơng tin riêng tư trong hoạt động phân tích dữ liệu ngân hàng

- Chương 3: Ứng dụng giải pháp khai phá dữ liệu đảm bảo tính riêng tư cho một

số bài tốn phân tích dữ liệu ngân hàng

Trang 11

CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU 1.1 Tổng quan về lĩnh vực phân tích và khai phá dữ liệu đảm bảo tính riêng tư 1.1.1 Giới thiệu

Cùng với tốc độ phát triển bùng nổ của lĩnh vực công nghệ thông tin, lượng dữ liệu

từ các hệ thống thông tin và các ứng dụng ngày càng gia tăng và được lưu trữ thành các tập dữ liệu lớn Khai phá dữ liệu đóng vai trò rất quan trọng trong việc phát hiện ra những tri thức tiềm ẩn, hữu dụng từ các tập dữ liệu lớn nói trên Bên cạnh các hướng nghiên cứu cơ bản như cải tiến những kỹ thuật khai phá dữ liệu và phát triển các kỹ thuật mới thì từ những năm 2000, hướng nghiên cứu khai phá dữ liệu đảm bảo tính riêng tư

(Privacy-Preserving Data Mining-PPDM) cũng được khá nhiều các nhà nghiên cứu

quan tâm (Lindell, Yehuda & Pinkas, Benny, 2000), (Evfimievski, Alexandre, Johannes Gehrke, & Ramakrishnan Srikant, 2003), (Alexandre Evfimievski, Ramakrishnan Srikant, Rakesh Agrawal, & Johannes Gehrke, 2004)

Hình 1 Mô hình phân tích dữ liệu truyền thống

Mục tiêu chính của hướng nghiên cứu PPDM là giúp cho bên phân tích dữ liệu đạt được kết quả đầu ra trong khi bên sở hữu dữ liệu vẫn giữ bí mật những thông tin mang tính chất riêng tư, nhạy cảm có trong dữ liệu Hướng nghiên cứu này được mở ra do sự cấp thiết của việc đảm bảo bí mật thông tin cho các cá nhân, tổ chức trong quá trình thực hiện các kỹ thuật phân tích và khai phá dữ liệu, đặc biệt là dữ liệu của những lĩnh vực thường chứa nhiều thông tin riêng tư, nhạy cảm như: tài chính ngân hàng, y tế, quản trị mối quan hệ khách hàng

1.1.2 Các dạng bài toán khai phá dữ liệu đảm bảo tính riêng tư

PPDM tồn tại ba dạng bài toán cơ bản như sau:

Trang 12

- Dạng thứ nhất là công bố, chia sẻ dữ liệu có đảm bảo tính riêng tư Preserving Data Publishing) Những nghiên cứu theo hướng này cho phép các tổ chức

(Privacy-công bố dữ liệu phục vụ cho mục đích nghiên cứu trong khi vẫn bảo vệ được các thông tin riêng tư trong dữ liệu đó

- Dạng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư Preserving Distributed Data Mining) Cụ thể, các tổ chức sở hữu những tập dữ liệu

(Privacy-khác nhau, tuy nhiên nếu thực hiện một bài toán khai phá dữ liệu trên những tập dữ liệu này thì thường không đem lại nhiều tri thức và thông tin hữu ích hoặc kết quả đầu ra không thực sự khách quan Do đó, các tổ chức này mong muốn kết hợp với nhau về mặt

dữ liệu trong khi vẫn giữ được bí mật các thông tin riêng tư nhạy cảm trong tập dữ liệu

Ví dụ: Ba ngân hàng sở hữu ba cơ sở dữ liệu khách hàng khác nhau mong muốn kết hợp

ba cơ sở dữ liệu này để xây dựng mô hình phân lớp khách hàng thành ba loại: tốt, trung bình, xấu Tuy nhiên cả ba ngân hàng không được phép tiết lộ thông tin riêng tư của khách hàng; bản thân các ngân hàng cũng không muốn công khai dữ liệu khách hàng của mình để tránh bị cạnh tranh không lành mạnh

- Dạng thứ ba là khai phá dữ liệu người dùng có đảm bảo tính riêng tư Preserving User Data Mining) Đây là mô hình bao gồm một bên là người mong muốn

(Privacy-thực hiện bài toán khai phá dữ liệu (miner) và một bên là những người dùng nắm giữ thông tin cá nhân của mình Với mô hình này, yêu cầu được đặt ra là cần phải tạo ra một giao thức để mỗi người dùng không chia sẻ trực tiếp thông tin riêng tư của mình nhưng

miner vẫn thực hiện được nhiệm vụ đặt ra Ví dụ: một ngân hàng mong muốn khảo sát

các sở thích, thói quen sử dụng dịch vụ ngân hàng của khách hàng để khuyến nghị thêm cho khách hàng các dịch vụ mới, dự đoán các hành vi của khách hàng trong tương lai hoặc đưa ra các chính sách chăm sóc riêng biệt cho từng đối tượng khách hàng

1.1.3 Các hướng tiếp cận khai phá dữ liệu đảm bảo tính riêng tư

Các giải pháp để giải quyết ba dạng bài toán trên thường được tiếp cận theo hai

phương pháp cơ bản là: biến đổi ngẫu nhiên (Randomization) và tính toán bảo mật nhiều thành viên (Secure Multiparty Computation-SMC)

Trang 13

Hình 2 Phương pháp tiếp cận cho các bài toán PPDM

- Phương pháp biến đổi dữ liệu ngẫu nhiên: cơ sở dữ liệu ban đầu chứa những

thông tin riêng tư được biến đổi thành một cơ sở dữ liệu mới nhằm che giấu các thông tin riêng tư nhưng kết quả của quá trình khai phá dữ liệu trên cơ sở dữ liệu ban đầu và

cơ sở dữ liệu sau khi đã được biến đổi là tương đồng hoặc độ chính xác không có sự sai lệch đáng kể Trong phương pháp biến đổi ngẫu nhiên, hai kỹ thuật chính được sử dụng

là biến đổi dữ liệu và ngẫu nhiên hóa dữ liệu Biến đổi dữ liệu là kỹ thuật thay thế mỗi bản ghi trong tập dữ liệu gốc ban đầu bằng một bản ghi có cùng cấu trúc nhưng ẩn đi các giá trị thực (Alexandre Evfimievski, Ramakrishnan Srikant, Rakesh Agrawal, & Johannes Gehrke, 2002) (Jim Dowd, Shouhuai Xu, & Weining Zhang, 2005) (Rakesh Agrawal, Ramakrishnan Srikant, and Dilys Thomas, 2005) (D.Karthikeswarant, V.M.Sudha, V.M.Suresh & A.J Sultan, 2012) Ngẫu nhiên hóa dữ liệu là kỹ thuật thêm các giá trị nhiễu vào tập dữ liệu gốc nhưng vẫn đảm bảo phân bố dữ liệu không thay đổi (Dakshi Agrawal & Charu C Aggarwal, 2001) (Hillol Kargupta, Souptik Datta, Qi Wang, & Krishnamoorthy Sivakumar, 2003) (Jim Dowd, Shouhuai Xu, & Weining Zhang, 2005) (T Jahan, G.Narsimha & C.V Guru Rao, 2012) Các kết quả nghiên cứu điển hình đề xuất giải pháp PPDM theo phương pháp biến đổi ngẫu nhiên là: Agrawal-Srikant (Rakesh Agrawal & Ramakrishnan Srikant, 2000) đã rời rạc hóa các thuộc tính trong dữ liệu căn cứ trên việc chia khoảng và đề xuất giải pháp PPDM cho kỹ thuật phân lớp Bayes Aggarwal-Agrawal (Dakshi Agrawal & Charu C Aggarwal, 2001) cũng đã

Privacy-Preserving Data Mining

Randomization

Random Transformation

Technique

Randomization Technique

Secure Multiparty Computation Semi-honest model Malicious adversary

model

Trang 14

sử dụng phương pháp này đề xuất giải pháp PPDM cho kỹ thuật Expectation Maximization (EM); Evmievski và cộng sự, D.Karthikeswarant và cộng sự đề xuất giải pháp PPDM cho kỹ thuật khai phá luật kết hợp trong (Alexandre Evfimievski, Ramakrishnan Srikant, Rakesh Agrawal, & Johannes Gehrke, 2002), (D.Karthikeswarant, V.M.Sudha, V.M.Suresh & A.J Sultan, 2012); Polat đề xuất giải pháp PPDM cho kỹ thuật lọc cộng tác (Huseyin Polat & Wenliang Du, 2003); T Jahan

và cộng sự đề xuất giải pháp PPDM cho kỹ thuật SVD (T Jahan, G.Narsimha & C.V Guru Rao, 2012) Mặc dù phương pháp biến đổi ngẫu nhiên khá hiệu quả nhưng những giải pháp PPDM theo hướng tiếp cận này phải đánh đổi giữa độ chính xác của kết quả bài toán khai phá dữ liệu và tính riêng tư Nếu yêu cầu tính riêng tư cao hơn của kết quả bài toán khai phá dữ liệu thì độ chính xác sẽ giảm xuống và ngược lại Cụ thể, Kargupta

và cộng sự trong (Hillol Kargupta, Souptik Datta, Qi Wang, & Krishnamoorthy Sivakumar, 2003) công bố năm 2003 đã phân tích tính riêng tư của phương pháp ngẫu nhiên và chỉ ra rằng nhiều trường hợp sử dụng phương pháp này các thông tin riêng tư

có thể bị rò rỉ; Supriya Borhade trong nghiên cứu (Supriya, 2015) công bố năm 2015 cũng chỉ ra rằng phương pháp ngẫu nhiên làm ảnh hưởng đến kết quả khai phá dữ liệu nếu như cố gắng che giấu thông tin riêng tư bằng cách thêm các thông tin gây nhiễu vào tập dữ liệu gốc

- Phương pháp tính toán bảo mật nhiều thành viên (SMC): phương pháp này

định nghĩa các hàm tính toán bảo mật cần thiết và xây dựng những hàm dựa trên các kỹ thuật mật mã Phương pháp tính toán bảo mật nhiều thành viên thường được áp dụng cho các dạng bài toán thứ hai và thứ ba Dựa vào cơ sở lý thuyết của SMC được phát triển bởi Goldreich (Goldreich, 2004), các giao thức được xây dựng theo một trong hai

mô hình: mô hình bán trung thực (Semi-honest model) và mô hình nguy hại (malicious adversary model) Trong mô hình semi-honest, giả sử rằng mỗi thành viên tuân thủ quy tắc của giao thức trong khi thực thi các yêu cầu nhưng trong khi thực hiện giao thức, các thành viên này vẫn cố gắng khai thác các thông tin riêng tư dựa vào nội dung các thông điệp họ nhận được Trong mô hình malicious adversary, ngoài việc thực hiện yêu cầu hợp tác, các bên có thể thực hiện các hoạt động tùy ý kể cả việc khai thác các thông tin riêng tư của các bên khác Do đó, có rất nhiều giải pháp PPDM dựa trên tính toán bảo mật nhiều thành viên (SMC) đã được đề xuất nhưng chủ yếu theo mô hình semi-honest

Có thể liệt kê các kết quả nghiên cứu điển hình PPDM dựa trên SMC như: (Hempel

Trang 15

Susanne Wolfradt Uwe & Miles Jeremy N V., 2003) (Jaideep Vaidya & Chris Clifton, 2002) (Zhiqiang Yang, Sheng Zhong, & Rebecca N Wright, 2005) (Wenliang Du & Zhijun Zhan, 2002) (Jaideep Vaidya, Murat Kantarciouglu, & Chris Clifton, 2008) (M

N Kumbhar & R Kharat, 2012) đề xuất các giải pháp PPDM cho các kỹ thuật phân lớp (Naive Bayes, Cây quyết định…) và Luật kết hợp; (Luis Kruger; Somesh Jha;Patrick McDaniel, 2005) (Ali Inan, Selim V Kaya, Ycel Saygin, Erkay Savas, Aya A Hintoglu,

& Albert Levi., 2007) (Xiaodong Lin, Chris Clifton, Michael Zhu, 2005) (Jaideep Vaidya &Chris Clifton, 2003) đề xuất các giải pháp PPDM cho các kỹ thuật phân cụm (K-means, EM…) Tuy nhiên, trong hầu hết các giải pháp PPDM dựa trên SMC được

đề xuất, các tác giả đang dừng lại ở việc đánh giá tính riêng tư và độ chính xác chứ chưa đánh giá hiệu năng tính toán bao gồm: độ phức tạp tính toán, thời gian truyền thông Vì vậy, các giải pháp PPDM dựa trên SMC đã đề xuất chưa phù hợp khi thực hiện trên các tập dữ liệu lớn (Supriya, 2015) (Ronica Raj, Veena Kulkarni, 2015)

Hình 3 Hai cách tiếp cận trong khai phá dữ liệu đảm bảo tính riêng tư Bảng 1 Các dạng bài toán PPDM và phương pháp tiếp cận

Randomization Secure Multi-party

Computation Privacy-Preserving

Trang 16

Tựu chung lại, các giải pháp PPDM dựa trên biến đổi ngẫu nhiên cĩ hiệu năng tốt nhưng phải đánh đổi giữa độ chính xác và tính riêng tư Hơn nữa, việc biến đổi dữ liệu gốc cũng khơng thể đảm bảo tính riêng tư được bảo vệ Chính vì vậy, các giải pháp PPDM sử dụng biến đổi ngẫu nhiên khơng thu hút được nhiều sự quan tâm của giới nghiên cứu Ngược lại, các giải pháp PPDM dựa trên phương pháp SMC có độ chính xác được đảm bảo và các thơng tin riêng tư, nhạy cảm trong dữ liệu của mỗi thành viên

cĩ thể được bảo vệ an tồn nhờ các kỹ thuật mật mã Tuy nhiên, hiệu năng của những giải pháp này thường khơng cao

1.2 Cơ sở kỹ thuật của khai phá và phân tích dữ liệu đảm bảo tính riêng tư

1.2.1 Cơ sở về khai phá dữ liệu và học máy

Khai phá dữ liệu và học máy bao gồm các kỹ thuật nhằm khai thác, tìm kiếm các thơng tin hữu ích và tri thức tiềm ẩn chứa trong những những tập dữ liệu lớn, trong đó các kỹ thuật phân lớp được sử dụng phổ biến nhất Trong nghiên cứu này, đề tài lựa chọn trình bày hai kỹ thuật phân lớp điển hình là Nạve Bayes và cây quyết định ID3 cho các giải pháp đề xuất

1.2.1.1 Kỹ thuật phân lớp Nạve Bayes

Nội dung này trình bày sơ lược kỹ thuật phân lớp Nạve Bayes như sau:

Cho một bộ dữ liệu đã gán nhãn 𝐷 gồm 𝑛 bản ghi, trong đó mỗi bản ghi gồm (𝑚 + 1) thuộc tính với 𝑚 thuộc tính đầu tiên là độc lập và thuộc tính cuối cùng là thuộc tính phân lớp (nhãn) nằm trong tập 𝑘 nhãn {L[1], … , L[k]} Kỹ thuật phân lớp Nạve Bayes cĩ thể làm việc với cả dữ liệu liên tục (số) và rời rạc, tuy nhiên kỹ thuật này thường xuyên được sử dụng để phân tích dữ liệu phi số hơn

Để xác định nhãn 𝐿𝑦 của bản ghi mới 𝐴 = {𝑎1, … , 𝑎𝑚}, bộ phân lớp Nạve Bayes tính tốn dựa trên cơng thức dưới đây:

trong đó 𝑝[𝑗] biểu diễn xác suất của nhãn L[j], và 𝑝[𝑖, 𝑗] biểu diễn xác suất có điều kiện

của thuộc tính 𝑎𝑖 biết nhãn L[j]

Nhằm tránh các trường hợp xác suất của 0, cơng thức trên được biến đổi thành:

Trang 17

Nếu 𝑛 là số bản ghi, 𝑛[𝑗] là số bản ghi cĩ nhãn L[j] và 𝑛[𝑖, 𝑗] là số bản ghi cĩ thuộc tính thứ 𝑖 là 𝑎𝑖 đồng thời cĩ nhãn là 𝐿𝑗 thì ta cĩ: 𝑝[𝑗] = 𝑛[𝑗]

Như vậy, để huấn luyện mơ hình phân lớp Nạve Bayes, cần tính các giá trị 𝑛[𝑗] biểu diễn số bản ghi có nhãn tương ứng L[1], … , L[k] và các giá trị 𝑛[𝑖, 𝑗] biểu diễn số bản ghi cĩ thuộc tính thứ 𝑖 là 𝑎𝑖 và mang nhãn L[j]

1.2.1.2 Kỹ thuật cây quyết định ID3

Việc quan sát, suy nghĩ và ra các quyết định của con người thường được bắt đầu

từ việc làm rõ các dữ kiện liên quan bằng cách hỏi và trả lời các câu hỏi Một trong những mơ hình học máy đơn giản là mơ hình ra quyết định dựa trên trả lời các câu hỏi, được gọi là cây quyết định (decision tree)

Hình 4 Một ví dụ đơn giản về cây quyết định

Xét ví dụ một cây quyết định như trên hình, khi một chuyên gia xem xét một lời mời làm việc Nếu khơng phù hợp về chuyên mơn của mình người chuyên gia này sẽ từ chối Xét tiếp, với một cơng việc cĩ mức lương tháng dưới 20 triệu, người đó sẽ từ chối; nếu lương trên 50 triệu, người đó sẽ nhận lời; nếu lương trong khoảng từ 20 đến 50 triệu

Trang 18

sẽ xét tiếp: nếu văn phòng ở gần nhà thì người đó sẽ nhận việc, còn nếu văn phòng ở xa thì người đó cũng từ chối

Hình trên ta có một cây, các ô chữ nhật chứa các điều kiện (như mức lương, lĩnh

vực chuyên môn, vị trí văn phòng…), gọi là các nút trong của cây; tại đó cây được chia thành các nhánh (cây con) cho đến khi đi đến quyết định liệu một người nên chấp nhận

hay từ chối lời mời làm việc hay không Các tính huống đưa đến một quyết định được

gọi là lá của cây (các hình oval) Nút trong có thể có một hoặc nhiều nhánh Nút trên cùng của cây quyết định (chứa điều kiện được xét đến đầu tiên) được gọi là gốc của cây

quyết định

Như vậy, công việc chính của việc xây dựng một cây quyết định là: các câu hỏi (hay các điều kiện) nên được xây dựng như thế nào, và thứ tự của các câu hỏi ra sao Các câu hỏi này thường được áp dụng lên từng thuộc tính, hoặc một tổ hợp tuyến tính của các thuộc tính Cách thứ nhất, áp dụng lên từng thuộc tính, được sử dụng nhiều hơn vì tính đơn giản của nó Với các thuộc tính dạng categorical, câu hỏi sẽ là Nó rơi vào category nào? Với các thuộc tính dạng liên tục, câu hỏi có thể là Nó nằm vào khoảng giá trị nào? hoặc Nó có lớn hơn một ngưỡng nào đó không?

Trong học máy với cây quyết định, ID3 (Iterative Dichotomiser 3) là một thuật toán được Ross Quinlan (trường đại học Sydney, Australia) phát minh, rất phổ biến để tạo cây quyết định từ một tập dữ liệu cho trước

a Ý tưởng của thuật toán ID3

Thuật toán ID3 xác định thứ tự của thuộc tính cần được xem xét tại mỗi bước Với các bài toán có nhiều thuộc tính và mỗi thuộc tính có nhiều giá trị khác nhau, việc tìm được phương án tối ưu thường là không khả thi Thay vào đó, một cách đơn giản thường

được sử dụng là tại mỗi bước, một thuộc tính tốt nhất sẽ được chọn ra dựa trên một tiêu

chuẩn Với mỗi thuộc tính được chọn, ta chia dữ liệu vào các nhánh tương ứng với các

giá trị của thuộc tính đó rồi tiếp tục áp dụng phương pháp này cho mỗi nhánh Việc chọn

ra thuộc tính tốt nhất ở mỗi bước như thế này được gọi là cách chọn tham lam(greedy)

Cách chọn này có thể không phải là tối ưu, cách làm này sẽ gần với cách làm tối ưu Ngoài ra, cách làm này khiến cho bài toán cần giải quyết trở nên đơn giản hơn

Sau mỗi câu hỏi, dữ liệu được phân chia vào từng nhánh tương ứng với các câu trả lời cho câu hỏi đó Câu hỏi ở đây chính là một thuộc tính, câu trả lời chính là giá trị

Trang 19

của thuộc tính đó Để đánh giá chất lượng của một cách phân chia, thuật toán cần đi tìm

một phép đo

Dễ thấy rằng, một phép phân chia là tốt nhất nếu dữ liệu trong mỗi nhánh hoàn

toàn thuộc vào một lớp (class)–khi đó nhánh này có thể được coi là một nút lá, tức ta không cần phân chia thêm nữa Nếu dữ liệu trong các nhánh vẫn lẫn vào nhau theo tỉ lệ

lớn, ta coi rằng phép phân chia đó chưa thực sự tốt Từ nhận xét này, ta cần có một hàm

số đo độ tinh khiết (purity), hoặc độ vẩn đục (impurity) của một phép phân chia Hàm

số này sẽ cho giá trị thấp nhất nếu dữ liệu trong mỗi nhánh nằm trong cùng một lớp (tinh khiết nhất), và cho giá trị cao nếu mỗi nhánh có chứa dữ liệu thuộc nhiều lớp khác nhau Hàm số entropy được dùng nhiều trong lý thuyết thông tin là hàm có các đặc điểm này

b Hàm số entropy

Cho một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị khác nhau

x 1 ,x 2 ,…,x n Giả sử rằng xác suất để x nhận các giá trị này là p i = p(x = x i ) với 0 ≤ p i ≤1:

c Các độ lợi thông tin (Information gain)

Độ lợi thông tin IG(A) là thước đo sự khác biệt trong entropy từ trước đến sau khi tập hợp S được phân chia trên một thuộc tính A Nói cách khác, mức độ không thuần nhất trong S đã được giảm sau khi tách tập hợp S trên thuộc tính A

Trang 20

 T - Các tập hợp con được tạo từ việc tách tập hợp tách theo thuộc tính A

𝑆 = ⋃𝑡∈𝑇𝑡

 p(t) - Tỷ lệ số phần tử trong t với số phần tử trong tập hợp S

 H(t) - Entropy của tập hợp con t

Trong ID3, độ lợi thông tin có thể được tính toán (thay vì tính entropy) cho mỗi thuộc tính còn lại Thuộc tính có mức tăng thông tin lớn nhất được sử dụng để tách tập hợp S ở lần lặp đang xét

d Thuật toán ID3

Thuật toán ID3 bắt đầu với tập hợp ban đầu S, lấy S làm nút gốc Trên mỗi lần lặp lại, thuật toán sẽ duyệt mọi thuộc tính chưa sử dụng của tập hợp S và tính toán entropy H(S) hoặc độ lợi thông tin IG(S) của thuộc tính đó Sau đó, thuật toán chọn thuộc tính

có giá trị entropy nhỏ nhất (hoặc độ lợi thông tin lớn nhất) Tập hợp S sau đó được tách hoặc phân vùng bởi thuộc tính đã chọn để tạo ra các tập con dữ liệu (Ví dụ: một nút có thể được chia thành các nút con dựa trên các tập hợp con của dân số có độ tuổi nhỏ hơn

50, từ 50 đến 100 và lớn hơn 100) Thuật toán tiếp tục lặp lại trên mỗi tập con, chỉ xem xét các thuộc tính chưa được chọn trước đó

Đệ quy trên một tập hợp con có thể dừng lại trong một trong những trường hợp sau:

 Khi tất cả các phần tử trong danh sách đang xét thuộc cùng một lớp Khi đó ta tạo một nút lá của cây quyết định tại đó có nhãn là lớp chung của các phần tử được chọn

 Không còn thộc tính nào để chọn nữa, nhưng các phần tử trong tập không cùng một nhóm, Trong trường hợp này, cũng tạo ra một nút lá và nhãn được gán cho nút này là lớp có nhiều phần tử nhất

Trường hợp không có phần tử nào trong tập con (tập rỗng) Trường hợp này xảy

ra khi có một giá trị của thuộc tính quyết định ở nút cha mà không có phần tử nào của tập cha có giá trị đó Ví dụ không có ai thuộc tập hợp dân số trên 100 tuổi Khi đó nút lá được tạo ra với nhãn là nhãn của lớp có nhiều phần tử nhất trong

số các phần tử của tập cha

Trong suốt thuật toán, cây quyết định được xây dựng với mỗi nút không phải đầu cuối (nút bên trong) đại diện cho thuộc tính đã chọn mà dữ liệu được phân tách và các

Trang 21

nút đầu cuối (nút lá) đại diện cho nhãn lớp của tập con cuối cùng của nhánh này Chi tiết về thuật tốn này được trình bày như sau:

Đầu vào: Tập mẫu huấn luyện S, tập thuộc tính phân lớp C, tập thuộc tính A Đầu ra: Cây quyết định

Thuật tốn:

Bước 1: Tạo Nút_gốc cho cây quyết định

Bước 2: IF tất cả các mẫu huấn luyện đều cĩ giá trị của nhãn là P, RETURN

cây cĩ một nút duy nhất là Nút_gốc với nhãn P

Bước 3: IF A rỗng, RETURN cây cĩ một nút duy nhất là Nút_gốc với nhãn là

giá trị phổ biến nhất trong C

Bước 4:

o Gọi X là một thuộc tính trong A phân lớp S tốt nhất

o Gán nhãn cho nút gốc với tên thuộc tính X

o A = A – {X}

o FOREACH giá trị v của X

 Thêm một nhánh mới dưới Nút_gốc với X = v

 Xác định tập con Sv ứng với X = v

 IF Sv rỗng thì thêm dưới nhánh mới này một nút lá cĩ nhãn là giá trị phổ biến nhất của thuộc tính quyết định trong S

 ELSE thêm cây con vào dưới nhánh này bằng cách gọi đệ quy ID3 (Sv,

C, A-{X})

Bước 5: RETURN Nút_gốc

1.2.1.3 Mơ hình hồi quy tuyến tính

Hồi quy tuyến tính là thuật tốn dự báo cơ bản và đơn giản nhất trong lĩnh vực khai phá dữ liệu và học máy

Thuật tốn hồi quy tuyến tính cũng cần làm việc với một bộ dữ liệu 𝐷 gồm 𝑛 bản ghi, trong đó bản ghi thứ 𝑖 gồm (𝑚 + 1) thuộc tính với 𝑚 thuộc tính đầu tiên độc lâp ký hiệu là (𝑋1𝑖, … , 𝑋𝑚𝑖 ) và thuộc tính cuối cùng là thuộc tính phụ thuộc ký hiệu là 𝑌𝑖, Tuy nhiên khác với kỹ thuật phân lớp Nạve Bayes, thuật tốn hồi quy tuyến tính chỉ làm việc được với dữ liệu liên tục (dạng số)

Trang 22

Sau quá trình huấn luyện dữ liệu, mô hình hồi quy tuyến tính được học ra có dạng như sau:

𝒀 = 𝜷𝟎+ 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟐+ ⋯ + 𝜷𝒌𝑿𝒌

Ở đây, đề tài không tập trung trình bày các bước huấn luyện trong thuật toán hồi quy tuyến tính mà muốn tham chiếu mô hình này tới mô hình xếp hạng tín dụng khách hàng sử dụng thẻ điểm đang được triển khai ở rất nhiều NHTM tại Việt Nam Bộ thuộc tính (𝑋1, … , 𝑋𝑘) và bộ tham số (𝛽0, … , 𝛽𝑘) trong mô hình trên được xác định bởi các đơn vị tư vấn chuyên về lĩnh vực xếp hạng tín dụng Như vậy, mỗi khi NHTM muốn đánh giá hạng mức tín dụng của khách hàng để quyết định giải ngân thì cần yêu cầu phía khách hàng cung cấp các thông tin của bộ thuộc tính (𝑋1, … , 𝑋𝑘)

1.2.2 Cơ sở về mật mã học

1.2.2.1 Hạ tầng mã hóa khóa công khai

a Khái niệm

“Hệ mã hóa khóa phi đối xứng (hay còn gọi là hệ mã hóa khóa công khai) là hệ

mã hóa có khóa mã hóa và khóa giải mã khác nhau (khi biết được khóa này thì khó có thể tính được khóa kia và ngược lại)” (Tiến, 2009)

Hệ mã hóa khóa công khai đầu tiên do Diffie và Hellman phát minh vào những năm 1970

Hệ mã hóa khóa công khai bao gồm hai khóa:

 Khóa mã hóa công khai cho tất cả mọi người nên được gọi là khóa công khai (Public key)

 Khóa giải mã được giữ bí mật nên được gọi là khóa bí mật (Private key) Một người bất kỳ có thể dùng khóa công khai để mã hóa bản tin, nhưng chỉ duy nhất người có được khóa bí mật mới có khả năng đọc được nội dung ẩn chứa trong bản

Trang 23

- Thuật toán Gen có đầu vào là một tham số an toàn 1n và cho ra cặp khóa khác nhau phân biệt (pk, sk) trong đó pk là khóa công khai và sk là khóa bí mật

- Thuật toán Enc có đầu vào là khóa công khai pk và một thông điệp m và cho ra bản mã c = Encpk(m)

Thuật toán tất định Dec có đầu vào là khóa bí mật sk và bản mã c, và cho ra thông điệp m hoặc một ký hiệu lỗi ⊥ Có thể viết m = Decsk(c)

Những ưu điểm nổi bật của hệ mã hóa khóa công khai là:

- Thuật toán được viết một lần và có thể sử dụng nhiều lần cho nhiều người dùng, mỗi người dùng chỉ cần chọn các tham số cho mình

- Độ an toàn cao do khóa bí mật và khóa công khai “độc lập” với nhau

Tuy nhiên, hệ mã hóa khóa công khai có tốc độ mã hóa và giải mã chậm hơn hệ

mã hóa đối xứng Vì vậy, hệ mã hóa này chỉ dùng để mã hóa những bản tin ngắn (ví dụ như: mã hóa khóa bí mật của hệ mã hóa khóa đối xứng)

b Hệ mã hóa khóa công khai có tính chất đồng cấu

Hệ mã hóa đồng cấu cho phép thực hiện các phép toán của các giá trị trên những bản mã của các giá trị này mà không yêu cầu phải giải mã ra bản rõ Thuộc tính quan trọng này của hệ mã hóa đồng cấu đóng vai trò quan trọng để xây dựng các giao thức mật mã nói chung và các giao thức tính toán bảo mật nhiều thành viên nói riêng

Nội dung tiếp theo sẽ trình bày hệ mã hóa đồng cấu theo phép toán cộng và nhân

i Hệ mã hóa đồng cấu theo phép toán cộng

Một hệ mã hóa được gọi là đồng cấu theo phép toán cộng nếu 𝐸𝑛𝑐𝒑𝒌(𝑚1), 𝐸𝑛𝑐𝒑𝒌(𝑚2) lần lượt là bản mã của hai bản rõ 𝑚1 và 𝑚2 sử dụng khóa công khai 𝑝𝑘 thì 𝐸𝑛𝑐𝒑𝒌(𝑚1) × 𝐸𝑛𝑐𝒑𝒌(𝑚2) là bản mã của 𝑚1+ 𝑚2 dưới khóa công khai 𝑝𝑘

𝐸𝑛𝑐𝑝𝑘(𝑚1) × 𝐸𝑛𝑐𝑝𝑘(𝑚2) = 𝐸𝑛𝑐𝑝𝑘(𝑚1+ 𝑚2)

Hệ mã hóa Paillier (Paillier, 1999) là một hệ mã hóa điển hình có tính chất đồng cấu theo phép toán cộng

ii Hệ mã hóa đồng cấu theo phép toán nhân

Một hệ mã hóa được gọi là đồng cấu theo phép toán nhân nếu 𝐸𝑛𝑐𝑝𝑘(𝑚1), 𝐸𝑛𝑐𝑝𝑘(𝑚2) lần lượt là bản mã của hai bản rõ 𝑚1 và 𝑚2 sử dụng khóa công khai 𝑝𝑘 thì 𝐸𝑛𝑐𝑝𝑘(𝑚1) × 𝐸𝑛𝑐𝑝𝑘(𝑚2) là bản mã của 𝑚1× 𝑚2 dưới khóa công khai 𝑝𝑘

Trang 24

và khóa công khai là ℎ = 𝑔𝑥

Ở bước mã hóa, người gửi sử dụng khóa công khai ℎ để tính bản mã 𝐶 cho bản rõ

𝑀 như sau: chọn ngẫu nhiên giá trị 𝑘 ∈ [1, 𝑞 − 1] và tính bản mã 𝐶 = (𝐶1 = 𝑀 ℎ𝑘, 𝐶2 =

𝑔𝑘)

Để giải mã, người nhận sử dụng khóa bí mật 𝑥 để tính bản rõ 𝑀 = 𝐶1 (𝐶2𝑥)−1 Dưới giả sử Diffie-Hellman quyết định, hệ mã hóa ElGamal an toàn ngữ nghĩa Chú ý rằng, hệ mã hóa ElGamal có tính chất đồng cấu với phép nhân, bởi vì nếu 𝐶(𝐶1 = 𝑀 ℎ𝑘, 𝐶2 = 𝑔𝑘) là bản mã của 𝑀 và 𝐶′(𝐶1′ = 𝑀′ ℎ𝑘′, 𝐶2′ = 𝑔𝑘′) là bản mã của

𝑀′ thì (𝐶1 𝐶1′, 𝐶2 𝐶2′) là bản mã tương ứng của 𝑀 𝑀′

1.2.2.3 Thuật toán Shank’s baby-step giant-step

Các giao thức tính toán sử dụng các hệ mã hóa dựa trên logarithm rời rạc thường xuyên vẫn phải đối mặt với chính bài toán này (tất nhiên với không gian nghiệm là rất nhỏ) Như đã đề cập, bài toán logarithm rời rạc trong một nhóm cyclic có cấp 𝑞 là một

số nguyên tố lớn là một bài toán khó nhưng nếu có thể giới hạn được miền giá trị nghiệm cần tìm thì bài toán này trở nên đơn giản hơn nhiều Thuật toán Shank’s baby-step giant-step (Shanks, 1971) chính là một giải thuật điển hình thường được sử dụng để giải quyết một cách hiệu quả các bài toán logarit rời rạc như thế Lược đồ tổng quát của thuật toán này được mô tả như hình dưới đây

 Input: Một nhóm cyclic 𝔾 cấp q có phần tử sinh g và một phần tử y trong 𝔾

 Output: Một giá trị x thỏa mãn gx = y

m [√q] + 1

Với mọi j thỏa mãn 0 ≤ j < m thực hiện

Trang 25

Tính gj và lưu trữ cặp (j, gj) trong một bảng băm

Tính g−m

β ← y

Với mọi i thỏa mãn 0 ≤ i < m thực hiện

Nếu β là thành phần thứ 2 của bất kỳ cặp nào trong bảng băm thì trả lại x = i m + j

Ngược lại β ← β g−m

Hình 5 Thuật toán Shank’s baby-step giant-step

Lưu ý rằng, nếu miền giá trị của 𝑥 có thể được giới hạn bằng số 𝑛 (𝑥 ≤ 𝑛 ≪ 𝑞) thì thuật toán trên sẽ hiệu quả hơn bởi vì giá trị 𝑞 sẽ được thay thế bởi giá trị 𝑛

Ngoài ra, thuật toán này có thể được xây dựng dựa trên mật mã đường cong elliptic như sau:

 Input: Một đường cong 𝔼 trên ℤ𝒑 với điểm cơ sở 𝐺 và một

điểm 𝑌 trên đường cong 𝔼

 Output: Một giá trị 𝑥 thỏa mãn 𝑥𝐺 = 𝑌

m [√q] + 1

Với mọi j thỏa mãn 0 ≤ j < m thực hiện

Tính 𝑗𝐺 và lưu trữ cặp (j, 𝑗𝐺) trong một bảng băm

Tính Α = −(𝑚𝐺)

Β ← 𝑌

Với mọi i thỏa mãn 0 ≤ i < m thực hiện

Nếu Β là thành phần thứ 2 của bất kỳ cặp nào trong bảng băm thì trả lại 𝑥 = 𝑖 𝑚 + 𝑗

Ngược lại Β ← Β + Α

Hình 6 Biến thể của thuật toán Shank’s baby-step giant-step dựa trên mật mã

đường cong elliptic

Trang 26

1.2.3 Tính toán bảo mật nhiều thành viên

1.2.3.1 Khái niệm

Cho 𝑚 là số thành viên tham gia vào mạng lưới tính toán phân tán (𝑚 ≥ 2), trong đó thành viên thứ 𝑖 (𝑖 = 1, 𝑚̅̅̅̅̅̅) sở hữu một giá trị đầu vào 𝑥𝑖 và |𝑥𝑖| = |𝑥𝑗| với mọi 𝑖, 𝑗 Một hàm tính toán nhiều thành viên 𝑓 được định nghĩa tổng quát như sau:

𝒇: ({𝟎, 𝟏}∗)𝒎 → ({𝟎, 𝟏}∗)𝒎

𝒙̅ = (𝒙𝟏, … , 𝒙𝒎) → 𝒇(𝒙̅) = (𝒇𝟏(𝒙̅), … , 𝒇𝒎(𝒙̅)) Nói một cách chi tiết, mỗi thành viên thứ 𝑖 (người nắm giữ giá trị đầu vào riêng tư

𝑥𝑖) mong muốn đạt được thành phần thứ 𝑖 của 𝑓(𝑥1, … , 𝑥𝑚), được ký hiệu là

𝑓𝑖(𝑥1, … , 𝑥𝑚)

Trong lĩnh vực mật mã học, SMC chỉ tới các phương thức cho phép các thực thể

tham gia cùng nhau tính toán “một cách an toàn” hàm 𝑓 nhiều thành viên dựa trên các

giá trị đầu vào riêng tư của họ, chống lại các hành vi xấu có thể có của địch thủ Những giao thức như trên được gọi chung là giao thức tính toán bảo mật nhiều thành viên (secure multi-party computation protocol)

Khi xem xét một giao thức SMC, tồn tại ba nhóm thực thể:

Các thành viên trung thực (honest parties): là những thành viên tuân theo các quy tắc mà giao thức đề ra, tự thực hiện hoặc thông đồng với thực thể khác để

thực hiện các hành vi có hại đối với các thành viên còn lại

Các thành viên nguy hại (corrupted parties): là những thành viên thực hiện hoặc

thông đồng với các thành viên tham gia giao thức cùng thực hiện, hoặc chịu sự kiểm soát của một số thực thể bên ngoài để thực hiện các hành vi có hại đối với

các thành viên trung thực

Các địch thủ bên ngoài (external adversaries): là những thực thể kiểm soát một

số thành viên trong giao thức nhằm thực hiện các hành vi có hại đối với các thành viên trung thực

1.2.3.2 Một số giao thức tính toán bảo mật nhiều thành viên

Trong nội dung này, đề tài trình bày các giao thức điển hình cho hai nhóm tính toán bảo mật nhiều thành viên là tính tích vô hướng bí mật và tính tổng tần suất bí mật

Trang 27

Những giao thức trình bày trong phần này chính là cơ sở của các giải pháp đề tài đề xuất trong chương 3 của báo cáo này

a Giao thức tính tích vô hướng bí mật của Goethals và cộng sự

Giả sử 𝑋 có vector bí mật 𝑋 = (𝑥1, 𝑥2, … , 𝑥𝑘) và 𝑌 có vector bí mật tương ứng

𝑌 = (𝑦1, 𝑦2, … , 𝑦𝑘) 𝑋 và 𝑌 mong muốn tính tích vô hướng 𝑆 = ∑𝑘𝑖=1𝑥𝑖𝑦𝑖 trong khi mỗi bên không tiết lộ vector bí mật của mình

Trước khi thực hiện giao thức của Goethals và cộng sự (Goethals Bart, Laur Sven, Lipmaa Helger & Mielikainen, Taneli, 2004), 𝑋 lựa chọn các tham số của hệ mã hóa ElGamal (𝑔, 𝑝, 𝑞, 𝑥, ℎ = 𝑔𝑥 𝑚𝑜𝑑 𝑝) trong đó X giữ khóa bí mật 𝑥 cho riêng mình và công bố khóa công khai ℎ cho 𝑌 Để cho tiện theo dõi, chúng tôi sử dụng ký hiệu 𝐸(𝑚) thay cho phép mã hóa dữ liệu 𝑚 sử dụng khóa công khai ℎ và ký hiệu 𝐷(𝑐) thay cho phép giải mã lấy dữ liệu gốc từ bản mã 𝑐 sử dụng khóa bí mật 𝑥

Giao thức tính tích vô hướng bí mật được trình bày trong hình dưới đây

Input: 𝑋 có vector (𝑥1, 𝑥2, … , 𝑥𝑘) và 𝑌 có vector tương ứng (𝑦1, 𝑦2, … , 𝑦𝑘)

Output: 𝑋 có giá trị 𝑢, Y có giá trị v sao cho: 𝑢 = ∑𝑘𝑖=1𝑥𝑖𝑦𝑖+ 𝑣

Bước 1: 𝑋 tính 𝐸(𝑔𝑥1) , … , 𝐸(𝑔𝑥𝑘) rồi gửi cho 𝑌

Bước 2: 𝑌 chọn ngẫu nhiên 𝑣 và tính:

Thực thi thuật toán Shank’s baby-step giant-step để tính 𝑢 thỏa mãn 𝑔𝑢 = 𝐾

Hình 7 Giao thức tính tích vô hướng bí mật của Goethals và cộng sự

b Giao thức tính tổng bí mật nhiều thành viên

Để làm cơ sở cho các giải pháp phân tích dữ liệu ngân hàng đảm bảo tính riêng tư,

đề tài lựa chọn hai giao thức tính tổng bí mật nhiều thành viên điển hình là giao thức

của Hao và cộng sự (Feng Hao, Matthew N Kreeger, Brian Randell, Dylan Clarke,

Siamak F Shahandashti & Peter Hyun-Jeen Lee, 2014) và giao thức trong (Vu, Luong,

Ho, & Nguyen, 2018)

Trang 28

Ý tưởng của giao thức tính tổng bí mật nhiều thành viên rất đơn giản Giả sử có n thành viên trong đó mỗi thành viên 𝑃𝑖 sở hữu một giá trị bí mật 𝑣𝑖 (𝑖 = 1, 𝑛̅̅̅̅̅) Một thực thể ký hiệu là miner cần tính giá trị tổng tổng 𝑠 = ∑𝑘𝑖=1𝑣𝑖 trong khi mỗi thành viên 𝑃𝑖không tiết lộ giá trị 𝑣𝑖 với bất kỳ ai

i Giao thức tính tổng bí mật nhiều thành viên của Hao và cộng sự

Giao thức tính tổng bí mật nhiều thành viên này được lấy từ giao thức bỏ phiếu an toàn dựa trên hệ mã hóa ElGamal của Hao và cộng sự trong nghiên cứu (Feng Hao, Matthew N Kreeger, Brian Randell, Dylan Clarke, Siamak F Shahandashti & Peter Hyun-Jeen Lee, 2014) (xem chi tiết hình 5)

Input: 𝑛 thành viên, mỗi người 𝑃𝑖 sở hữu một giá trị bí mật 𝑣𝑖 (𝑖 = 1, 𝑛̅̅̅̅̅)

Output: Bên 𝐵 tính được giá trị tổng 𝑠 = ∑𝑘𝑖=1𝑣𝑖 trong khi mỗi thành viên 𝑃𝑖 không tiết lộ 𝑣𝑖

Bước 1: Mỗi 𝑃𝑖 chọn khóa bí mật 𝑥𝑖 rồi gửi khóa công khai 𝑔𝑥 𝑖 cho 𝐵

Bước 2: 𝐵 tính 𝑌𝑖 = ∑ 𝑔

𝑥𝑗 𝑖−1 𝑗=1

∑ 𝑛 𝑔 𝑥𝑗 𝑗=𝑖+1

rồi gửi lại cho 𝑃𝑖

Bước 3: Mỗi 𝑃𝑖 tính 𝑚𝑖 = 𝑔𝑣𝑖 𝑌𝑖𝑥𝑖 rồi gửi lại cho 𝐵

Bước 4: 𝐵 tính 𝐾 = ∏𝑛𝑖=1𝑚𝑖

Thực thi thuật toán Shank’s baby-step giant-step để tính 𝑠 thỏa mãn 𝑔𝑠 = 𝐾

Hình 8 Giao thức tính tổng bí mật của Hao và cộng sự

Dễ dàng nhận thấy rằng mỗi lần thực hiện giao thức này, mỗi thành viên cần chọn một khóa bí mật mới 𝑥𝑖 để đảm bảo an toàn cho quá trình tính toán Như vậy, giao thức này của Hao và cộng sự phù hợp với việc tính toán một hoặc một số ít lần trong mô hình tính toán ít thành viên

ii Giao thức tính tổng bí mật của Vu và cộng sự

Một giao thức tính tổng bí mật khác được đề xuất trong (Vu, Luong, Ho, & Nguyen, 2018) được trình bày như sau:

 Khởi tạo hệ thống: cho 𝐸(𝑍𝑑) là một đường cong elliptic với 𝑂 là điểm ở vô cùng, 𝑑 là một số nguyên tố lớn, 𝐺 là một điểm cơ sở của 𝐸 có bậc 𝑑 (𝑑𝐺 = 𝑂)

và các bài toán bội số rời rạc của một điểm trên 𝐸 là khó Có 𝑛 người dùng 𝑈𝑖,

𝑈 sở hữu một giá trị riêng tư 𝑣 Trước khi giao thức bắt đầu, mỗi

Trang 29

người dùng chọn hai giá trị bí mật 𝑝𝑖, 𝑞𝑖 ∈ [1, 𝑑 − 1], sau đó anh ta tính hai khĩa (điểm) cơng khai tương ứng: 𝑃𝑖 = 𝑝𝑖𝐺, 𝑄𝑖 = 𝑞𝑖𝐺 Các khóa cơng khai này được gửi cho miner trước khi bắt đầu giao thức

 Các bước thực hiện giao thức:

o Bước 1: miner tính hai giá trị cơng khai và gửi cho tất cả 𝑈𝑖

Chú ý rằng, nếu mỗi giá trị bí mật 𝑣𝑖 ∈ {0, 1} thì hai giao thức vừa trình bày ở trên cịn được gọi là giao thức tính tổng tần suất bí mật

1.3 Một số kỹ thuật khai phá dữ liệu đảm bảo tính riêng tư và phân tích, đánh giá

Khi đề cập tới lĩnh vực khai phá dữ liệu và học máy, các kỹ thuật phục vụ cho hoạt động dự đốn và dự báo như phân lớp dữ liệu, mơ hình hồi quy thường được chú trọng hơn cả Trong đó, các thuật tốn cây quyết định (ID3, C4.5,…) và thuật tốn phân lớp Nạve Bayes là những kỹ thuật hàng đầu được quan tâm nghiên cứu bởi cộng đồng khoa

Trang 30

học dữ liệu (Xindong Wu et al., 2008) Do đó, đề tài lựa chọn phân tích các giải pháp đảm bảo tính riêng tư cho hai thuật tốn khai phá dữ liệu tiêu biểu là thuật tốn cây quyết định ID3 và thuật tốn phân lớp Nạve Bayes

1.3.1 Các nghiên cứu đảm bảo tính riêng tư cho thuật tốn cây quyết định ID3

Đối với các bài tốn phân lớp dữ liệu nĩi chung và xếp hạng tín dụng nĩi riêng, kỹ thuật cây quyết định thường được xem xét ứng dụng bởi nĩ cĩ rất nhiều ưu điểm vượt trội so với các kỹ thuật dự báo khác như:

 Thuật tốn cây quyết định trực quan, đơn giản và dễ dàng để hiểu Thuật tốn này cũng khơng yêu cầu bộ dữ liệu quá lớn để tiến hành xây dựng mơ hình, cĩ thể làm việc với nhiều loại dữ liệu và nhãn khác nhau

 Thuật tốn cây quyết định ít bị ảnh hưởng bởi dữ liệu ngoại lệ, cĩ khả năng xử lý

dữ liệu thiếu hoặc lỗi

 Thuật tốn cây quyết định khơng sử dụng tham số nên kết quả mơ hình khách quan hơn, có độ chính xác cao và dễ diễn giải thành các luật

Trong số các thuật tốn cây quyết định, ID3 là kỹ thuật cơ bản nhất và nó cũng được coi là nền mĩng cho những kỹ thuật cây quyết định cải tiến sau này như Random forest, C4.5

Một số nghiên cứu ứng dụng điển hình của thuật tốn cây quyết định cĩ thể kể đến như mơ hình dự báo sự trung thành sử dụng dịch vụ thẻ tín dụng của Nie và cộng sự trong (Guangli Nie, Wei Rowe, Lingling Zhang, Yingjie Tian, Yong Shi, 2011), mơ hình dự báo sự thành cơng trong hoạt động quảng cáo dịch vụ ngân hàng qua điện thoại của Moro và cộng sự trong (Moro, Cortez, & Rita, 2014), giải pháp tối ưu hóa mơ hình chấm điểm tín dụng sử dụng cây quyết định của Xia và cộng sự trong (Yufei Xia, Chuanzhe Liu, YuYing Li, Nana Liu, 2017) hay mơ hình dự đốn bệnh lý của Yang và cộng sự trong (Shuo Yang, Jing-Zhi Guo, Jun-Wei Jin, 2017)

Tính đến nay, đã có nhiều giải pháp bảo vệ dữ liệu riêng tư trong thuật tốn cây quyết định ID3 được đề xuất trong cộng đồng khoa học dữ liệu và an tồn thơng tin Theo khảo sát của nhĩm nghiên cứu, đề xuất đầu tiên về giải pháp đảm bảo tính riêng tư cho kỹ thuật phân lớp ID3 được đưa ra bởi Agrawal và cộng sự trong cơng trình (Agrawal & Srikant, 2000) Ở giải pháp này, các tác giả đã thay thế những giá trị của những thuộc tính nhạy cảm bằng các giá trị khác đã được biến đổi những vẫn bảo tồn

Trang 31

phân phối của dữ liệu Do đó, giải pháp có hiệu năng cao nhưng phải đánh đổi giữa độ chính xác và tính riêng tư

Sau đó, Yang và cộng sự đã trình bày một giải pháp tương tự (Yang, Zhong, & Wright, 2005) dựa trên giao thức tính toán tần suất đảm bảo tính riêng tư cho mô hình

dữ liệu phân tán đầy đủ Do giải pháp này tính toán dựa trên hệ mã hóa an toàn ElGamal (T.Elgamal, 1985) nên độ chính xác của kết quả đầu ra được bảo toàn và các dữ liệu riêng tư được bảo vệ nghiêm ngặt Tuy nhiên, do giao thức tính toán tần suất đảm bảo tính riêng tư còn chưa thực sự hiệu quả nên hiệu năng của giải pháp (Yang, Zhong, & Wright, 2005) còn chưa cao

Dựa trên giao thức tính tổng bảo mật nhiều thành viên sử dụng kỹ thuật chia sẻ bí mật Shamir (Shamir, 1979), các tác giả của (F Emekci, O.D Sahin, D Agrawal, A El Abbadi, 2007) đã mô tả giải pháp huấn luyện mô hình cây quyết định có đảm bảo tính riêng tư từ nguồn dữ liệu phân tán đầy đủ Mỗi thành viên trong giải pháp này được yêu cầu tính toán 𝑛 đa thức bậc 𝑛 − 1 để chia sẻ cho các thành viên khác Đòi hỏi này không phù hợp với mô hình có số lượng thành viên nhiều thực sự (cỡ hàng nghìn) và việc thiết lập kênh kết nối giữa các cặp thành viên sở hữu dữ liệu cũng tương đối khó khăn

Để xây dựng cây phân lớp ID3 có đảm bảo tính riêng tư (Saeed Samet, Ali Miri, 2008), Samet và Miri đã áp dụng hai giao thức tính tổng và tích bảo mật nhiều thành viên sử dụng hệ mã hóa Paillier (Paillier, 1999) Do hệ mã hóa này có chi phí tính toán lớn và tham số không phù hợp với mô hình tính toán nhiều thành viên nên giải pháp trong (Saeed Samet, Ali Miri, 2008) vừa không hiệu quả, vừa thiếu an toàn

Cùng dựa trên kỹ thuật thêm nhiễu vào dữ liệu gốc được giới thiệu bởi (Dwork & Roth, 2013), Zhang và cộng sự (Lin Zhang, Yan Liu, Ruchuan Wang, Xiong Fu, Qiaomin Lin, 2017), Li và cộng sự (Li P , et al., 2018) đã đề xuất các mô hình cây quyết định có đảm bảo tính riêng tư Tuy nhiên, những giải pháp này đều phải đánh đổi giữa

độ chính xác của kết quả đầu ra và mức độ riêng tư của dữ liệu

Tựu chung lại, các giải pháp đảm bảo tính riêng tư cho kỹ thuật phân lớp ID3 đã

đề xuất còn tồn tại nhiều nhược điểm nghiêm trọng như: độ chính xác không được bảo toàn, tính riêng tư không được bảo vệ an toàn hay hiệu năng chưa cao Do đó, cần thiết phải triển khai các kỹ thuật như tính toán bảo mật nhiều thành viên hiệu quả ứng dụng cho giải pháp đảm bảo tính riêng tư cho kỹ thuật phân lớp ID3

Ngày đăng: 15/12/2023, 00:49

HÌNH ẢNH LIÊN QUAN

Bảng băm thì trả lại x  =  i. m  +  j - Nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại việt nam
Bảng b ăm thì trả lại x = i. m + j (Trang 25)
Bảng 3. Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân không kinh doanh của ngân  hàng Techcombank - Nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại việt nam
Bảng 3. Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân không kinh doanh của ngân hàng Techcombank (Trang 38)
Bảng 4. Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân không kinh doanh của ngân  hàng BIDV - Nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại việt nam
Bảng 4. Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân không kinh doanh của ngân hàng BIDV (Trang 39)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w