Nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại việt nam

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM HỌC VIỆN NGÂN HÀNG --- ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ NĂM 2019 NGHIÊN CỨU ỨNG DỤNG CÁC GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ TRONG MỘT SỐ BÀ

Trang 1

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM

HỌC VIỆN NGÂN HÀNG

-

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ NĂM 2019

NGHIÊN CỨU ỨNG DỤNG CÁC GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ TRONG MỘT SỐ BÀI TOÁN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG THƯƠNG MẠI VIỆT NAM

MÃ SỐ: DTHV.02/2019

CHỦ NHIỆM ĐỀ TÀI: THS VŨ DUY HIẾN

HÀ NỘI – 2020

Trang 2

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM

HỌC VIỆN NGÂN HÀNG

-

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ NĂM 2019

NGHIÊN CỨU ỨNG DỤNG CÁC GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ TRONG MỘT SỐ BÀI TOÁN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG THƯƠNG MẠI VIỆT NAM

MÃ SỐ: DTHV.02/2019

ThS NGUYỄN THỊ THU TRANG

Trang 3

DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI

STT Học hàm, học vị,

1 ThS Vũ Duy Hiến Chủ nhiệm đề tài Giảng viên Khoa HTTTQL

2 ThS Nguyễn Dương Hùng Thư ký đề tài Giảng viên Khoa HTTTQL

3 TS Đinh Trọng Hiếu Thành viên Giảng viên Khoa HTTTQL

4 ThS Nguyễn Thị Thu Trang Thành viên Giảng viên Khoa HTTTQL

Trang 4

MỤC LỤC

DANH MỤC BẢNG BIỂU iv

DANH MỤC HÌNH VẼ iv

DANH MỤC CÁC CHỮ VIẾT TẮT v

MỞ ĐẦU 1

1 Tính cấp thiết 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

5 Phương pháp nghiên cứu 3

6 Ý nghĩa khoa học và thực tiễn 3

7 Kết cấu đề tài 3

CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU 4

1.1 Tổng quan về lĩnh vực phân tích và khai phá dữ liệu đảm bảo tính riêng tư 4

1.1.1 Giới thiệu 4

1.1.2 Các dạng bài tốn khai phá dữ liệu đảm bảo tính riêng tư 4

1.1.3 Các hướng tiếp cận khai phá dữ liệu đảm bảo tính riêng tư 5

1.2 Cơ sở kỹ thuật của khai phá và phân tích dữ liệu đảm bảo tính riêng tư 9

1.2.1 Cơ sở về khai phá dữ liệu và học máy 9

1.2.2 Cơ sở về mật mã học 15

1.2.3 Tính tốn bảo mật nhiều thành viên 19

1.3 Một số kỹ thuật khai phá dữ liệu đảm bảo tính riêng tư và phân tích, đánh giá 22

1.3.1 Các nghiên cứu đảm bảo tính riêng tư cho thuật tốn cây quyết định ID3 23 1.3.2 Các nghiên cứu đảm bảo tính riêng tư cho thuật tốn phân lớp Nạve Bayes 25

CHƯƠNG 2 THỰC TRẠNG BẢO VỆ THƠNG TIN RIÊNG TƯ TRONG HOẠT ĐỘNG PHÂN TÍCH DỮ LIỆU NGÂN HÀNG 27

2.1 Các nghiên cứu về đảm bảo tính riêng tư cho hoạt động phân tích, khai phá dữ liệu ngân hàng trên thế giới 27 2.2 Thực trạng hoạt động phân tích dữ liệu ngân hàng ở Việt Nam và vấn đề bảo vệ

Trang 5

CHƯƠNG 3: ỨNG DỤNG GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ CHO MỘT SỐ BÀI TOÁN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG 37

3.1 Giải pháp đảm bảo tính riêng tư cho bài toán xếp hạng tín dụng khách hàng của

ngân hàng 37

3.1.1 Giải pháp đảm bảo tính riêng tư của dữ liệu khách hàng trong bài toán xếp hạng tín dụng khách hàng dựa trên mô hình thẻ điểm 38

3.1.2 Giải pháp đảm bảo tính riêng tư của dữ liệu khách hàng trong bài toán xếp hạng tín dụng dựa trên mô hình học máy cây quyết định ID3 40

3.2 Giải pháp đảm bảo tính riêng tư của dữ liệu khách hàng trong bài toán dự báo sự quan tâm của khách hàng về dịch vụ ngân hàng sử dụng kỹ thuật Naive Bayes 43

3.2.1 Giới thiệu 43

3.2.2 Phát biểu bài toán 43

3.2.3 Mô tả các thuộc tính 44

3.2.4 Giải pháp đề xuất 46

3.2.5 Chứng minh tính đúng đắn 47

3.2.6 Phân tích tính riêng tư 47

3.2.7 Thực nghiệm 47

KẾT LUẬN 49

TÀI LIỆU THAM KHẢO 50

Trang 6

DANH MỤC BẢNG BIỂU

Bảng 1 Các dạng bài tốn PPDM và phương pháp tiếp cận 8

Bảng 2 Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân khơng kinh doanh của ngân hàng Vietcombank 29

Bảng 3 Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân khơng kinh doanh của ngân hàng Techcombank 31

Bảng 4 Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân khơng kinh doanh của ngân hàng BIDV 32

DANH MỤC HÌNH VẼ Hình 1 Mơ hình phân tích dữ liệu truyền thống 4

Hình 2 Phương pháp tiếp cận cho các bài tốn PPDM 6

Hình 3 Hai cách tiếp cận trong khai phá dữ liệu đảm bảo tính riêng tư 8

Hình 4 Một ví dụ đơn giản về cây quyết định 10

Hình 5 Thuật tốn Shank’s baby-step giant-step 18

Hình 6 Biến thể của thuật tốn Shank’s baby-step giant-step dựa trên mật mã đường cong elliptic 18

Hình 7 Giao thức tính tích vơ hướng bí mật của Goethals và cộng sự 20

Hình 8 Giao thức tính tổng bí mật của Hao và cộng sự 21

Hình 9 Giải pháp bảo vệ thơng tin riêng tư của khách hàng trong quá trình xếp hạng tín dụng sử dụng mơ hình thẻ điểm 40

Hình 10 Mơ hình phân tích dữ liệu 41

Hình 11 Giải pháp đảm bảo tính riêng tư cho bài tốn xếp hạng tín dụng sử dụng kỹ thuật phân lớp ID3 42

Hình 12 Giải pháp đảm bảo tính riêng tư cho bài tốn dự báo sự quan tâm dịch vụ tiền gửi của khách hàng sử dụng kỹ thuật phân lớp Nạve Bayes 47

Trang 7

DANH MỤC CÁC CHỮ VIẾT TẮT

SMC Tính toán bảo mật nhiều thành viên (secure multi-party computation)

ID3 Iterative Dichotomiserán 3

CNTT Công nghệ thông tin

Trang 8

MỞ ĐẦU

1 Tính cấp thiết

Trong nền kinh tế thị trường, hệ thống các ngân hàng thương mại (NHTM) được

ví như mạch máu của nền kinh tế, giúp vận hành dòng vốn đầu tư và là nơi thực hiện các chính sách tiền tệ, giúp nhà nước điều hành nền kinh tế Để hỗ trợ hoạt động kinh doanh và đạt được những lợi thế cạnh tranh trong kỷ nguyên số hiện nay, các NHTM trên thế giới nói chung và tại Việt Nam nói riêng luôn ý thức được vai trò quan trọng của hoạt động phân tích dữ liệu và ứng dụng kết quả của hoạt động này để giải quyết một số bài toán nghiệp vụ điển hình: phân khúc khách hàng, chấm điểm tín dụng, quảng

bá sản phẩm dịch vụ và phát hiện gian lận Tuy nhiên, quá trình phân tích dữ liệu ngân hàng ở Việt Nam thường xuyên phải sử dụng các thông tin riêng tư nhạy cảm của khách hàng, ví dụ như: thu nhập cá nhân, tài sản sở hữu, gói bảo hiểm nhân thọ đang đầu tư Điều này gây nên ba vấn đề như sau:

- Thứ nhất, trong nhiều trường hợp, khách hàng e ngại cung cấp cho ngân hàng những thông tin mang tính chất riêng tư nhạy cảm

- Thứ hai, quá trình lưu trữ và khai thác dữ liệu chứa thông tin riêng tư nhạy cảm của khách hàng tại ngân hàng gặp phải nhiều rủi ro tiềm ẩn bởi dữ liệu ngân hàng là một trong những đích ngắm ưa thích của tội phạm mạng

- Thứ ba, do dữ liệu ngân hàng chứa những thông tin riêng tư nhạy cảm nên hầu hết các NHTM không sẵn sàng công bố rộng rãi để phục vụ mục đích nghiên cứu và nâng cao chất lượng phân tích dữ liệu Điều này cũng hoàn toàn dễ hiểu bởi việc quản

lý, khai thác, chia sẻ dữ liệu phải tuân thủ các điều luật An ninh mạng, Công nghệ thông tin, Tổ chức tín dụng, Giao dịch điện tử và các thông tư quy định về đảm bảo an toàn, bảo mật hệ thống công nghệ thông tin trong hoạt động ngân hàng của Ngân hàng Nhà nước Hơn nữa, yếu tố cạnh tranh giữa các NHTM cũng là một nguyên nhân dẫn đến vấn đề thứ ba này

Vì vậy, việc nghiên cứu ứng dụng các giải pháp kỹ thuật tiên tiến để khai thác, phân tích dữ liệu ngân hàng trong khi không sử dụng trực tiếp và không lưu trữ dữ liệu chứa thông tin riêng tư nhạy cảm của khách hàng là rất có ý nghĩa đối với các NHTM ở

Việt Nam Xuất phát từ lý do này, nhóm nghiên cứu quyết định lựa chọn đề tài “Nghiên

Trang 9

cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại Việt Nam”

2 Mục tiêu nghiên cứu

Mục tiêu của đề tài bao gồm mục tiêu tổng quát và mục tiêu cụ thể như sau:

- Mục tiêu tổng quát: nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư (privacy-preserving data mining-PPDM) hiệu quả cho một số bài toán phân tích dữ liệu điển hình tại các NHTM ở Việt Nam

- Mục tiêu cụ thể: dựa trên phương pháp tiếp cận của lĩnh vực tính toán bảo mật nhiều thành viên (secure multi-party computation-SMC), đề tài đề xuất các giải pháp khai phá dữ liệu đảm bảo tính riêng tư cho hai bài toán bài toán phân tích dữ liệu điển

hình tại các NHTM ở Việt Nam: xếp hạng (chấm điểm) tín dụng khách hàng sử dụng

mô hình thẻ điểm và mô hình phân lớp dữ liệu và dự báo mức độ quan tâm của khách hàng về dịch vụ tiền gửi có kỳ hạn

3 Đối tượng và phạm vi nghiên cứu

Đề tài có các đối tượng nghiên cứu chính:

- Các giao thức SMC nổi bật dựa trên mật mã học

- Các kỹ thuật PPDM phổ biến dựa trên SMC

- Những bài toán phân tích dữ liệu ngân hàng điển hình tại các NHTM/TCTD ở Việt Nam có sử dụng những thông tin riêng tư nhạy cảm của khách hàng

Với các bài toán ứng dụng cụ thể được thực hiện trong đề tài, phạm vi nghiên cứu được giới hạn trong khuôn khổ hoạt động của các NHTM ở Việt Nam trong bối cảnh hiện nay

4 Nội dung nghiên cứu

Nội dung nghiên cứu cơ bản được trình bày trong đề tài bao gồm:

- Nghiên cứu lựa chọn giải pháp hiệu quả để bảo vệ thông tin riêng tư cho mô hình xếp hạng (chấm điểm) tín dụng khách hàng sử dụng phương pháp thẻ điểm

- Nghiên cứu lựa chọn các giải pháp PPDM hiệu quả cho cây quyết định ID3 và ứng dụng trong bài toán xếp hạng tín dụng khách hàng

Trang 10

- Nghiên cứu lựa chọn các giải pháp PPDM hiệu quả cho kỹ thuật phân lớp dữ liệu Nạve Bayes và ứng dụng trong bài tốn dự báo mức độ quan tâm của khách hàng về dịch vụ tiền gửi cĩ kỳ hạn dựa trên việc khảo sát những khách hàng mà ngân hàng đã tiếp thị

5 Phương pháp nghiên cứu

Đề tài được thực hiện dựa trên sự kết hợp giữa các phương pháp nghiên cứu phân tích, tổng hợp kết hợp với tiến hành thực nghiệm Cụ thể, các phương pháp nghiên cứu phân tích, tổng hợp được áp dụng để phân tích so sánh, đánh giá các kỹ thuật tính tốn, tìm ra những kỹ thuật tính tốn phù hợp, các đề xuất, xây dựng các giải pháp cho bài tốn ứng dụng cần giải quyết Sau đó, phương pháp nghiên cứu thực nghiệm được sử dụng để đánh giá mức độ hiệu quả và khả năng ứng dụng thực tiễn của các giải pháp đã

đề xuất

6 Ý nghĩa khoa học và thực tiễn

- Ý nghĩa khoa học: về mặt lý thuyết, đề tài cung cấp một cách tiếp cận mới cho hoạt động phân tích dữ liệu ngân hàng tại các NHTM ở Việt Nam, cụ thể đó là phương pháp khai phá dữ liệu ngân hàng với ràng buộc bảo vệ bí mật các thơng tin riêng tư và nhạy cảm cĩ trong dữ liệu

- Ý nghĩa thực tiễn: xuất phát từ những yêu cầu thực tế đã phân tích, các giải pháp được đề xuất trong đề tài nghiên cứu này đáp ứng được khả năng bảo vệ bí mật các dữ liệu chứa thơng tin riêng tư nhạy cảm trong khi kết quả phân tích dữ liệu khơng bị ảnh hưởng

7 Kết cấu đề tài

Ngồi phần mở đầu và kết luận, đề tài gồm ba chương chính:

- Chương 1: Tổng quan vấn đề nghiên cứu

- Chương 2: Thực trạng bảo vệ thơng tin riêng tư trong hoạt động phân tích dữ liệu ngân hàng

- Chương 3: Ứng dụng giải pháp khai phá dữ liệu đảm bảo tính riêng tư cho một

số bài tốn phân tích dữ liệu ngân hàng

Trang 11

CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU 1.1 Tổng quan về lĩnh vực phân tích và khai phá dữ liệu đảm bảo tính riêng tư 1.1.1 Giới thiệu

Cùng với tốc độ phát triển bùng nổ của lĩnh vực công nghệ thông tin, lượng dữ liệu

từ các hệ thống thông tin và các ứng dụng ngày càng gia tăng và được lưu trữ thành các tập dữ liệu lớn Khai phá dữ liệu đóng vai trò rất quan trọng trong việc phát hiện ra những tri thức tiềm ẩn, hữu dụng từ các tập dữ liệu lớn nói trên Bên cạnh các hướng nghiên cứu cơ bản như cải tiến những kỹ thuật khai phá dữ liệu và phát triển các kỹ thuật mới thì từ những năm 2000, hướng nghiên cứu khai phá dữ liệu đảm bảo tính riêng tư

(Privacy-Preserving Data Mining-PPDM) cũng được khá nhiều các nhà nghiên cứu

quan tâm (Lindell, Yehuda & Pinkas, Benny, 2000), (Evfimievski, Alexandre, Johannes Gehrke, & Ramakrishnan Srikant, 2003), (Alexandre Evﬁmievski, Ramakrishnan Srikant, Rakesh Agrawal, & Johannes Gehrke, 2004)

Hình 1 Mô hình phân tích dữ liệu truyền thống

Mục tiêu chính của hướng nghiên cứu PPDM là giúp cho bên phân tích dữ liệu đạt được kết quả đầu ra trong khi bên sở hữu dữ liệu vẫn giữ bí mật những thông tin mang tính chất riêng tư, nhạy cảm có trong dữ liệu Hướng nghiên cứu này được mở ra do sự cấp thiết của việc đảm bảo bí mật thông tin cho các cá nhân, tổ chức trong quá trình thực hiện các kỹ thuật phân tích và khai phá dữ liệu, đặc biệt là dữ liệu của những lĩnh vực thường chứa nhiều thông tin riêng tư, nhạy cảm như: tài chính ngân hàng, y tế, quản trị mối quan hệ khách hàng

1.1.2 Các dạng bài toán khai phá dữ liệu đảm bảo tính riêng tư

PPDM tồn tại ba dạng bài toán cơ bản như sau:

Trang 12

- Dạng thứ nhất là công bố, chia sẻ dữ liệu có đảm bảo tính riêng tư Preserving Data Publishing) Những nghiên cứu theo hướng này cho phép các tổ chức

(Privacy-công bố dữ liệu phục vụ cho mục đích nghiên cứu trong khi vẫn bảo vệ được các thông tin riêng tư trong dữ liệu đó

- Dạng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư Preserving Distributed Data Mining) Cụ thể, các tổ chức sở hữu những tập dữ liệu

(Privacy-khác nhau, tuy nhiên nếu thực hiện một bài toán khai phá dữ liệu trên những tập dữ liệu này thì thường không đem lại nhiều tri thức và thông tin hữu ích hoặc kết quả đầu ra không thực sự khách quan Do đó, các tổ chức này mong muốn kết hợp với nhau về mặt

dữ liệu trong khi vẫn giữ được bí mật các thông tin riêng tư nhạy cảm trong tập dữ liệu

Ví dụ: Ba ngân hàng sở hữu ba cơ sở dữ liệu khách hàng khác nhau mong muốn kết hợp

ba cơ sở dữ liệu này để xây dựng mô hình phân lớp khách hàng thành ba loại: tốt, trung bình, xấu Tuy nhiên cả ba ngân hàng không được phép tiết lộ thông tin riêng tư của khách hàng; bản thân các ngân hàng cũng không muốn công khai dữ liệu khách hàng của mình để tránh bị cạnh tranh không lành mạnh

- Dạng thứ ba là khai phá dữ liệu người dùng có đảm bảo tính riêng tư Preserving User Data Mining) Đây là mô hình bao gồm một bên là người mong muốn

(Privacy-thực hiện bài toán khai phá dữ liệu (miner) và một bên là những người dùng nắm giữ thông tin cá nhân của mình Với mô hình này, yêu cầu được đặt ra là cần phải tạo ra một giao thức để mỗi người dùng không chia sẻ trực tiếp thông tin riêng tư của mình nhưng

miner vẫn thực hiện được nhiệm vụ đặt ra Ví dụ: một ngân hàng mong muốn khảo sát

các sở thích, thói quen sử dụng dịch vụ ngân hàng của khách hàng để khuyến nghị thêm cho khách hàng các dịch vụ mới, dự đoán các hành vi của khách hàng trong tương lai hoặc đưa ra các chính sách chăm sóc riêng biệt cho từng đối tượng khách hàng

1.1.3 Các hướng tiếp cận khai phá dữ liệu đảm bảo tính riêng tư

Các giải pháp để giải quyết ba dạng bài toán trên thường được tiếp cận theo hai

phương pháp cơ bản là: biến đổi ngẫu nhiên (Randomization) và tính toán bảo mật nhiều thành viên (Secure Multiparty Computation-SMC)

Trang 13

Hình 2 Phương pháp tiếp cận cho các bài toán PPDM

- Phương pháp biến đổi dữ liệu ngẫu nhiên: cơ sở dữ liệu ban đầu chứa những

thông tin riêng tư được biến đổi thành một cơ sở dữ liệu mới nhằm che giấu các thông tin riêng tư nhưng kết quả của quá trình khai phá dữ liệu trên cơ sở dữ liệu ban đầu và

cơ sở dữ liệu sau khi đã được biến đổi là tương đồng hoặc độ chính xác không có sự sai lệch đáng kể Trong phương pháp biến đổi ngẫu nhiên, hai kỹ thuật chính được sử dụng

là biến đổi dữ liệu và ngẫu nhiên hóa dữ liệu Biến đổi dữ liệu là kỹ thuật thay thế mỗi bản ghi trong tập dữ liệu gốc ban đầu bằng một bản ghi có cùng cấu trúc nhưng ẩn đi các giá trị thực (Alexandre Evﬁmievski, Ramakrishnan Srikant, Rakesh Agrawal, & Johannes Gehrke, 2002) (Jim Dowd, Shouhuai Xu, & Weining Zhang, 2005) (Rakesh Agrawal, Ramakrishnan Srikant, and Dilys Thomas, 2005) (D.Karthikeswarant, V.M.Sudha, V.M.Suresh & A.J Sultan, 2012) Ngẫu nhiên hóa dữ liệu là kỹ thuật thêm các giá trị nhiễu vào tập dữ liệu gốc nhưng vẫn đảm bảo phân bố dữ liệu không thay đổi (Dakshi Agrawal & Charu C Aggarwal, 2001) (Hillol Kargupta, Souptik Datta, Qi Wang, & Krishnamoorthy Sivakumar, 2003) (Jim Dowd, Shouhuai Xu, & Weining Zhang, 2005) (T Jahan, G.Narsimha & C.V Guru Rao, 2012) Các kết quả nghiên cứu điển hình đề xuất giải pháp PPDM theo phương pháp biến đổi ngẫu nhiên là: Agrawal-Srikant (Rakesh Agrawal & Ramakrishnan Srikant, 2000) đã rời rạc hóa các thuộc tính trong dữ liệu căn cứ trên việc chia khoảng và đề xuất giải pháp PPDM cho kỹ thuật phân lớp Bayes Aggarwal-Agrawal (Dakshi Agrawal & Charu C Aggarwal, 2001) cũng đã

Privacy-Preserving Data Mining

Randomization

Random Transformation

Technique

Randomization Technique

Secure Multiparty Computation Semi-honest model Malicious adversary

model

Trang 14

sử dụng phương pháp này đề xuất giải pháp PPDM cho kỹ thuật Expectation Maximization (EM); Evmievski và cộng sự, D.Karthikeswarant và cộng sự đề xuất giải pháp PPDM cho kỹ thuật khai phá luật kết hợp trong (Alexandre Evﬁmievski, Ramakrishnan Srikant, Rakesh Agrawal, & Johannes Gehrke, 2002), (D.Karthikeswarant, V.M.Sudha, V.M.Suresh & A.J Sultan, 2012); Polat đề xuất giải pháp PPDM cho kỹ thuật lọc cộng tác (Huseyin Polat & Wenliang Du, 2003); T Jahan

và cộng sự đề xuất giải pháp PPDM cho kỹ thuật SVD (T Jahan, G.Narsimha & C.V Guru Rao, 2012) Mặc dù phương pháp biến đổi ngẫu nhiên khá hiệu quả nhưng những giải pháp PPDM theo hướng tiếp cận này phải đánh đổi giữa độ chính xác của kết quả bài toán khai phá dữ liệu và tính riêng tư Nếu yêu cầu tính riêng tư cao hơn của kết quả bài toán khai phá dữ liệu thì độ chính xác sẽ giảm xuống và ngược lại Cụ thể, Kargupta

và cộng sự trong (Hillol Kargupta, Souptik Datta, Qi Wang, & Krishnamoorthy Sivakumar, 2003) công bố năm 2003 đã phân tích tính riêng tư của phương pháp ngẫu nhiên và chỉ ra rằng nhiều trường hợp sử dụng phương pháp này các thông tin riêng tư

có thể bị rò rỉ; Supriya Borhade trong nghiên cứu (Supriya, 2015) công bố năm 2015 cũng chỉ ra rằng phương pháp ngẫu nhiên làm ảnh hưởng đến kết quả khai phá dữ liệu nếu như cố gắng che giấu thông tin riêng tư bằng cách thêm các thông tin gây nhiễu vào tập dữ liệu gốc

- Phương pháp tính toán bảo mật nhiều thành viên (SMC): phương pháp này

định nghĩa các hàm tính toán bảo mật cần thiết và xây dựng những hàm dựa trên các kỹ thuật mật mã Phương pháp tính toán bảo mật nhiều thành viên thường được áp dụng cho các dạng bài toán thứ hai và thứ ba Dựa vào cơ sở lý thuyết của SMC được phát triển bởi Goldreich (Goldreich, 2004), các giao thức được xây dựng theo một trong hai

mô hình: mô hình bán trung thực (Semi-honest model) và mô hình nguy hại (malicious adversary model) Trong mô hình semi-honest, giả sử rằng mỗi thành viên tuân thủ quy tắc của giao thức trong khi thực thi các yêu cầu nhưng trong khi thực hiện giao thức, các thành viên này vẫn cố gắng khai thác các thông tin riêng tư dựa vào nội dung các thông điệp họ nhận được Trong mô hình malicious adversary, ngoài việc thực hiện yêu cầu hợp tác, các bên có thể thực hiện các hoạt động tùy ý kể cả việc khai thác các thông tin riêng tư của các bên khác Do đó, có rất nhiều giải pháp PPDM dựa trên tính toán bảo mật nhiều thành viên (SMC) đã được đề xuất nhưng chủ yếu theo mô hình semi-honest

Có thể liệt kê các kết quả nghiên cứu điển hình PPDM dựa trên SMC như: (Hempel

Trang 15

Susanne Wolfradt Uwe & Miles Jeremy N V., 2003) (Jaideep Vaidya & Chris Clifton, 2002) (Zhiqiang Yang, Sheng Zhong, & Rebecca N Wright, 2005) (Wenliang Du & Zhijun Zhan, 2002) (Jaideep Vaidya, Murat Kantarciouglu, & Chris Clifton, 2008) (M

N Kumbhar & R Kharat, 2012) đề xuất các giải pháp PPDM cho các kỹ thuật phân lớp (Naive Bayes, Cây quyết định…) và Luật kết hợp; (Luis Kruger; Somesh Jha;Patrick McDaniel, 2005) (Ali Inan, Selim V Kaya, Ycel Saygin, Erkay Savas, Aya A Hintoglu,

& Albert Levi., 2007) (Xiaodong Lin, Chris Clifton, Michael Zhu, 2005) (Jaideep Vaidya &Chris Clifton, 2003) đề xuất các giải pháp PPDM cho các kỹ thuật phân cụm (K-means, EM…) Tuy nhiên, trong hầu hết các giải pháp PPDM dựa trên SMC được

đề xuất, các tác giả đang dừng lại ở việc đánh giá tính riêng tư và độ chính xác chứ chưa đánh giá hiệu năng tính toán bao gồm: độ phức tạp tính toán, thời gian truyền thông Vì vậy, các giải pháp PPDM dựa trên SMC đã đề xuất chưa phù hợp khi thực hiện trên các tập dữ liệu lớn (Supriya, 2015) (Ronica Raj, Veena Kulkarni, 2015)

Hình 3 Hai cách tiếp cận trong khai phá dữ liệu đảm bảo tính riêng tư Bảng 1 Các dạng bài toán PPDM và phương pháp tiếp cận

Randomization Secure Multi-party

Computation Privacy-Preserving

Trang 16

Tựu chung lại, các giải pháp PPDM dựa trên biến đổi ngẫu nhiên cĩ hiệu năng tốt nhưng phải đánh đổi giữa độ chính xác và tính riêng tư Hơn nữa, việc biến đổi dữ liệu gốc cũng khơng thể đảm bảo tính riêng tư được bảo vệ Chính vì vậy, các giải pháp PPDM sử dụng biến đổi ngẫu nhiên khơng thu hút được nhiều sự quan tâm của giới nghiên cứu Ngược lại, các giải pháp PPDM dựa trên phương pháp SMC có độ chính xác được đảm bảo và các thơng tin riêng tư, nhạy cảm trong dữ liệu của mỗi thành viên

cĩ thể được bảo vệ an tồn nhờ các kỹ thuật mật mã Tuy nhiên, hiệu năng của những giải pháp này thường khơng cao

1.2 Cơ sở kỹ thuật của khai phá và phân tích dữ liệu đảm bảo tính riêng tư

1.2.1 Cơ sở về khai phá dữ liệu và học máy

Khai phá dữ liệu và học máy bao gồm các kỹ thuật nhằm khai thác, tìm kiếm các thơng tin hữu ích và tri thức tiềm ẩn chứa trong những những tập dữ liệu lớn, trong đó các kỹ thuật phân lớp được sử dụng phổ biến nhất Trong nghiên cứu này, đề tài lựa chọn trình bày hai kỹ thuật phân lớp điển hình là Nạve Bayes và cây quyết định ID3 cho các giải pháp đề xuất

1.2.1.1 Kỹ thuật phân lớp Nạve Bayes

Nội dung này trình bày sơ lược kỹ thuật phân lớp Nạve Bayes như sau:

Cho một bộ dữ liệu đã gán nhãn 𝐷 gồm 𝑛 bản ghi, trong đó mỗi bản ghi gồm (𝑚 + 1) thuộc tính với 𝑚 thuộc tính đầu tiên là độc lập và thuộc tính cuối cùng là thuộc tính phân lớp (nhãn) nằm trong tập 𝑘 nhãn {L[1], … , L[k]} Kỹ thuật phân lớp Nạve Bayes cĩ thể làm việc với cả dữ liệu liên tục (số) và rời rạc, tuy nhiên kỹ thuật này thường xuyên được sử dụng để phân tích dữ liệu phi số hơn

Để xác định nhãn 𝐿𝑦 của bản ghi mới 𝐴 = {𝑎1, … , 𝑎𝑚}, bộ phân lớp Nạve Bayes tính tốn dựa trên cơng thức dưới đây:

trong đó 𝑝[𝑗] biểu diễn xác suất của nhãn L[j], và 𝑝[𝑖, 𝑗] biểu diễn xác suất có điều kiện

của thuộc tính 𝑎𝑖 biết nhãn L[j]

Nhằm tránh các trường hợp xác suất của 0, cơng thức trên được biến đổi thành:

Trang 17

Nếu 𝑛 là số bản ghi, 𝑛[𝑗] là số bản ghi cĩ nhãn L[j] và 𝑛[𝑖, 𝑗] là số bản ghi cĩ thuộc tính thứ 𝑖 là 𝑎𝑖 đồng thời cĩ nhãn là 𝐿𝑗 thì ta cĩ: 𝑝[𝑗] = 𝑛[𝑗]

Như vậy, để huấn luyện mơ hình phân lớp Nạve Bayes, cần tính các giá trị 𝑛[𝑗] biểu diễn số bản ghi có nhãn tương ứng L[1], … , L[k] và các giá trị 𝑛[𝑖, 𝑗] biểu diễn số bản ghi cĩ thuộc tính thứ 𝑖 là 𝑎𝑖 và mang nhãn L[j]

1.2.1.2 Kỹ thuật cây quyết định ID3

Việc quan sát, suy nghĩ và ra các quyết định của con người thường được bắt đầu

từ việc làm rõ các dữ kiện liên quan bằng cách hỏi và trả lời các câu hỏi Một trong những mơ hình học máy đơn giản là mơ hình ra quyết định dựa trên trả lời các câu hỏi, được gọi là cây quyết định (decision tree)

Hình 4 Một ví dụ đơn giản về cây quyết định

Xét ví dụ một cây quyết định như trên hình, khi một chuyên gia xem xét một lời mời làm việc Nếu khơng phù hợp về chuyên mơn của mình người chuyên gia này sẽ từ chối Xét tiếp, với một cơng việc cĩ mức lương tháng dưới 20 triệu, người đó sẽ từ chối; nếu lương trên 50 triệu, người đó sẽ nhận lời; nếu lương trong khoảng từ 20 đến 50 triệu

Trang 18

sẽ xét tiếp: nếu văn phòng ở gần nhà thì người đó sẽ nhận việc, còn nếu văn phòng ở xa thì người đó cũng từ chối

Hình trên ta có một cây, các ô chữ nhật chứa các điều kiện (như mức lương, lĩnh

vực chuyên môn, vị trí văn phòng…), gọi là các nút trong của cây; tại đó cây được chia thành các nhánh (cây con) cho đến khi đi đến quyết định liệu một người nên chấp nhận

hay từ chối lời mời làm việc hay không Các tính huống đưa đến một quyết định được

gọi là lá của cây (các hình oval) Nút trong có thể có một hoặc nhiều nhánh Nút trên cùng của cây quyết định (chứa điều kiện được xét đến đầu tiên) được gọi là gốc của cây

quyết định

Như vậy, công việc chính của việc xây dựng một cây quyết định là: các câu hỏi (hay các điều kiện) nên được xây dựng như thế nào, và thứ tự của các câu hỏi ra sao Các câu hỏi này thường được áp dụng lên từng thuộc tính, hoặc một tổ hợp tuyến tính của các thuộc tính Cách thứ nhất, áp dụng lên từng thuộc tính, được sử dụng nhiều hơn vì tính đơn giản của nó Với các thuộc tính dạng categorical, câu hỏi sẽ là Nó rơi vào category nào? Với các thuộc tính dạng liên tục, câu hỏi có thể là Nó nằm vào khoảng giá trị nào? hoặc Nó có lớn hơn một ngưỡng nào đó không?

Trong học máy với cây quyết định, ID3 (Iterative Dichotomiser 3) là một thuật toán được Ross Quinlan (trường đại học Sydney, Australia) phát minh, rất phổ biến để tạo cây quyết định từ một tập dữ liệu cho trước

a Ý tưởng của thuật toán ID3

Thuật toán ID3 xác định thứ tự của thuộc tính cần được xem xét tại mỗi bước Với các bài toán có nhiều thuộc tính và mỗi thuộc tính có nhiều giá trị khác nhau, việc tìm được phương án tối ưu thường là không khả thi Thay vào đó, một cách đơn giản thường

được sử dụng là tại mỗi bước, một thuộc tính tốt nhất sẽ được chọn ra dựa trên một tiêu

chuẩn Với mỗi thuộc tính được chọn, ta chia dữ liệu vào các nhánh tương ứng với các

giá trị của thuộc tính đó rồi tiếp tục áp dụng phương pháp này cho mỗi nhánh Việc chọn

ra thuộc tính tốt nhất ở mỗi bước như thế này được gọi là cách chọn tham lam(greedy)

Cách chọn này có thể không phải là tối ưu, cách làm này sẽ gần với cách làm tối ưu Ngoài ra, cách làm này khiến cho bài toán cần giải quyết trở nên đơn giản hơn

Sau mỗi câu hỏi, dữ liệu được phân chia vào từng nhánh tương ứng với các câu trả lời cho câu hỏi đó Câu hỏi ở đây chính là một thuộc tính, câu trả lời chính là giá trị

Trang 19

của thuộc tính đó Để đánh giá chất lượng của một cách phân chia, thuật toán cần đi tìm

một phép đo

Dễ thấy rằng, một phép phân chia là tốt nhất nếu dữ liệu trong mỗi nhánh hoàn

toàn thuộc vào một lớp (class)–khi đó nhánh này có thể được coi là một nút lá, tức ta không cần phân chia thêm nữa Nếu dữ liệu trong các nhánh vẫn lẫn vào nhau theo tỉ lệ

lớn, ta coi rằng phép phân chia đó chưa thực sự tốt Từ nhận xét này, ta cần có một hàm

số đo độ tinh khiết (purity), hoặc độ vẩn đục (impurity) của một phép phân chia Hàm

số này sẽ cho giá trị thấp nhất nếu dữ liệu trong mỗi nhánh nằm trong cùng một lớp (tinh khiết nhất), và cho giá trị cao nếu mỗi nhánh có chứa dữ liệu thuộc nhiều lớp khác nhau Hàm số entropy được dùng nhiều trong lý thuyết thông tin là hàm có các đặc điểm này

b Hàm số entropy

Cho một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị khác nhau

x 1 ,x 2 ,…,x n Giả sử rằng xác suất để x nhận các giá trị này là p i = p(x = x i ) với 0 ≤ p i ≤1:

c Các độ lợi thông tin (Information gain)

Độ lợi thông tin IG(A) là thước đo sự khác biệt trong entropy từ trước đến sau khi tập hợp S được phân chia trên một thuộc tính A Nói cách khác, mức độ không thuần nhất trong S đã được giảm sau khi tách tập hợp S trên thuộc tính A

Trang 20

 T - Các tập hợp con được tạo từ việc tách tập hợp tách theo thuộc tính A

𝑆 = ⋃𝑡∈𝑇𝑡

 p(t) - Tỷ lệ số phần tử trong t với số phần tử trong tập hợp S

 H(t) - Entropy của tập hợp con t

Trong ID3, độ lợi thông tin có thể được tính toán (thay vì tính entropy) cho mỗi thuộc tính còn lại Thuộc tính có mức tăng thông tin lớn nhất được sử dụng để tách tập hợp S ở lần lặp đang xét

d Thuật toán ID3

Thuật toán ID3 bắt đầu với tập hợp ban đầu S, lấy S làm nút gốc Trên mỗi lần lặp lại, thuật toán sẽ duyệt mọi thuộc tính chưa sử dụng của tập hợp S và tính toán entropy H(S) hoặc độ lợi thông tin IG(S) của thuộc tính đó Sau đó, thuật toán chọn thuộc tính

có giá trị entropy nhỏ nhất (hoặc độ lợi thông tin lớn nhất) Tập hợp S sau đó được tách hoặc phân vùng bởi thuộc tính đã chọn để tạo ra các tập con dữ liệu (Ví dụ: một nút có thể được chia thành các nút con dựa trên các tập hợp con của dân số có độ tuổi nhỏ hơn

50, từ 50 đến 100 và lớn hơn 100) Thuật toán tiếp tục lặp lại trên mỗi tập con, chỉ xem xét các thuộc tính chưa được chọn trước đó

Đệ quy trên một tập hợp con có thể dừng lại trong một trong những trường hợp sau:

 Khi tất cả các phần tử trong danh sách đang xét thuộc cùng một lớp Khi đó ta tạo một nút lá của cây quyết định tại đó có nhãn là lớp chung của các phần tử được chọn

 Không còn thộc tính nào để chọn nữa, nhưng các phần tử trong tập không cùng một nhóm, Trong trường hợp này, cũng tạo ra một nút lá và nhãn được gán cho nút này là lớp có nhiều phần tử nhất

Trường hợp không có phần tử nào trong tập con (tập rỗng) Trường hợp này xảy

ra khi có một giá trị của thuộc tính quyết định ở nút cha mà không có phần tử nào của tập cha có giá trị đó Ví dụ không có ai thuộc tập hợp dân số trên 100 tuổi Khi đó nút lá được tạo ra với nhãn là nhãn của lớp có nhiều phần tử nhất trong

số các phần tử của tập cha

Trong suốt thuật toán, cây quyết định được xây dựng với mỗi nút không phải đầu cuối (nút bên trong) đại diện cho thuộc tính đã chọn mà dữ liệu được phân tách và các

Trang 21

nút đầu cuối (nút lá) đại diện cho nhãn lớp của tập con cuối cùng của nhánh này Chi tiết về thuật tốn này được trình bày như sau:

Đầu vào: Tập mẫu huấn luyện S, tập thuộc tính phân lớp C, tập thuộc tính A Đầu ra: Cây quyết định

Thuật tốn:

 Bước 1: Tạo Nút_gốc cho cây quyết định

 Bước 2: IF tất cả các mẫu huấn luyện đều cĩ giá trị của nhãn là P, RETURN

cây cĩ một nút duy nhất là Nút_gốc với nhãn P

 Bước 3: IF A rỗng, RETURN cây cĩ một nút duy nhất là Nút_gốc với nhãn là

giá trị phổ biến nhất trong C

 Bước 4:

o Gọi X là một thuộc tính trong A phân lớp S tốt nhất

o Gán nhãn cho nút gốc với tên thuộc tính X

o A = A – {X}

o FOREACH giá trị v của X

 Thêm một nhánh mới dưới Nút_gốc với X = v

 Xác định tập con Sv ứng với X = v

 IF Sv rỗng thì thêm dưới nhánh mới này một nút lá cĩ nhãn là giá trị phổ biến nhất của thuộc tính quyết định trong S

 ELSE thêm cây con vào dưới nhánh này bằng cách gọi đệ quy ID3 (Sv,

C, A-{X})

 Bước 5: RETURN Nút_gốc

1.2.1.3 Mơ hình hồi quy tuyến tính

Hồi quy tuyến tính là thuật tốn dự báo cơ bản và đơn giản nhất trong lĩnh vực khai phá dữ liệu và học máy

Thuật tốn hồi quy tuyến tính cũng cần làm việc với một bộ dữ liệu 𝐷 gồm 𝑛 bản ghi, trong đó bản ghi thứ 𝑖 gồm (𝑚 + 1) thuộc tính với 𝑚 thuộc tính đầu tiên độc lâp ký hiệu là (𝑋1𝑖, … , 𝑋𝑚𝑖 ) và thuộc tính cuối cùng là thuộc tính phụ thuộc ký hiệu là 𝑌𝑖, Tuy nhiên khác với kỹ thuật phân lớp Nạve Bayes, thuật tốn hồi quy tuyến tính chỉ làm việc được với dữ liệu liên tục (dạng số)

Trang 22

Sau quá trình huấn luyện dữ liệu, mô hình hồi quy tuyến tính được học ra có dạng như sau:

𝒀 = 𝜷𝟎+ 𝜷𝟏𝑿𝟏 + 𝜷𝟐𝑿𝟐+ ⋯ + 𝜷𝒌𝑿𝒌

Ở đây, đề tài không tập trung trình bày các bước huấn luyện trong thuật toán hồi quy tuyến tính mà muốn tham chiếu mô hình này tới mô hình xếp hạng tín dụng khách hàng sử dụng thẻ điểm đang được triển khai ở rất nhiều NHTM tại Việt Nam Bộ thuộc tính (𝑋1, … , 𝑋𝑘) và bộ tham số (𝛽0, … , 𝛽𝑘) trong mô hình trên được xác định bởi các đơn vị tư vấn chuyên về lĩnh vực xếp hạng tín dụng Như vậy, mỗi khi NHTM muốn đánh giá hạng mức tín dụng của khách hàng để quyết định giải ngân thì cần yêu cầu phía khách hàng cung cấp các thông tin của bộ thuộc tính (𝑋1, … , 𝑋𝑘)

1.2.2 Cơ sở về mật mã học

1.2.2.1 Hạ tầng mã hóa khóa công khai

a Khái niệm

“Hệ mã hóa khóa phi đối xứng (hay còn gọi là hệ mã hóa khóa công khai) là hệ

mã hóa có khóa mã hóa và khóa giải mã khác nhau (khi biết được khóa này thì khó có thể tính được khóa kia và ngược lại)” (Tiến, 2009)

Hệ mã hóa khóa công khai đầu tiên do Diffie và Hellman phát minh vào những năm 1970

Hệ mã hóa khóa công khai bao gồm hai khóa:

 Khóa mã hóa công khai cho tất cả mọi người nên được gọi là khóa công khai (Public key)

 Khóa giải mã được giữ bí mật nên được gọi là khóa bí mật (Private key) Một người bất kỳ có thể dùng khóa công khai để mã hóa bản tin, nhưng chỉ duy nhất người có được khóa bí mật mới có khả năng đọc được nội dung ẩn chứa trong bản

Trang 23

- Thuật toán Gen có đầu vào là một tham số an toàn 1n và cho ra cặp khóa khác nhau phân biệt (pk, sk) trong đó pk là khóa công khai và sk là khóa bí mật

- Thuật toán Enc có đầu vào là khóa công khai pk và một thông điệp m và cho ra bản mã c = Encpk(m)

Thuật toán tất định Dec có đầu vào là khóa bí mật sk và bản mã c, và cho ra thông điệp m hoặc một ký hiệu lỗi ⊥ Có thể viết m = Decsk(c)

Những ưu điểm nổi bật của hệ mã hóa khóa công khai là:

- Thuật toán được viết một lần và có thể sử dụng nhiều lần cho nhiều người dùng, mỗi người dùng chỉ cần chọn các tham số cho mình

- Độ an toàn cao do khóa bí mật và khóa công khai “độc lập” với nhau

Tuy nhiên, hệ mã hóa khóa công khai có tốc độ mã hóa và giải mã chậm hơn hệ

mã hóa đối xứng Vì vậy, hệ mã hóa này chỉ dùng để mã hóa những bản tin ngắn (ví dụ như: mã hóa khóa bí mật của hệ mã hóa khóa đối xứng)

b Hệ mã hóa khóa công khai có tính chất đồng cấu

Hệ mã hóa đồng cấu cho phép thực hiện các phép toán của các giá trị trên những bản mã của các giá trị này mà không yêu cầu phải giải mã ra bản rõ Thuộc tính quan trọng này của hệ mã hóa đồng cấu đóng vai trò quan trọng để xây dựng các giao thức mật mã nói chung và các giao thức tính toán bảo mật nhiều thành viên nói riêng

Nội dung tiếp theo sẽ trình bày hệ mã hóa đồng cấu theo phép toán cộng và nhân

i Hệ mã hóa đồng cấu theo phép toán cộng

Một hệ mã hóa được gọi là đồng cấu theo phép toán cộng nếu 𝐸𝑛𝑐𝒑𝒌(𝑚1), 𝐸𝑛𝑐𝒑𝒌(𝑚2) lần lượt là bản mã của hai bản rõ 𝑚1 và 𝑚2 sử dụng khóa công khai 𝑝𝑘 thì 𝐸𝑛𝑐𝒑𝒌(𝑚1) × 𝐸𝑛𝑐𝒑𝒌(𝑚2) là bản mã của 𝑚1+ 𝑚2 dưới khóa công khai 𝑝𝑘

𝐸𝑛𝑐𝑝𝑘(𝑚1) × 𝐸𝑛𝑐𝑝𝑘(𝑚2) = 𝐸𝑛𝑐𝑝𝑘(𝑚1+ 𝑚2)

Hệ mã hóa Paillier (Paillier, 1999) là một hệ mã hóa điển hình có tính chất đồng cấu theo phép toán cộng

ii Hệ mã hóa đồng cấu theo phép toán nhân

Một hệ mã hóa được gọi là đồng cấu theo phép toán nhân nếu 𝐸𝑛𝑐𝑝𝑘(𝑚1), 𝐸𝑛𝑐𝑝𝑘(𝑚2) lần lượt là bản mã của hai bản rõ 𝑚1 và 𝑚2 sử dụng khóa công khai 𝑝𝑘 thì 𝐸𝑛𝑐𝑝𝑘(𝑚1) × 𝐸𝑛𝑐𝑝𝑘(𝑚2) là bản mã của 𝑚1× 𝑚2 dưới khóa công khai 𝑝𝑘

Trang 24

và khóa công khai là ℎ = 𝑔𝑥

Ở bước mã hóa, người gửi sử dụng khóa công khai ℎ để tính bản mã 𝐶 cho bản rõ

𝑀 như sau: chọn ngẫu nhiên giá trị 𝑘 ∈ [1, 𝑞 − 1] và tính bản mã 𝐶 = (𝐶1 = 𝑀 ℎ𝑘, 𝐶2 =

𝑔𝑘)

Để giải mã, người nhận sử dụng khóa bí mật 𝑥 để tính bản rõ 𝑀 = 𝐶1 (𝐶2𝑥)−1 Dưới giả sử Diffie-Hellman quyết định, hệ mã hóa ElGamal an toàn ngữ nghĩa Chú ý rằng, hệ mã hóa ElGamal có tính chất đồng cấu với phép nhân, bởi vì nếu 𝐶(𝐶1 = 𝑀 ℎ𝑘, 𝐶2 = 𝑔𝑘) là bản mã của 𝑀 và 𝐶′(𝐶1′ = 𝑀′ ℎ𝑘′, 𝐶2′ = 𝑔𝑘′) là bản mã của

𝑀′ thì (𝐶1 𝐶1′, 𝐶2 𝐶2′) là bản mã tương ứng của 𝑀 𝑀′

1.2.2.3 Thuật toán Shank’s baby-step giant-step

Các giao thức tính toán sử dụng các hệ mã hóa dựa trên logarithm rời rạc thường xuyên vẫn phải đối mặt với chính bài toán này (tất nhiên với không gian nghiệm là rất nhỏ) Như đã đề cập, bài toán logarithm rời rạc trong một nhóm cyclic có cấp 𝑞 là một

số nguyên tố lớn là một bài toán khó nhưng nếu có thể giới hạn được miền giá trị nghiệm cần tìm thì bài toán này trở nên đơn giản hơn nhiều Thuật toán Shank’s baby-step giant-step (Shanks, 1971) chính là một giải thuật điển hình thường được sử dụng để giải quyết một cách hiệu quả các bài toán logarit rời rạc như thế Lược đồ tổng quát của thuật toán này được mô tả như hình dưới đây

 Input: Một nhóm cyclic 𝔾 cấp q có phần tử sinh g và một phần tử y trong 𝔾

 Output: Một giá trị x thỏa mãn gx = y

m [√q] + 1

Với mọi j thỏa mãn 0 ≤ j < m thực hiện

Trang 25

Tính gj và lưu trữ cặp (j, gj) trong một bảng băm

Tính g−m

β ← y

Với mọi i thỏa mãn 0 ≤ i < m thực hiện

Nếu β là thành phần thứ 2 của bất kỳ cặp nào trong bảng băm thì trả lại x = i m + j

Ngược lại β ← β g−m

Hình 5 Thuật toán Shank’s baby-step giant-step

Lưu ý rằng, nếu miền giá trị của 𝑥 có thể được giới hạn bằng số 𝑛 (𝑥 ≤ 𝑛 ≪ 𝑞) thì thuật toán trên sẽ hiệu quả hơn bởi vì giá trị 𝑞 sẽ được thay thế bởi giá trị 𝑛

Ngoài ra, thuật toán này có thể được xây dựng dựa trên mật mã đường cong elliptic như sau:

 Input: Một đường cong 𝔼 trên ℤ𝒑 với điểm cơ sở 𝐺 và một

điểm 𝑌 trên đường cong 𝔼

 Output: Một giá trị 𝑥 thỏa mãn 𝑥𝐺 = 𝑌

m [√q] + 1

Với mọi j thỏa mãn 0 ≤ j < m thực hiện

Tính 𝑗𝐺 và lưu trữ cặp (j, 𝑗𝐺) trong một bảng băm

Tính Α = −(𝑚𝐺)

Β ← 𝑌

Với mọi i thỏa mãn 0 ≤ i < m thực hiện

Nếu Β là thành phần thứ 2 của bất kỳ cặp nào trong bảng băm thì trả lại 𝑥 = 𝑖 𝑚 + 𝑗

Ngược lại Β ← Β + Α

Hình 6 Biến thể của thuật toán Shank’s baby-step giant-step dựa trên mật mã

đường cong elliptic

Trang 26

1.2.3 Tính toán bảo mật nhiều thành viên

1.2.3.1 Khái niệm

Cho 𝑚 là số thành viên tham gia vào mạng lưới tính toán phân tán (𝑚 ≥ 2), trong đó thành viên thứ 𝑖 (𝑖 = 1, 𝑚̅̅̅̅̅̅) sở hữu một giá trị đầu vào 𝑥𝑖 và |𝑥𝑖| = |𝑥𝑗| với mọi 𝑖, 𝑗 Một hàm tính toán nhiều thành viên 𝑓 được định nghĩa tổng quát như sau:

𝒇: ({𝟎, 𝟏}∗)𝒎 → ({𝟎, 𝟏}∗)𝒎

𝒙̅ = (𝒙𝟏, … , 𝒙𝒎) → 𝒇(𝒙̅) = (𝒇𝟏(𝒙̅), … , 𝒇𝒎(𝒙̅)) Nói một cách chi tiết, mỗi thành viên thứ 𝑖 (người nắm giữ giá trị đầu vào riêng tư

𝑥𝑖) mong muốn đạt được thành phần thứ 𝑖 của 𝑓(𝑥1, … , 𝑥𝑚), được ký hiệu là

𝑓𝑖(𝑥1, … , 𝑥𝑚)

Trong lĩnh vực mật mã học, SMC chỉ tới các phương thức cho phép các thực thể

tham gia cùng nhau tính toán “một cách an toàn” hàm 𝑓 nhiều thành viên dựa trên các

giá trị đầu vào riêng tư của họ, chống lại các hành vi xấu có thể có của địch thủ Những giao thức như trên được gọi chung là giao thức tính toán bảo mật nhiều thành viên (secure multi-party computation protocol)

Khi xem xét một giao thức SMC, tồn tại ba nhóm thực thể:

 Các thành viên trung thực (honest parties): là những thành viên tuân theo các quy tắc mà giao thức đề ra, tự thực hiện hoặc thông đồng với thực thể khác để

thực hiện các hành vi có hại đối với các thành viên còn lại

 Các thành viên nguy hại (corrupted parties): là những thành viên thực hiện hoặc

thông đồng với các thành viên tham gia giao thức cùng thực hiện, hoặc chịu sự kiểm soát của một số thực thể bên ngoài để thực hiện các hành vi có hại đối với

các thành viên trung thực

Các địch thủ bên ngoài (external adversaries): là những thực thể kiểm soát một

số thành viên trong giao thức nhằm thực hiện các hành vi có hại đối với các thành viên trung thực

1.2.3.2 Một số giao thức tính toán bảo mật nhiều thành viên

Trong nội dung này, đề tài trình bày các giao thức điển hình cho hai nhóm tính toán bảo mật nhiều thành viên là tính tích vô hướng bí mật và tính tổng tần suất bí mật

Trang 27

Những giao thức trình bày trong phần này chính là cơ sở của các giải pháp đề tài đề xuất trong chương 3 của báo cáo này

a Giao thức tính tích vô hướng bí mật của Goethals và cộng sự

Giả sử 𝑋 có vector bí mật 𝑋 = (𝑥1, 𝑥2, … , 𝑥𝑘) và 𝑌 có vector bí mật tương ứng

𝑌 = (𝑦1, 𝑦2, … , 𝑦𝑘) 𝑋 và 𝑌 mong muốn tính tích vô hướng 𝑆 = ∑𝑘𝑖=1𝑥𝑖𝑦𝑖 trong khi mỗi bên không tiết lộ vector bí mật của mình

Trước khi thực hiện giao thức của Goethals và cộng sự (Goethals Bart, Laur Sven, Lipmaa Helger & Mielikainen, Taneli, 2004), 𝑋 lựa chọn các tham số của hệ mã hóa ElGamal (𝑔, 𝑝, 𝑞, 𝑥, ℎ = 𝑔𝑥 𝑚𝑜𝑑 𝑝) trong đó X giữ khóa bí mật 𝑥 cho riêng mình và công bố khóa công khai ℎ cho 𝑌 Để cho tiện theo dõi, chúng tôi sử dụng ký hiệu 𝐸(𝑚) thay cho phép mã hóa dữ liệu 𝑚 sử dụng khóa công khai ℎ và ký hiệu 𝐷(𝑐) thay cho phép giải mã lấy dữ liệu gốc từ bản mã 𝑐 sử dụng khóa bí mật 𝑥

Giao thức tính tích vô hướng bí mật được trình bày trong hình dưới đây

Input: 𝑋 có vector (𝑥1, 𝑥2, … , 𝑥𝑘) và 𝑌 có vector tương ứng (𝑦1, 𝑦2, … , 𝑦𝑘)

Output: 𝑋 có giá trị 𝑢, Y có giá trị v sao cho: 𝑢 = ∑𝑘𝑖=1𝑥𝑖𝑦𝑖+ 𝑣

Bước 1: 𝑋 tính 𝐸(𝑔𝑥1) , … , 𝐸(𝑔𝑥𝑘) rồi gửi cho 𝑌

Bước 2: 𝑌 chọn ngẫu nhiên 𝑣 và tính:

Thực thi thuật toán Shank’s baby-step giant-step để tính 𝑢 thỏa mãn 𝑔𝑢 = 𝐾

Hình 7 Giao thức tính tích vô hướng bí mật của Goethals và cộng sự

b Giao thức tính tổng bí mật nhiều thành viên

Để làm cơ sở cho các giải pháp phân tích dữ liệu ngân hàng đảm bảo tính riêng tư,

đề tài lựa chọn hai giao thức tính tổng bí mật nhiều thành viên điển hình là giao thức

của Hao và cộng sự (Feng Hao, Matthew N Kreeger, Brian Randell, Dylan Clarke,

Siamak F Shahandashti & Peter Hyun-Jeen Lee, 2014) và giao thức trong (Vu, Luong,

Ho, & Nguyen, 2018)

Trang 28

Ý tưởng của giao thức tính tổng bí mật nhiều thành viên rất đơn giản Giả sử có n thành viên trong đó mỗi thành viên 𝑃𝑖 sở hữu một giá trị bí mật 𝑣𝑖 (𝑖 = 1, 𝑛̅̅̅̅̅) Một thực thể ký hiệu là miner cần tính giá trị tổng tổng 𝑠 = ∑𝑘𝑖=1𝑣𝑖 trong khi mỗi thành viên 𝑃𝑖không tiết lộ giá trị 𝑣𝑖 với bất kỳ ai

i Giao thức tính tổng bí mật nhiều thành viên của Hao và cộng sự

Giao thức tính tổng bí mật nhiều thành viên này được lấy từ giao thức bỏ phiếu an toàn dựa trên hệ mã hóa ElGamal của Hao và cộng sự trong nghiên cứu (Feng Hao, Matthew N Kreeger, Brian Randell, Dylan Clarke, Siamak F Shahandashti & Peter Hyun-Jeen Lee, 2014) (xem chi tiết hình 5)

Input: 𝑛 thành viên, mỗi người 𝑃𝑖 sở hữu một giá trị bí mật 𝑣𝑖 (𝑖 = 1, 𝑛̅̅̅̅̅)

Output: Bên 𝐵 tính được giá trị tổng 𝑠 = ∑𝑘𝑖=1𝑣𝑖 trong khi mỗi thành viên 𝑃𝑖 không tiết lộ 𝑣𝑖

Bước 1: Mỗi 𝑃𝑖 chọn khóa bí mật 𝑥𝑖 rồi gửi khóa công khai 𝑔𝑥 𝑖 cho 𝐵

Bước 2: 𝐵 tính 𝑌𝑖 = ∑ 𝑔

𝑥𝑗 𝑖−1 𝑗=1

∑ 𝑛 𝑔 𝑥𝑗 𝑗=𝑖+1

rồi gửi lại cho 𝑃𝑖

Bước 3: Mỗi 𝑃𝑖 tính 𝑚𝑖 = 𝑔𝑣𝑖 𝑌𝑖𝑥𝑖 rồi gửi lại cho 𝐵

Bước 4: 𝐵 tính 𝐾 = ∏𝑛𝑖=1𝑚𝑖

Thực thi thuật toán Shank’s baby-step giant-step để tính 𝑠 thỏa mãn 𝑔𝑠 = 𝐾

Hình 8 Giao thức tính tổng bí mật của Hao và cộng sự

Dễ dàng nhận thấy rằng mỗi lần thực hiện giao thức này, mỗi thành viên cần chọn một khóa bí mật mới 𝑥𝑖 để đảm bảo an toàn cho quá trình tính toán Như vậy, giao thức này của Hao và cộng sự phù hợp với việc tính toán một hoặc một số ít lần trong mô hình tính toán ít thành viên

ii Giao thức tính tổng bí mật của Vu và cộng sự

Một giao thức tính tổng bí mật khác được đề xuất trong (Vu, Luong, Ho, & Nguyen, 2018) được trình bày như sau:

 Khởi tạo hệ thống: cho 𝐸(𝑍𝑑) là một đường cong elliptic với 𝑂 là điểm ở vô cùng, 𝑑 là một số nguyên tố lớn, 𝐺 là một điểm cơ sở của 𝐸 có bậc 𝑑 (𝑑𝐺 = 𝑂)

và các bài toán bội số rời rạc của một điểm trên 𝐸 là khó Có 𝑛 người dùng 𝑈𝑖,

𝑈 sở hữu một giá trị riêng tư 𝑣 Trước khi giao thức bắt đầu, mỗi

Trang 29

người dùng chọn hai giá trị bí mật 𝑝𝑖, 𝑞𝑖 ∈ [1, 𝑑 − 1], sau đó anh ta tính hai khĩa (điểm) cơng khai tương ứng: 𝑃𝑖 = 𝑝𝑖𝐺, 𝑄𝑖 = 𝑞𝑖𝐺 Các khóa cơng khai này được gửi cho miner trước khi bắt đầu giao thức

 Các bước thực hiện giao thức:

o Bước 1: miner tính hai giá trị cơng khai và gửi cho tất cả 𝑈𝑖

Chú ý rằng, nếu mỗi giá trị bí mật 𝑣𝑖 ∈ {0, 1} thì hai giao thức vừa trình bày ở trên cịn được gọi là giao thức tính tổng tần suất bí mật

1.3 Một số kỹ thuật khai phá dữ liệu đảm bảo tính riêng tư và phân tích, đánh giá

Khi đề cập tới lĩnh vực khai phá dữ liệu và học máy, các kỹ thuật phục vụ cho hoạt động dự đốn và dự báo như phân lớp dữ liệu, mơ hình hồi quy thường được chú trọng hơn cả Trong đó, các thuật tốn cây quyết định (ID3, C4.5,…) và thuật tốn phân lớp Nạve Bayes là những kỹ thuật hàng đầu được quan tâm nghiên cứu bởi cộng đồng khoa

Trang 30

học dữ liệu (Xindong Wu et al., 2008) Do đó, đề tài lựa chọn phân tích các giải pháp đảm bảo tính riêng tư cho hai thuật tốn khai phá dữ liệu tiêu biểu là thuật tốn cây quyết định ID3 và thuật tốn phân lớp Nạve Bayes

1.3.1 Các nghiên cứu đảm bảo tính riêng tư cho thuật tốn cây quyết định ID3

Đối với các bài tốn phân lớp dữ liệu nĩi chung và xếp hạng tín dụng nĩi riêng, kỹ thuật cây quyết định thường được xem xét ứng dụng bởi nĩ cĩ rất nhiều ưu điểm vượt trội so với các kỹ thuật dự báo khác như:

 Thuật tốn cây quyết định trực quan, đơn giản và dễ dàng để hiểu Thuật tốn này cũng khơng yêu cầu bộ dữ liệu quá lớn để tiến hành xây dựng mơ hình, cĩ thể làm việc với nhiều loại dữ liệu và nhãn khác nhau

 Thuật tốn cây quyết định ít bị ảnh hưởng bởi dữ liệu ngoại lệ, cĩ khả năng xử lý

dữ liệu thiếu hoặc lỗi

 Thuật tốn cây quyết định khơng sử dụng tham số nên kết quả mơ hình khách quan hơn, có độ chính xác cao và dễ diễn giải thành các luật

Trong số các thuật tốn cây quyết định, ID3 là kỹ thuật cơ bản nhất và nó cũng được coi là nền mĩng cho những kỹ thuật cây quyết định cải tiến sau này như Random forest, C4.5

Một số nghiên cứu ứng dụng điển hình của thuật tốn cây quyết định cĩ thể kể đến như mơ hình dự báo sự trung thành sử dụng dịch vụ thẻ tín dụng của Nie và cộng sự trong (Guangli Nie, Wei Rowe, Lingling Zhang, Yingjie Tian, Yong Shi, 2011), mơ hình dự báo sự thành cơng trong hoạt động quảng cáo dịch vụ ngân hàng qua điện thoại của Moro và cộng sự trong (Moro, Cortez, & Rita, 2014), giải pháp tối ưu hóa mơ hình chấm điểm tín dụng sử dụng cây quyết định của Xia và cộng sự trong (Yufei Xia, Chuanzhe Liu, YuYing Li, Nana Liu, 2017) hay mơ hình dự đốn bệnh lý của Yang và cộng sự trong (Shuo Yang, Jing-Zhi Guo, Jun-Wei Jin, 2017)

Tính đến nay, đã có nhiều giải pháp bảo vệ dữ liệu riêng tư trong thuật tốn cây quyết định ID3 được đề xuất trong cộng đồng khoa học dữ liệu và an tồn thơng tin Theo khảo sát của nhĩm nghiên cứu, đề xuất đầu tiên về giải pháp đảm bảo tính riêng tư cho kỹ thuật phân lớp ID3 được đưa ra bởi Agrawal và cộng sự trong cơng trình (Agrawal & Srikant, 2000) Ở giải pháp này, các tác giả đã thay thế những giá trị của những thuộc tính nhạy cảm bằng các giá trị khác đã được biến đổi những vẫn bảo tồn

Trang 31

phân phối của dữ liệu Do đó, giải pháp có hiệu năng cao nhưng phải đánh đổi giữa độ chính xác và tính riêng tư

Sau đó, Yang và cộng sự đã trình bày một giải pháp tương tự (Yang, Zhong, & Wright, 2005) dựa trên giao thức tính toán tần suất đảm bảo tính riêng tư cho mô hình

dữ liệu phân tán đầy đủ Do giải pháp này tính toán dựa trên hệ mã hóa an toàn ElGamal (T.Elgamal, 1985) nên độ chính xác của kết quả đầu ra được bảo toàn và các dữ liệu riêng tư được bảo vệ nghiêm ngặt Tuy nhiên, do giao thức tính toán tần suất đảm bảo tính riêng tư còn chưa thực sự hiệu quả nên hiệu năng của giải pháp (Yang, Zhong, & Wright, 2005) còn chưa cao

Dựa trên giao thức tính tổng bảo mật nhiều thành viên sử dụng kỹ thuật chia sẻ bí mật Shamir (Shamir, 1979), các tác giả của (F Emekci, O.D Sahin, D Agrawal, A El Abbadi, 2007) đã mô tả giải pháp huấn luyện mô hình cây quyết định có đảm bảo tính riêng tư từ nguồn dữ liệu phân tán đầy đủ Mỗi thành viên trong giải pháp này được yêu cầu tính toán 𝑛 đa thức bậc 𝑛 − 1 để chia sẻ cho các thành viên khác Đòi hỏi này không phù hợp với mô hình có số lượng thành viên nhiều thực sự (cỡ hàng nghìn) và việc thiết lập kênh kết nối giữa các cặp thành viên sở hữu dữ liệu cũng tương đối khó khăn

Để xây dựng cây phân lớp ID3 có đảm bảo tính riêng tư (Saeed Samet, Ali Miri, 2008), Samet và Miri đã áp dụng hai giao thức tính tổng và tích bảo mật nhiều thành viên sử dụng hệ mã hóa Paillier (Paillier, 1999) Do hệ mã hóa này có chi phí tính toán lớn và tham số không phù hợp với mô hình tính toán nhiều thành viên nên giải pháp trong (Saeed Samet, Ali Miri, 2008) vừa không hiệu quả, vừa thiếu an toàn

Cùng dựa trên kỹ thuật thêm nhiễu vào dữ liệu gốc được giới thiệu bởi (Dwork & Roth, 2013), Zhang và cộng sự (Lin Zhang, Yan Liu, Ruchuan Wang, Xiong Fu, Qiaomin Lin, 2017), Li và cộng sự (Li P , et al., 2018) đã đề xuất các mô hình cây quyết định có đảm bảo tính riêng tư Tuy nhiên, những giải pháp này đều phải đánh đổi giữa

độ chính xác của kết quả đầu ra và mức độ riêng tư của dữ liệu

Tựu chung lại, các giải pháp đảm bảo tính riêng tư cho kỹ thuật phân lớp ID3 đã

đề xuất còn tồn tại nhiều nhược điểm nghiêm trọng như: độ chính xác không được bảo toàn, tính riêng tư không được bảo vệ an toàn hay hiệu năng chưa cao Do đó, cần thiết phải triển khai các kỹ thuật như tính toán bảo mật nhiều thành viên hiệu quả ứng dụng cho giải pháp đảm bảo tính riêng tư cho kỹ thuật phân lớp ID3

Tiêu đề	Nghiên Cứu Ứng Dụng Các Giải Pháp Khai Phá Dữ Liệu Đảm Bảo Tính Riêng Tư Trong Một Số Bài Tốn Phân Tích Dữ Liệu Ngân Hàng Thương Mại Việt Nam
Tác giả	ThS. Vũ Duy Hiến, ThS. Nguyễn Dương Hùng, TS. Đinh Trọng Hiếu, ThS. Nguyễn Thị Thu Trang
Trường học	Ngân Hàng Nhà Nước Việt Nam Học Viện Ngân Hàng
Chuyên ngành	Khoa Học Dữ Liệu
Thể loại	Đề Tài Nghiên Cứu Khoa Học Cấp Cơ Sở
Năm xuất bản	2019
Thành phố	Hà Nội

Định dạng
Số trang	62
Dung lượng	1,64 MB