HỌC VIỆN NGÂN HÀNGKHOA HỆ THỐNG THÔNG TIN QUẢN LÝ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP DỮ LIỆU KHÁ
Trang 1HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
NGHIÊN CỨU GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP DỮ LIỆU KHÁCH HÀNG CỦA NGÂN HÀNG NoN&PTNT CHI NHÁNH HÀ TÂY
BÙI THỊ ANH THƯ
HÀ NỘI – 2018
Trang 2HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Đề tài:
NGHIÊN CỨU GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP DỮ LIỆU KHÁCH HÀNG CỦA NGÂN HÀNG NoN&PTNT CHI NHÁNH HÀ TÂY
Giảng viên hướng dẫn: ThS Vũ Duy Hiến Sinh viên thực hiện: Bùi Thị Anh Thư Lớp: HTTTA
Mã sinh viên: 17A4040080 Khóa: K17
Hệ: Đại học chính quy
HÀ NỘI – 2018
Trang 4Đặc biệt, em cũng xin gửi lời cảm ơn chân thành nhất tới thầy Vũ Duy Hiến, thầy là người luôn tận tâm, nhiệt tình hướng dẫn, chỉ bảo cho em trong suốt quá trình nghiên cứu và giúp em có thể hoàn thiện tốt bài khóa luận này.
Em cũng xin gửi lời cảm ơn tới những người bạn, những người luôn đồng hành cùng em qua các môn học trên giảng đường và cùng em vượt qua một quãng đời sinh viên đầy ý nghĩa
Và không thể không cảm ơn tới nguồn động viên lớn nhất, đó là gia đình, hậu phương vững chắc nhất luôn bên cạnh em mọi khó khăn, chia sẻ với em những lúc em cần nhất
Và cuối cùng, em xin gửi lời cảm ơn sâu sắc tới Ngân hàng NoN&PTNT – Chi nhánh Hà Tây nói chung và các anh chị Phòng Tín dụng doanh nghiệp nói riêng đã tạo điều kiện giúp đỡ, cung cấp thông tin, giải đáp những thắc mắc để
em có thể hoàn thành khóa luận tốt nghiệp này.
Em xin chân thành cảm ơn!
Trang 5Sinh viên
Bùi Thị Anh Thư
Trang 6CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
*************
Hà Nội, ngày… tháng … năm 2018
GIẤY XÁC NHẬN THỰC TẬP
Ngân hàng Nông nghiệp và phát triển nông thôn – Chi nhánh Hà Tây
Sinh viên: Bùi Thị Anh Thư
Mã sinh viên: 17A4040080
Khoa: Hệ thống thông tin quản lý Trường: Học viện Ngân Hàng Đã hoàn thành đợt thực tập tại Ngân hàng NoN&PTNT – Chi nhánh Hà Tây Nhận xét của đơn vị thực tập: ………
………
………
………
…………
Điểm thực tập: …
GIÁM ĐỐC
(Ký tên và đóng dấu)
Trang 7NHẬN XÉT (Của giảng viên hướng dẫn)
………
………
………
……….
………
………
………
……….
………
………
………
……….
………
………
………
……….
………
………
………
……….
………
………
………
……….
………
………
………
……….
………
………
………
………
Trang 8MỤC LỤC
DANH MỤC CHỮ VIẾT TẮT vii
DANH MỤC HÌNH ẢNH viii
DANH MỤC BẢNG BIỂU ix
MỞ ĐẦU 2
CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG XẾP HẠNG TÍN DỤNG VÀ ĐẢM BẢO TÍNH RIÊNG TƯ TRONG KHAI PHÁ DỮ LIỆU 4
1.1 Giới thiệu đơn vị thực tập 4
1.1.1 Giới thiệu về Ngân hàng Nông nghiệp và Phát triển Nông thôn Chi nhánh Hà Tây 4
1.1.2 Cơ cấu tổ chức 4
1.2 Khai phá dữ liệu đảm bảo tính riêng tư 4
1.2.1 Các khái niệm 4
1.2.2 Các bài toán Khai phá dữ liệu đảm bảo tính riêng tư 6
1.3 Tổng quan về hệ thống xếp hạng tín dụng 7
1.3.1 Định nghĩa của xếp hạng tín dụng 7
1.3.2 Sự cần thiết của xếp hạng tín dụng 7
1.3.3 Nguyên tắc và quy trình xếp hạng tín dụng 8
1.4 Mô tả bài toán 14
1.4.1 Nhu cầu thực tiễn 14
1.4.2 Xác định bài toán 15
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ 16
2.1 Phương pháp biến đổi ngẫu nhiên (Randomization) 17
2.2 Phương pháp tính toán bảo mật nhiều thành viên (SMC) 17
2.2.1 Secure sum (Giao thức tổng bí mật) 17
2.2.2 Secure Scalar Product (Giao thức Tích vô hướng bí mật) 22
CHƯƠNG 3: GIẢI PHÁP ĐẢM BẢO TÍNH RIÊNG TƯ CHO KỸ THUẬT PHÂN LỚP DỮ LIỆU 24
3.1 Thuật toán ID3 24
3.2 Giải pháp đảm bảo tính riêng tư cho thuật toán phân lớp ID3 24
3.2.1 Dữ liệu phân tán ngang 24
3.2.2 Dữ liệu phân tán dọc 31
CHƯƠNG 4: THỰC NGHIỆM XÂY DỰNG MÔ HÌNH PHÂN LỚP KHÁCH HÀNG DOANH NGHIỆP 37
Trang 94.1 Môi trường 37
4.2 Mô tả dữ liệu 37
4.2.1 Dữ liệu gốc 37
4.2.2 Tiền xử lý dữ liệu 39
4.3 Xây dựng kịch bản 42
4.4 Kết quả thực nghiệm 42
4.5 Nhận xét 49
KẾT LUẬN 50
PHỤ LỤC 52
TÀI LIỆU THAM KHẢO 60
Trang 11Hình 1: Sơ đồ cơ cấu tổ chức Ngân hàng NoN&PTNT – Chi nhánh Hà Tây 4
Trang 12Bảng 1: Bảng xếp hạng khách hàng doanh nghiệp 9
Bảng 4: Bảng trọng số áp dụng cho các tiêu chí phi tài chính 13
Bảng 10: Biểu diễn dữ liệu phân tán dọc do 2 thành viên nắm giữ 31
Bảng 12: Các giá trị của thuộc tính “Doanh thu thuần” 37
Bảng 14: Các giá trị của thuộc tính “Lĩnh vực ngành nghề” 38Bảng 15: Các giá trị của thuộc tính “Nộp ngân sách” 38Bảng 16: Các giá trị của thuộc tính “Vốn kinh doanh” 38
Bảng 18: Các giá trị của thuộc tính “Loại hình sở hữu” 39
Bảng 20: Các ký hiệu của thuộc tính “Doanh thu thuần” 40
Bảng 22: Các ký hiệu của thuộc tính “Lĩnh vực ngành nghề” 40Bảng 23: Các ký hiệu của thuộc tính “Nộp ngân sách” 41Bảng 24: Các ký hiệu của thuộc tính “Vốn kinh doanh” 41
Bảng 26: Các ký hiệu của thuộc tính “Loại hình sở hữu” 41
Bảng 28: Bảng các chỉ số tài chính áp dụng cho chấm điểm tín dụng các doanh nghiệp
Trang 13Bảng 31: Bảng các chỉ số tài chính áp dụng cho chấm điểm tín dụng các doanh nghiệp
Bảng 32: Chấm điểm tín dụng theo tiêu chí lưu chuyển tiền tệ 56Bảng 33: Chấm điểm tín dụng theo tiêu chí năng lực và kính nghiệm quản lý 57Bảng 34: Chấm điểm tín dụng theo tiêu chí uy tín trong giao dịch 58Bảng 35: Chấm điểm tín dụng theo tiêu chí môi trường kinh doanh 58Bảng 36: Chấm điểm tín dụng theo tiêu chí các đặc điểm hoạt động khác 59
Trang 14MỞ ĐẦU
1 Tính cấp thiết của đề tài
Khai phá dữ liệu (KPDL) đóng một vai trò quan trọng trong thế giới hiện nay vàcung cấp cho chúng ta một công cụ hiệu quả để khám phá ra những thông tin có giá trị
từ những bộ cơ sở dữ liệu (CSDL) lớn Tuy nhiên, trong các tập dữ liệu của một sốngành đặc thù như y tế, ngân hàng, tài chính vấn đề đảm bảo tính riêng ngày càngnhận được nhiều sự quan tâm Điển hình như vụ bê bối rò rỉ dữ liệu người dùng củaFacebook có liên quan đến công ty phân tích dữ liệu Cambridge Analytica vừa qua đãđược rất nhiều người chú ý Nhiều thông tin cho thấy, ít nhất 87 triệu người dùngFacebook bị đánh cắp dữ liệu Như vậy, việc xây dựng giải pháp khai phá tri thức màvẫn đảm bảo bí mật các thông tin riêng tư có trong dữ liệu là rất cấp thiết hiện nay Đối với ngành ngân hàng nói riêng, dữ liệu của ngành này được ví như “mỏthông tin” quan trọng và giá trị Với số lượng và dung lượng lớn, kiểu dữ liệu đa dạng
và hàm chứa nhiều thông tin hữu ích, dữ liệu ngân hàng đòi hỏi phải được xử lý đểứng dụng và phục vụ cho hoạt động kinh doanh Tuy nhiên, dữ liệu của ngân hàngluôn chứa rất nhiều thông tin riêng tư của khách hàng vì thế càng cần thiết phải
sử dụng những giải pháp KPDL đảm bảo tính riêng tư Trong hệ thống ngân hàngViệt Nam, ngân hàng Nông nghiệp và Phát triển Nông thôn Việt Nam – Agribank làmột trong những ngân hàng thương mại thành lập sớm nhất và có quy mô vốn điều lệlớn nhất Với những thế mạnh của mình như dịch vụ đa dạng, chất lượng cao, mạnglưới kinh doanh rộng lớn và có uy tín đối với khách hàng
Xuất phát từ lý do trên, tác giả lựa chọn đề tài: “Nghiên cứu giải pháp khai phá
dữ liệu đảm bảo tính riêng tư và ứng dụng trong bài toán phân lớp dữ liệu khách hàng của Ngân hàng NoN&PTNT Chi nhánh Hà Tây”.
2 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu của đề tài là nghiên cứu và cải tiến các giải pháp khai phá
dữ liệu đảm bảo tính riêng tư dựa trên phương pháp tính toán bảo mật nhiều thành viênnhằm nâng cao hiệu quả của các giải pháp này Từ đó, khóa luận lựa chọn giải phápphù hợp cho bài toán đảm bảo tính riêng tư trong quá trình xây dựng mô hình phân lớpkhách hàng của Ngân hàng NoN&PTNT – Chi nhánh Hà Tây
3 Đối tượng nghiên cứu
Đề tài tập trung nghiên cứu các bài toán phân lớp dữ liệu khách hàng doanhnghiệp của Ngân hàng NoN&PTNT Chi nhánh Hà Tây và các phương pháp đảm bảo
bí mật thông tin riêng tư của khách hàng trong bài toán phân lớp khách hàng
4 Phương pháp nghiên cứu
Khóa luận sử dụng kết hợp phương pháp nghiên cứu thực tiễn và phương phápnghiên cứu lý thuyết Trong đó, phương pháp nghiên cứu thực tiễn cụ thể là phươngpháp thực nghiệm khoa học Còn phương pháp nghiên cứu lý thuyết cụ thể là phân tích
và tổng hợp lý thuyết
Trang 155 Kết cấu của khóa luận
Ngoài phần Mở đầu và Kết luận, khóa luận gồm bốn chương:
Chương 1: Tổng quan về hệ thống xếp hạng tín dụng và vấn đề đảm bảo tính riêng tư trong khai phá dữ liệu
Trong chương này, tác giả sẽ giới thiệu sơ qua về Ngân hàng NoN&PTNT chinhánh Hà Tây; cũng như trình bày các khái niệm và các bài toán về Khai phá dữ liệuđảm bảo tính riêng tư; khái niệm, nguyên tắc và quy trình trong xếp hạng tín dụng(XHTD)
Chương 2: Cơ sở lý thuyết của khai phá dữ liệu đảm bảo tính riêng tư
Trong chương này, tác giả sẽ trình bày những cơ sở lý thuyết của các giải phápkhai phá dữ liệu đảm bảo tính riêng tư
Chương 3: Giải pháp đảm bảo tính riêng tư cho quá trình xây dựng mô hình phân lớp khách hàng
Trong chương này sẽ trình bày cụ thể các giải pháp đảm bảo tính riêng tư theotừng kịch bản dữ liệu phân tán, sử dụng các thuật toán cụ thể đã được lựa chọn
Chương 4: Thực nghiệm xây dựng mô hình phân lớp khách hàng doanh nghiệp
Trong chương này, tác giả xây dựng thực nghiệm với bộ dữ liệu từ ngân hàngAgribank Dựa trên các kết quả thực nghiệm, khóa luận sẽ phân tích, đánh giá các giảipháp đưa ra và khả năng ứng dụng của kết quả khóa luận vào thực tiễn
Trang 16Mô hình của PPDM thường bao gồm nhiều thành viên thay vì mỗi bên có một bộ
dữ liệu riêng Mục đích chung là hỗ trợ cho các thành viên có thể hợp tác khai phá trên
bộ dữ liệu dùng chung mà không phải tiết lộ thông tin riêng tư cho các bên khác Cách
dữ liệu được phân tán cho các thành viên cũng đóng một vai trò quan trọng trong việcgiải quyết vấn đề Nhìn chung, dữ liệu có thể được phân tán cho nhiều thành viên theochiều dọc hoặc chiều ngang
1.1.1.1 Dữ liệu phân tán ngang
Các thành viên có những bộ dữ liệu với nhóm thuộc tính giống nhau Ví dụ, dữliệu khách hàng của một nhóm các ngân hàng khác nhau
X
Y
Hình 1: Minh họa dữ liệu phân tán ngang
Điển hình như, các ngân hàng có các dịch vụ khác nhau dành cho khách hàng của
họ như khoản tiết kiệm, thẻ tín dụng, đầu tư chứng khoán, Giả sử, các ngân hàngmuốn dự đoán khách hàng an toàn, khách hàng rủi ro hoặc phát hiện gian lận Tập hợptất cả các số liệu tài chính của khách hàng và giao dịch của họ có thể giúp ngân hàngthực hiện những dự đoán trên, từ đó giúp ngăn chặn những thất thoát lớn về tài chính
Sử dụng các kỹ thuật phù hợp trong khai phá trên bộ dữ liệu dùng chung có thể kháiquát hóa những bộ dữ liệu và xác định các rủi ro cho các trường hợp hoặc giao dịchtrong tương lai Cụ thể hơn, khi một khách hàng A tới ngân hàng B để xin một khoảnvay mua ô tô Người này cần phải cung cấp những thông tin cần thiết cho ngân hàng
Trang 17B Hệ chuyên gia của ngân hàng B có thể sử dụng thuật toán phân lớp để phân loại Avào nhóm khách hàng an toàn hay rủi ro Nếu hệ thống này chỉ sử dụng dữ liệu củangân hàng B thì có thể xảy ra là ngân hàng B không có đủ khách hàng gần giống với
A Vì thế, hệ thống có thể đưa ra sự phân loại sai Ví dụ như, A là một khách hàng antoàn nhưng hệ thống lại ghi nhận A là khách hàng rủi ro Do đó, ngân hàng B sẽ thuđược ít lợi nhuận hơn
Rõ ràng là khai phá trên bộ dữ liệu lớn có thể có kết quả phân loại chính xác hơn.Mặc dù, việc phân loại trên bộ dữ liệu dùng chung của ngân hàng B với các ngân hàngkhác có thể đạt kết quả chính xác hơn và A có thể được xếp hạng tốt Tuy nhiên, vấn
đề là sự giới hạn tính riêng tư có thể không cho phép các ngân hàng tiếp cận tới dữ liệucủa nhau Vì thế, PPDDM có thể giúp giải quyết vấn đề này Trong PPDM, ngân hàngkhông cần phải tiết lộ CSDL của mình cho ngân hàng khác Họ có thể áp dụng thuậttoán phân lớp vào bộ dữ liệu dùng chung trong khi vẫn bảo đảm tính riêng tư của dữliệu
1.1.1.2 Dữ liệu phân tán dọc
Mỗi thành viên sẽ nắm giữ một phần dữ liệu theo chiều dọc (giữ một số cácthuộc tính) Ví dụ, thông tin giao dịch tài chính thì do ngân hàng thu thập còn thông tin
về thuế do Tổng cục thuế thu thập
Chẳng hạn như trong hình minh họa dưới đây, thành viên X sẽ nắm giữ các cộtthông tin từ 1 đến i Y sẽ nắm giữ các cột i+1 đến n
tính n-1
Thuộctính n
Hình 2: Minh họa dữ liệu phân tán dọc
1.1.2 Các bài toán Khai phá dữ liệu đảm bảo tính riêng tư
Đối với vấn đề PPDM, thường tồn tại ba dạng bài toán cơ bản cần giải quyết:
Dạng thứ nhất là công bố dữ liệu có đảm bảo tính riêng tư Các nghiên cứu
theo hướng này cho phép các tổ chức công bố dữ liệu cho các nhà nghiên cứu trongkhi vẫn bảo vệ được các thông tin riêng tư chứa trong dữ liệu đó
Dạng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư Cụ thể,
một số tổ chức sở hữu các tập dữ liệu khác nhau muốn hợp tác để cùng thực hiện mộtbài toán khai phá dữ liệu bởi mỗi tập dữ liệu nhỏ không đủ để đem lại nhiều tri thứchoặc đem lại kết quả không thực sự chính xác Với dạng bài toán này, yêu cầu đượcđặt ra là làm thế nào tạo ra giao thức để các tổ chức chia sẻ nguồn dữ liệu dùng chung
Ví dụ: Ba ngân hàng sở hữu ba CSDL khách hàng khác nhau Ba ngân hàng này
muốn kết hợp ba CSDL để xây dựng mô hình phân lớp khách hàng thành ba loại: tốt,
D Y
D X
Trang 18trung bình, xấu Tuy nhiên cả ba ngân hàng không được phép tiết lộ thông tin riêng tưcủa khách hàng; bản thân các ngân hàng cũng không muốn công khai dữ liệu kháchhàng của mình để tránh bị cạnh tranh không lành mạnh.
Dạng thứ ba là khai phá dữ liệu người dùng có đảm bảo tính riêng tư Đây là
mô hình bao gồm một bên là người thực hiện bài toán khai phá dữ liệu (Miner) và mộtbên là n người dùng nắm giữ thông tin cá nhân của mình (n-parties) Với mô hình này,yêu cầu được đặt ra là cần phải tạo ra một giao thức để mỗi người dùng không chia sẻtrực tiếp thông tin riêng tư của mình nhưng Miner vẫn thực hiện được nhiệm vụ khaiphá dữ liệu [2]
Ví dụ: Một ngân hàng muốn khảo sát các sở thích, thói quen sử dụng dịch vụ
ngân hàng của khách hàng để khuyến nghị thêm các dịch vụ mới, dự đoán các hành vicủa khách hàng trong tương lai hoặc đưa ra các chính sách chăm sóc khách hàng phùhợp hơn
1.2 Tổng quan về hệ thống xếp hạng tín dụng
1.2.1 Định nghĩa của xếp hạng tín dụng
Xếp hạng tín dụng (XHTD) hay phân loại khách hàng là việc NHTM sử dụng hệthống XHTD của mình để đánh giá khả năng trả nợ của khách hàng vay, mức độ rủi rocủa khoản vay, làm cơ sở để đưa ra quyết định cấp tín dụng, quản lý rủi ro, xây dựngchính sách khách hàng phù hợp đối với từng đối tượng theo kết quả xếp hạng
Ngoài ra, XHTD còn nhằm mục đích phân loại và giám sát danh mục tín dụng.Việc phân loại và xếp hạng tín dụng được thực hiện cho tất cả các khách hàng và đượctiến hành định kỳ; cũng như xuất hiện những dấu hiệu suy giảm khả năng thực hiệnnghĩa vụ tài chính của khách hàng
1.2.2 Sự cần thiết của xếp hạng tín dụng
Rủi ro tín dụng và hậu quả của nó luôn được các ngân hàng quan tâm hàng đầu.Các ngân hàng luôn mong muốn đo lường được rủi ro và đưa ra các giải pháp kiểmsoát Công tác XHTD có vai trò quan trọng trong việc phân tích, đánh giá khách hàng
cả trước và sau khi cấp tín dụng
Khi khách hàng đề nghị vay vốn, ngân hàng dựa trên nguồn thông tin thuthập được về khách hàng, thực hiện phân tích các yếu tố định tính, định lượng để đolường khả năng trả nợ và thiện chí trả nợ của khách hàng Số liệu phân tích là cơ sở đểPLKH các khách hàng và kết quả xếp hạng là một trong các căn cứ quan trọng để đưa
ra quyết định cho vay hay từ chối cho vay Đồng thời, dựa vào mức xếp hạng để ápdụng các chính sách tín dụng thích hợp
Sau khi cấp tín dụng, định kỳ ngân hàng phải tiến hành phân tích khả năngtrả nợ gốc và lãi của khách hàng về các khoản đã cho vay dựa trên nguồn thông tin thuthập được từ khi cấp tiền vay đến thời điểm tái xếp hạng nhằm đánh giá việc thực hiệncác cam kết của khách hàng trong hợp đồng tín dụng, chú trọng đến những vi phạmhợp đồng để đánh giá sự thay đổi rủi ro tín dụng so với thời điểm ban đầu Qua đó,
Trang 19điều chỉnh thứ hạng của khách hàng và đưa ra các giải pháp, chính sách đối với khoảnvay nhằm hạn chế rủi ro tín dụng.
Ngân hàng cũng thực hiện xếp hạng tín dụng khách hàng không trả nợ đúnghạn nhằm phân tích rủi ro tín dụng và đưa ra các biện pháp giảm tổn thất cho ngân hàng
1.2.3 Nguyên tắc và quy trình xếp hạng tín dụng
1.2.3.1 Nguyên tắc xếp hạng tín dụng
Về nguyên tắc, quy trình XHTD ở các NHTM cơ bản là giống nhau, tuy nhiênmỗi ngân hàng lại có những đặc điểm khác nhau về tiêu chí, thang điểm và trọng sốcho mỗi tiêu chí Khách hàng doanh nghiệp của Ngân hàng NoN&PTNT được phânthành 10 hạng với các mức độ rủi ro từ thấp đến cao gồm: AAA, AA, A, BBB, BB, B,CCC, CC, C, D Đặc điểm của mỗi nhóm khách hàng được mô tả cụ thể trong bảng sau:
AAA – Loại tối ưu
- Năng lực cao trong quản trị
- Hoạt động đạt hiệu quả cao
- Triển vọng phát triển lâu dài
- Rất vững vàng trước tác động của môitrường kinh doanh
- Đạo đức tín dụng cao
Thấp nhất
AA – Loại ưu - Khả năng sinh lời tốt
- Hoạt động hiệu quả và ổn định
Trung bình, khả
năng trả nợ gốc vàlãi trong tương lạithấp hơn kháchhàng BB+
B – Loại trung bình - Khả năng tự chủ tài chính thấp, dòng Cao, Ngân hàng
Trang 20sẽ khó khănCCC – Loại dưới
CC – Loại xa dưới
trung bình
- Hiệu quả hoạt động thấp
- Đã có nợ quá hạn (dưới 90 ngày)
- Năng lực quản lý yếu kém
Rất cao, khả năng
trả nợ ngân hàngkém
C – Loại yếu kém - Hiệu quả hoạt động thấp, bị thua lỗ
không có khả năng phục hồi
- Năng lực tài chính yếu kém và đã có nợquá hạn
Rất cao, ngân
hàng sẽ phải mấtrất nhiều thời gian
Bảng 1: Bảng xếp hạng khách hàng doanh nghiệp (Nguồn: Sổ tay tín dụng Ngân hàng NoN&PTNT)
1.2.3.2 Quy trình xếp hạng tín dụng
Quy trình chấm điểm tín dụng và xếp hạng khách hàng doanh nghiệp được thựchiện theo quy trình sau:
Bước 1: Thu thập thông tin
Bước 2: Xác định ngành nghề lĩnh vực kinh doan của doanh nghiệp
Bước 3: Chấm điểm quy mô của doanh nghiệp
Bước 4: Chấm điểm các chỉ số tài chính
Bước 5: Chấm điểm các tiêu chí phi tài chính
Bước 6: Tổng hợp điểm và xếp hạng khách hàng
Bước 7: Trình phê duyệt kết quả chấm điểm và xếp hạng khách hàng
a Bước 1: Thu thập thông tin
Cán bộ tín dụng (CBTD) tiến hành thu thập, điều tra và tổng hợp thông tin vềkhách hàng và phương án/ dự án sản xuất, kinh doanh từ nhiều nguồn khác nhau
b Bước 2: Xác định ngành nghề lĩnh vực kinh doanh của doanh nghiệp
Ngân hàng NoN&PTNT áp dụng biểu điểm khác nhau cho 4 ngành nghề/ lĩnhvực kinh doanh khác nhau gồm:
Nông, lâm và ngư nghiệp
Trang 21c Bước 3: Chấm điểm quy mô của doanh nghiệp
Quy mô của doanh nghiệp được xác định dựa trên các tiêu chí: vốn kinh doanh,lao động, doanh thu thuần và giá trị nộp ngân sách nhà nước
Từ 1000 người đến dưới 1500 người 12
Từ 500 người đến dưới 1000 người 9
Từ 100 người đến dưới 500 người 6
Từ 50 người đến dưới 100 người 3
Trang 22 Nộp ngân sách: lấy theo số thực nộp vào ngân sách nhà nước phát sinh trong
kỳ (không kể số thiếu của kỳ trước nộp kỳ này) bao gồm các loại thuế và các khoảnthuế xuất nhập khẩu, đóng bảo hiểm xã hội và bảo hiểm y tế, kinh phí công đoàn, cáckhoản tiền phạt, phụ thu)
Căn cứ vào thang điểm trên, các doanh nghiệp được xếp loại thành: quy mô lớn,vừa và nhỏ:
d Bước 4: Chấm điểm các chỉ số tài chính
Trên cơ sở xác định quy mô và ngành nghề/lĩnh vực sản xuất kinh doanhcủa doanh nghiệp, CBTD chấm điểm các chỉ số tài chính của doanh nghiệp theo cácbảng chỉ số tài chính áp dụng cho từng ngành nghề được ghi tại phần Phụ lục
Bảng 28: Bảng các chỉ số tài chính áp dụng cho chấm điểm các doanh nghiệpthuộc ngành nông, lâm, ngư nghiệp
Bảng 29: Bảng các chỉ số tài chính áp dụng cho chấm điểm các doanh nghiệpthuộc ngành thương mại dịch vụ
Bảng 30: Bảng các chỉ số tài chính áp dụng cho chấm điểm các doanh nghiệpthuộc ngành xây dựng
Bảng 31: Bảng các chỉ số tài chính áp dụng cho chấm điểm các doanh nghiệpthuộc ngành công nghiệp
Lưu ý: Các chỉ số tài chính cần được xác định theo số liệu báo cáo tài chính năm
của doanh nghiệp
e Bước 5: Chấm điểm các tiêu chí phi tài chính
CBTD chấm điểm các tiêu chí phi tài chính của doanh nghiệp theo cácbảng dưới đây:
Bảng 32: Chấm điểm tín dụng theo tiêu chí lưu chuyển tiền tệ
Bảng 32: Chấm điểm tín dụng theo tiêu chí năng lực và kinh nghiệm quản lý
Bảng 34: Chấm điểm tín dụng theo tiêu chí uy tín trong giao dịch
Bảng 35: Chấm điểm tín dụng theo tiêu chí môi trường kinh doanh
Trang 23 Bảng 36 Chấm điểm tín dụng theo tiêu chí các đặc điểm hoạt động khác Sau khi hoàn tất việc chấm điểm theo các bảng trên, CBTD tổng hợp điểm cáctiêu chí phi tài chính dựa trên kết quả chấm điểm ở các bảng 16 đến 20 và bảng 4
“Bảng trọng số áp dụng cho các tiêu chí phi tài chính”
Bảng 4: Bảng trọng số áp dụng cho các tiêu chí phi tài chính
(Nguồn: Sổ tay tín dụng Ngân hàng NoN&PTNT)
(Dùng để tổng hợp điểm từ các bảng 1E đến 1I)
f Bước 6: Tổng hợp điểm và xếp hạng doanh nghiệp
CBTD cộng tổng số điểm tài chính và phi tài chính và nhân trọng số trong bảng1.5 (có tính đến loại hình sở hữu doanh nghiệp và báo cáo tài chính có được kiểm toán
hay không) để xác định điểm tổng hợp.
Thông tin tài chính không được
DN ĐTNN
DNNN DN ngoài
quốc doanh
DN ĐTNN
Sau khi xác định được điểm tổng hợp, CBTD xếp hạng tín dụng như sau:
Trang 24Sau khi hoàn tất việc xếp hạng doanh nghiệp và xếp hạng khách hàng, CBTD lập
tờ trình đề nghị Giám đốc phê duyệt Tờ trình phải được Trưởng phòng tín dụng kiểmtra và ký trước khi trình lên Giám đốc Nội dung của tờ trình phải có những ý cơ bảnnhư sau:
Giới thiệu thông tin cơ bản về khách hàng
Phương pháp/ mô hình áp dụng để chấm điểm tín dụng
Tài liệu làm căn cứ để chấm điểm tín dụng
Nhận xét/ đánh giá của CBTD dẫn tới kết quả chấm điểm và xếphạng khách hàng
Sau khi tờ trình được phê duyệt, kết quả chấm điểm tín dụng và xếp hạng kháchhàng phải được cập nhật ngay vào hệ thống thông tin tín dụng của ngân hàng.[ CITATION Ngâ11 \l 1033 ]
1.3 Giới thiệu đơn vị thực tập
1.3.1 Giới thiệu về Ngân hàng Nông nghiệp và Phát triển Nông thôn Chi nhánh Hà Tây
Ngân hàng Nông nghiệp và Phát triên Nông thôn Chi nhánh Hà Tây là thành viêntrực thuộc của Ngân hàng Nông nghiệp và Phát triên Nông thôn Việt Nam, được thànhlập từ tháng 10/1991 trên cơ sở sát nhập 8 đơn vị thuộc Ngân hàng Nông nghiệp HàSơn Bình và 6 đơn vị thuộc Ngân hàng Nông nghiệp thành phố Hà Nội Về quy mô tổchức ban đầu, toàn tỉnh có 14 chi nhánh cấp huyện, thị xã, 17 phòng giao dịch và bàntiết kiệm; địa bàn hoạt động trải rộng trên khắp các địa bàn trong tỉnh Hà Tây cũ.Với tiềm lực mạnh mẽ và truyền thống bề dày thành tích, Ngân hàng Nôngnghiệp và Phát triên Nông thôn Chi nhánh Hà Tây đã giành được niềm tin của kháchhàng, xây dựng được một vị thế vững chắc trong kinh doanh Ngân hàng Agribank Chinhánh Hà Tây hiện nay có trụ sở tại Lô CC-02, khu đô thị Mỗ Lao, Phường Mộ Lao,Quận Hà Đông, Hà Nội
1.3.2 Cơ cấu tổ chức
Trang 25Hình 2: Sơ đồ cơ cấu tổ chức Ngân hàng NoN&PTNT – Chi nhánh Hà Tây
1.4 Mô tả bài toán
1.4.1 Nhu cầu thực tiễn
Hoạt động tín dụng của Ngân hàng thương mại là một trong những hoạt độngkinh doanh chính đem lại thu nhập cho các NHTM nói chung và Ngân hàngNoN&PTNT nói riêng Tuy nhiên, cùng với việc đem lại thu nhập đáng kể cho ngânhàng thì hoạt động tín dụng cũng tiềm ẩn nhiều rủi ro Rủi ro trong hoạt động tín dụng
là điều không thể tránh khỏi, nó tồn tại khách quan, cùng với sự tồn tại của hoạt độngtín dụng và xảy ra do các nguyên nhân khách quan cũng như chủ quan Do đó, rủi rotín dụng thể hiện ở khả năng hay xác suất thành công của giao dịch đó Vấn đề này đòihỏi một giải pháp giúp các ngân hàng có thể dự báo được rủi ro trên
Hệ thống xếp hạng tín dụng đối với ngân hàng NoN&PTNT nói riêng là mộtcông cụ giám sát và kiểm tra tín dụng quan trọng nhằm hỗ trợ cho ngân hàng trongviệc ra quyết định tín dụng Hệ thống này có thể giúp theo dõi được những dấu hiệurủi ro của khách hàng vay để có những quyết định thích ứng nhằm nâng cao chấtlượng tín dụng của ngân hàng Vì thế, các ngân hàng rất cần thiết phải xây dựng chomình một hệ thống XHTD Hiện nay, khi thực hiện việc XHTD, mỗi ngân hàng cầnphải tốn rất nhiều chi phí cho việc thẩm định, kiểm tra và phân tích Vì vậy, nếu cómột công cụ hỗ trợ ra quyết định tín dụng thì ngân hàng sẽ tiết kiệm được rất nhiều chiphí Và cụ thể đó là mô hình phân lớp dựa trên khai phá dữ liệu
Tuy nhiên, mỗi phòng giao dịch lại có số lượng khách hàng hạn chế Do đó, cầnkết hợp dữ liệu khách hàng của nhiều phòng giao dịch Dữ liệu khách hàng có nhiềuthông tin riêng tư và do quy tắc bảo mật dữ liệu của ngân hàng, việc KPDL trở nênkhó khăn hơn, đòi hỏi những kỹ thuật mới có thể đảm bảo được tính riêng tư trong quátrình khai phá dữ liệu khách hàng Các giải pháp khai phá dữ liệu đảm bảo tính riêng
Ban giám đốc
Phòng Tín dụng
Phòng Hành chính nhân sự
Phòng Kinh doanh ngoại hối
Phòng kiểm tra kiểm soát nội bộ
Các PGD trực thuộc hội sở
Các chi nhánh loại 3 trực thuộc
Các phòng,
tổ trực thuộc
Các PGD trực thuộc chi nhánh loại 3
Trang 26tư đã được nghiên cứu để giải quyết vấn đề này Và cùng với sự cần thiết của hệ thốngXHTD thì đề tài “Nghiên cứu giải pháp khai phá dữ liệu đảm bảo tính riêng tư và ứngdụng trong bài toán phân lớp khách hàng tại Ngân hàng NoN&PTNT – Chi nhánh HàTây” là một đề tài mang tính thời sự và khả năng triển khai ứng dụng là rất rộng mở.
1.4.2 Xác định bài toán
Khóa luận tập trung nghiên cứu các giải pháp khai phá dữ liệu đảm bảo tính riêng
tư và ứng dụng các giải pháp đó vào trong bài toán phân lớp dữ liệu khách hàng tạiNgân hàng NoN&PTNT Chi nhánh Hà Tây
Trang 27CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA KHAI PHÁ DỮ LIỆU
ĐẢM BẢO TÍNH RIÊNG TƯ
Vấn đề đảm bảo tính riêng tư của thông tin khách hàng trong lĩnh vực ngân hàngđòi hỏi việc KPLD phải thực hiện trên các tập dữ liệu trong khi vẫn bảo vệ được cácthông tin riêng tư có trong dữ liệu Trong đó, tồn tại một số bài toán PPDM điển hìnhtrong lĩnh vực KPDL ngân hàng đã được đề cập ở mục 1.2.2:
Dạng thứ nhất: Công bố dữ liệu đảm bảo tính riêng tư.
Ví dụ: Ngân hàng công khai dữ liệu khách hàng để phục vụ cho mục
đích nghiên cứu
Dạng thứ hai: KPDL phân tán đảm bảo tính riêng tư.
Ví dụ: Ba ngân hàng A, B, C muốn hợp tác để xây dựng mô hình phân lớp nhưng
không ngân hàng nào muốn để lộ ra dữ liệu riêng về khách hàng của mình cho haingân hàng còn lại biết
Dạng thứ ba: KPDL khách hàng đảm bảo tính riêng tư.
Ví dụ: Khảo sát khách hàng để đưa ra mô hình phân lớp khách hàng.
Tính đến nay, trên thế giới có khá nhiều giải pháp Khai phá dữ liệu đảm bảo
tính riêng tư – Privacy-preserving data mining (PPDM) được đề xuất Các giải
pháp để giải quyết ba dạng bài toán trên thường tiếp cận theo hai phương pháp cơ bản
là: phương pháp biến đổi ngẫu nhiên (Randomization) và phương pháp tính toán bảo mật nhiều thành viên (Secure Multiparty Computation-SMC)
Hình 3: Các phương pháp PPDM
2.1 Phương pháp biến đổi ngẫu nhiên (Randomization)
Privacy-Preserving Data Mining
Khai phá dữ liệu đảm bảo tính riêng tư
Randomization
Biến đổi ngẫu nhiên
Random Transformation
Secure Multiparty Computation
Tính toán bảo mật nhiều thành viên
Semi-honest model
Mô hình bán trung thực
Malicious adversary model
Mô hình các thành viên không trung thực
Trang 28CSDL ban đầu chứa những thông tin riêng tư sẽ được biến đổi nhằm che giấu cácthông tin riêng tư nhưng kết quả của quá trình KPDL tương đồng hoặc độ chính xáckhông có sự sai lệch đáng kể Trong phương pháp này có hai kỹ thuật chính được sửdụng là: biến đổi dữ liệu và ngẫu nhiên hóa dữ liệu.
Biến đổi dữ liệu: là kỹ thuật thay thế mỗi bản ghi trong tập dữ liệu gốc ban
đầu bằng một bản ghi có cấu trúc nhưng ấn đi các giá trị thực
Ngẫu nhiên hóa dữ liệu: là kỹ thuật thêm các giá trị nhiễu vào tập dữ liệu gốc
nhưng vẫn đảm bảo phân bổ dữ liệu không thay đổi Ví dụ: bản ghi gốc (a1, a2, a3 an)
bản ghi mới (a1+R, a2+R…an+R)
Nhược điểm của phương pháp này là phải đánh đổi giữ tính chính xác và tínhriêng tư Vì khi biến đổi dữ liệu có thể gây ra việc làm sai lệch dữ liệu và đưa ra kếtquả không chính xác
2.2 Phương pháp tính toán bảo mật nhiều thành viên (SMC)
Secure Multiparty Computation (SMC) với ý tưởng là một phương pháp tính
toán mà không có thành viên nào biết được dữ liệu của thành viên khác Chẳng hạn có
n thành viên U1, U2… Un, mỗi người nắm giữ một bộ dữ liệu tương ứng D1, D2… Dn.Các thành viên muốn tính toán một giá trị chung dựa trên những dữ liệu riêng tư trongkhi vẫn đảm bảo giữ bí mật dữ liệu riêng của họ
Ví dụ: Phương pháp SMC thường được sử dụng để giải quyết dạng bài toán thứ
hai và thứ ba Các giao thức xây dựng theo một trong hai mô hình: mô hình gồm cácthành viên bán trung thực (Semi-honest model) và mô hình gồm các thành viên khôngtrung thực (Malicious adversary model)
Dưới đây là một số giao thức SMC cơ bản bao gồm: Secure Sum (Tính tổng bí mật) và Secure Scalar Product (Tính tích vô hướng bí mật).
2.2.1 Secure sum (Giao thức tổng bí mật)
Trong các kỹ thuật của SMC, Secure Sum Protocol-SSP là kỹ thuật cơ bản nhất.Tính đến nay, có khá nhiều các giao thức tính tổng bí mật đã được các nhà nghiên cứu
đề xuất trong đó hai giao thức điển hình là giao thức tính tổng bí mật cơ bản đượcSchneier giới thiệu lần đầu tiên năm 1995, sau đó được cải tiến và phát biểu lại ở[ CITATION Xia02 \l 1033 ]; giao thức tính tổng bí mật dựa trên hệ mã hóa tự đồngcấu Elgamal được Yang và cộng sự đã trình bày [ CITATION ZYa04 \l 1033 ]
2.2.1.1 Giao thức tổng bí mật cơ bản
a Phát biểu bài toán
Giả sử, có n thành viên Giá trị v=∑
i=1
n
v i được tính toán mà không yêu cầu bất cứ
thành viên nào phải tiết lộ giá trị bí mật của mình và v nằm trong khoảng [0…n].
b Mô tả giao thức
Một thành viên đầu tiên được chọn và được gọi là U 1 Các thành viên còn lại
được đánh số từ 2 đến n Bên 1 chọn một số R ngẫu nhiên, nằm trong khoảng [0…n].
Trang 29Thành viên 1 cộng thêm R vào giá trị v 1 của nó và gửi tổng (R + v 1 ) mod n cho thành
viên 2 Vì R được chọn ngẫu nhiên trong khoảng [0…n] nên thành viên 2 sẽ không biết được giá trị vi
Các thành viên còn lại i = 2…n -1, thành viên U j nhận được:
V =R+∑
j =1
i−1
v j mod n (1)
Vì giá trị V cũng nằm trong khoảng [1…n] nên thành viên U j sẽ không biết được
thông tin gì Thành viên U j sẽ tính tiếp rồi chuyển sang cho thành viên j+1:
R+∑
j=1
i−1
v j mod n=(v j+V)mod n (2)
Thành viên n thực hiện bước trên và gửi kết quả cho thành viên U1 Thành viên
U1, biết giá trị R có thể trừ R và tính được giá trị thật Thành viên U1 chỉ có thể biếtđược ∑
i=2
n
v i khi trừ v i và không biết thêm được thông tin nào nữa Hình 5 minh họa cách
thức diễn ra của giao thức
Hình 4: Giao thức tính tổng bí mật
Giao thức này đối mặt với một vấn đề là nếu các bên thông đồng với nhau Thành
viên i-1 và i+1 có thể so sánh giá trị họ gửi và nhận để xác định giá trị v i chính xác
Phương thức này có thể được mở rộng, các thành viên chia v i thành các phần Tổngcủa các phần được tính riêng Tuy nhiên, thứ tự thực hiện sẽ được thay đổi cho mỗiphần để không có thành viên nào có cùng một thành viên kế tiếp đến hai lần Để tính
v i , thành viên kế tiếp của i tại mỗi lần thực hiện phải thông đồng với nhau Số lượng có
phần được chia ra càng nhiều thì số lượng thành viên thông đồng càng cao để có thểphá vỡ tính bảo mật
c Chứng minh tính đúng đắn của giao thức
Trang 30d Phân tích tính riêng tư
mật vi của Ui bị lộ Ngoài ra các thành viên phải kết nối với nhau rất bất tiện
Ưu điểm: Giao thức này hiệu quả cao do chi phí tính toán và truyền thông thấp.
2.2.1.2 Giao thức tính tổng bí mật dựa trên hệ mã hóa ElGamal
a Hệ mã hóa ElGamal
Hệ mã hóa ElGamal là một hệ mã hóa công khai, do ông Teher ElGamal đề xuấtvào năm 1984 Nó dựa trên bài toán logarithm rời rạc Tính an toàn của nó phụ thuộcvào độ phức tạp của bài toán logarithm Hệ mã hóa này là một biến thể của sơ đồ traođổi khóa của Diffie-Hellman
Hình 5: Quy trình mã hóa và giải mã
Tạo khóa:
Chọn một nhóm cyclic G bậc q với phần tử sinh g
Chọn x ngẫu nhiên, thỏa mãn: 1 ≤ x ≤ q-1
Tính h ≡ g x Công khai h (G, g, q) là khóa công khai, còn x là khóa bí mật
Mã hóa:
Giả sử muốn truyền thông điệp P
Lấy ngẫu nhiên y sao cho: 1 ≤ y ≤ q-1 Tínhc1≡ g y
Trang 31Tính toán s ≡c1x Sau đó tính P ' ≡c2∗s−1 Với s-1 là nghịch đảo của s trong nhómG.
Ta thu được bản rõ
b Phát biểu bài toán
Giả sử có n thành viên Ui, trong đó mỗi thành viên nắm giữ một giá trị bí mật
Cho nhóm cyclic G với cấp q và g là phần tử sinh của G (g q = 1) sao cho các bài
toán Logarithm rời rạc trên G là khó giải.
Bước 1: Mỗi Ui chọn hai khóa bí mật x ivà y i rồi tính X i=gx i vàY i=g y igửitới Miner
Y i; Miner gửi tới Ui: X vàY
Bước 3: Mỗi Ui tính 2 giá trị hi và mi, m i=gv i X y i và h i=Yx i
Trang 32Hệ mã hóa Elgamal dựa trên bài toán Logarithm rời rạc Tính an toàn của nó phụthuộc vào độ phức tạp của bài toán Logarithm
Trong bài toán về hệ Elgamal, có p là một số nguyên tố lớn, α ? ? ? Tìm một sốnguyên tố a duy nhất sao cho: β ≡ α a(mod p) Ta xác định a = logα β Bài toán giải đượcbằng phương pháp “vét cạn” (tức là duyệt tất cả các phần tử a) để tìm ra a thỏa mãn.Bài toán có độ phức tạp là O(p) Vấn đề đặt ra là, nếu p rất lớn thì để thực hiệnphương pháp này tốn rất nhiều thời gian nên sẽ không khả thi Bên cạnh đó, hiện naybài toán Logarith rời rạc vẫn chưa có phương pháp giải hiệu quả Vì vậy, độ an toàncủa hệ mã hóa rất cao
f Đánh giá hiệu năng
Xét từng bước của giao thức trên, khi tính toán ra hai cặp khóa bí mật và khóacông khai, mỗi thành viên phải thực hiện hai phép lũy thừa g x i vàg y i n thành viên thì sẽcần thực hiện 2n phép lũy thừa modulo
Về chi phí truyển thông, cần truyền đi tất cả 6n thông điệp
Y i; Miner công khai giá trị X và Y
Bước 3: Mỗi U i tính giá trị P i: P i=g v i X y i Y q −x i và gửi P i tới Miner
Trang 33So sánh hiệu năng của hai giao thức, ta có:
Giao thức Chi phí tính toán của User Chi phí tính toán của Miner Chi phí truyền thông
Ttry là phép thử mũ modulo với số mũ nhỏ
2.2.2 Secure Scalar Product (Giao thức Tích vô hướng bí mật)
2.2.2.1 Giao thức tích vô hướng cơ bản
a Phát biểu bài toán
Secure Scalar Product là một kỹ thuật tính toán hiệu quả Nhiều vấn đề về KPDL
về cơ bản đã được giải quyết bằng giao thức tích vô hướng Giả sử, có 2 thành viên X
và Y mỗi bên có một vector n chiều; X có vector ⃗X =(x1… x n) và Y có ⃗Y =( y1… y n) Vấn
đề là tính tích vô hướng của hai vector bí mật:∑
i=1
n
x i∗y i
b Mô tả giao thức
Bước 1: Cả X và Y cùng quyết định một ma trận ngẫu nhiên M nxn
Bước 2: X tạo ra vector R ngẫu nhiên gồm n/2 phần tử ⃗R=(R1, … , R n
2
)
Bước 3: X tính ma trận X’ n*1 = M * R T X tính X” = X + X’ và gửi X” cho Y
Bước 4: Y tính tích vô hướng S’ của X” và Y như sau:
S '
=∑
i=1
n
x } rsub {i} * {y} rsub {i}¿ ¿
Bước 5: Y cũng tính ma trận n*1 Y’ = M T * Y Y gửi S’ và Y’ cho X
Bước 6: X tính S = sum from {i=1} to {n} {{Y'} rsub {i} * {R} rsub {i} X tính kết quả của tích vô hướng S = S’ – S” và báo kết quả cho Y.
Trang 34Điều phải chứng minh!
2.2.2.2 Tính khoảng cách Euclid bí mật giữa hai vector sử dụng tích vô hướng bí mật
Giả sử, có 2 thành viên A và B, trong đó A nắm giữ vector n chiều
⃗X ( x1, x2, … , x n) và B nắm giữ vector n chiều ⃗Y ( y1, y2, … , y n) Để A và B tính đượckhoảng cách bí mật giữa ⃗X và ⃗Y mà không cần tiết lộ xi và yi (i= ´1 , n), thực hiện nhưsau:
Bước 3: A và B xác lập giao thức tính tích vô hướng bí mật tương tự giao thức
trình bày ở trên để tìm được kết quả chung S= X∗Y T=∑