Nhiệm vụ và nội dung Nhiệm vụ: tìm hiểu các giải pháp về phân lớp đa nhãn như: giải thuật Nạve Bayes, AdaBoost, kNN và tiến hành áp dụng chạy thực nghiệm trên CSDL thực tế, chứa các thơ
Trang 1CAO ANH KHOA
PHÂN LOẠI VÀ DỰ ĐOÁN HẠN MỨC
THẺ TÍN DỤNG DỰA TRÊN KỸ THUẬT
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM
-
CAO ANH KHOA
PHÂN LOẠI VÀ DỰ ĐOÁN HẠN MỨC
THẺ TÍN DỤNG DỰA TRÊN KỸ THUẬT
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM
Cán bộ hướng dẫn khoa học: TS Nguyễn Thị Thúy Loan
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP.HCM ngày 19 tháng 11 năm 2017
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã được sửa chữa (nếu có)
Chủ tịch Hội đồng đánh giá LV
Trang 4NHIỆM VỤ LUẬN VĂN THẠC SĨ
Ngày, tháng, năm sinh: 10/05/1984 Nơi sinh: Đắk Lắk
Chuyên ngành: Cơng nghệ thơng tin MSHV: 1541860036
I Tên đề tài
Phân loại và dự đốn hạn mức thẻ tín dụng dựa trên kỹ thuật phân lớp đa nhãn
II Nhiệm vụ và nội dung
Nhiệm vụ: tìm hiểu các giải pháp về phân lớp đa nhãn như: giải thuật Nạve Bayes, AdaBoost, kNN và tiến hành áp dụng chạy thực nghiệm trên CSDL thực tế, chứa các thơng tin liên quan đến danh sách các khách hàng đăng ký sử dụng thẻ tín dụng trong 03 tháng đầu năm 2015 tại Trung tâm thẻ ngân hàng Vietcombank Dựa trên các thuộc tính về thơng tin
và tình trạng đăng ký sử dụng thẻ tín dụng giúp chúng ta phân loại được các loại thẻ tín dụng dựa trên một số thuộc tính khác nhau và cĩ thể dự đốn hạn mức trước khi thẻ được phát hành
Nội dung: nghiên cứu, tìm hiểu các phương pháp phân loại đa nhãn, phân tích, chuẩn hĩa, làm sạch CSDL Sau đĩ tiến hành chạy thực nghiệm trên các phương pháp phân loại
đa nhãn khác nhau để cĩ kết quả Từ đĩ so sánh, đánh giá, rút ra kết luận và chọn thuật tốn tối ưu nhất để cài đặt, tính tốn trên CSDL mẫu
Trang 5III Ngày giao nhiệm vụ: 15/03/2017
IV Ngày hoàn thành nhiệm vụ:
V Cán bộ hướng dẫn: TS Nguyễn Thị Thúy Loan
CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký) (Họ tên và chữ ký)
Trang 6LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Trong quá trình thực hiện Luận văn, tôi đã thực hiện nghiêm túc các quy tắc đạo đức nghiên cứu, các kết quả được trình bày trong Luận văn là sản phẩm nghiên cứu, đánh giá của riêng cá nhân tôi và tất cả các tài liệu tham khảo được sử dụng trong Luận văn đều được trích dẫn tường minh, theo đúng quy định
Tôi xin cam đoan và hoàn toàn chịu trách nhiệm về tính trung thực của số liệu và các nội dung khác trong Luận văn của mình
Học viên thực hiện Luận văn
Cao Anh Khoa
Trang 7LỜI CẢM ƠN
Trước hết tôi xin gửi lời cảm ơn đến tất cả Quý thầy cô trong trường Đại học
Công Nghệ TP Hồ Chí Minh đã giảng dạy, chỉ bảo, cung cấp kiến thức và hướng dẫn
tận tình cho tôi trong suốt thời gian học tập tại trường Đặc biệt là cô TS Nguyễn Thị
Thúy Loan, người đã hướng dẫn, chỉ bảo tận tình cho tôi trong suốt quá trình thực hiện
Luận văn và thầy trưởng Khoa Công nghệ thông tin: PGS TS Võ Đình Bảy đã truyền
cảm hứng cho tôi để giúp tôi định hướng và chọn đề tài này
Kế đến tôi cũng xin gửi lời cảm ơn đến một số anh chị tại Trung tâm Thẻ
Vietcombank Hội Sở, người đã tận tình chỉ bảo, truyền đạt những kiến thức bổ ích về
nghiệp vụ, quy trình phát hành thẻ của ngân hàng
Ngoài ra, tôi cũng xin gửi lời cảm ơn đến tập thể các anh, chị trong tập thể lớp
Cao học Công nghệ thông tin, đợt 2, năm 2015 đã giúp đỡ tôi trong suốt quá trình học
tập, nghiên cứu Cùng nhau trải qua biết bao nhiêu kỷ niệm vui, đẹp trong quá trình học
tập tại đây
Sau cùng con cũng xin gửi lời cảm ơn gia đình, ba mẹ đã giúp tạo điều kiện, giúp
con có thêm thời gian để chú tâm, hoàn thành luận văn này
Một lần nữa tôi xin gửi lời cảm ơn chân thành đến tất cả mọi người
TP Hồ Chí Minh, ngày 21 tháng 08 năm 2017
Học viên thực hiện Luận văn
Cao Anh Khoa
Trang 8TĨM TẮT
Đề tài này tập trung vào việc nghiên cứu các kỹ thuật phân lớp đa nhãn, các thuật
tốn dùng để phân lớp đa nhãn phổ biến như: Nạve Bayes, AdaBoost và k láng giềng
gần nhất (kNN) Ngồi ra, cũng tìm hiểu và trình bày thêm các quy trình, nghiệp vụ của ngân hàng để phân loại thẻ tín dụng
Ngồi ra, tơi cũng tìm hiểu các tham số dùng làm cơ sở để đánh giá các số liệu trong quá trình thực nghiệm Sau đĩ áp dụng các thuật tốn này vào cơ sở dữ liệu của ngân hàng để chạy thực nghiệm bởi phần mềm weka Dựa trên kết quả thực nghiệm, tiến hành phân tích, so sánh độ chính xác giữa các thuật tốn Từ đĩ chọn ra một thuật tốn
cĩ độ chính xác cao nhất để áp dụng vào bài tốn của mình
Cuối cùng dựa vào thuật tốn đã cĩ ở trên, tiến hành tính tốn để cĩ được kết quả phân loại thẻ tín dụng từ thơng tin của khách hàng mới Đồng thời cũng tìm hiểu thêm hướng nào đĩ để cải thiện độ chính xác cao hơn nữa khi áp dụng vào để tài của mình
Trang 9ABSTRACT
This thesis is focused on study the multi-label classification methods, the recent algorithms are used to multi-label classification such as: Naive Bayes, AdaBoost, and k-Nearest Neighbors Furthermore, I also investigate and present additional the processes, the professional knowledge of the bank in order to classify the credit cards
In addition, I study the parameters used to evaluate all the metrics during the experiment progress After that, to apply the algorithms into the database of bank to do experiments by the Weka software Base on this result, I compare the accuracy between the other algorithms and base on this to choose the algorithm with the best accuracy to apply into my problem
Finally, base on the algorithms above I compute and get the result of credit card classification from the new customers’ information I also try to study more to find out the way which I can improve the accuracy after applying it into my thesis
Trang 10MỤC LỤC
Chương 1 GIỚI THIỆU 18
1 1 Đặt vấn đề 18
1 2 Tổng quan về thẻ và quy trình phát hành thẻ tín dụng tại ngân hàng 20
1 2 1 Khái niệm 20
1 2 2 Đặc điểm cấu tạo của thẻ 21
1 2 3 Phân loại thẻ 21
1 2 4 Quy trình phát hành và thanh toán thẻ tại ngân hàng 25
1 3 Lý do chọn đề tài 30
1 4 Mục đích 30
1 5 Đối tượng 31
1 6 Phương pháp nghiên cứu 31
1 7 Phạm vi nghiên cứu 31
1 8 Ý nghĩa thực tiễn 32
Chương 2 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 33
2 1 Tổng quan 33
2 2 Ngoài nước 35
2 3 Trong nước 38
Chương 3 CƠ SỞ LÝ THUYẾT VỀ PHÂN LOẠI ĐA NHÃN 39
3 1 Khái niệm về phân loại 39
3 2 Khái niệm về phân loại đa nhãn 39
3 3 Khái niệm về dự đoán 39
3 4 Quá trình phân loại 40
3 4 1 Bước học 40
3 4 2 Bước phân loại 41
3 5 Một số khung học phổ biến 42
3 6 Các phương pháp phân loại đa nhãn 44
Trang 113 6 1 Phương pháp chuyển đối vấn đề 44
3 6 2 Phương pháp thích nghi thuật tốn 46
3 7 Các thuật tốn thơng dụng dùng trong phân loại đa nhãn 47
3 7 1 Thuật tốn Nạve Bayes 47
3 7 2 Thuật tốn kNN 51
3 7 3 Thuật tốn AdaBoost 57
3 8 Các loại số liệu dùng để đánh giá 59
3 8 1 TP Rate 60
3 8 2 FP Rate 60
3 8 3 Precision 60
3 8 4 Recall 60
3 8 5 F-Measure 60
3 8 6 MCC 61
3 8 7 ROC Area 61
3 8 8 PRC Area 61
3 8 9 Accuracy 62
Chương 4 SỬ DỤNG PHÂN LỚP ĐA NHÃN ĐỂ PHÂN LOẠI VÀ DỰ ĐỐN HẠN MỨC THẺ TÍN DỤNG 63
4 1 Bước làm sạch dữ liệu 64
4 2 So sánh độ chính xác giữa bộ thuộc tính cũ và mới 65
4 3 Thực nghiệm bằng tay 69
4 4 Thực nghiệm bằng chương trình 73
4 5 Nhận xét 75
4 5 1 Độ tuổi thanh niên (từ 16 → 37 tuổi) 75
4 5 2 Độ tuổi trung niên (từ 38 → 49 tuổi) 76
4 5 3 Độ tuổi lớn tuổi (từ 50 → 59 tuổi) 77
4 5 4 Độ tuổi cao niên (từ 60 trở đi) 79
4 5 5 Giới tính 80
4 5 6 Trung bình các thuộc tính 83
Trang 124 5 7 Vùng giá trị k làm cho kết quả phân loại bị ảnh hưởng rõ ràng nhất 84
4 5 8 Thuộc tính ảnh hưởng đến kết quả phân loại nhiều nhất 85
Chương 5 THỰC NGHIỆM, ĐÁNH GIÁ KẾT QUẢ 87
5 1 Mơi trường và các cơng cụ chạy thực nghiệm 87
5 1 1 Cấu hình phần cứng 87
5 1 2 Các cơng cụ dùng để chạy thực nghiệm 87
5 1 3 Thơng tin tùy chọn dùng để chạy thực nghiệm 88
5 2 Mơ tả cơ sở dữ liệu 89
5 3 Thơng tin chi tiết từng thuộc tính 92
5 3 1 Thuộc tính CIF 92
5 3 2 Thuộc tính CUST_AGE 92
5 3 3 Thuộc tính CUST_GENDER 93
5 3 4 Thuộc tính ISSUE_DATE 93
5 3 5 Thuộc tính CUST_EMP_NAME 93
5 3 6 Thuộc tính CUST_JOB_TITLE 94
5 3 7 Thuộc tính CUST_CRLIMIT 94
5 3 8 Thuộc tính CUST_ANN_SALAR 95
5 3 9 Thuộc tính CARD_PRODUCT 95
5 4 Kết quả theo từng thuật tốn 96
5 4 1 Thuật tốn Nạve Bayes 96
5 4 2 Trên thuật tốn AdaBoost 98
5 4 3 Trên thuật tốn kNN 100
5 5 So sánh đánh giá kết quả 102
5 5 1 Trọng số trung bình trên tất cả các số liệu 102
5 5 2 Biểu đồ so sánh trọng số trung bình giữa các thuật tốn 103
5 5 3 Biểu đồ so sánh độ chính xác giữa các thuật tốn 103
5 5 4 Nhận xét 104
Chương 6 KẾT LUẬN 104
6 1 Kết luận 104
Trang 136 2 Hướng phát triển 105
TÀI LIỆU THAM KHẢO 106
Trang 14DANH MỤC CÁC TỪ VIẾT TẮT
3 MMAC Multi-class Multi-label Associative Classification
5 PTM Problem Transformation Methods
6 BCP Binary Classification Problems
10 MLkNN Multi-label k-Nearest Neighbors
11 BPNN Back Propagation Neural Network
12 FW Four-class pairWise classification
Trang 1524 NHNN Ngân hàng nhà nước
25 TTKDTM Thanh tốn khơng dùng tiền mặt
DANH MỤC CÁC BẢNG
Bảng 3.1 Danh sách các loại thẻ trong cơ sở dữ liệu mẫu 43
Bảng 3.2 Bảng dữ liệu minh họa cho phương pháp chuyển đổi vấn đề 45
Bảng 3.3 Bảng dữ liệu được chuyển đổi bằng phương pháp PT1 46
Bảng 3.4 Bảng dữ liệu được chuyển đổi bằng phương pháp PT2 46
Bảng 3.5 Bảng dữ liệu huấn luyện mẫu minh họa phương pháp Nạve Bayes 49
Bảng 3.6 Bảng dữ liệu minh họa cho phương pháp kNN 53
Bảng 3.7 Bảng kết quả sau khi tính khoảng cách Euclidean 54
Bảng 4.1 Bảng kết quả so sánh giữa bộ thuộc tính cũ và thuộc tính mới 65
Bảng 4.2 Bảng dữ liệu huấn luyện mẫu dùng để tính tốn 66
Bảng 4.3 Bảng liệt kê các nhãn của thuộc tính CARD_PRODUCT 68
Bảng 4.4 Bảng thơng tin đối tượng cần được dự đốn 69
Bảng 4.5 Bảng kết quả tính khoảng cách giữa các đối tượng trong bộ huấn luyện 69
Bảng 4.6 Bảng kết quả phân loại thẻ và dự đốn hạn mức của thẻ 72
Bảng 4.7 Kết quả dự đốn phân loại thẻ theo độ tuổi thanh niên 75
Bảng 4.8 Kết quả dự đốn phân loại thẻ theo độ tuổi trung niên 77
Bảng 4.9 Kết quả dự đốn phân loại thẻ theo độ tuổi lớn tuổi 78
Bảng 4.10 Kết quả dự đốn phân loại thẻ theo độ tuổi cao niên 79
Bảng 4.11 Kết quả dự đốn phân loại thẻ theo giới tính nữ 81
Trang 16Bảng 4.12 Kết quả dự đốn phân loại thẻ theo giới tính nam 82
Bảng 4.13 Kết quả dự đốn phân loại thẻ theo trung bình các thuộc tính 83
Bảng 4.14 Kết quả dự đốn phân loại thẻ theo vùng giá trị k 84
Bảng 4.15 Kết quả dự đốn phân loại thẻ theo thuộc tính ảnh hưởng nhất 85
Bảng 5.1 Thơng tin cấu hình phần cứng 87
Bảng 5.2 Thơng tin các cơng cụ dùng để chạy thực nghiệm 87
Bảng 5.3 Bảng so sánh độ chính xác giữa các kiểu tùy chọn 89
Bảng 5.4 Các trường trong cơ sở dữ liệu mẫu 90
Bảng 5.5 Thơng tin thuộc tính CIF 92
Bảng 5.6 Thơng tin thuộc tính CUST_AGE 92
Bảng 5.7 Thơng tin thuộc tính CUST_GENDER 93
Bảng 5.8 Thơng tin thuộc tính ISSUE_DATE 93
Bảng 5.9 Thơng tin thuộc tính CUST_EMP_NAME 93
Bảng 5.10 Thơng tin thuộc tính CUST_JOB_TITLE 94
Bảng 5.11 Thơng tin thuộc tính CUST_CRLIMIT 95
Bảng 5.12 Thơng tin thuộc tính CUST_ANN_SALAR 95
Bảng 5.13 Thơng tin thuộc tính CARD_PRODUCT 95
Bảng 5.14 Bảng kết quả phân loại của phương pháp Nạve Bayes 96
Bảng 5.15 Bảng kết quả phân loại của phương pháp AdaBoost 98
Bảng 5.16 Bảng kết quả phân loại của phương pháp kNN 100
Bảng 5.17 Bảng so sánh trọng số trung bình giữa các thuật tốn 103
DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ Biểu đồ 3.1 Biểu diễn trọng số trung bình các số liệu theo phương pháp Nạve Bayes51 Biểu đồ 3.2 Biểu diễn trọng số trung bình các số liệu theo phương pháp kNN 56
Trang 17Biểu đồ 3.3 Biểu diễn trọng số trung bình các số liệu theo phương pháp AdaBoost 59
Biểu đồ 5.1 Biểu diễn các số liệu của phương pháp Nạve Bayes 98
Biểu đồ 5.2 Biểu diễn các số liệu của phương pháp AdaBoost 100
Biểu đồ 5.3 Biểu diễn các số liệu của phương pháp kNN 102
Biểu đồ 5.4 Biểu đồ so sánh trọng số trung bình giữa các thuật tốn 103
Biểu đồ 5.5 Biểu đồ so sánh độ chính xác giữa các thuật tốn 104
DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Cấu tạo của thẻ 21
Hình 1.2 Mẫu thẻ khắc chữ nổi 22
Hình 1.3 Mẫu thẻ cĩ dải băng từ 23
Hình 1.4 Mẫu thẻ thơng minh 23
Hình 1.5 Liệt kê các chủ thể tham gia vào quá trình phát hành và thanh tốn thẻ 26
Hình 1.6 Quy trình phát hành thẻ 27
Hình 1.7 Quy trình thanh tốn thẻ 29
Hình 3.1 Quá trình phân loại – bước học [25] 40
Hình 3.2 Quá trình phân loại – bước phân loại [25] 41
Hình 3.3 Một số loại khung học phổ biến 42
Hình 3.4 Hình minh họa về phân loại 56
Hình 4.1 Màn hiển thị kết quả thực nghiệm với k = 3 73
Hình 4.2 Màn hiển thị kết quả thực nghiệm với k = 5 74
Hình 4.3 Màn hiển thị kết quả thực nghiệm với k = 7 74
Trang 18Chương 1 GIỚI THIỆU
1 1 Đặt vấn đề
Nền kinh tế tại Việt Nam đang trong quá trình phát triển nhanh chóng, hiện đại Cùng với đó là sự bùng nổ, phát triển trong nhiều lĩnh vực khác như internet, điện tử, viễn thông, lĩnh vực thanh toán điện tử,… Về lĩnh vực thanh toán điện tử phải kể đến vai trò chính của Ngân hàng nhà nước cùng các ngân hàng thành viên trong nước và ngoài nước có đầu tư kinh doanh tại thị trường Việt Nam, đã có những chính sách, vạch định đường lối để định hướng theo đề xuất của Chính phủ nhằm hạn chế các giao dịch, thanh toán dùng tiền mặt Theo kết quả của buổi tọa đàm vào ngày 23 tháng 09 năm 2016 đã được tổ chức bởi Hiệp hội Ngân hàng Việt Nam, cùng phối hợp với Ngân hàng Nhà nước Việt Nam (NHNN) nhằm mục đích đánh giá, rà soát lại các hoạt động thanh toán không dùng tiền mặt (TTKDTM) giai đoạn 2011-2015, kết quả đã có những bước phát triển mạnh về cơ sở hạ tầng, công nghệ thanh toán, hành lang pháp lý, các phương tiện
và dịch vụ thanh toán điện tử Cùng với sự quan tâm, chỉ đạo sát sao của Thủ tướng Chính phủ thì một khi chính sách TTKDTM được khuyến khích và đưa vào sử dụng như một phương thức thanh toán chính trong xã hội thì nó sẽ đem lại nhiều lợi ích để thúc đẩy nền kinh tế phát triển bền vững, ví dụ như nó sẽ tạo ra sự minh bạch trong các khoản chi tiêu và các giao dịch của Chính phủ, các đơn vị, tổ chức kinh doanh, các cá nhân, giúp dòng tiền được lưu thông trơn tru và minh bạch hơn
Phương thức thanh toán điện tử không dùng tiền mặt phổ biến hiện nay là dùng thẻ ATM, tín dụng, các phương thức giao dịch thanh toán trực tuyến qua nhiều kênh khác nhau như internet banking, ví điện tử, chuyển khoản trực tuyến,…Trong đó hình thức thanh toán qua thẻ rất được phố biến vì quy trình phát hành thẻ bởi ngân hàng ngày càng dễ dàng nhưng mang nhiều ưu điểm khác nhau Do đó, việc sở hữu 01 chiếc thẻ của ngân hàng hiện nay không còn quá xa lạ đối với người dân Việt Nam, nhất là một phần bộ phận công nhân, viên chức, người đi làm trẻ,… nhưng phổ biến nhất vẫn là thẻ
Trang 19ATM (thẻ ghi nợ nội địa hay còn được gọi là debit card) và thẻ tín dụng dùng để thanh toán nội địa hoặc quốc tế, tùy thuộc vào điều kiện và nhu cầu sử dụng của từng người
mà có thể đăng ký sử dụng những loại thẻ khác nhau
Thông thường khi bạn làm việc trong một cơ quan, tổ chức nào đó, thỉnh thoảng phải đi công tác nước ngoài Trong quá trình chuẩn bị các thủ tục cần thiết trước khi đi công tác, ngoài những thủ tục như mua vé máy bay, xin thị thực nhập cảnh, đặt phòng khách sạn,…thì bạn cũng cần phải tìm cách để đổi hoặc phải mua loại ngoại tệ của nước
mà bạn sắp đến, còn chắc chắn hơn nữa thì bạn đổi sang USD để sử dụng Tuy nhiên, do nhà nước quy định cấm đổi ngoại tệ tự do mà bạn phải vào ngân hàng mới đổi hoặc mua được, với nhiều thủ tục rườm rà và quan trọng là thiếu an toàn khi bạn cầm tiền mặt trên tay và cộng với việc bị hạn chế số lượng ngoại tệ mang theo người khi ra nước ngoài nên
đã làm cho không ít người đau đầu cho việc này trước khi xuất ngoại
Ngày nay thẻ thanh toán quốc tế ra đời đã giúp giải quyết tốt các vấn đề trên vì
nó có thể chấp nhận và cho phép thực hiện giao dịch thanh toán bằng bất kỳ loại tiền tệ nào và tại bất kỳ đâu trên thế giới Bên cạnh đó, thẻ thanh toán quốc tế còn có thể được
sử dụng để rút tiền mặt tại các máy ATM, thanh toán quẹt thẻ tại các cửa hàng có đặt máy POS, thanh toán trực tuyến tại tất cả các đại lý chấp nhận thẻ của các tổ chức quốc
tế như: Visa, Mastercard, JCB, Amex, Diners, Unionpay,… trên toàn cầu và thỉnh thoảng lại còn được hưởng những chính sách ưu đãi, giảm giá khi thanh toán bởi các ngân hàng phát hành thẻ Chính vì vậy thẻ thanh toán quốc tế (thẻ tín dụng) chính là lựa chọn số một hiện nay vì nó an toàn, hiệu quả và tiện lợi để cùng đồng hành với bạn trong mỗi chuyến xuất ngoại
Tuy nhiên đối với ngân hàng việc phát hành thẻ tín dụng trong thời gian qua có rủi ro rất cao, mà đó chính là nguyên nhân dẫn đến nợ xấu của thẻ tín dụng ngày càng gia tăng Nguyên nhân một phần có thể do hiện nay để gia tăng thị phần, nhiều ngân hàng bỏ tiền ra mua danh sách khách hàng từ nhiều nguồn hoặc từ các ngân hàng khác nhau Sau đó dựa trên danh sách thông tin này, họ cho nhân viên tiếp thị chào mời, cung
Trang 20cấp những ưu đãi, đưa ra hạn mức cao hơn, thậm chí phát hành thẻ miễn phí để lôi kéo khách hàng mới về mình Nhằm mục đích là hoàn thành chỉ tiêu được giao, còn về phần nhân viên thì dùng mánh khóe khác nhau để hợp thức hóa hồ sơ Từ đó dẫn đến tình trạng phát hành thẻ không đúng đối tượng, việc cấp hạn mức sử dụng thì vượt mức cho phép
Cụ thể là tại Việt Nam đã có ngân hàng từng bị ôm nợ sau khi phát hành hàng ngàn thẻ tín dụng cho các tài xế trong một doanh nghiệp kinh doanh Taxi Quy định hạn mức cho mỗi thẻ chỉ có 10 triệu đồng nhưng sau khi nhận được thẻ tín dụng, họ không dùng trong việc thanh toán thẻ mà ngay lập trức đi rút toàn bộ số tiền có trong thẻ, sau
đó tiến hành hủy thẻ và trốn mất, ngân hàng không thu hồi được nợ (gốc, lãi và các khoản phí phát sinh) khiến cho nguồn vốn của ngân hàng bị thất thoát, lợi nhuận thì giảm sút Sau sự cố này theo như lời của một vị giám đốc ngân hàng thì ngân hàng đã phải giải tán trung tâm thẻ, điều chuyển nhân sự, cũng như đau đầu giải quyết một đống nợ xấu mà nguyên nhân xuất phát từ việc phát hành thẻ không đúng đối tượng, việc cấp hạn mức
sử dụng chưa phù hợp [14]
Do đó, bài toán của các ngân hàng hiện nay đặt ra là tìm giải pháp để giúp phân loại các loại thẻ tín dụng và dự đoán được hạn mức tín dụng được cấp cho khách hàng mới sao cho phù hợp nhất Mục đích chính là nhằm giảm thiểu rủi ro cho ngân hàng, cũng như cho nền kinh tế
1 2 Tổng quan về thẻ và quy trình phát hành thẻ tín dụng tại ngân hàng
1 2 1 Khái niệm
Thẻ ngân hàng được làm bằng một miếng nhựa (plastic), có kích thước tiêu chuẩn
và thường là 8,5*5,5 cm, là công cụ hay phương tiện thanh toán hàng hóa, dịch vụ mà không cần dùng tiền mặt Nó ra đời dựa trên hình thức mua bán hàng hóa bán lẻ và phát triển bền vững cho đến ngày nay, gắn liền với công nghệ tiên tiến trong lĩnh vực tài chính, ngân hàng
Trang 211 2 2 Đặc điểm cấu tạo của thẻ
Hình 1.1 Cấu tạo của thẻ
Mặt trước của thẻ gồm:
Nhãn hiệu thương mại của thẻ
Tên và logo của ngân hàng phát hành thẻ
Số thẻ, tên chủ thẻ, ngày hết hạn được in nổi
Con chip: dùng để thực hiện các giao dịch bằng thẻ chip
Thẻ là phương tiện thanh toán thông minh, hiện đại đang được sử dụng rộng rãi
và phổ biến trên toàn thế giới hiện nay, bao gồm nhiều loại thẻ dựa trên những tiêu chí phân loại khác nhau, chủ yếu gồm các loại tiêu chí sau:
Trang 22a) Công nghệ sản xuất
Công nghệ sản xuất thì tùy thuộc vào từng giai đoan, thời điểm công nghệ khác nhau nhưng chủ yếu gồm ba công nghệ sau:
Thẻ được khắc chữ nổi (embossed card)
Là loại thẻ được phát hành đầu tiên, các thông tin cơ bản về chủ thẻ được khắc nổi trên bề mặt của thẻ Khi muốn thanh toán, chủ thẻ cà các thông tin này hóa đơn cần thanh toán để thực hiện giao dịch, hình thức thanh toán này nhanh chóng bị lỗi thời bởi tính bảo mật kém vì nó dễ bị làm giả
Hình 1.2 Mẫu thẻ khắc chữ nổi
Thẻ có băng từ (magnetic stripe)
Phôi thẻ được phủ bằng một dải băng từ với 2 hoặc 3 dải để lưu những thông tin của người sử dụng thẻ, ví dụ như: số thẻ, tên chủ thẻ, ngày hết hạn,…Công nghệ này cũng bộc lộ những điểm yếu do tính bảo mật không cao Do đó dễ dàng bị kẻ gian đọc trộm thông tin và làm giả thẻ, thực hiện giao dịch để chiếm đoạt tài sản của chủ thẻ, ngân hàng
Trang 23Hình 1.3 Mẫu thẻ có dải băng từ
Thẻ thông minh (thẻ chip hay smart card)
Phôi thẻ được sản xuất dựa trên các kỹ thuật vi xử lý hay trên chip điện tử, các thông tin của chủ thẻ được lưu trong con chip này Khi cần đọc hoặc cần trao đổi thông tin thì thẻ cần phải trải qua nhiều bước xác minh bảo mật khác nhau thì mới có thể đọc được các thông tin này Do đó đây là loại công nghệ mới nhất của thẻ thanh toán, vì nó mang tính bảo mật cao
Hình 1.4 Mẫu thẻ thông minh
b) Phạm vi, lãnh thổ
Đối với yếu tố phạm vi, lãnh thổ của từng quốc gia, thông thường bao gồm hai loại sau:
Trang 24Thẻ quốc tế
Là loại thẻ mà có thể được sử dụng để thanh toán được cả trong nước và quốc
tế Để phát hành được loại thẻ này, tổ chức phát hành thẻ (thông thường là ngân hàng phát hành thẻ) phải là thành viên của tổ chức thẻ quốc tế như: Visa, Mastercard, JCB, Amex, Diners, Unionpay,… và phải tuân thủ chặt chẽ các qui định trong việc phát hành và thanh toán thẻ do tổ chức đó qui định
c) Hình thức thanh toán
Khi đề cập đến hình thức thanh toán thì cũng tùy vào trình độ phát triển và quá trình áp dụng công nghệ của từng quốc gia khác nhau nhưng cũng chủ yếu gồm ba hình thức thanh toán sau:
Thẻ tín dụng (credit card)
Là loại thẻ cho phép chủ thẻ thực hiện giao dịch trả trước với số tiền trong phạm vi hạn mức tín dụng đã được ngân hàng cấp trước đó Sau đó chủ thẻ chỉ phải thanh toán ít nhất mức trả nợ tối thiểu khi đến hạn quy định (tùy theo mỗi ngân hàng khác nhau mà mức phí trả nợ tối thiểu khác nhau, thông thường là 5% hay 10%) và chủ thẻ sẽ chỉ phải trả lãi suất trên số tiền còn nợ
Thẻ ghi nợ (debit card)
Là loại thẻ cho phép chủ thẻ thực hiện giao dịch trong phạm vi số tiền có trong tài khoản, thẻ ghi nợ không có hạn mức tín dụng vì nó phụ thuộc vào số dư có trong
Trang 25tài khoản của chủ thẻ Tuy nhiên, hiện nay có một số tổ chức, ngân hàng muốn tạo điều kiện cho chủ thẻ trong quá trình giao dịch, có thể cho phép chủ thẻ chi tiêu hoặc rút tiền vượt quá số dư có trong tài khoản trong một khoảng thời gian nhất định, tùy thuộc vào mức độ uy tín của khách hàng, hình thức này còn gọi là thấu chi
Thẻ trả trước (prepaid card)
Là loại thẻ cho phép chủ thẻ thực hiện giao dịch trong phạm vi số tiền có trong thẻ, thông qua hình thức nạp tiền vào thẻ từ ngân hàng hay từ đơn vị chấp nhận thẻ được cấp quyền nạp tiền Trong loại thẻ này gồm có 02 loại nữa là: thẻ trả trước định danh và vô danh Tùy theo quy định của từng ngân hàng mà hạn mức sử dụng của
thẻ định danh và vô danh khác nhau
1 2 4 Quy trình phát hành và thanh toán thẻ tại ngân hàng
Quy trình phát hành thẻ và thanh toán thẻ tại mỗi ngân hàng thông thường được qui định khác nhau do mỗi ngân hàng có yêu cầu và nghiệp vụ riêng nhưng chủ yếu cũng gồm một số quy trình chuẩn, chung nhất như sau:
Trang 26a) Các chủ thể tham gia vào quá trình phát hành và thanh toán thẻ
Ngân hàng phát hành: là ngân hàng được sự cho phép hay ủy quyền của tổ chức thẻ, họ được phép phát hành loại thẻ mang thương hiệu của tổ chức thẻ đó, đồng thời cũng được in thương hiệu của ngân hàng mình Ngân hàng phát hành có thể trực tiếp đứng ra nhận hồ sơ xin cấp thẻ, xử lý và phát hành thẻ, mở và quản lý các tài khoản thẻ của khách hàng
Ngân hàng chấp nhận thanh toán: là ngân hàng chấp nhận các giao dịch thanh toán bằng thẻ tại các đơn vị chấp nhận thẻ, thông qua việc ký kết các thương thảo giữa hai bên
Trang 27 Chủ thẻ: là người có tên in trên thẻ được ngân hàng phát hành thẻ để sử dụng trong việc thanh toán các hóa đơn hàng hóa, dịch vụ thay cho việc dùng tiền mặt
Đơn vị chấp nhận thẻ: là đơn vị cung ứng hàng hóa, dịch vụ, nơi có đặt các thiết
bị của ngân hàng dùng để thanh toán bằng thẻ, thông qua việc ký kết hợp đồng
với ngân hàng thanh toán
(3)
(4) (5)
2 Bước 2: Ngân hàng phát hành tiếp nhận hồ sơ
3 Bước 3: Ngân hàng phát hành kiểm tra hồ sơ, thẩm định hạn mức giao dịch đối với thẻ
Trong vòng 5 ngày kể từ ngày nhận được bộ hồ sơ đầy đủ, ngân hàng phát hành có trách nhiệm thẩm định bộ hồ sơ và ra quyết định chấp nhận hoặc từ chối phát hành thẻ
Trang 28 Đối với những hồ sơ được chấp thuận, NHPH tiến hành phân loại khách hàng Đối với thẻ ghi nợ, việc phát hành thẻ đơn giản vì khách hàng đã có tài khoản tại ngân hàng Còn đối với thẻ tín dụng, ngân hàng phải xác định thêm các yếu
4 Bước 4: Ngân hàng cập nhật, xử lý dữ liệu của chủ thẻ vào hệ thống quản lý thẻ
5 Bước 5: Ngân hàng tiến hành phát hành và in thẻ
Sau khi kiểm tra lại một lần nữa, bộ phận quản lý thẻ sẽ lập hồ sơ khách hàng
để quản lý, thông tin gồm: tên chủ thẻ, số thẻ, loại thẻ, ngày hiệu lực, số tài khoản, số CMND hoặc số hộ chiếu, email, số điện thoại, địa chỉ làm việc và nơi thường trú đã được khai báo trước đó Mục đích là dùng để quản lý và trích xuất sao kê cho khách hàng khi cần thiết
Sau đó, NHPH tiến hành mã hóa và in thẻ, đồng thời cấp mã số PIN ngẫu nhiên cho chủ thẻ và cập nhật dữ liệu mới này vào trong CSDL thông tin khách hàng
6 Bước 6: Bàn giao PIN, thẻ cho khách hàng
NHPH giao thẻ, mã PIN và hướng dẫn khách hàng đổi PIN, sử dụng thẻ cơ bản lúc ban đầu
Trang 29c) Quy trình thanh toán thẻ
Thông thường quy trình thanh toán thẻ sẽ theo mô hình sau:
Tổ chức thẻ quốc tế
Chủ thẻ Đơn vị chấp nhận thẻ
Ngân hàng
phát hành
Ngân hàng Thanh toán
(3)
(4) (5)
Hình 1.7 Quy trình thanh toán thẻ
Trong đó:
1 Bước 1: chủ thẻ thanh toán hóa đơn hàng hóa, dịch vụ tại ĐVCNT
2 Bước 2: Giao dịch thanh toán được gửi đến ngân hàng thanh toán (ngân hàng chấp nhận thẻ) để xử lý, thực hiện giao dịch Nếu thẻ do chính ngân hàng phát hành thì
sẽ xử lý xong và trả kết quả về lại cho ĐVCNT, kết thúc giao dịch Ngược lại sẽ qua bước 03
3 Bước 3: Giao dịch thanh toán được gửi đến tổ chức thẻ quốc tế Sau khi kiểm tra, giao dịch sẽ được trả lại về đúng cho ngân hàng phát hành để xử lý
4 Bước 4: Ngân hàng phát hành tiến hành kiểm tra giao dịch này, nếu thỏa mãn tất
cả các điều kiện như: còn hạn, còn hạn mức, thông tin chính xác,… thì sẽ chuẩn chi giao dịch này và gửi trả lại kết quả theo đường cũ
Trang 305 Bước 5: Xử lý trừ tiền trong tài khoản Ngân hàng tiến hành lập và gửi bảng sao
kê gửi cho chủ thẻ theo định kỳ trong tháng để yêu cầu chủ thẻ thanh toán
1 3 Lý do chọn đề tài
Ngày nay, thẻ tín dụng được xem là một trong những công cụ hữu hiệu của các ngân hàng dùng tiếp cận, nhằm mục đích mở rộng và cung cấp dịch vụ tài chính cho nhóm khách hàng cá nhân hoặc doanh nghiệp Mục tiêu là nhanh chóng mở rộng thị phần bán lẻ của ngân hàng mình Cũng chính vì thế với chiến lược phát triển và muốn đẩy mạnh mảng dịch vụ của ngân hàng mình nên hàng trăm loại thẻ, cùng với nhiều thương hiệu khác nhau được tung ra thị trường, nhằm làm thỏa mãn nhu cầu sử dụng của mọi tầng lớp trong xã hội Do đó khi biết trước được xu thế sử dụng loại thẻ của khách hàng
là một lợi thế rất lớn, thậm chí có thể nói là yếu tố quyết định đến sự thành công trong việc mở rộng thị phần bán lẻ giữa các ngân hàng với nhau Với kết quả thông tin phân loại thẻ và dự đoán hạn mức tín dụng của thẻ sau khi khách hàng đăng ký, sẽ giúp cho ngân hàng có thêm thông tin để củng cố, cân nhắc trước khi duyệt để cấp thẻ cho khách hàng sử dụng mà trước đó còn đang phân vân, đắng đo chưa quyết định được
Vậy để biết được tính hiệu quả của nó, cũng như nhu cầu sử dụng các loại thẻ tín dụng hiện nay như thế nào? Xu hướng sử dụng thẻ ra sao? Một người với thu nhập ổn định, vị trí công tác tương ứng thì khả năng ngân hàng sẽ cấp cho người sử dụng loại thẻ nào và hạn mức bao nhiêu? Đó chính là lý do, động lực mà tôi muốn nghiên cứu, tìm hiểu để nhằm làm rõ, cũng như muốn biết được kết quả phân loại và dự đoán được hạn mức tín dụng của khách hàng sau khi họ đăng ký, khai báo thông tin với ngân hàng
1 4 Mục đích
Mục đích là sau quá trình tìm hiểu lý phần lý thuyết về các phương pháp phân lớp
đa nhãn và tiến hành chạy thực nghiệm trên bộ dữ liệu thật của ngân hàng, với nhiều tham số khác nhau để nhằm mục đích là tìm được kết quả phân loại thẻ tín dụng Ngoài
Trang 31ra, dựa vào kết quả đó để dự đoán hạn mức tín dụng có thể cấp cho khách hàng sau khi
họ đăng ký
1 5 Đối tượng
Đề tài dựa trên đối tượng là các loại thẻ đang được sử dụng phổ biến hiện nay như: thẻ ghi nợ, thẻ tín dụng, thẻ trả trước, thẻ không tiếp xúc Tuy nhiên trong phạm vi nghiên cứu đề tài này, tôi xin tập trung nghiên cứu trên đối tượng thẻ tín dụng, vì đây là loại thẻ rất tiện lợi và đang được sử dụng phổ biến, rộng rãi nhất hiện nay
1 6 Phương pháp nghiên cứu
Nghiên cứu tài liệu: nghiên cứu, tổng hợp các tài liệu, các bài báo liên quan đến
kỹ thuật phân lớp đa nhãn bằng 02 phương pháp chuyển đổi vấn đề và phương pháp thích nghi thuật toán
Tìm hiểu các độ đo dùng để đánh giá và nghiên cứu các giải thuật dùng để áp dụng cho bài toán
Tìm hiểu nghiệp vụ phát hành thẻ: tìm hiểu nghiệp vụ, quy trình phát hành thẻ tín dụng tại ngân hàng
Tìm hiểu về quy trình cấp hạn mức thẻ
1 7 Phạm vi nghiên cứu
Hiện nay, lĩnh vực thanh toán điện tử tại các ngân hàng của nước ta đang trở nên phổ biến rộng rãi, kèm theo đó phát sinh thêm vô số các thông tin kèm theo để lưu trữ các thông tin thanh toán dạng này như: thông tin về thẻ, giao dịch, hóa đơn, chủ thẻ,…Vì thế đây cũng là một lĩnh vực cũng rất rộng lớn, phong phú và chắc cũng có rất nhiều quy luật hay mà đang cần và chờ chúng ta vận dụng kỹ thuật khai phá dữ liệu để nghiên cứu, khám phá
Trang 32Do giới hạn về thời gian, cũng như kiến thức có hạn nên phạm vi nghiên cứu trình bày phương pháp phân loại đa nhãn trên các loại thẻ tín dụng và dự đoán hạn mức của thẻ tín dụng trong luận văn này chỉ tập trung vào phân tích thông tin dữ liệu của khách hàng sau khi họ đăng ký, xin phát hành thẻ tín dụng tại trung tâm thẻ của ngân hàng ngoại thương Việt Nam (Vietcombank) Mục đích nhằm giúp nhân viên tại trung tâm thẻ của ngân hàng có thể dự đoán được loại thẻ, hạn mức mà ngân hàng có thể duyệt để cấp cho khách hàng mới và giúp họ tự tin trong quá trình tư vấn cho khách hàng chọn loại thẻ phù hợp nhưng vẫn làm thỏa mãn nhu cầu từ cả hai bên: khách hàng chọn được loại thẻ phù hợp với mình nhất, còn ngân hàng thì tiết kiệm được chi phí, tránh rủi ro khi quyết định cấp hạn mức thẻ và loại thẻ cho khách hàng
1 8 Ý nghĩa thực tiễn
Kết quả nghiên cứu giúp phân loại được các loại thẻ tín dụng dựa trên một số thuộc tính của khách hàng như: nghề nghiệp, mức thu nhập, giới tính,…trong lĩnh vực ngân hàng Mục đích là biết được xu hướng của khách hàng để tư vấn cách dùng loại thẻ tín dụng cho phù hợp, nâng cao chất lượng dịch vụ, cũng như vạch ra chiến lược kinh doanh phù hợp để giảm thiểu tối đa chi phí và rủi ro cho ngân hàng
Trang 33Chương 2 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
2 1 Tổng quan
Phân loại là một trong những nhiệm vụ chính trong khai thác dữ liệu, nó cũng trở thành thành viên của mô hình học có giám sát và có liên quan đến phân loại đa nhãn là
việc xếp hạng Trong nhiệm vụ xếp hạng là để đặt một bộ các nhãn L, vì thế các nhãn
trên cùng có liên quan nhiều hơn với các thể hiện mới Tại đây tồn tài một số các phương pháp phân loại đa nhãn mà học chức năng xếp hạng từ dữ liệu đa nhãn Tuy nhiên, một bảng xếp hạng của các nhãn đòi hỏi phải xử lý để đưa ra một bộ nhãn là đầu ra thích hợp của một phân loại đa nhãn Trong các vấn đề phân loại nhất định các nhãn thuộc về một cấu trúc có phân cấp [22]
Cho một tập các mô hình huấn luyện bao gồm một tập hợp các đặc trưng và các lớp được liên kết, mục đích của phân loại là thu được một mô hình mà sau đó có thể dùng để xác định lớp cho một mô hình chưa biết Việc xây dựng mô hình này đòi hỏi phải hạn chế môt số nhãn cho mỗi một mô hình, tuy nhiên ngày nay số lượng các vấn đề cần phân loại ngày càng tăng, chủ yếu là các ứng dụng mới và được phát triển trên các nền tảng, công nghệ mới, chẳng hạn như phân loại chức năng của protein, phân loại âm nhạc [23] và phân loại ngữ nghĩa [24], chuẩn đoán y khoa hoặc phân loại gene, tính năng protein trong một mô hình có thể có nhiều các nhãn đồng thời được liên kết với nhau
Ví dụ trong lĩnh vực phân loại ngữ nghĩa, một hình ảnh có thể chứa một cảnh quan với cả một bãi biển hoặc một ngọn núi, có thể được liên kết phân loại với bãi biển
và ngọn núi đồng thời Loại vấn đề này được gọi là đa nhãn so với phương pháp học có giám sát cổ điển Hiện nay để giải quyết vấn đề với bộ dữ liệu đa nhãn đang gặp nhiều khó khăn, thử thách mới do sự tăng trưởng theo cấp số nhân và do sự kết hợp các nhãn
để đưa vào bảng số liệu, cũng như để tính toán các chi phí được dùng để xây dựng và truy vấn các mô hình Ngoài ra, dữ liệu đa nhãn thường biểu diễn các tính năng như là: chiều cao, dữ liệu không cân bằng và sự phụ thuộc giữa các nhãn Vì vậy trong suốt
Trang 34những năm qua, mô hình của học đa nhãn (MLL) được đề cập như là một loại học có giám sát và đã trở thành một chủ đề nóng, được nhiều người quan tâm, thảo luận sôi nổi trong những năm trở lại đây
Một số ấn phẩm của các công trình được biên soạn cơ bản về học đa nhãn như của nhóm tác giả Tsoumakas và Katakis vào năm 2007 [22], Tsoumakas và các cộng sự được đăng trên tạp chí của tổ chức IEEE vào năm 2011 [27] hoặc của đồng tác giả Zhang
và Zhou cũng được đăng trên tạp chí của tổ chức IEEE vào năm 2013 Trong máy học (machine learning) phân loại đa nhãn và các vấn đề liên quan của phân loại đa đầu ra (multi-output) là các biến thể của vấn đề phân loại, nơi nhiều nhãn mục tiêu phải được gán cho các trường khác nhau Phân loại đa nhãn không nên nhầm lẫn với phân loại đa lớp (multi-class classification) mà là vấn đề của các trường hợp phân loại đến một hoặc nhiều hơn 02 lớp MLL có thể được đặt ra như là vấn đề của việc tìm kiếm một mô hình
mà các giá trị đầu vào x biến thành các vector nhị phân y, chứ không phải kết quả đầu ra
vô hướng như trong các vấn đề phân loại thông thường Ngoài ra, phân loại còn là một trong những chủ đề khai phá phổ biến nhất hiện nay, có nhiệm vụ phân loại và tiên đoán, thường được tiến hành bằng các kỹ thuật học có giám sát Mục đích phân loại là học từ các mô hình được gán nhãn để có thể dự đoán các nhãn hoặc các lớp cho tương lai mà chưa được thấy trước đó hoặc từ các mẫu dữ liệu
Bộ các thuộc tính trong bộ dữ liệu phân lớp được chia ra thành hai phần: phần đầu chứa các đặc trưng đầu vào, các biến được dùng để dự đoán và phần hai chứa các thuộc tính đầu ra, được gọi là lớp hoặc nhãn được chỉ định cho mỗi trường hợp Thuật toán phân lớp tạo ra các mô hình phân tích mối tương quan giữa các tính năng đầu vào
và lớp đầu ra Khi một mô hình huấn luyện được tạo ra, nó có thể được dùng để xử lý các bộ tính năng cho các mẫu dữ liệu mới để dự đoán lớp Tùy thuộc vào đặc trưng các thuộc tính của lớp con thứ hai của các lớp, một vài vấn đề phân lớp có thể sẽ được xác định
Trang 35Do khả năng ứng dụng trong nhiều lĩnh vực khác nhau nên kỹ thuật phân lớp đa nhãn đã được nhiều nhóm hay các nhà nghiên cứu trong nước và ngoài nước quan tâm,
sử dụng trong nhiều công trình nghiên cứu khác nhau, điển hình như một số các công trình được nghiên cứu và công bố dựa trên phạm vi hoặc lãnh thổ như sau:
2 2 Ngoài nước
Hầu hết các vấn đề phân loại là kết hợp một lớp với mỗi trường hợp cụ thể Tuy nhiên, cũng có một số vấn đề phân loại mà mỗi thể hiện có thể được kết hợp với một hoặc nhiều lớp, đây là vấn đề tiêu biểu cho một lĩnh vực tri thức được gọi là phân loại
đa nhãn Phân loại đa nhãn là một dạng tổng quát tự nhiên của phân loại nhị phân truyền thống trong máy học có giám sát, nó đã được nhóm tác giả T Yuan và J Wang [10] nghiên cứu để cải thiện độ chính xác phân loại bằng cách kết hợp cấu trúc giữa các nhãn
đa lớp thông qua việc giảm bậc và thực thi quy trình thống kê nhóm lasso để ước lượng
độ chính xác Ví dụ điển hình của các vấn đề phân loại đa nhãn là việc phân loại các tài liệu, trong đó mỗi tài liệu có thể được gán cho nhiều lớp khác nhau, nhóm tác giả André
và các đồng sự [29] đã trình bày kỹ thuật này và nó đã được sử dụng phổ biến nhất để giải quyết các vấn đề phân loại đa nhãn và đề xuất kiểu phân loại tư duy dựa trên kỹ thuật phân loại đa nhãn để làm nổi bật những nét tương đồng và các khác biệt giữa các
kỹ thuật khác nhau
Phương pháp phân loại đa nhãn đã được áp dụng trong nhiều ứng dụng và lĩnh vực khác nhau như: dùng phương pháp phân loại để phát hiện cảm xúc trong âm nhạc [5], dự đoán nhãn bác sĩ để xin ý kiến bác sĩ [6] Nó cũng được nhiều nhà nghiên cứu, chuyên gia sử dụng trong các công trình nghiên cứu của họ, điển hình như nhóm tác giả [4] nghiên cứu và cải tiến dựa trên phương pháp toàn cục và cục bộ, từ đó áp dụng cấu trúc Direct Acyclic Graph – DAG để cải thiện và chứng minh kết quả tốt hơn phương pháp cũ vào bài toán phân loại theo chiều sâu Phân loại đa nhãn cũng được nghiên cứu,
mở rộng dựa trên kỹ thuật cực trị máy học (Extreme Learning Machine – ELM) [9] mà
Trang 36chủ yếu dựa trên các vấn đề phân loại đa nhãn để đánh giá sáu tiêu chuẩn từ bộ dữ liệu
đa nhãn từ các miền khác nhau như là đa phương tiện, văn bản và sinh học Kết quả so sánh cho thấy rằng đề xuất cực trị máy học dựa trên kỹ thuật phân loại đa nhãn là một lựa chọn tốt hơn so với phương pháp khác Ngồi ra, nĩ cịn được dùng để kết hợp với nhiều thuật tốn khác để cải thiện độ chính xác của kết quả dự đốn [7] nhằm giúp cho các nhà sinh vật học và các nhà khoa máy học tính làm cơ sở để thiết kế hệ thống phân loại protein cĩ hiệu năng và chất lượng cao
Mở rộng hướng nghiên cứu nhĩm tác giả [8] đã dùng độ đo ReliefF và Information Gain để đo tính chất của các đặc trưng trong phân loại đa nhãn, cịn nhĩm
tác giả [1] đã đề xuất hai thuật tốn mới bằng cách mở rộng thuật tốn đa nhãn k láng
giềng gần nhất (Multi-label k-nearest neighbors – MLkNN) cho học bán giám sát thay cho thuật tốn MLkNN ban đầu là thuật tốn giám sát dựa trên đồ thị, nhĩm tác giả đã tăng trưởng cấu trúc đồ thị và điều chỉnh hai thuật tốn bán giám sát, nhãn và lan truyền nhãn để thực hiện việc mở rộng nhãn trong biểu đồ tăng trưởng, kết quả cho thấy rằng thuật tốn mới này phù hợp với các dạng kịch bản phân loại đa nhãn bán giám sát
Một số nhĩm tác giả dùng mạng Bayesian như [1][13][15][17] để phân loại, cụ thể nhĩm tác giả [1] dùng mạng Bayesian để phân loại và ước lượng xác suất của một chất gây ơ nhiễm khơng khí khi nĩ vượt qua một ngưỡng cho phép, bằng cách mơ hình hĩa thích hợp các biến ngẫu nhiên nhĩm tác giả đã cải thiện được độ chính xác của dự báo, cụ thể là thiết kế một phân lớp đa nhãn dựa trên mạng Bayesian và học nĩ thơng qua cấu trúc của nĩ, đồng thời dự đốn nhiều biến gây ơ nhiễm khơng khí, kết quả là dùng phân loại đa nhãn nhanh hơn và đưa ra quyết định tốt hơn so với các phương pháp độc lập khác Cịn nhĩm tác giả [13] đã dựa trên trình phân loại Nạve Bayes để làm sạch các luồng dữ liệu tần số vơ tuyến (RFID – Radio Frequency Identification) để cải thiện các dữ liệu thẻ sai âm tính và dương tính, từ đĩ cải thiện vị trí của các thẻ RFID Cịn nhĩm tác giả [15] cũng dùng trình phân loại Nạve Bayes để phân loại, nhằm mục đích
Trang 37xác định tối ưu các cụm nút (node) đầu các vùng cảm biến mạng khơng dây Riêng đối với nhĩm tác giả [17], họ đã đề xuất một khung (framework) mới để phân loại các tin nhắn rác và tin nhắn hợp pháp, cụ thể họ đã dựa trên phân đoạn khơng gian đặc trưng và dùng mơ hình Nạve Bayes để lọc thống kê các tri thức đã được thu thập trước đĩ để dùng làm phân lớp cục bộ và tồn cục Từ đĩ giúp đạt được việc học đa nhiệm và độ chính xác phân loại cao Đặc biệt, nhĩm tác giả [11] dùng phương pháp kNN để phân loại, xây dựng các mơ hình phân loại và rồi dự đốn các nhãn lớp bởi cơng dụng của mạng Bayesion hoặc các quy tắc đa số
Ngày nay, ngồi 02 phương pháp phân loại chính là: chuyển đổi vấn đề và thích nghi thuật tốn, người ta cũng đang tập trung nghiên cứu và áp dụng phương pháp thứ 3
là phương pháp phân loại dựa trên việc học kết hợp Hiện nay đã cĩ một số nhà nghiên cứu đã áp dụng thành cơng thuật tốn này, điển hình nhĩm tác giả [2] đã dùng phương pháp phân loại đa nhãn dựa trên việc học kết hợp trên tập hợp các đồ thị đầu ra ngẫu nhiên, sau đĩ nghiên cứu các phương pháp khác nhau để hình thành dự đốn tổng thể bao gồm nhiều phiếu chiếm đa số và đưa ra kết luận dựa trên các cấu trúc đồ thị trước hoặc sau khi kết hợp các mơ hình cơ sở vào quần thể Kết quả đối với thực nghiệm này cho thấy rằng phương pháp kết hợp ngẫu nhiên luơn xếp thứ hạng đầu hoặc thứ hai trong hầu hết các bộ dữ liệu được đưa ra thực nghiệm Ngồi ra, nhĩm tác giả [3] đã dùng phương pháp AdaBoost đa lớp mạnh (Rob_MulAda) cĩ các thành phần chủ chốt bao gồm chức năng xác định nhiễu dựa trên đa lớp và phối hợp với việc cập nhật trọng số mới để nhằm làm giảm nhiễu theo mức độ cụ thể trong các ứng dụng thực tế hoặc nhĩm tác giả [16] dùng AdaBoost để đưa ra một phân tích lý thuyết về mơ hình ước lượng xác suất và gợi ý một vài biện pháp hữu ích để sử dụng thuật tốn AdaBoost làm sao cho đúng Thêm vào đĩ, nhĩm tác giả [14] cũng đề xuất một phương pháp kết hợp mới cĩ tên gọi là: BPSO-AdaBoost-kNN để giải quyết vấn đề phân loại dữ liệu khơng cân bằng,
ý tưởng của thuật tốn là tích hợp các lựa chọn đặc trưng để đưa vào quần thể và dùng
Trang 38thước đo đánh giá mới được gọi là AUCarea (đặc biệt dành cho phân loại đa lớp) để tạo
ra một bộ phân lớp tăng cường mà trong đó kNN được chọn làm phân loại cơ bản
2 3 Trong nước
Trong nước cũng có nhiều tác giả nghiên cứu đến lĩnh vực này, cụ thể là đề tài luận văn thạc sỹ công nghệ thông tin trường Đại học Công nghệ TP.HCM, năm 2014 của tác giả Phạm Xuân Dũng [30] đã dùng phương pháp phân loại đa nhãn, đa lớp và kết hợp với luật kết hợp (Multi-class Multi-label Associative Classification - MMAC) để thực hiện các thuật toán, từ đó xác định tính hiệu quả của phương pháp, đồng thời so sánh với các thuật toán khác để đánh giá và rút ra kết luận cho luận văn của mình
Ngoài ra, còn có đề tài nghiên cứu về các phương pháp phân loại đa nhãn văn bản tiếng việt của tác giả Nguyễn Thị Thảo [31], trường Đại học Công nghệ Hà Nội, năm
2013, đề tài tập trung nghiên cứu các giải pháp cho hai vấn đề của bài toán phân lớp đa nhãn: (1) các nhãn có mối quan hệ với nhau và (2) dữ liệu có kích thước vô cùng lớn Đối với vấn đề (1), luận văn áp dụng thêm thuật toán RAkEL (Random k-Labelsets), Classifier Chain (CC) có tích hợp mối quan hệ đa nhãn vào để phân lớp Còn đối với vấn
đề (2), luận văn áp dụng cách phân phối chủ đề từ mô hình chủ đề ẩn LDA, nhằm mục đích giảm thiểu số chiều của ma trận đầu vào, sau đó kết hợp các phương pháp máy học
đa nhãn để giải quyết bài toán Luận văn đã thực nghiệm trên tập dữ liệu với gần 3000 bài báo từ trang web báo điện tử: http://vnexpress.net/ để làm đánh giá thực nghiệm
Trang 39Chương 3 CƠ SỞ LÝ THUYẾT VỀ PHÂN LOẠI ĐA NHÃN
3 1 Khái niệm về phân loại
Phân loại là cách thức dùng để gán một đối tượng nào đó vào cho một lớp nhất định, dựa trên sự tương đồng với các trường hợp của các đối tượng trước đó
Ví dụ:
Chuyên viên phòng phát hành thẻ của ngân hàng, muốn phân tích dữ liệu để biết được khách hàng nào với thông tin về tuổi tác, thu nhập thì hay thường sử dụng loại thẻ nào hay loại thẻ nào là phù hợp với họ
Từ yêu cầu trên, ta xây dựng một mô hình dùng để phân loại, dự đoán các loại thẻ tín dụng
3 2 Khái niệm về phân loại đa nhãn
Phân loại đa nhãn là một trong những biến thể của vấn đề phân loại, nơi mà nhiều nhãn đích được gán cho các thể hiện khác nhau Bước học đa nhãn có thể được phát biểu
như là vấn đề của việc tìm một mô hình ánh xạ các đầu vào x cho các vector nhị phân y
Có hai phương pháp chính để giải quyết vấn đề phân loại đa nhãn: các phương pháp chuyển đổi vấn đề và các phương pháp thích nghi thuật toán Ý tưởng của phương pháp chuyển đổi vấn đề là biến đổi vấn đề đa nhãn thành một tập các vấn đề phân loại nhị phân, sau đó có thể xử lý bằng cách sử dụng các phân loại đơn lớp Còn đối với phương pháp thích nghi thuật toán, ý tưởng của phương pháp này là thích nghi các thuật
toán để thực hiện trực tiếp việc phân loại đa nhãn
3 3 Khái niệm về dự đoán
Dự đoán là việc học có giám sát, nơi dữ liệu được sử dụng trực tiếp mà không mô
hình rõ ràng nào được tạo ra để dự đoán giá trị lớp của một thể hiện mới
Trang 403 4 Quá trình phân loại
Quá trình phân loại gồm hai bước sau:
3 4 1 Bước học
Dữ liệu huấn luyện được phân tích bởi các thuật toán phân loại Tại đây, các thuộc tính nhãn lớp là cột được chọn dùng để phân loại (ví dụ dưới là Loại thẻ) và mô hình được miêu tả trong mẫu của các luật phân lớp
Tên Tuổi Thu nhập Loại thẻ
Thu 31 Trung bình Mastercard
Nguyên 40 Trung bình Mastercard
Thảo 35 Trung bình Mastercard
Hình 3.1 Quá trình phân loại – bước học [25]
Trong bước này, một phân loại được xây dựng để mô tả một bộ các lớp dữ liệu Đây là bước học hoặc giai đoạn huấn luyện, nơi các thuật toán phân loại xây dựng mô hình phân loại bằng cách phân tích hoặc học từ một tập huấn luyện được tạo bởi cơ sở
dữ liệu và các lớp nhãn liên kết với nó Một bộ dữ liệu X đại diện bởi n chiều các thuộc tính vector, X = (x1 , x 2 ,…, x 3 ) miêu tả n độ đo trên mỗi bộ dữ liệu từ n các thuộc tính, tương ứng A1 , A 2 ,…,A n Mỗi bộ dữ liệu X được giả định bởi một lớp cho trước, được xác
định bởi các thuộc tính khác được gọi là thuộc tính nhãn lớp
IF Tuổi 31-40 AND Thu nhập = Trung bình THEN Loại thẻ = Mastercard
Các luật phân lớp