1. Trang chủ
  2. » Hoá học lớp 10

Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu.

27 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,72 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong một số nghiên cứu gần đây cho thấy việc sử độ đo AUC là tốt hơn so với độ chính xác khi phân tích trên bộ dữ liệu đa lớp hoặc không cân bằng, mặc dù trong hàm đánh giá ch[r]

Trang 1

i

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

HÀ VĂN SANG

NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG

CHO PHÂN LỚP DỮ LIỆU

Chuyên ngành: Hệ thống thông tin

Mã số: 62.48.01.04

TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2018

Trang 2

ii

Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Người hướng dẫn khoa học: PGS TS Nguyễn Hà Nam

PGS.TS Nguyễn Hải Châu

Phản biện: PGS TS Đỗ Trung Tuấn

Phản biện: TS Nguyễn Duy Phương

Phản biện: PGS TS Nguyễn Long Giang

Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại Trường Đại học Công nghệ

vào hồi 9 giờ ngày 13 tháng 4 năm 2018

Có thể tìm hiểu luận án tại:

- Thư viện Quốc gia Việt Nam

- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội

Trang 3

MỞ ĐẦU Tính cấp thiết của luận án

Trong những năm gần đây, dữ liệu trong thực tế đã gia tăng một cách nhanh chóng cả

về dung lượng lẫn về chủng loại Dữ liệu với số chiều lớn đã trở thành thách thức đối với các

kỹ thuật xử lý, phân tích dữ liệu hiện có Học máy (machine learning) và khai phá dữ liệu (data mining) cung cấp các công cụ giúp con người giải quyết vấn đề quản lý, bóc tách thông tin và tri thức bằng cách tự động phân tích một lượng lớn dữ liệu Tuy nhiên, các kỹ thuật phân tích dữ liệu như phân lớp, dự báo có thể dẫn đến kết quả thấp hoặc không chính xác do không phải lúc nào dữ liệu cũng được xử lý đầy đủ, vẫn có nhiều dữ liệu dư thừa, không liên quan, hay nhiễu Ngoài ra, các thuật toán phân lớp chạy mất nhiều thời gian, thậm chí có thể không thể thực hiện được nếu dữ liệu chưa được tiền xử lý một cách thích hợp

Rút gọn đặc trưng là kỹ thuật giải quyết vẫn đề thu gọn chiều dữ liệu nhằm giải quyết các vấn đề nêu trên Rút gọn đặc trưng được phân loại thành “lựa chọn đặc trưng” và “trích xuất đặc trưng” Trong đó, lựa chọn đặc trưng có thể chọn ra một nhóm nhỏ các đặc trưng phù hợp, liên quan từ tập dữ liệu gốc bằng cách loại bỏ các đặc trưng nhiễu, dư thừa không liên quan trong khi đó trích xuất đặc trưng sẽ trích rút ra các đặc trưng mới bằng một phép chuyển đổi Rút gọn đặc trưng tạo điều kiện cho các kỹ thuật phân tích xử lý dữ liệu cải tiến hiệu năng theo nghĩa nâng cao hiệu suất mà vẫn giữ nguyên hoặc nâng cao được hiệu quả

Trong những năm gần đây, có rất nhiều nghiên cứu tập trung vào cải tiến hiệu năng của kỹ thuật rút gọn đặc trưng bằng cách lựa chọn tập con đặc trưng có ích, hoặc trích xuất đặc trưng Tuy nhiên, các phương pháp rút gọn đặc trưng khác nhau sẽ cho kết quả khác nhau với từng miền ứng dụng tương ứng

Cộng đồng nghiên cứu tại Việt Nam đã quan tâm và công bố nhiều công trình khoa học liên quan tới học máy và khai phá dữ liệu Tuy nhiên, hướng nghiên cứu về rút gọn đặc trưng chưa được quan tâm nhiều

Như vậy, có thể nhận thấy rằng rút gọn đặc trưng hiện vẫn là chủ đề để các nhà nghiên cứu trong và ngoài nước tiếp tục nghiên cứu và phát triển

Mục tiêu của luận án

Mục tiêu của luận án là nghiên cứu đề xuất một số kỹ thuật rút gọn đặc trưng tiên tiến trong phân lớp dữ liệu đối với một số miền ứng dụng

Hướng tiếp cận lựa chọn đặc trưng xác định một tập con đặc trưng tốt nhất có thể từ tập đặc trưng ban đầu mà không làm giảm kết quả phân lớp

Hướng tiếp cận trích xuất đặc trưng xác định một phép biến đổi đặc trưng hiệu quả để thu được tập đặc trưng mới phù hợp với bộ phân lớp tương ứng

Với mục tiêu cải tiến hiệu năng của các kỹ thuật phân tích dữ liệu, chúng tôi đã lựa

chọn đề tài của luận án với tiêu đề: "Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu”

Trang 4

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận án là kỹ thuật rút gọn đặc trưng cho bài toán phân lớp, theo hai hướng tiếp cận lựa chọn đặc trưng và trích xuất đặc trưng

Phạm vi áp dụng các kỹ thuật rút gọn đặc trưng vào các miền ứng dụng là rất rộng Trong luận án này, chúng tôi giới hạn phạm vi với hai miền ứng dụng là bài toán cho điểm tín dụng và phân tích dữ liệu ung thư

Phương pháp nghiên cứu

Luận án sử dụng các phương pháp phân tích, tổng hợp lý thuyết, phương pháp mô hình hóa và phương pháp nghiên cứu thực nghiệm Trong đó, lý thuyết cơ sở được phân tích và phương pháp đề xuất được mô hình hóa Cuối cùng hương pháp nghiên cứu thực nghiệm được dùng để đánh giá, kiểm chứng kết quả của phương pháp đề xuất

mà luận án đặt ra Những đóng góp dựa trên hướng tiếp cận lựa chọn đặc trưng cho bài toán cho điểm tín dụng được báo cáo trong các công bố [SANGHV1, SANGHV2, SANGHV3, SANGHV5]

Trích xuất đặc trưng: Ngoài cách tiếp cận lựa chọn đặc trưng, một hướng tiếp cận khác

là trích xuất đặc trưng đã và đang được nhiều nhóm nghiên cứu quan tâm phát triển khi các

kỹ thuật lựa chọn đặc trưng trở nên ít hiệu quả Chúng tôi đã đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA Cải tiến chính trong đề xuất của chúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ bản Chúng tôi đã tiến hành thực nghiệm trên

04 bộ dữ liệu ung thư và so sánh kết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết quả ổn định và tốt hơn so với các phương pháp khác trong nhiều

Trang 5

trường hợp Hướng tiếp cận trích xuất đặc trưng cho bài toán phân tích dữ liệu ung thư được công bố trong công bố: [SANGHV4]

Các kết quả nghiên cứu trình bày trong luận án được công bố trong 05 công trình Trong đó có 02 bài báo đăng ở tạp chí nước ngoài [SANGHV1, SANGHV2]; 03 bài báo hội thảo quốc tế được công bố có chỉ số Scopus, trong đó 02 bài báo được Springer xuất bản và đưa vào danh mục LNCS

Bố cục của luận án

Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính của luận

án này được chia thành 03 chương, cụ thể như sau:

Chương 1: Phần đầu giới thiệu về lý thuyết cơ bản liên quan tới rút gọn đặc trưng, lựa chọn đặc trưng và trích xuất đặc trưng, đồng thời điểm lại một số nghiên cứu gần đây Cuối cùng là phần phân tích, đánh giá một số kỹ thuật rút gọn đặc trưng thường được sử dụng

Chương 2: Đề xuất một hàm đánh giá đặc trưng và thuật toán học dựa trên hàm đánh giá này nhằm nâng hiệu quả của việc lựa chọn đặc trưng Sau khi trình bày về quy trình, giải pháp đề xuất, luận án áp dụng phương pháp đề xuất cho bộ dữ liệu tín dụng Phần còn lại của chương thực hiện thực nghiệm trên các bộ dữ liệu tín dụng và so sánh kết quả với một số phương pháp lựa chọn đặc trưng khác

Chương 3: Đề xuất một phương pháp trích xuất đặc trưng dựa trên việc xây dựng một hàm nhân mới trên cơ sở kết hợp một số hàm nhân cơ bản nhằm biến đổi không gian đặc trưng phù hợp với miền dữ liệu Sau khi trình bày về quy trình, phương pháp đề xuất, phương pháp đề xuất được tiến hành trên bốn bộ dữ liệu ung thư Việc thực nghiệm và so sánh với một số kỹ thuật khác được thực hiện ở phần còn lại của chương

Chương 1 TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG

Hầu hết các lĩnh vực khoa học và công nghệ ngày nay đều đòi hỏi phân tích dữ liệu nhằm bóc tách các tri thức hữu ích giúp cải tiến hay nâng cao hiệu quả của các lĩnh vực này

Dữ liệu quan sát và thu thập được từ những ứng dụng trong thực tế thường chứa nhiều thông tin nhiễu, dư thừa, đặc biệt với tập dữ liệu có số lượng thuộc tính lớn có thể dẫn tới việc tốn kém tài nguyên khi áp dụng kỹ thuật phân tích dữ liệu, và nhiều trường hợp không thể thực hiện được Xuất phát từ nhu cầu thực tiễn đó, các kỹ thuật rút gọn đặc trưng được nghiên cứu

và phát triển để giải quyết những vấn đề trên Nội dung chương này nhằm giới thiệu tổng quan về vấn đề rút gọn đặc trưng và điểm lại một số hướng nghiên cứu về rút gọn đặc trưng tiêu biểu hiện nay Phần cuối của chương sẽ đưa ra một số kỹ thuật đánh giá hiệu quả của hệ thống thường được áp dụng hiện nay

1.1 Rút gọn đặc trưng

Rút gọn đặc trưng được hiểu là quá trình thu gọn hoặc biến đổi không gian biểu diễn

dữ liệu ban đầu thành một không gian con hoặc một không gian mới có số đặc trưng nhỏ hơn không gian ban đầu mà vẫn giữ được các đặc tính của dữ liệu gốc Trong nhiều trường hợp,

Trang 6

tập dữ liệu ban đầu có chứa nhiều đặc trưng không liên quan cho sự mô tả bản chất của hiện tượng mà ta quan tâm, khi đó có thể loại bỏ các đặc trưng không liên quan này và chỉ giữ lại các đặc trưng quan trọng Có hai phương pháp để rút gọn đặc trưng gồm lựa chọn đặc trưng

và trích xuất đặc trưng

1.2 Lựa chọn đặc trưng

- Lựa chọn đặc trưng (Feature selection): chọn lựa một tập con các đặc trưng từ các đặc

trưng ban đầu mà không có sự thay đổi về giá trị của đặc trưng

x𝑖1

x𝑖2

x𝑖M] (𝑀 < 𝑁)

Hình 1.1 Lựa chọn đặc trưng

Lựa chọn đặc trưng là một trong những phương pháp rất tự nhiên để giải quyết vấn đề loại bỏ các đặc trưng dư thừa, trùng lặp và không liên quan trong dữ liệu Kết quả của lựa chọn đặc trưng là một tập con các đặc trưng từ tập đặc trưng ban đầu nhưng vẫn đảm bảo các tính chất của dữ liệu gốc Lựa chọn đặc trưng giúp: (1) cải tiến hiệu năng (về tốc độ, khả năng

dự đoán, và đơn giản hóa mô hình); (2) trực quan hóa dữ liệu cho việc lựa chọn mô hình; (3) giảm chiều và loại bỏ nhiễu

1.2.1 Mục tiêu của lựa chọn đặc trưng

Mục tiêu chính của lựa chọn đặc trưng là xác định các đặc trưng quan trọng và loại bỏ các đặc trưng không liên quan hoặc không phù hợp Ngoài ra còn một số mục tiêu như: tìm

ra tập con các đặc trưng có kích cỡ nhỏ nhất có thể, mà nó là cần và đủ cho việc phân tích dữ liệu (cụ thể ở đây là phân lớp) Chọn một tập con các đặc trưng nhằm cải tiến độ chính xác

dự đoán hoặc làm giảm kích cỡ của tập dữ liệu mà không làm giảm độ chính xác dự đoán của bộ phân lớp

1.2.2 Phân loại các kỹ thuật lựa chọn đặc trưng

Dựa vào tính sẵn có của thông tin nhãn lớp (label), kỹ thuật lựa chọn đặc trưng có thể được chia thành ba loại: phương pháp có giám sát, bán giám sát, và không giám sát

1.2.3 Các thành phần chính của lựa chọn đặc trưng

Ba thành phần chính của lựa chọn đặc trưng là: (1) Chiến lược tìm kiếm tập con, (2) Hướng tìm kiếm hay nguyên tắc lựa chọn, bổ sung, loại bỏ hoặc thay đổi đặc trưng trong quá trình tìm kiếm, và (3) Tiêu chí đánh giá các tập con khác nhau

1.2.4 Thủ tục lựa chọn đặc trưng

Mặc dù lựa chọn đặc trưng có thể được áp dụng với nhiều mô hình học, tuy nhiên trong khuôn khổ luận án này chúng tôi chỉ tập trung vào việc nghiên cứu kỹ thuật lựa chọn đặc

Trang 7

trưng để tăng hiệu năng của các bộ phân lớp Tiến trình lựa chọn đặc trưng gồm bốn khối chính: Sinh tập con, đánh giá, điều kiện dừng và kiểm chứng kết quả

1.2.5 Các mô hình lựa chọn đặc trưng

Mô hình Lọc

Hình 1.2 Mô hình chọn lựa đặc trưng Lọc

Mô hình Lọc (Filter) là phương pháp lựa chọn đặc trưng đơn giản nhất (Hình 1.2) Đầu vào của mô hình là toàn bộ các đặc trưng của tập dữ liệu, sau khi thực hiện việc đánh giá các đặc trưng sử dụng các độ đo hoặc các tiêu chí nhất định cho trước thì đầu ra của mô hình là danh sách các đặc trưng với điểm số của từng đặc trưng

Mô hình Đóng gói

Mô hình đóng gói (Wrapper) tìm kiếm tập con các đặc trưng tốt bằng cách đánh giá chất lượng của các tập đặc trưng Việc đánh giá chất lượng thường sử dụng hiệu năng (độ chính xác dự đoán hoặc phân lớp) của thuật toán học (Hình 1.3)

Hình 1.3 Mô hình chọn lựa đặc trưng đóng gói

Mô hình đóng gói có thể sử dụng các chiến lược tìm kiếm khác nhau chẳng hạn như tìm kiếm tuần tự, hoặc ngẫu nhiên

Mô hình nhúng

Mô hình nhúng (Embedded) giúp cải tiến hiệu năng phân lớp và tăng tốc độ của quá trình lựa chọn Mô hình nhúng là sự tích hợp, nhúng kỹ thuật lựa chọn đặc trưng vào mô hình học

1.3 Trích xuất đặc trưng

- Trích xuất đặc trưng (Feature extraction): biến đổi không gian đặc trưng ban đầu sang

một không gian khác mà có thể dễ dàng phân tích hơn Hay nói cách khác là nó xây dựng một tập đặc trưng mới từ tập đặc trưng ban đầu với số đặc trưng nhỏ hơn

Tất cả đặc trưng

Filter Tập con đặc trưng tốt nhất

Phân lớp

Tính toán xếp hạng theo các độ đo tương

ứng

Tất cả đặc trưng

Bộ sinh tập con

Thuật toán học

Tập con đặc trưng

Kết quả đánh giá

Wrapper

Tập con đặc trưng tốt nhất

Trang 8

y2

yM] = 𝑓 ([

x1

x2

xN]) (𝑀 < 𝑁)

Hình 1.4 Trích xuất đặc trưng

1.3.1 Mục tiêu của trích xuất đặc trưng

Mục tiêu: tăng hiệu năng của thuật toán học, trực quan hóa dữ liệu được thực hiện dễ dàng hơn và giảm nhiễu và dư thừa

1.3.2 Phân loại các kỹ thuật trích xuất đặc trưng

Các phương pháp không giám sát gồm: Phân tích thành phần chính (PCA), Phân tích

giá trị đơn (SVD), Phân tích yếu tố (FA)…

Các phương pháp có giám sát gồm: Phân tích biệt thức tuyến tính (LDA), Phân tích

thành phần độc lập (ICA)…

1.4 Một số nghiên cứu về rút gọn đặc trưng

1.4.1 Hướng nghiên cứu về lựa chọn đặc trưng

Các nhà nghiên cứu hiện nay tập trung vào phát triển các kỹ thuật lựa chọn đặc trưng theo hai hướng chính là: chiến lược tìm kiếm và tiêu chí đánh giá Chiến lược tìm kiếm kinh nghiệm và tham lam, tìm kiếm dựa trên tối ưu Tiêu chí đánh giá theo: độ đo tương quan và

lý thuyết thông tin, độ đo đánh giá mờ, Tiêu chuẩn phụ thuộc

1.4.2 Hướng nghiên cứu về trích xuất đặc trưng

Hướng nghiên cứu dựa trên lý thuyết thống kê

Phương pháp dựa trên lý thuyết phân tích thống kê là phương pháp thường được sử dụng trong trích xuất đặc trưng Các phương pháp thống kê có thể phân tích và xử lý dữ liệu một cách hiệu quả Chẳng hạn, một số phương pháp cổ điển như phân tích thành phần chính (PCA), phân tích biệt thức tuyến tính (LDA), phân tích yếu tố (FA)

Hướng nghiên cứu dựa trên hàm nhân

Hàm nhân được sử dụng để chuyển đổi dữ liệu từ không gian phi tuyến ban đầu sang không gian đặc trưng tuyến tính Các phương pháp sử dụng hàm nhân nhằm phát triển một hướng tiếp cận mới để giải quyết các bài toán phi tuyến, và từ đó có thể áp dụng các thuật toán phân tích dữ liệu tuyến tính

1.4.3 Phân tích và đánh giá

Cho một tập hợp các đặc trưng đầu vào, việc rút gọn đặc trưng có thể được thực hiện theo hai hướng tiếp cận khác nhau Hướng tiếp cận đầu tiên là lựa chọn ra một tập con các đặc trưng tốt nhất từ tập đặc trưng đầu vào Quá trình này được gọi là lựa chọn đặc trưng Hướng tiếp cận thứ hai là tạo ra các đặc trưng mới dựa trên việc chuyển đổi các đặc trưng ban đầu sang một không gian có chiều thấp hơn và quá trình này được gọi là trích xuất đặc trưng

Sự chuyển đổi này có thể là một sự kết hợp tuyến tính hoặc phi tuyến của các đặc trưng ban đầu Việc sử dụng kỹ thuật lựa chọn đặc trưng hay trích xuất đặc trưng phụ thuộc rất nhiều

Trang 9

vào miền ứng dụng và dữ liệu hiện có Lựa chọn đặc trưng có ưu điểm là tiết kiệm chi phí tính toán Kết quả của quá trình là một số đặc trưng không phù hợp được loại bỏ trong khi các đặc trưng được lựa chọn có khả năng giữ lại đặc tính của dữ liệu gốc Trích xuất đặc trưng có thể cung cấp một khả năng phân tích hoặc trực quan hóa dữ liệu tốt hơn do dữ liệu gốc được chuyển đổi sang không gian đặc trưng mới Tuy nhiên tập đặc trưng được sinh ra sẽ không giữ được tính chất nguyên gốc của dữ liệu ban đầu

1.5 Kết luận chương

Chương này của luận án tập trung vào giới thiệu tổng quan về lĩnh vực rút gọn đặc trưng Phần đầu tập trung vào trình bày các kiến thức cơ sở về bài toán lựa chọn đặc trưng và trích xuất đặc trưng Phần còn lại của chương giới thiệu một số hướng nghiên cứu về rút gọn đặc trưng tiêu biểu hiện nay Đây là những cơ sở lý thuyết giúp ích cho định hướng nghiên cứu và xây dựng các mô hình sẽ được trình bày ở chương tiếp theo Tùy thuộc vào bài toán

và dữ liệu của bài toán, có thể lựa chọn kỹ thuật rút gọn đặc trưng phù hợp để đạt được mục tiêu cải tiến hiệu năng của các thuật toán phân lớp Các kiến thức giới thiệu trong chương này

sẽ được áp dụng để giải quyết các miền dữ liệu cụ thể trong các chương tiếp theo của luận án

Chương 2 KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TOÁN CHO

ĐIỂM TÍN DỤNG

Trong chương này, chúng tôi đề xuất phương pháp lựa chọn đặc trưng dựa vào hướng tìm kiếm tiến và tìm kiếm lùi được trình bày trong chương 1, chúng tôi đề xuất hai hướng tiếp cận, cụ thể như sau:

Hướng thứ nhất là lựa chọn đặc trưng theo hướng tìm kiếm tiến, trong đó việc thêm đặc trưng tốt nhất được thực hiện bằng cách sử dụng các luật lựa chọn đặc trưng có tiêu chí xếp hạng cao nhất Các kết quả nghiên cứu này đã được công bố tại tạp chí khoa học công nghệ quốc tế (Công trình khoa học SANGHV1)

Hướng thứ hai là lựa chọn đặc trưng theo tìm kiếm lùi có tên là FRFE (Fast Recursive Feature Elimination) dựa trên việc loại bỏ đặc trưng đệ quy kết hợp với rừng ngẫu nhiên Tập các đặc trưng được thu gọn dựa vào tiêu chí xếp hạng đặc trưng đề xuất Tiêu chí này được kết hợp từ độ quan trọng của từng đặc trưng, mối liên quan giữa độ chính xác huấn luyện, kiểm tra và độ đo AUC Kết quả thực nghiệm của phương pháp đề xuất trên các bộ dữ liệu tín dụng đã cho kết quả tốt hơn so với một số phương pháp truyền thống Các kết quả nghiên cứu này đã được công bố tại kỉ yếu của hội thảo quốc tế có phản biện

2.1 Bài toán cho điểm tín dụng

Các ngân hàng thương mại thường sử dụng hệ thống cho điểm tín dụng (xếp hạng khách hàng) để đánh giá xem một khách hàng có khả năng trả nợ hay không Đánh giá rủi ro tín dụng dựa trên việc xác định khả năng trả lãi và gốc khi đến hạn Mức độ rủi ro tín dụng

Trang 10

phụ thuộc vào từng khách hàng, doanh nghiệp, trong đó mức độ rủi ro thường được đánh giá bằng các thang điểm dựa vào thông tin tài chính, phi tài chính đã có Dựa trên nhóm khách hàng, mô hình cho điểm tín dụng thường được chia thành hai loại Với nhóm khách hàng là doanh nghiệp, thì áp dụng mô hình xếp hạng tín dụng (credit rate) Mô hình này thường đánh giá mức độ tín dụng bằng các thang điểm như AAA, AA, BBB,…CC của Moody hay Standard

& Poor Với nhóm khách hàng là cá nhân và hộ gia đình thì áp dụng mô hình cho điểm tín dụng (credit scoring); mô hình này thường đơn giản hơn bởi nó chỉ cần dựa vào các thông tin của khách hàng trong quá khứ và hiện tại để đưa ra quyết định có cho vay không Hai mô hình này, hỗ trợ cán bộ tín dụng nhanh chóng ra quyết định đồng thời giám sát và đánh giá mức tín dụng của khách hàng Chúng còn cho phép dự đoán, dự báo những khoản vay có chất lượng không tốt (nợ xấu)

2.2 Các nghiên cứu liên quan

Các phương pháp tuyến tính: PCA, SPCA

Các phương pháp phi tuyến: isomap, LLE

2.3 Phương pháp giải quyết

2.3.1 Sơ đồ hệ thống lựa chọn đặc trưng

Với mục tiêu của luận án là xây dựng một hàm đánh giá đặc trưng phù hợp với dữ liệu tín dụng nhằm cải tiến độ chính xác của kỹ thuật phân lớp và giảm thời gian thực hiện từ đó giúp cho ngân hàng đưa ra những quyết định phù hợp Quy trình lựa chọn đặc trưng với bài toán cho điểm tín dụng như được trình bày Hình 2.1

Hình 2.1 Quy trình lựa chọn đặc trưng của bài toán cho điểm tín dụng

2.3.2 Đề xuất hàm đánh giá và chiến lược tìm kiếm đặc trưng phù hợp

2.3.2.1 Chiến lược lựa chọn đặc trưng tiến

Trong hướng tiếp cận này chúng tôi sử dụng chiến lược tìm kiếm tiến, từ một tập rỗng, lần lượt thêm vào tập đó từng đặc trưng tốt nhất

Các bước thực hiện của thuật toán được đặc tả dưới dạng giả mã như sau:

Thuật toán 2.1: Lựa chọn đặc trưng theo hướng tiến

Đầu vào: S là tập các mẫu (x i , y i ) trong đó x i có chiều là p

Đầu ra: danh sách xếp hạng của p đặc trưng

Phân lớp

Độ chính xác dự báo

Tập con đặc trưng Tập đặc trưng

Trang 11

2 R ← Ø //tập kết quả đã sắp thứ tự của các đặc trưng

3 while F is not empty do

4 for l:=1 to n do //thuc hien n lan

5 for j:=1 to p do //

6 Tính F j,lscore theo công thức 2.2

7 end

8 end

9 loc best ← findLocBest() //tìm vị trí tốt nhất

10 f best ← f j [loc best] //đặc trưng f j có vị trí tốt nhất

11 F = F ᴗ {f best}

12 R = R ᴗ F // thêm đặc trưng tốt nhất vào R

13 end

14 return R

Ý tưởng của thuật toán là cải tiến việc xây dựng hàm đánh giá đặc trưng tốt nhất sau

đó tìm vị trí và đưa vào tập đặc trưng tối ưu Điểm số của đặc trưng thứ j (j=1 p) được tính

Trong đó: 𝐹𝑗𝑘là độ quan trọng của đặc trưng

𝐴𝑘𝑙𝑒𝑎𝑟𝑛 là độ chính xác huấn luyện trong lần kiểm chứng chéo thứ k

𝐴𝑘𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛là độ chính xác kiểm thử trong lần kiểm chứng chéo thứ k

Việc tìm ra vị trí của đặc trưng tốt nhất được thực hiện trong hàm findBestLoc() sử

dụng các luật lựa chọn có thứ tự ưu tiên như sau:

Luật 1: lựa chọn các đặc trưng có điểm số trung vị của 𝐹𝑗𝑠𝑐𝑜𝑟𝑒 cao nhất

Luật 2: lựa chọn các đặc trưng có điểm số trung bình 𝐹𝑗𝑠𝑐𝑜𝑟𝑒cao nhất

Luật 3: lựa chọn các đặc trưng có độ lệch chuẩn 𝐹𝑗𝑠𝑐𝑜𝑟𝑒thấp nhất

2.3.2.2 Chiến lược lựa chọn đặc trưng lùi

Các bước của thuật toán được mô tả dưới dạng mã giả như sau:

Thuật toán 2.2: Lựa chọn đặc trưng theo hướng lùi

Đầu vào: S là tập các mẫu (x i , y i ) trong đó x i có chiều là p

Đầu ra: danh sách xếp hạng của p đặc trưng

Chương trình:

1 F ← tập tất cả p đặc trưng trong S

2 R ← tập rỗng các đặc trưng // tập sắp thứ tự của các đặc trưng

3 while F is not empty do

Trang 12

8 F = F \ {ftoRemove }

9 R = concatenate(ftoRemove,R) // thêm đặc trưng bị loại

10 end

11 return R

Đối với chiến lược lựa chọn theo thuật toán 2.2, tất cả các đặc trưng ban đầu được coi

là tập đặc trưng tốt nhất Thuật toán sẽ loại bỏ lần lượt các đặc trưng theo hàm đánh giá để có tập đặc trưng tối ưu Chúng tôi đã cải tiến việc loại bỏ các đặc trưng bằng hàm FRFE() dựa vào chiến lược quay lui để có kết quả tốt hơn

Ở bước kiểm chứng chéo thứ k, chúng tôi có được đặc trưng quan trọng 𝐹𝑗𝑘, độ chính xác học 𝐴𝑙𝑒𝑎𝑟𝑛𝑘 , độ chính xác kiểm thử 𝐹𝑗𝑠𝑐𝑜𝑟𝑒, độ đo AUC (𝐴𝑈𝐶𝑘𝑙𝑒𝑎𝑟𝑛) Những giá trị này sẽ

được sử dụng để tính toán tiêu chí xếp hạng

Tiêu chí xếp hạng cho đặc trưng thứ j được tính toán như sau:

𝐹𝑗𝑟𝑎𝑛𝑘 = 𝐹𝑗𝑘 × 𝐴𝑘

𝑙𝑒𝑎𝑟𝑛 + 𝐴𝑘𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛

𝐴𝑙𝑒𝑎𝑟𝑛𝑘 − 𝐴𝑘𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛 + 𝜀+ 𝐴𝑈𝐶𝑘

𝑙𝑒𝑎𝑟𝑛 𝑛

Trong đó k=1, , n là số lần kiểm chứng chéo; ε là một số thực đủ nhỏ

Chiến lược loại bỏ đệ quy nhanh (FRFE) sử dụng cả tiêu chí xếp hạng và độ chính xác kiểm thử (test) để loại bỏ các đặc trưng Tiêu chuẩn xếp hạng được sử dụng để tạo ra danh sách các đặc trưng sẽ được loại bỏ và độ chính xác kiểm tra sẽ được dùng để xác định đặc trưng nào sẽ bị loại bỏ vĩnh viễn từ danh sách các đặc trưng sẽ được loại bỏ

2.3.3 Cải tiến tốc độ xử lý bằng thư viện H20

H2O Random forest là một công cụ phân lớp mạnh được cung cấp sẵn trong kiến trúc H2O Quá trình tạo cây được H2O song song hóa và chạy trên các cluster nhờ đó thời gian thực hiện được giảm xuống đáng kể

Trang 13

2.4.2.2 Bộ dữ liệu tín dụng của Úc

Bộ dữ liệu tín dụng của Úc bao gồm 690 ứng viên, với 383 trường hợp tín dụng tốt và

307 trường hợp tín dụng xấu Mỗi mẫu có chứa cả đặc trưng số, đặc trưng phân loại, và văn bản

2.4.3 Kết quả thực nghiệm

2.4.3.1 Bộ dữ liệu tín dụng Đức

Kết quả thực nghiệm lựa chọn đặc trưng theo hướng lựa chọn tiến

Hiệu năng của một số bộ phân lớp khác nhau được so sánh và thể hiện trong Bảng 2.1 Cơ sở dùng để so sánh là kết quả phân lớp mà không lựa chọn đặc trưng

Bảng 2.1 So sánh hiệu năng của các bộ phân lớp trên bộ dữ liệu tín dụng của Đức

Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói

Hơn nữa, phương pháp của chúng tôi dựa trên kỹ thuật xử lý song song của kiến trúc H20 cho phép thời gian để chạy nhanh hơn 9,5 lần so với bộ phân lớp rừng ngẫu nhiên gốc

Kết quả thực nghiệm theo hướng lùi sử dụng FRFE

Áp dụng phương pháp lựa chọn đặc trưng FRFE theo hướng lùi, chúng tôi có kết quả như Hình 2.2

Ngày đăng: 15/01/2021, 16:46

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w