Khoá luận tốt nghiệp chuyên ngành phân tích dữ liệu lớn trong kinh tế và kinh doanh ứng dụng phân lớp dữ liệu mất cân bằng trong dự đoán hành vi gian lận thẻ tín dụng tại ngân hàng

Tuy nhiên, những năm gần đây với sự xuất hiện của dữ liệu phân bố mất cân bằng đang trở thành nguyên nhân gây ra nhiều khó khăn ảnh hưởng đến các thuật toán học máy chuẩn, những thuật to

Tính cấp thiết của đề tài

Trong những năm gần đây, học máy từ dữ liệu phân bố không cân bằng đã trở thành một thách thức lớn cho các nhà nghiên cứu trong nhiều lĩnh vực như mạng internet, bảo mật, viễn thông, quản lý tài chính và tin sinh học Việc phân tích dữ liệu thô ngày càng quan trọng trong các hệ thống hỗ trợ ra quyết định, với nhiều ứng dụng thành công trong khai phá tri thức và xử lý dữ liệu Tuy nhiên, dữ liệu phân bố mất cân bằng gây khó khăn cho các thuật toán học máy chuẩn, dẫn đến việc xử lý dữ liệu lệch lạc và giảm độ chính xác giữa các lớp Vấn đề này đang thu hút sự quan tâm từ các quỹ tài trợ, viện nghiên cứu và cơ sở công nghiệp Khi áp dụng các thuật toán phân lớp truyền thống lên dữ liệu mất cân bằng, độ chính xác có thể cao nhưng độ nhạy lại rất thấp, do phần lớn các phần tử thuộc lớp đa số được phân lớp đúng trong khi lớp thiểu số bị gán nhãn sai.

Thẻ tín dụng đang ngày càng trở nên phổ biến trong các giao dịch trực tuyến và ngoại tuyến, phản ánh sự phát triển mạnh mẽ của hình thức thanh toán này.

Các loại tội phạm lừa đảo sử dụng công nghệ cao đang gia tăng, đặc biệt là trong lĩnh vực thanh toán thẻ tín dụng Việc nhận diện các giao dịch lừa đảo là một chủ đề nghiên cứu quan trọng trong trí tuệ nhân tạo và khoa học dữ liệu, giúp ngân hàng giảm thiểu thất thoát Mặc dù nhiều kỹ thuật đã được phát triển và cho kết quả khả quan, độ chính xác và tốc độ xử lý vẫn là thách thức lớn do dữ liệu thường phân bố lệch và thay đổi theo thời gian.

Bài viết "Ứng dụng phân lớp dữ liệu mất cân bằng trong dự đoán hành vi gian lận thẻ tín dụng tại ngân hàng" sẽ khám phá các kỹ thuật phân lớp dữ liệu mất cân bằng và đề xuất giải pháp nhằm nâng cao chất lượng dịch vụ ngân hàng, đáp ứng tốt hơn nhu cầu của khách hàng.

Mục đích nghiên cứu

Nghiên cứu các kỹ thuật nâng cao hiệu năng phân lớp dữ liệu trên tập dữ liệu mất cân bằng nhằm ứng dụng trong việc phát hiện gian lận thẻ tín dụng ngân hàng.

Phương pháp nghiên cứu

- Phương pháp phân tích, tổng hợp

- Phương pháp quan sát, thực nghiệm

- Phương pháp thảo luận, trình bày, tham khảo ý kiến đánh giá dựa trên kết quả thống kê, 10-fold cross-validation.

Kết cấu khóa luận

- Chương 1: Cơ sở lý luận về phân lớp dữ liệu mất cân bằng

- Chương 2: Một số phương pháp giải quyết bài toán phân lớp dữ liệu mất cân bằng

- Chương 3: Ứng dụng thuật toán phân lớp dữ liệu mất cân bằng trong dự đoán khách hàng gian lận thẻ tín dụng ngân hàng

CƠ SỞ LÝ LUẬN VỀ PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG

Phân lớp dữ liệu

1.1.1 Khái niệm về phân lớp dữ liệu và bài toán phân lớp dữ liệu

Phân lớp dữ liệu là một trong những lĩnh vực nghiên cứu chính trong khai phá dữ liệu, nhằm rút trích quyết định nghiệp vụ thông minh từ cơ sở dữ liệu chứa nhiều thông tin ẩn Đây là một phương pháp phân tích dữ liệu giúp xây dựng mô hình mô tả các lớp dữ liệu quan trọng và dự đoán xu hướng dữ liệu trong tương lai.

Phân lớp là quá trình dự đoán giá trị của các nhãn xác định hoặc giá trị rời rạc, làm việc với dữ liệu có bộ giá trị đã biết Trong khi đó, dự đoán xây dựng mô hình với các hàm nhận giá trị liên tục Ví dụ, mô hình phân lớp dự báo thời tiết có thể xác định thời tiết ngày mai dựa vào các thông số như độ ẩm, sức gió và nhiệt độ Ngoài ra, các quy luật về xu hướng mua sắm của khách hàng giúp nhân viên kinh doanh đưa ra quyết định chính xác về lượng và loại hàng hóa Mô hình dự đoán cũng có thể ước lượng chi tiêu của khách hàng tiềm năng dựa trên thông tin về thu nhập và nghề nghiệp Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm của các nhà nghiên cứu trong nhiều lĩnh vực như học máy, hệ chuyên gia và thống kê, và được ứng dụng rộng rãi trong thương mại, marketing, nghiên cứu thị trường, bảo hiểm, y tế và giáo dục.

Các bộ nhớ (memory resident) thường xử lý lượng dữ liệu nhỏ Nhiều thuật toán mới đã áp dụng kỹ thuật cư trú trên đĩa, giúp cải thiện đáng kể khả năng mở rộng khi làm việc với các tập dữ liệu lớn, lên tới hàng tỷ bản ghi.

• Bài toán phân lớp dữ liệu:

Quá trình phân lớp dữ liệu là việc gán nhãn cho một đối tượng dữ liệu vào một hoặc nhiều lớp đã được xác định trước, thông qua một mô hình phân lớp được xây dựng từ tập dữ liệu huấn luyện có gán nhãn Nhiệm vụ chính của bài toán phân lớp là phát triển một mô hình có khả năng xác định lớp của dữ liệu mới Hình 1.1 dưới đây mô tả bài toán phân lớp dữ liệu.

Hình 1.1 Mô hình mô tả bài toán phân lớp dữ liệu

Bài toán phân lớp dữ liệu có thể phát biểu tổng quát như sau:

Tập hợp thuộc tính được ký hiệu là \( U = \{A_1, A_2, \ldots, A_m\} \) với \( m \) thuộc tính, và tập nhãn lớp là \( Y = \{y_1, y_2, \ldots, y_n\} \) Tập dữ liệu \( D \) được định nghĩa là tích Đề của các miền thuộc tính, tức là \( D = A_1 \times \ldots \times A_m \), với \( n \) lớp và \( N \) mẫu dữ liệu Mỗi mẫu dữ liệu \( d_i \in D \) thuộc về một lớp nhãn \( y_i \in Y \), tạo thành các cặp \( (d_i, y_i) \in (D, Y) \).

1.1.2 Quy trình thực hiện phân lớp dữ liệu

Quy trình phân lớp dữ liệu bao gồm hai bước chính: đầu tiên là quá trình học để xây dựng mô hình phân lớp, và thứ hai là áp dụng mô hình này để phân lớp dữ liệu mới.

Quá trình học nhằm xây dựng mô hình mô tả các lớp dữ liệu hoặc khái niệm định trước, với đầu vào là tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính Mỗi bộ giá trị trong tập dữ liệu được gọi là phần tử dữ liệu, có thể là mẫu, ví dụ, đối tượng, bản ghi hay trường hợp Trong tập dữ liệu này, mỗi phần tử được giả định thuộc về một lớp định trước, với lớp là giá trị của thuộc tính gán nhãn lớp Đầu ra của quá trình này thường là các quy tắc phân lớp dưới dạng luật if-then, cây quyết định, công thức logic, hoặc mạng nơron.

Hình 1.2 Quá trình phân lớp dữ liệu - Bước xây dựng mô hình phân lớp

Bước thứ hai là sử dụng mô hình đã xây dựng để phân lớp dữ liệu mới, trong đó độ chính xác dự đoán của mô hình được ước lượng thông qua kỹ thuật Holdout Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp, được chọn ngẫu nhiên và độc lập với tập dữ liệu đào tạo Độ chính xác của mô hình trên tập dữ liệu kiểm tra được tính bằng tỷ lệ phần trăm các mẫu được phân lớp đúng Nếu độ chính xác được ước lượng từ tập dữ liệu đào tạo, kết quả có thể không chính xác do hiện tượng "quá vừa" dữ liệu Do đó, cần sử dụng một tập dữ liệu kiểm tra độc lập để đảm bảo tính chính xác Nếu độ chính xác đạt yêu cầu, mô hình có thể được áp dụng để phân lớp dữ liệu tương lai hoặc dữ liệu có giá trị thuộc tính phân lớp chưa biết.

Hình 1.3 Quá trình phân lớp dữ liệu - Ước lượng độ chính xác của mô hình

Hình 1.4 Quá trình phân lớp dữ liệu - Phân lớp dữ liệu mới

Trong mô hình phân lớp, thuật toán phân lớp là yếu tố quyết định sự thành công của toàn bộ hệ thống Do đó, việc tìm kiếm một thuật toán phân lớp nhanh, hiệu quả, chính xác và có khả năng mở rộng là rất quan trọng Đặc biệt, khả năng mở rộng của thuật toán được chú trọng và phát triển để đáp ứng nhu cầu ngày càng cao trong phân tích dữ liệu.

1.1.3 Các độ đo đánh giá mô hình phân lớp dữ liệu Để đánh giá một mô hình phân lớp dữ liệu, việc đầu tiên, và thông thường nhất mà các chuyên gia thường thực hiện đó là chia tập dữ liệu thành các phần phục vụ cho việc huấn luyện mô hình (Training Data) và kiểm chứng mô hình (Testing Data) Xây dựng model thông qua việc lựa chọn thuật toán, xác định các biến dữ liệu, hay điều chỉnh các tham số… sao cho phù hợp sẽ dựa trên dữ liệu training Sau khi hoàn thành cơ bản mô hình, tiến hành sử dụng dữ liệu test để thử nghiệm mô hình bằng cách kết hợp nhiều công thức, chỉ số khác nhau để đánh giá mức độ chính xác với input là các kết quả có được khi chạy mô hình với dữ liệu test

Quá trình đánh giá mô hình phân lớp bao gồm hai phần chính: đầu tiên là phân chia bộ dữ liệu để huấn luyện và kiểm chứng mô hình, và thứ hai là sử dụng các chỉ số để đánh giá hiệu quả của mô hình.

Một số tiêu chí mô tả độ hiệu quả của mô hình phân lớp:

- Accuracy: Khả năng mô hình phân lớp dự báo, phân loại hay xác định đúng class cho dữ liệu cần phân loại

Tốc độ của mô hình không chỉ phản ánh khả năng đưa ra kết quả phân tích nhanh chóng mà còn liên quan đến chi phí tính toán trong quá trình xây dựng và sử dụng mô hình.

- Robustness: Khả năng của mô hình xử lý nhiễu hoặc dữ liệu với các giá trị bị thiếu và đưa ra dự đoán chính xác

- Scalability: Phương pháp hay khả năng xây dựng mô hình phân lớp hiệu quả trong xử lý, phân tích lượng lớn dữ liệu

Khả năng giải thích (Interpreability) liên quan đến mức độ phức tạp và cấu trúc của mô hình, cũng như phương pháp xây dựng mô hình có dễ hiểu hay không Đánh giá mô hình là một phần thiết yếu trong quá trình phát triển, giúp xác định mô hình tốt nhất phù hợp với mục tiêu nghiên cứu và loại dữ liệu Hai phương pháp đánh giá phổ biến là holdout và cross-validation.

Phương pháp Holdout là kỹ thuật phân chia ngẫu nhiên tập dữ liệu thành hai tập độc lập: tập huấn luyện và tập kiểm định mô hình Mục tiêu của phương pháp này là đánh giá hiệu quả của mô hình khi áp dụng trên các tập dữ liệu khác nhau Cụ thể, trong phương pháp Holdout, chúng ta sẽ có các tập dữ liệu được phân chia rõ ràng.

- Training set: Dữ liệu phục vụ xây dựng mô hình, xác định các thuật toán, biến dữ liệu phù hợp

Validation set là tập dữ liệu dùng để đánh giá hiệu suất của mô hình trong giai đoạn huấn luyện, giúp tinh chỉnh các tham số và chọn mô hình tốt nhất Tuy nhiên, không phải tất cả các thuật toán phân lớp đều cần sử dụng validation set.

10 pháp Holdout thông thường chỉ cần 2 tập dữ liệu training và test data mà thôi

Phân lớp dữ liệu mất cân bằng

1.2.1 Khái niệm về dữ liệu mất cân bằng

Ngày nay, công nghệ thông tin ảnh hưởng sâu rộng đến mọi lĩnh vực trong cuộc sống, khiến việc khai thác và xử lý thông tin trở thành một yếu tố quan trọng Điều này đóng vai trò quyết định trong sự thành công của nhiều ngành nghề.

Trong thực tế, nhiều bộ dữ liệu xuất hiện tình trạng mất cân bằng, với sự chênh lệch lớn về số lượng phần tử giữa các lớp Lớp có số lượng phần tử nhiều hơn được gọi là lớp đa số, trong khi lớp có số lượng ít hơn được gọi là lớp thiểu số Nhiều ứng dụng thực tế như phát hiện gian lận, xâm nhập mạng, dự đoán rủi ro trong quản lý và chẩn đoán y khoa đều sử dụng các bộ dữ liệu mất cân bằng, trong đó lớp cần chú ý thường chiếm tỷ lệ rất nhỏ so với lớp còn lại.

1.2.2 Các đặc điểm của phân lớp dữ liệu mất cân bằng

Sự chênh lệch giữa số lượng mẫu của lớp đa số và lớp thiểu số làm giảm hiệu quả phân lớp các mẫu thuộc lớp thiểu số Tỷ lệ mất cân bằng của bộ dữ liệu, thể hiện qua số lượng mẫu của hai lớp, càng cao thì việc phát hiện mẫu lớp thiểu số càng khó khăn, với tỷ lệ có thể lên đến 1:100 hoặc 1:1000 Do đó, phân lớp dữ liệu mất cân bằng là một vấn đề quan trọng được các nhà khoa học quan tâm Các bộ phân lớp chuẩn thường thiên vị lớp đa số và bỏ qua lớp thiểu số, dẫn đến việc áp dụng các giải thuật phân lớp truyền thống không thể tạo ra bộ phân lớp hiệu quả.

Việc phân loại sai các mẫu thuộc lớp thiểu số có thể gây nên những tổn thất lớn đối với các lĩnh vực thực tế

1.2.3 Các ứng dụng của phân lớp dữ liệu mất cân bằng

Bài toán phân lớp dữ liệu có nhiều ứng dụng quan trọng trong khoa học, công nghệ và đời sống xã hội Luận văn này sẽ trình bày một số ứng dụng chính của phân lớp dữ liệu.

Việc ứng dụng phân lớp dữ liệu trong y học ngày càng trở nên quan trọng, giúp tìm ra mối liên hệ giữa các triệu chứng và bệnh để hỗ trợ chẩn đoán, điều trị và tiên lượng Trong chẩn đoán, phân lớp dữ liệu giúp nhận dạng và phân loại mẫu thuộc tính đa biến của bệnh nhân Trong điều trị, nó hỗ trợ lựa chọn phương pháp điều trị hiệu quả nhất, trong khi trong tiên lượng, phân lớp dữ liệu dự đoán kết quả điều trị và phẫu thuật dựa trên kết quả trước đó và tình trạng hiện tại của bệnh nhân Bên cạnh đó, công nghệ này còn có thể hỗ trợ cảnh báo dịch bệnh.

Phân tích thị trường bán lẻ:

Kỹ thuật này giúp nhà bán lẻ hiểu rõ hành vi mua sắm của khách hàng, từ đó nhận diện nhu cầu và điều chỉnh bố cục cửa hàng cho phù hợp Bằng cách phân tích và so sánh kết quả giữa các cửa hàng và các nhóm khách hàng khác nhau, nhà bán lẻ có thể tối ưu hóa chiến lược kinh doanh của mình.

Dự đoán hành vi học tập tương lai của học sinh là một nghiên cứu quan trọng, giúp hiểu rõ ảnh hưởng của hỗ trợ giáo dục và kiến thức khoa học đến quá trình học tập Khai thác dữ liệu cho phép các tổ chức đưa ra quyết định chính xác và dự đoán kết quả học tập của học sinh Từ đó, các cơ sở giáo dục có thể xác định rõ những nội dung cần dạy và phương pháp giảng dạy hiệu quả.

Lĩnh vực này áp dụng trong thiết kế hệ thống nhằm trích xuất mối quan hệ giữa kiến trúc sản phẩm, danh mục sản phẩm và dữ liệu nhu cầu của khách hàng Nó cũng hỗ trợ dự đoán thời gian phát triển sản phẩm, chi phí và sự phụ thuộc giữa các nhiệm vụ khác.

Phương pháp giám sát trong việc phát hiện gian lận bao gồm việc thu thập và phân loại các hồ sơ mẫu thành hai loại: gian lận và không gian lận Dựa trên dữ liệu này, một mô hình được xây dựng và áp dụng thuật toán để xác định tính chất gian lận của các hồ sơ.

Hỗ trợ điều tra tội phạm:

Thuật toán phân lớp dữ liệu giúp điều tra tội phạm, giám sát thông tin liên lạc của những kẻ khủng bố bị nghi ngờ

Ngành tài chính - ngân hàng:

Phân lớp dữ liệu giúp giải quyết các vấn đề trong lĩnh vực ngân hàng và tài chính bằng cách phát hiện các mẫu, mối quan hệ nhân quả và tương quan trong thông tin kinh doanh và giá thị trường Điều này đặc biệt quan trọng khi dữ liệu có khối lượng lớn hoặc được tạo ra nhanh chóng, khiến cho người quản lý khó nhận diện được các thông tin quan trọng.

Kết luận chương 1

Chương I của Khóa luận đã giới thiệu về bài toán phân lớp dữ liệu nói chung và phân lớp dữ liệu mất cân bằng nói riêng cùng các vấn đề liên quan Khóa luận cũng khảo sát tổng quan về dữ liệu mất cân bằng, các đặc điểm của phân lớp dữ liệu mất cân bằng

Khóa luận đã nghiên cứu hai phương pháp để giải quyết vấn đề phân lớp dữ liệu mất cân bằng, bao gồm tiếp cận ở mức độ dữ liệu và tiếp cận ở mức độ thuật toán.

Trong chương tiếp theo Khóa luận sẽ nghiên cứu một số phương pháp giải quyết bài toán phân lớp trên dữ liệu mất cân bằng

PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG

Vấn đề mất cân bằng dữ liệu trong phát hiện gian lận tại ngân hàng

Sự phát triển của ngân hàng số và thẻ tín dụng đi kèm với gia tăng lừa đảo qua giao dịch ngân hàng Trí tuệ nhân tạo có thể được áp dụng để giải quyết vấn đề này như một bài toán phân loại, nhưng thách thức lớn nhất là sự mất cân bằng dữ liệu Gian lận giao dịch được thực hiện qua nhiều phương pháp, với mục tiêu cuối cùng là hoàn thành giao dịch để chiếm đoạt tài sản Để ngăn chặn gian lận, ngoài việc tăng cường bảo mật tài khoản qua xác thực nhiều lớp, chúng ta có thể phân tích các thuộc tính giao dịch để phát hiện dấu hiệu bất thường Tuy nhiên, việc này đòi hỏi nhiều phân tích từ chuyên gia, gây tốn thời gian và ảnh hưởng đến chất lượng dịch vụ Với sự phát triển của Trí tuệ nhân tạo, chúng ta có thể tự động hóa quy trình này, đạt hiệu quả cao mà không cần can thiệp của con người, đồng thời vẫn đảm bảo chất lượng dịch vụ.

Chúng ta sẽ sử dụng dữ liệu từ các giao dịch trong quá khứ, được phân loại thành giao dịch bình thường và giao dịch gian lận, để huấn luyện mô hình dự đoán các giao dịch tương lai Tuy nhiên, một thách thức lớn trong quá trình huấn luyện là sự mất cân bằng về số lượng giữa các lớp, điều này có thể ảnh hưởng trực tiếp đến hiệu quả của mô hình.

Phát hiện gian lận là một ứng dụng quan trọng của Machine Learning trong phân lớp dữ liệu mất cân bằng ngân hàng, nhờ vào khả năng phân tích nhanh chóng và chính xác hàng triệu điểm dữ liệu từ các giao dịch đồng thời Hệ thống sẽ kiểm tra thông tin liên quan đến thời gian, hành vi của khách hàng và các thông số khác để xác định hành vi gian lận, từ đó tự động gửi cảnh báo về trung tâm bảo mật hoặc từ chối giao dịch gian lận thẻ tín dụng Điều này giúp các nhà băng kịp thời ngăn chặn và giảm thiểu rủi ro không đáng có, tối ưu hóa hiệu quả trong việc phát hiện gian lận.

Ứng dụng phân lớp dữ liệu mất cân bằng không chỉ phát hiện sai phạm mà còn giảm tỷ lệ từ chối sai và nâng cao độ chính xác trong phê duyệt Nhờ khả năng tự học từ dữ liệu quá khứ và quét lượng lớn thông tin, nó thực hiện tốt nhiệm vụ xác minh, từ đó cải thiện trải nghiệm khách hàng bằng cách loại bỏ các bước xác minh phức tạp.

Bài khóa luận này tập trung vào việc giải quyết vấn đề mất cân bằng dữ liệu trong gian lận thẻ tín dụng tại ngân hàng Mục tiêu là khắc phục những vấn đề do dữ liệu mất cân bằng gây ra cho bộ dữ liệu khách hàng, từ đó phát hiện các giao dịch gian lận Việc áp dụng các giải pháp này vào dịch vụ ngân hàng sẽ giúp giảm thiểu khả năng mất mát tài sản khi sử dụng dịch vụ.

Tổng quan kỹ thuật xử lý dữ liệu mất cân bằng

Hiện nay, có nhiều kỹ thuật để giải quyết vấn đề phân lớp cho các bộ dữ liệu mất cân bằng Các kỹ thuật này có thể được chia thành hai hướng tiếp cận chính: một là ở mức độ dữ liệu và hai là ở mức độ thuật toán.

2.2.1 Hướng tiếp cận ở mức độ dữ liệu

Hướng tiếp cận ở mức độ dữ liệu bao gồm các phương pháp điều chỉnh phân bố dữ liệu bằng cách tăng số lượng phần tử lớp thiểu số, giảm số lượng phần tử lớp đa số hoặc kết hợp cả hai Mục tiêu của cả ba phương pháp này là cân bằng phân bố dữ liệu Ưu điểm của các phương pháp này là tính linh hoạt, cho phép dữ liệu được sử dụng để huấn luyện nhiều loại bộ phân loại khác nhau.

2.2.1.1 Phương pháp sinh thêm phần tử (Over – sampling)

Phương pháp sinh thêm phần tử giúp mở rộng tập dữ liệu ban đầu bằng cách tạo ra một tập dữ liệu lớn hơn Có nhiều cách để thực hiện điều này, bao gồm việc sinh thêm phần tử một cách ngẫu nhiên, lựa chọn các phần tử để sinh thêm, hoặc tạo ra các phần tử nhân tạo Trong đó, sinh thêm phần tử một cách ngẫu nhiên là một phương pháp phổ biến.

Phương pháp sinh thêm phần tử đơn giản nhất là sinh thêm phần tử lớp thiểu số một cách ngẫu nhiên (Random over-sampling), trong đó các phần tử lớp thiểu số được chọn ngẫu nhiên và nhân bản để tăng số lượng Ưu điểm của phương pháp này là tính đơn giản và dễ thực hiện Tuy nhiên, nó cũng có những hạn chế như làm tăng khả năng quá khít của mô hình phân lớp và kéo dài thời gian học nếu tập dữ liệu huấn luyện đã lớn Hình 2.1 minh họa phương pháp này, trong đó các phần tử lớp thiểu số mang nhãn gian lận và lớp đa số mang nhãn hợp pháp, với các phần tử sinh thêm được gán nhãn gian lận, biểu diễn bằng hình tam giác màu xanh.

Hình 2.1 Sinh thêm phần tử một cách ngẫu nhiên b) Sinh thêm phần tử nhân tạo

SMOTE (Synthetic Minority Over-sampling Technique) là một phương pháp hiệu quả để tạo ra các phần tử nhân tạo cho lớp thiểu số, được áp dụng thành công trong nhiều lĩnh vực khác nhau Thuật toán này dựa trên ý tưởng chính là tăng cường số lượng mẫu của lớp thiểu số nhằm cải thiện độ chính xác của các mô hình học máy.

- Với mỗi phần tử lớp thiểu số xác định k láng giềng gần nhất của nó trong lớp thiểu số

- Lựa chọn ngẫu nhiên một (hoặc tất cả) láng giềng trong k láng giềng gần nhất tùy thuộc vào số lượng phần tử cần sinh thêm

Để tạo thêm phần tử nhân tạo trên đoạn thẳng nối phần tử đang xét và láng giềng, ta tính độ lệch giữa véc tơ thuộc tính của phần tử lớp thiểu số và láng giềng của nó Sau đó, nhân độ lệch này với một số ngẫu nhiên từ 0 đến 1 và cộng kết quả với véc tơ thuộc tính của phần tử lớp thiểu số Kết quả thu được là véc tơ thuộc tính của phần tử nhân tạo, được gán thuộc tính nhãn là lớp thiểu số.

Tùy thuộc vào số lượng cần tăng cường cho lớp thiểu số, chúng ta sẽ chọn số láng giềng trong k láng giềng gần nhất Ví dụ, nếu tập dữ liệu nhân tạo gấp đôi tập dữ liệu thiểu số ban đầu (200%), thì với mỗi phần tử dữ liệu ban đầu, chúng ta sẽ xác định hai láng giềng ngẫu nhiên trong k láng giềng.

Trong quá trình tạo ra các phần tử nhân tạo, chúng ta thực hiện việc sinh thêm hai phần tử cho mỗi láng giềng gần nhất, kết nối chúng với phần tử đang xét và hai láng giềng của nó Nếu cần thiết, có thể lựa chọn nhiều láng giềng hơn để tạo ra nhiều phần tử nhân tạo hơn.

Giả mã của thuật toán SMOTE như sau:

Thuật toán SMOTE(T, N, k) Đầu vào: Tập các phần tử lớp thiểu số T, số SMOTE N%, số lượng láng giềng gần nhất k Đầu ra: (N/100)*T phần tử nhân tạo lớp thiểu số

1 (*Nếu N nhỏ hơn 100%, chọn ngẫu nhiên N% các phần tử lớp thiểu số sẽ thực hiện SMOTE*)

3 then lựa chọn ngẫu nhiên các phần tử lớp thiểu số T

8 k = số láng giềng gần nhất

10 Sample [][]: mảng các phần tử lớp thiểu số ban đầu

11 newindex: chỉ số của phần tử nhân tạo được sinh ra, giá trị khởi tạo bằng 0

12 Synthentic [][]: mảng các phần tử nhân tạo

(*Tính k láng giềng gần nhất của mỗi phần tử lớp thiểu số*)

14 Tính k láng giềng gần nhất của i và lưu vào mảng nnarray

Populate(N, i, nnarray) (*Hàm sinh ra các phần tử nhân tạo*)

18 Chọn ngẫu nhiên một số từ 1 đến k, gọi là nn

19 for attr ←1 to numattrs do

20 Tính: dif = Sample[nnarray[nn]][attr] – Sample[i][attr]

21 Tính: gap = một số ngẫu nhiên giữa 0 và 1

22 Synthentic[newindex][attr] = Sample[i][attr] + gap*dif

27 return (*Kết thúc hàm Populate*)

Sau khi áp dụng thuật toán SMOTE, các phần tử nhân tạo được sinh ra trên đoạn thẳng nối giữa các phần tử dữ liệu lớp thiểu số ban đầu, cho thấy không gian của tập dữ liệu lớp thiểu số không thay đổi đáng kể Mỗi phần tử dữ liệu thiểu số ban đầu sẽ có một số lượng phần tử dữ liệu nhân tạo xung quanh, tùy thuộc vào tham số SMOTE N%.

Hình 2.2 Ví dụ minh họa việc sinh phần tử nhân tạo

Hình 2.2 minh họa quá trình sinh ra một phần tử nhân tạo, trong đó phần tử lớp đa số được biểu thị bằng màu xanh và phần tử lớp thiểu số bằng màu đỏ Phần tử đang xét sẽ tìm bốn láng giềng gần nhất và chọn ngẫu nhiên một trong số đó Phần tử nhân tạo được tạo ra trên đoạn thẳng nối giữa phần tử đang xét và láng giềng đã chọn.

Hình 2.3 Các phần tử nhân tạo (màu tím)

Hình 2.3 minh họa các phần tử nhân tạo được sinh ra trong khu vực của các phần tử dữ liệu lớp thiểu số

Sau đây là một ví dụ cụ thể về việc tính toán để tạo ra một phần tử dữ liệu nhân tạo:

Xét một bộ dữ liệu huấn luyện với ba thuộc tính, trong đó thuộc tính cuối cùng là thuộc tính lớp và các giá trị thuộc tính là giá trị thực Giả sử phần tử dữ liệu thiểu số là (5, 4), thì (3, 7) là một trong những láng giềng gần nhất của nó Sau khi xác định k láng giềng gần nhất của (5, 4), (3, 7) được chọn ngẫu nhiên làm láng giềng.

Ta có độ lệch của hai véc tơ: (𝑓2_1, 𝑓2_2) − (𝑓1_1, 𝑓2_1) = (−2, 3) Véc tơ phần tử dữ liệu nhân tạo được tính toán như sau:

Trong đó rand(0-1) sinh ra một số ngẫu nhiên giữa 0 và 1

Thuật toán SMOTE có thể được kết hợp với nhiều phương pháp khác nhau như điều chỉnh giảm kích thước mẫu, lựa chọn thuộc tính và điều chỉnh thuật toán phân lớp để tối ưu hóa hiệu quả phân lớp SMOTE được xem là thuật toán tiên phong trong việc sinh thêm phần tử nhân tạo cho lớp thiểu số, và hầu hết các thuật toán sinh phần tử nhân tạo sau này đều dựa trên những cải tiến từ SMOTE.

Thuật toán SMOTE, được giới thiệu trước đây, là phương pháp đầu tiên tạo ra các phần tử nhân tạo để cân bằng dữ liệu Tuy nhiên, SMOTE áp dụng tác động đồng đều cho tất cả các phần tử trong lớp thiểu số mà không xem xét các yếu tố quan trọng trong việc xây dựng mô hình Để cải thiện độ chính xác trong phân loại, các thuật toán thường tập trung vào việc học đường biên của mỗi lớp Các phần tử gần đường biên có nguy cơ bị phân loại sai cao hơn, do đó, chúng có vai trò quan trọng hơn Nhận thấy điều này, nhóm tác giả Hui Han, Wen-Yuan Wang, và Bing-Huan Mao đã phát triển thuật toán Borderline-SMOTE, cải tiến từ SMOTE, nhằm tìm ra các phần tử nằm trên đường biên của lớp thiểu số và tạo ra các phần tử nhân tạo xung quanh chúng.

Thuật toán Borderline-SMOTE cải tiến phương pháp SMOTE bằng cách xác định các phần tử nằm trên biên của lớp dữ liệu Cụ thể, nó vẫn sử dụng cách sinh ra phần tử nhân tạo bằng cách xác định k láng giềng gần nhất cho một phần tử dữ liệu đang xét, sau đó chọn ngẫu nhiên một trong các láng giềng đó để tạo ra phần tử nhân tạo trên đoạn thẳng nối giữa phần tử đang xét và láng giềng.

Để xác định một phần tử có phải là phần tử biên hay không, thuật toán dựa vào số lượng láng giềng thuộc lớp đa số m’ trong tổng số m láng giềng gần nhất Nếu điều kiện m/2 ≤ m’ < m được thỏa mãn, thì phần tử đó được coi là phần tử biên.

Giả sử có bộ dữ liệu huấn luyện là T, trong đó tập dữ liệu đa số là N và tập dữ liệu lớp thiểu số là P:

Trong đó pnum và nnum là số phần tử của tập P và tập N

Kết luận chương 2

Trong chương 2, khóa luận phân tích sâu về tình trạng mất cân bằng dữ liệu tín dụng và các phương pháp hiện tại để khắc phục vấn đề này Tác giả trình bày ý tưởng và thuật toán của một số phương pháp điều chỉnh mất cân bằng dữ liệu Dựa trên đó, tác giả đề xuất một phương pháp mới nhằm tăng cường phần tử lớp thiểu số, giúp giảm thiểu tình trạng mất cân bằng dữ liệu và nâng cao hiệu quả trong việc phát hiện gian lận tín dụng ngân hàng.

ỨNG DỤNG VÀ THỰC NGHIỆM

Tiêu đề	Ứng dụng phân lớp dữ liệu mất cân bằng trong dự đoán hành vi gian lận thẻ tín dụng tại ngân hàng
Tác giả	Phan Thị Ngà
Người hướng dẫn	TS. Nguyễn Hữu Xuân Trường
Trường học	Học viện Chính sách và Phát triển
Chuyên ngành	Phân tích dữ liệu lớn trong kinh tế và kinh doanh
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	67
Dung lượng	1,47 MB