Luận văn Sử dụng cây quyết định phân lớp dữ liệu mất cân đối được thực hiện với mục tiêu chính như thách thức của bài toán phân lớp dữ liệu mất cân đối là vấn đề về đối tượng cần quan tâm nghiên cứu lại có rất ít mẫu - mẫu lớp thiểu số so với các lớp khác trong tập dữ liệu - mẫu lớp đa số.
TỔNG QUAN
Cơ sở hình thành đề tài
Dữ liệu thu thập từ các ứng dụng thực tế thường gặp phải tình trạng mất cân đối, hay còn gọi là tập dữ liệu mất cân đối (imbalanced datasets) Hiện tượng này thường xuất hiện trong nhiều lĩnh vực, đặc biệt là trong chẩn đoán y tế.
[5], phát hiện ung thư bằng xét nghiệm nhũ ảnh [6], phát hiện thư rác trong các giao dịch thư điện tử [7], phát hiện thâm nhập hệ thống [8]…
Trong nghiên cứu về phân lớp, vấn đề quan trọng là sự thiếu hụt mẫu lớp thiểu số so với lớp đa số trong tập dữ liệu Cụ thể, trong ứng dụng y học, lớp bệnh nhân thường có rất ít mẫu so với các lớp khác, và trong lĩnh vực an ninh mạng, giao dịch tấn công cũng chỉ có số lượng mẫu hạn chế so với các giao dịch thông thường khác.
Việc gặp phải vấn đề mất cân đối dữ liệu và chẩn đoán đúng nhãn cho các mẫu thuộc lớp thiểu số là rất quan trọng Khi áp dụng các kỹ thuật phân lớp truyền thống như hồi quy logistic, cây quyết định và máy hỗ trợ vector, các mô hình này thường tối ưu hóa độ chính xác tổng thể Tuy nhiên, điều này dẫn đến việc dự đoán cao cho lớp đa số và kém cho lớp thiểu số, gây khó khăn trong việc nhận diện chính xác các mẫu thiểu số.
Khi làm việc với một tập dữ liệu gồm 10.000 mẫu, trong đó lớp đa số chiếm 9.900 mẫu và lớp thiểu số chỉ có 100 mẫu, việc áp dụng nguyên tắc số đông để gán nhãn cho các mẫu trong tập mất cân bằng có thể dẫn đến những sai lệch trong quá trình phân loại.
Tổng quan cho thấy tỷ lệ lớp nhỏ xấp xỉ 0%, nhưng điều này không chứng minh được rằng bộ phân lớp hoạt động chính xác Do đó, cần thiết phải áp dụng các phương pháp tiếp cận riêng biệt cho các bài toán phân lớp với dữ liệu mất cân đối nhằm dự đoán chính xác mẫu lớp thiểu số.
Các nghiên cứu liên quan
Nhiều nghiên cứu đã nỗ lực phát triển các thuật toán hiệu quả hơn cho việc phân lớp dữ liệu mất cân đối Để giải quyết vấn đề này, có hai phương pháp chính được áp dụng.
Tiếp cận ở mức độ dữ liệu
Những nỗ lực nhằm điều chỉnh kích thước tập huấn để phân bố lớp được cân đối hơn, giúp giảm thiểu tính mất cân đối trong dữ liệu và áp dụng các thuật toán phân lớp chuẩn Có nhiều phương pháp điều chỉnh dữ liệu, trong đó phương pháp Under-sampling là cách giảm số lượng phần tử ở lớp đa số bằng cách loại bỏ ngẫu nhiên Bài báo cũng đề xuất các tiếp cận lấy mẫu dựa trên cụm, trong đó các mẫu huấn luyện được nhóm thành cụm và hoạt động dựa trên số lượng mẫu lớp đa số và thiểu số trong từng cụm Bên cạnh đó, thuật toán Random Border Undersampling cũng được sử dụng để giảm số lượng phần tử ngẫu nhiên tại các đường biên trong dữ liệu mất cân đối.
Thuật toán được cải tiến từ phương pháp under-sampling, một kỹ thuật tiết kiệm thời gian và bộ nhớ trong quá trình phân lớp Tuy nhiên, việc sử dụng under-sampling có thể dẫn đến việc mất mát thông tin quan trọng từ lớp đa số.
Một phương pháp điều chỉnh kích thước mẫu là Over-sampling, trong đó tăng số lượng phần tử ở lớp thiểu số bằng cách sao chép ngẫu nhiên các phần tử này, giúp dữ liệu trở nên cân bằng hơn Tuy nhiên, nhược điểm của phương pháp này là làm tăng kích thước tập dữ liệu huấn luyện, dẫn đến thời gian huấn luyện lâu hơn và nguy cơ quá khớp Để khắc phục vấn đề của Over-sampling, phương pháp SMOTE được áp dụng, trong đó mỗi phần tử lớp thiểu số sẽ sinh thêm các phần tử nhân tạo dựa trên các láng giềng của nó Nhóm tác giả trong bài báo đã đề xuất phương pháp này để cải thiện hiệu quả.
Borderline-SMOTE là một phương pháp cải tiến từ SMOTE, tập trung vào việc tạo ra các phần tử mới cho lớp thiểu số nằm gần biên của tập dữ liệu Phương pháp này nhận định rằng các phần tử lớp thiểu số ở gần đường biên có khả năng bị phân loại sai cao hơn so với những phần tử ở xa đường biên.
Tiếp cận ở mức độ thuật toán
Phương pháp lấy mẫu trong phân tích dữ liệu nhằm cân bằng phân bố bằng cách xem xét tỷ lệ đại diện của các mẫu Đồng thời, ở cấp độ thuật toán, các giải pháp được áp dụng để điều chỉnh chi phí của các lớp khác nhau, nhằm khắc phục sự mất cân đối trong lớp.
Học với chi phí nhạy cảm là một phương pháp trong khai thác dữ liệu, chú trọng đến chi phí phân loại sai Bằng cách gán các chi phí khác nhau cho các lớp thiểu số và đa số, phương pháp này giúp tăng độ chính xác dự đoán cho lớp thiểu số Có nhiều cách thực hiện nghiên cứu học với chi phí nhạy cảm, như sử dụng chi phí nhạy cảm làm tiêu chí tách và áp dụng các phương pháp cắt tỉa Một số bộ phân lớp thuộc loại quần thể, như AdaCost, AdaC1, AdaC2, AdaC3 và DataBoost-IM, đã được phát triển để cải thiện hiệu suất Marcus A Maloof (2003) đã sử dụng chi phí phân loại sai để cập nhật và tối ưu hóa quá trình đào tạo, nhằm giảm thiểu chi phí phân loại sai trong tập huấn luyện.
Cả hai phương pháp tiếp cận đều không gặp vấn đề lớn; tuy nhiên, việc lấy mẫu lại vẫn có những sai lệch liên quan đến tỷ lệ lấy mẫu Đặc biệt, trong các phương pháp học nhạy cảm với chi phí, việc tính toán chi phí phân loại sai vẫn là một vấn đề quan trọng cần được xem xét.
Mục tiêu của luận văn
Bài toán phân lớp dữ liệu mất cân đối đặt ra thách thức lớn do sự thiếu hụt mẫu trong lớp thiểu số, khiến cho số lượng mẫu của lớp này thấp hơn nhiều so với lớp đa số Việc nghiên cứu và cải thiện khả năng phân loại cho các lớp thiểu số là cần thiết để nâng cao độ chính xác và tính hiệu quả của các mô hình học máy.
Bài toán phân lớp dữ liệu mất cân đối dựa trên cây quyết định là phương pháp sử dụng học máy
Tổng quan về ý nghĩa khoa học cho thấy tầm quan trọng của việc thiết lập tiêu chí tách và phương pháp cắt tỉa trong cây quyết định Việc nghiên cứu và cải tiến các vấn đề này là cần thiết để dự đoán chính xác mẫu lớp thiểu số, từ đó nâng cao hiệu quả khai thác và phân lớp dữ liệu mất cân đối.
Để giải quyết các vấn đề còn tồn đọng trong việc sử dụng cây quyết định phân lớp cho dữ liệu mất cân đối, cần thiết phải tập trung nghiên cứu và đề xuất phương pháp cải tiến dựa trên lý luận và thực tiễn Điều này sẽ mở ra những hướng nghiên cứu mới liên quan đến lĩnh vực phân lớp.
Thuật toán AUC4.5, được phát triển từ thuật toán C4.5, sử dụng giá trị AUC (Area Under the ROC) để cải thiện hiệu suất phân loại.
Đặc điểm của Curve [22] được sử dụng thay cho Gain-entropy trong việc phân lớp dữ liệu mất cân đối, phục vụ cho hai mục đích chính: mục tiêu học và độ đo đánh giá.
1.6 Các phương pháp nghiên cứu
1.6.1 Phương pháp nghiên cứu tài liệu
- Nghiên cứu các tài liệu, bài báo liên quan là cơ sở lý luận của luận văn
Nghiên cứu tập trung vào các phương pháp, kỹ thuật và cách tiếp cận hiện có liên quan đến việc sử dụng cây quyết định trong phân lớp dữ liệu mất cân đối Bài viết tổng hợp các công trình đã được công bố của các tác giả trong và ngoài nước, nhằm cung cấp cái nhìn tổng quan về tình hình nghiên cứu trong lĩnh vực phân lớp dữ liệu trong khai thác dữ liệu.
- Nghiên cứu các xu thế và hướng phát triển tương lai liên quan đến luận văn
- Nghiên cứu các tài liệu liên quan, phục vụ cho việc nghiên cứu của luận văn
Tiến hành thực hiện và thử nghiệm các phương pháp được đề xuất trong luận văn nhằm xác định tính chính xác, khả thi và sự phát triển so với các phương pháp đã được công bố của các tác giả trong và ngoài nước liên quan đến luận văn.
1.6.3 Phương pháp thống kê, phân tích dữ liệu
Trong quá trình thực nghiệm, việc thống kê và tổng hợp các số liệu là cần thiết để phân tích và đánh giá kết quả Qua đó, chúng ta có thể đưa ra những kết luận chính xác hoặc điều chỉnh nội dung nghiên cứu cho phù hợp.
1.7 Nội dung và phạm vi của luận văn
Nội dung và phạm vi nghiên cứu của luận văn
Khám phá kiến thức cơ bản về khai thác dữ liệu, bao gồm phân lớp và cây quyết định Tìm hiểu về các vấn đề liên quan đến tập dữ liệu mất cân đối và thuật toán gốc C4.5, cùng với những cải tiến của AUC4.5 trong lĩnh vực này.
Người nghiên cứu sẽ triển khai thuật toán AUC4.5, một phiên bản cải tiến của thuật toán C4.5 Kết quả thực nghiệm từ thuật toán AUC4.5 sẽ được so sánh với những kết quả đạt được từ thuật toán C4.5.
Phân lớp dữ liệu mất cân đối bằng cây quyết định là một phương pháp học máy quan trọng, nhằm nâng cao độ chính xác trong dự đoán mẫu lớp thiểu số Việc cải tiến tiêu chí tách và phương pháp cắt tỉa khi áp dụng cây quyết định là cần thiết để giải quyết vấn đề này Nghiên cứu và phát triển các phương pháp này không chỉ có ý nghĩa khoa học cao mà còn góp phần nâng cao hiệu quả trong khai thác và phân lớp dữ liệu mất cân đối.
Mục tiêu cuối cùng của quá trình khai thác dữ liệu là ứng dụng kết quả vào thực tế Cây quyết định có ưu điểm nổi bật là tạo ra các luật đơn giản, dễ hiểu, và thường được áp dụng trong các hệ thống ra quyết định Tuy nhiên, việc sử dụng cây quyết định để phân lớp dữ liệu mất cân đối có thể dẫn đến kết quả không chính xác Do đó, cần nghiên cứu và điều chỉnh tiêu chí tách cũng như phương pháp cắt tỉa để dự đoán chính xác hơn cho tập dữ liệu mất cân đối Vì vậy, việc nghiên cứu cây quyết định trong phân lớp dữ liệu mất cân đối cần được chú trọng và tiếp tục phát triển.
Các phương pháp nghiên cứu
1.6.1 Phương pháp nghiên cứu tài liệu
- Nghiên cứu các tài liệu, bài báo liên quan là cơ sở lý luận của luận văn
Nghiên cứu các phương pháp và kỹ thuật phân lớp dữ liệu mất cân đối đã được công bố bởi các tác giả trong và ngoài nước, nhằm tìm hiểu hiện trạng và các cách tiếp cận hiệu quả trong lĩnh vực phân lớp dữ liệu trong khai thác dữ liệu.
- Nghiên cứu các xu thế và hướng phát triển tương lai liên quan đến luận văn
- Nghiên cứu các tài liệu liên quan, phục vụ cho việc nghiên cứu của luận văn
Tiến hành thực hiện và thử nghiệm các phương pháp được đề xuất trong luận văn nhằm xác định tính chính xác, khả thi và khả năng phát triển của chúng so với các phương pháp đã được công bố bởi các tác giả trong và ngoài nước có liên quan.
1.6.3 Phương pháp thống kê, phân tích dữ liệu
Thống kê và tổng hợp số liệu từ quá trình thực nghiệm là bước quan trọng giúp phân tích, đánh giá và rút ra những kết luận hoặc điều chỉnh nội dung nghiên cứu.
Nội dung và phạm vi của luận văn
Nội dung và phạm vi nghiên cứu của luận văn
Trong bài viết này, chúng ta sẽ khám phá những kiến thức cơ bản về khai thác dữ liệu, bao gồm phân lớp trong khai thác dữ liệu, cây quyết định, và cách xử lý tập dữ liệu mất cân đối Chúng ta cũng sẽ tìm hiểu về thuật toán gốc của cây quyết định C4.5 cùng với các cải tiến của nó, được gọi là AUC4.5 Những thông tin này sẽ giúp bạn nắm vững các khái niệm quan trọng trong lĩnh vực khai thác dữ liệu.
Người nghiên cứu sẽ triển khai thuật toán AUC4.5, một phiên bản cải tiến của thuật toán C4.5, và tiến hành so sánh kết quả thực nghiệm giữa hai thuật toán này.
Ý nghĩa của luận văn
Phân lớp dữ liệu mất cân đối dựa trên cây quyết định là một phương pháp học máy quan trọng, nhằm nâng cao độ chính xác trong việc dự đoán mẫu lớp thiểu số Việc nghiên cứu và cải tiến các tiêu chí tách cũng như phương pháp cắt tỉa khi áp dụng trên cây quyết định là rất cần thiết, nhằm nâng cao hiệu quả khai thác và phân lớp dữ liệu mất cân đối.
Mục đích cuối cùng của khai thác dữ liệu là ứng dụng kết quả vào thực tế Cây quyết định nổi bật với ưu điểm là tạo ra luật đơn giản và dễ hiểu, được sử dụng rộng rãi trong các hệ thống ra quyết định Tuy nhiên, việc sử dụng cây quyết định để phân lớp dữ liệu mất cân đối có thể dẫn đến kết quả không chính xác Do đó, cần nghiên cứu và điều chỉnh tiêu chí tách cũng như phương pháp cắt tỉa nhằm dự báo chính xác hơn cho tập dữ liệu mất cân đối Vì vậy, bài toán phân lớp dữ liệu mất cân đối bằng cây quyết định cần được chú trọng và phát triển thêm.
Nghiên cứu này nhằm mục đích đóng góp lý luận cho lĩnh vực phân lớp, đồng thời mở rộng ứng dụng trong khai thác dữ liệu và khám phá tri thức.
Bố cục luận văn
Luận văn bao gồm các phần sau:
Bài viết giới thiệu về các vấn đề liên quan đến phân lớp dữ liệu trong khai thác dữ liệu, đồng thời trình bày cơ sở hình thành đề tài và các nghiên cứu liên quan Mục tiêu của luận văn được xác định rõ ràng, cùng với đối tượng nghiên cứu và các phương pháp nghiên cứu được áp dụng Nội dung và phạm vi nghiên cứu được nêu cụ thể, nhấn mạnh ý nghĩa của luận văn trong lĩnh vực này Cuối cùng, bài viết đề cập đến bố cục của luận văn để người đọc dễ dàng theo dõi.
CƠ SỞ LÝ THUYẾT
Tổng quan về khai thác dữ liệu
2.1.1 Khai thác dữ liệu là gì?
Khai thác dữ liệu, xuất hiện vào cuối những năm 1980, là quá trình khám phá thông tin ẩn trong các cơ sở dữ liệu Đây là một giai đoạn quan trọng trong việc khai thác tri thức từ CSDL, giúp hỗ trợ ra quyết định trong nhiều lĩnh vực như khoa học, giáo dục và kinh doanh.
Năm 1989, Fayyad, Smyth và Piatestsky-Shapiro đã giới thiệu khái niệm Phát hiện tri thức từ CSDL, nhấn mạnh rằng KTDL là một giai đoạn quan trọng trong quá trình này, sử dụng các kỹ thuật để phát hiện các mẫu từ dữ liệu.
KTDL là quá trình khám phá và phân tích dữ liệu lớn nhằm phát hiện các mô hình và tổng kết giá trị từ tập dữ liệu cụ thể Qua đó, KTDL giúp nhận diện những mẫu hợp lệ, mới lạ và có ích, từ đó mang lại hiểu biết sâu sắc về dữ liệu.
2.1.2 Quá trình khai thác dữ liệu
Hình 2-1: Quá trình khai thác dữ liệu
Quá trình bắt đầu từ kho dữ liệu thô và kết thúc với tri thức được chiết xuất Mặc dù về lý thuyết có vẻ đơn giản, nhưng thực tế đây là một quá trình phức tạp, gặp nhiều khó khăn như quản lý các tập dữ liệu và phải lặp đi lặp lại toàn bộ quy trình.
Tập hợp dữ liệu là bước khởi đầu quan trọng trong quá trình khai thác dữ liệu (KTDL) Giai đoạn này bao gồm việc thu thập dữ liệu từ các cơ sở dữ liệu, kho dữ liệu và các nguồn thông tin trên Internet.
Trích lọc dữ liệu
Giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó
Tiền xử lý và chuẩn bị dữ liệu
Giai đoạn thu thập dữ liệu là rất quan trọng trong quá trình KTDL Nhiều lỗi thường gặp như thiếu thông tin hoặc không logic có thể xảy ra, dẫn đến dữ liệu chứa các giá trị vô nghĩa và không thể kết nối hiệu quả.
Trong giai đoạn này, việc xử lý các dạng dữ liệu được xem là thông tin dư thừa và không có giá trị là rất quan trọng Nếu không thực hiện làm sạch, tiền xử lý và chuẩn bị dữ liệu trước, những thông tin này có thể dẫn đến những kết quả sai lệch nghiêm trọng trong kinh doanh dữ liệu (KTDL).
Trong giai đoạn chuyển đổi dữ liệu, việc tổ chức lại dữ liệu là cần thiết để đảm bảo rằng nó có thể được sử dụng và điều khiển hiệu quả Dữ liệu sau khi được chuyển đổi sẽ phù hợp với mục đích khai thác, giúp tối ưu hóa quá trình phân tích và ra quyết định.
Giai đoạn mang tính tư duy trong Kinh tế dữ liệu (KTDL) là thời điểm quan trọng khi nhiều thuật toán được áp dụng để phân tích và trích xuất mẫu từ dữ liệu Các thuật toán phổ biến trong giai đoạn này bao gồm thuật toán phân loại dữ liệu, kết hợp dữ liệu và các mô hình hóa dữ liệu tuần tự, giúp tối ưu hóa quá trình xử lý và hiểu biết về thông tin từ dữ liệu.
Đánh giá kết quả mẫu
Giai đoạn cuối của quá trình KTDL là lúc các mẫu dữ liệu được chiết xuất bởi phần mềm Tuy nhiên, không phải tất cả mẫu dữ liệu đều hữu ích, và một số có thể bị sai lệch Do đó, cần ưu tiên các tiêu chuẩn đánh giá để xác định tri thức cần thiết và có thể sử dụng hiệu quả.
2.1.3 Khai thác dữ liệu sử dụng phân lớp
Phân lớp dữ liệu là một quá trình gồm hai bước
Bước thứ nhất – bước học
Quá trình học nhằm xây dựng mô hình mô tả các lớp dữ liệu hoặc khái niệm định trước, với đầu vào là tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và bộ giá trị của chúng Mỗi bộ giá trị được gọi là phần tử dữ liệu, có thể là các mẫu, và giả sử thuộc về một lớp định trước, với lớp này là giá trị của thuộc tính được chọn làm thuộc tính gán nhãn lớp Đầu ra thường là các quy tắc phân lớp dưới dạng luật if-then hoặc cây quyết định Quá trình này được mô tả trong hình 2-2.
Hình 2-2: Quá trình phân lớp dữ liệu - Bước xây dựng mô hình phân lớp
Bước thứ hai – phân lớp
Bước thứ hai là sử dụng mô hình đã xây dựng để phân lớp dữ liệu mới Đầu tiên, độ chính xác dự đoán của mô hình phân lớp vừa tạo ra sẽ được ước lượng Kỹ thuật Holdout là một phương pháp đơn giản để thực hiện ước lượng độ chính xác này.
Kỹ thuật này áp dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp, được chọn ngẫu nhiên và độc lập với tập dữ liệu huấn luyện Độ chính xác của mô hình trên tập dữ liệu kiểm tra được tính bằng tỷ lệ phần trăm các mẫu được phân loại đúng Nếu độ chính xác được ước lượng từ tập dữ liệu huấn luyện, kết quả có thể rất khả quan do mô hình có xu hướng quá khớp dữ liệu.
Để đảm bảo tính chính xác của mô hình, cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu huấn luyện Nếu mô hình đạt độ chính xác chấp nhận được, nó sẽ được áp dụng để phân lớp các dữ liệu tương lai hoặc những dữ liệu có giá trị thuộc tính phân lớp chưa được biết.
Hình 2-3: Quá trình phân lớp dữ liệu – Ước lượng độ chính xác mô hình
Hình 2-4: Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới 2.1.3.2 Phân lớp dữ liệu bằng thuật giải Inductive Learning Algorithm
Thuật giải Inductive Learning Algorithm (ILA) được sử dụng để xác định các luật phân loại cho tập hợp mẫu học Quá trình này diễn ra theo cơ chế lặp, nhằm tìm ra các luật đại diện cho từng lớp mẫu Sau khi luật được xác định, thuật giải sẽ loại bỏ các mẫu mà luật này bao hàm và thêm luật mới vào tập luật Kết quả cuối cùng là một danh sách có thứ tự các luật phân loại.
Mô tả thuật giải ILA [23]