LUAN VAN THAC SI BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH LÊ THANH PHONG SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG[.]
TỔNG QUAN
Cơ sở hình thành đề tài
Dữ liệu thu thập từ các ứng dụng thực tế thường gặp phải tình trạng mất cân đối, hay còn gọi là tập dữ liệu mất cân đối Tình trạng này thường xuất hiện trong nhiều lĩnh vực, đặc biệt là trong chẩn đoán y tế.
[5], phát hiện ung thư bằng xét nghiệm nhũ ảnh [6], phát hiện thư rác trong các giao dịch thư điện tử [7], phát hiện thâm nhập hệ thống [8]…
Trong các vấn đề phân lớp, đối tượng nghiên cứu thường gặp khó khăn do sự thiếu hụt mẫu lớp thiểu số so với mẫu lớp đa số Cụ thể, trong lĩnh vực y học, số lượng bệnh nhân thường rất ít so với các lớp khác, và trong hệ thống mạng, các giao dịch tấn công cũng chỉ có số lượng mẫu hạn chế so với các giao dịch thông thường.
Việc gặp phải vấn đề mất cân đối dữ liệu và chẩn đoán chính xác nhãn của mẫu thuộc lớp thiểu số là rất quan trọng Khi áp dụng các kỹ thuật phân lớp truyền thống như hồi quy logistic, cây quyết định và máy hỗ trợ vector, các mô hình này thường tối ưu độ chính xác tổng thể, nhưng lại có xu hướng dự đoán cao cho lớp đa số và kém cho lớp thiểu số.
Trong một tập dữ liệu gồm 10.000 mẫu, lớp đa số chiếm 9.900 mẫu, trong khi lớp thiểu số chỉ có 100 mẫu Nếu áp dụng nguyên tắc số đông để gán nhãn cho các mẫu trong tập mất cân bằng này, sẽ dẫn đến việc bỏ qua lớp thiểu số.
Tổng quan cho thấy xác suất của lớp nhỏ xấp xỉ 0%, tuy nhiên, điều này không chứng minh được độ chính xác của bộ phân lớp Do đó, cần thiết phải áp dụng các phương pháp tiếp cận riêng biệt cho các bài toán phân lớp với dữ liệu mất cân đối nhằm dự đoán chính xác mẫu lớp thiểu số.
Các nghiên cứu liên quan
Nhiều nghiên cứu đã tìm kiếm các giải thuật hiệu quả hơn cho việc phân lớp dữ liệu mất cân đối Để giải quyết vấn đề này, có hai hướng tiếp cận chính.
Tiếp cận ở mức độ dữ liệu
Những nỗ lực nhằm thay đổi kích thước tập huấn để cân đối phân bố lớp là rất quan trọng Điều này có nghĩa là điều chỉnh phân bố dữ liệu của các lớp để giảm thiểu tính mất cân đối, từ đó áp dụng các thuật toán phân lớp chuẩn Một trong những phương pháp điều chỉnh dữ liệu là Under-sampling, giúp giảm số lượng phần tử ở lớp đa số Phương pháp đơn giản nhất là loại bỏ ngẫu nhiên các phần tử ở lớp đa số Dựa trên kỹ thuật này, một số nghiên cứu đã đề xuất các tiếp cận lấy mẫu dựa trên cụm, trong đó các mẫu huấn luyện được phân nhóm thành các cụm Nếu một cụm có nhiều mẫu lớp đa số hơn, nó sẽ hoạt động như lớp đa số, ngược lại, nếu có nhiều mẫu lớp thiểu số hơn, nó sẽ hoạt động như lớp thiểu số.
Undersampling [11], làm giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân đối
Thuật toán được cải tiến từ phương pháp under-sampling, một kỹ thuật tiết kiệm thời gian và bộ nhớ trong quá trình phân lớp Tuy nhiên, phương pháp này có thể dẫn đến việc mất mát thông tin quan trọng từ lớp đa số.
Một phương pháp hiệu quả để cân bằng dữ liệu là Over-sampling, trong đó tăng kích thước mẫu bằng cách sao chép ngẫu nhiên các phần tử từ lớp thiểu số Mặc dù phương pháp này giúp cân bằng dữ liệu, nhưng nó cũng làm tăng kích thước tập huấn luyện, dẫn đến thời gian huấn luyện lâu hơn và nguy cơ quá khớp Để khắc phục nhược điểm này, phương pháp SMOTE được đề xuất, cho phép tạo ra các phần tử nhân tạo bằng cách kết hợp các phần tử lớp thiểu số với các láng giềng của chúng.
Borderline-SMOTE là một phương pháp cải tiến từ SMOTE, tập trung vào việc sinh thêm các phần tử của lớp thiểu số nằm ở biên của tập dữ liệu Phương pháp này cho rằng các phần tử lớp thiểu số ở gần đường biên có nguy cơ bị phân loại sai cao hơn so với những phần tử nằm xa đường biên.
Tiếp cận ở mức độ thuật toán
Phương pháp lấy mẫu ở mức độ dữ liệu nhằm cân bằng phân bố bằng cách xem xét tỷ lệ đại diện của các mẫu trong phân bố dữ liệu Trong khi đó, ở mức độ thuật toán, các giải pháp bao gồm điều chỉnh chi phí của các lớp khác nhau để khắc phục sự mất cân đối của lớp.
Học với chi phí nhạy cảm là một phương pháp trong khai thác dữ liệu, chú trọng đến chi phí phân loại sai Bằng cách gán các chi phí khác nhau cho các lớp thiểu số và đa số, phương pháp này giúp tăng cường độ chính xác dự đoán cho lớp thiểu số Có nhiều cách để thực hiện nghiên cứu học với chi phí nhạy cảm, bao gồm việc sử dụng chi phí nhạy cảm làm tiêu chí tách và áp dụng các phương pháp cắt tỉa Một số bộ phân lớp thuộc loại quần thể như AdaCost, AdaC1, AdaC2, và AdaC3, cùng với DataBoost-IM, đã được phát triển để cải thiện hiệu suất Marcus A Maloof (2003) đã sử dụng chi phí của phân loại sai để cập nhật quá trình đào tạo, nhằm giảm thiểu chi phí phân loại sai trong tập huấn luyện.
Cả hai phương pháp tiếp cận đều không gặp vấn đề lớn, tuy nhiên, việc lấy mẫu vẫn có những sai sót liên quan đến tỷ lệ lấy mẫu Đặc biệt, trong các phương pháp học nhạy cảm với chi phí, việc tính toán chi phí phân loại sai vẫn là một vấn đề cần được xem xét kỹ lưỡng.
Mục tiêu của luận văn
Bài toán phân lớp dữ liệu mất cân đối đặt ra thách thức lớn do sự thiếu hụt mẫu ở lớp thiểu số so với lớp đa số trong tập dữ liệu Việc nghiên cứu và giải quyết vấn đề này là rất cần thiết để cải thiện độ chính xác và hiệu quả của các mô hình học máy.
Bài toán phân lớp dữ liệu mất cân đối dựa trên cây quyết định là phương pháp sử dụng học máy
Tổng quan về ý nghĩa khoa học rất cao, việc thiết lập tiêu chí tách và phương pháp cắt tỉa cho cây quyết định là những vấn đề cần được nghiên cứu và cải tiến Điều này nhằm dự đoán chính xác mẫu lớp thiểu số, từ đó nâng cao hiệu quả khai thác và phân lớp dữ liệu mất cân đối.
Người nghiên cứu nhận thấy rằng việc tập trung vào lý luận và thực tiễn là rất cần thiết để đề xuất các phương pháp cải tiến, nhằm giải quyết các vấn đề còn tồn đọng trong việc sử dụng cây quyết định phân lớp cho dữ liệu mất cân đối Điều này sẽ mở ra một số hướng nghiên cứu liên quan tiếp theo cho lĩnh vực phân lớp.
Thuật toán AUC4.5 được phát triển dựa trên thuật toán C4.5, sử dụng giá trị AUC (Diện tích dưới đường cong ROC) để cải thiện hiệu suất phân loại.
Đặc trưng của đường cong [22] thay thế cho Gain-entropy nhằm phân lớp dữ liệu mất cân đối cho hai mục đích chính: mục tiêu học và độ đo đánh giá.
1.6 Các p hương pháp nghiên cứ u
1.6.1 P hương phá p nghiên cứu tài liệu
- Nghiên cứu các tài liệu, bài báo liên quan là cơ sở lý luận của luận văn
Nghiên cứu các phương pháp và kỹ thuật phân lớp dữ liệu, đặc biệt là việc sử dụng cây quyết định, đã được nhiều tác giả trong và ngoài nước công bố Bài viết này tập trung vào hiện trạng và các cách tiếp cận liên quan đến lĩnh vực phân lớp trong khai thác dữ liệu, nhằm cung cấp cái nhìn tổng quan và cập nhật về các nghiên cứu hiện tại.
- Nghiên cứu các xu thế và hướng phát triển tương lai liên quan đến luận văn
- Nghiên c ứ u các tài li ệ u liên quan, ph ụ c v ụ cho vi ệ c nghiên c ứ u c ủ a lu ận văn.
Tiến hành thực hiện và thử nghiệm các phương pháp được đề xuất trong luận văn nhằm xác định tính chính xác, khả thi và sự phát triển so với các phương pháp đã được công bố của các tác giả trong và ngoài nước liên quan đến luận văn.
1.6.3 Phương pháp thống kê, phân tích dữ liệu
Thống kê và tổng hợp số liệu từ quá trình thực nghiệm là cần thiết để phân tích, đánh giá và đưa ra kết luận hoặc điều chỉnh nội dung nghiên cứu.
1.7 N ộ i dung và ph ạ m vi c ủ a lu ậ n văn
Nội dung và phạm vi nghiên cứu của luận văn
Tìm hiểu kiến thức cơ bản về khai thác dữ liệu, bao gồm phân lớp, cây quyết định, và cách xử lý tập dữ liệu mất cân đối Nắm vững thuật toán gốc C4.5 và các cải tiến của nó, như AUC4.5, để nâng cao hiệu quả trong phân tích dữ liệu.
Người nghiên cứu sẽ tiến hành thực hiện thuật toán cải tiến từ thuật toán C4.5, được gọi là AUC4.5 Kết quả thực nghiệm từ thuật toán AUC4.5 sẽ được so sánh với kết quả của thuật toán C4.5.
1.8 Ý nghĩa củ a lu ận văn
Phân lớp dữ liệu mất cân đối bằng cây quyết định là một phương pháp học máy quan trọng, nhằm nâng cao độ chính xác trong dự đoán mẫu lớp thiểu số Việc nghiên cứu và cải tiến tiêu chí tách cũng như phương pháp cắt tỉa trên cây quyết định là cần thiết để đạt được mục tiêu này Những cải tiến này không chỉ giúp nâng cao hiệu quả khai thác dữ liệu mà còn góp phần quan trọng vào việc phân lớp dữ liệu mất cân đối.
Mục đích cuối cùng của khai thác dữ liệu là ứng dụng kết quả vào thực tế Cây quyết định nổi bật với luật sinh ra đơn giản, dễ hiểu và được áp dụng rộng rãi trong các hệ thống ra quyết định Tuy nhiên, khi sử dụng cây quyết định để phân lớp dữ liệu mất cân đối, kết quả có thể không chính xác Do đó, cần nghiên cứu và điều chỉnh tiêu chí tách cũng như phương pháp cắt tỉa để dự báo chính xác hơn cho tập dữ liệu mất cân đối Vì vậy, bài toán sử dụng cây quyết định trong phân lớp dữ liệu mất cân đối cần được chú trọng và tiếp tục phát triển.
Các phương pháp nghiên cứu
1.6.1 P hương phá p nghiên cứu tài liệu
- Nghiên cứu các tài liệu, bài báo liên quan là cơ sở lý luận của luận văn
Nghiên cứu các phương pháp và kỹ thuật phân lớp dữ liệu, đặc biệt là việc sử dụng cây quyết định, đã được nhiều tác giả trong và ngoài nước công bố Bài viết này tập trung vào hiện trạng và các cách tiếp cận liên quan đến lĩnh vực phân lớp trong khai thác dữ liệu, nhằm cung cấp cái nhìn tổng quan và cập nhật về các nghiên cứu hiện tại.
- Nghiên cứu các xu thế và hướng phát triển tương lai liên quan đến luận văn
- Nghiên c ứ u các tài li ệ u liên quan, ph ụ c v ụ cho vi ệ c nghiên c ứ u c ủ a lu ận văn.
Tiến hành thực nghiệm các phương pháp được đề xuất trong luận văn nhằm xác định tính chính xác, khả thi và sự phát triển so với các phương pháp đã được công bố của các tác giả trong và ngoài nước liên quan đến luận văn.
1.6.3 Phương pháp thống kê, phân tích dữ liệu
Thống kê và tổng hợp số liệu từ quá trình thực nghiệm là bước quan trọng để phân tích, đánh giá và rút ra kết luận hoặc điều chỉnh nội dung nghiên cứu.
Nội dung và phạm vi của luận văn
Nội dung và phạm vi nghiên cứu của luận văn
Tìm hiểu kiến thức cơ bản về khai thác dữ liệu, bao gồm phân lớp, cây quyết định, và cách xử lý tập dữ liệu mất cân đối Nắm vững thuật toán gốc C4.5 và các cải tiến của nó, như AUC4.5, để nâng cao hiệu quả trong phân tích dữ liệu.
Người nghiên cứu sẽ tiến hành thực hiện thuật toán cải tiến từ thuật toán C4.5, được gọi là AUC4.5 Kết quả thực nghiệm từ thuật toán AUC4.5 sẽ được so sánh với kết quả của thuật toán C4.5.
Ý nghĩa của luận văn
Phân lớp dữ liệu mất cân đối bằng cây quyết định là một phương pháp học máy quan trọng, nhằm nâng cao độ chính xác trong dự đoán mẫu lớp thiểu số Việc nghiên cứu và cải tiến tiêu chí tách cũng như phương pháp cắt tỉa trên cây quyết định là cần thiết để đạt được mục tiêu này, từ đó nâng cao hiệu quả trong khai thác và phân lớp dữ liệu mất cân đối.
Mục đích cuối cùng của khai thác dữ liệu là ứng dụng kết quả vào thực tế Cây quyết định nổi bật với ưu điểm là tạo ra các luật đơn giản, dễ hiểu và được áp dụng rộng rãi trong hệ thống ra quyết định Tuy nhiên, việc sử dụng cây quyết định để phân lớp dữ liệu mất cân đối có thể dẫn đến kết quả không chính xác Do đó, cần nghiên cứu và điều chỉnh tiêu chí tách cũng như phương pháp cắt tỉa để dự báo chính xác hơn cho tập dữ liệu mất cân đối Vì vậy, bài toán sử dụng cây quyết định trong phân lớp dữ liệu mất cân đối cần được chú trọng và tiếp tục phát triển.
Nghiên cứu sâu hơn sẽ góp phần vào lý luận trong lĩnh vực phân lớp, đồng thời thúc đẩy sự phát triển trong khai thác dữ liệu và khám phá tri thức.
Bố cục luận văn
Luận văn bao gồm các phần sau:
Bài viết này giới thiệu về các vấn đề liên quan đến phân lớp dữ liệu trong khai thác dữ liệu, nêu rõ cơ sở hình thành đề tài và các nghiên cứu liên quan Mục tiêu của luận văn được xác định, cùng với đối tượng nghiên cứu và các phương pháp nghiên cứu được áp dụng Nội dung và phạm vi nghiên cứu cũng được trình bày, nhấn mạnh ý nghĩa của luận văn và bố cục của nó.
CƠ SỞ LÝ THUYẾT
Tổng quan về khai thác dữ liệu
2.1.1 Khai thác d ữ li ệ u là gì?
Khai thác dữ liệu, xuất hiện vào cuối những năm 1980, là quá trình khám phá thông tin ẩn trong các cơ sở dữ liệu Đây là một bước quan trọng trong quá trình khám phá tri thức, giúp rút ra các tri thức hỗ trợ quyết định trong nhiều lĩnh vực như khoa học, giáo dục và kinh doanh.
Năm 1989, Fayyad, Smyth và Piatestsky-Shapiro đã giới thiệu khái niệm Phát hiện tri thức từ CSDL, trong đó KTDL được xem là một giai đoạn quan trọng trong toàn bộ quá trình, sử dụng các kỹ thuật để phát hiện các mẫu từ dữ liệu.
KTDL là quá trình khám phá và phân tích dữ liệu lớn nhằm phát hiện các mô hình, tổng kết và giá trị từ tập dữ liệu đã cho Qua đó, KTDL giúp chúng ta tìm ra những mẫu hợp lệ, mới lạ, hữu ích và dễ hiểu từ dữ liệu.
2.1.2 Quá trình khai thác d ữ li ệ u
Hình 2-1: Quá trình khai thác dữ liệu
Quá trình bắt đầu từ kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Mặc dù lý thuyết có vẻ đơn giản, nhưng thực tế đây là một quá trình phức tạp, gặp nhiều khó khăn như quản lý các tập dữ liệu và yêu cầu lặp lại toàn bộ quy trình.
Tập hợp dữ liệu là giai đoạn đầu tiên trong quá trình khai thác dữ liệu (KTDL), trong đó dữ liệu được thu thập từ cơ sở dữ liệu, kho dữ liệu và các nguồn Internet.
Trích lọc dữ liệu
Giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó
Tiền xử lý và chuẩn bị dữ liệu
Giai đoạn thu thập dữ liệu là rất quan trọng trong quá trình KTDL Nhiều lỗi thường gặp như thiếu thông tin và sự không logic có thể xảy ra, dẫn đến việc dữ liệu chứa các giá trị vô nghĩa và không thể kết nối hiệu quả.
Giai đoạn này xử lý các dạng dữ liệu được coi là thông tin dư thừa và không có giá trị Đây là một giai đoạn quan trọng, vì nếu dữ liệu này không được làm sạch và tiền xử lý, nó có thể dẫn đến những kết quả sai lệch nghiêm trọng trong khai thác dữ liệu.
Giai đoạn chuyển đổi dữ liệu là quá trình tổ chức lại thông tin để dữ liệu có thể được sử dụng và điều khiển hiệu quả Dữ liệu sau khi được chuyển đổi sẽ phù hợp với mục đích khai thác.
Giai đoạn tư duy trong KTDL sử dụng nhiều thuật toán để khai thác mẫu từ dữ liệu Các thuật toán phổ biến bao gồm phân loại dữ liệu, kết hợp dữ liệu và mô hình hóa dữ liệu tuần tự.
Đánh giá kết quả mẫu
Giai đoạn cuối trong quá trình KTDL là khi các mẫu dữ liệu được chiết xuất bởi phần mềm Tuy nhiên, không phải tất cả các mẫu dữ liệu đều hữu ích và có thể bị sai lệch Do đó, cần ưu tiên các tiêu chuẩn đánh giá để xác định tri thức cần thiết và có thể sử dụng.
2.1.3 Khai thác dữ liệusử dụng phân lớp
Phân lớp dữ liệu là một quá trình gồm hai bước
Bước thứ nhất – bước học
Quá trình học nhằm xây dựng mô hình mô tả các lớp dữ liệu hoặc khái niệm định trước, với đầu vào là tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính Tập dữ liệu này bao gồm các phần tử dữ liệu, mỗi phần tử được giả định thuộc về một lớp định trước, tương ứng với giá trị của thuộc tính gán nhãn lớp Đầu ra của quá trình này thường là các quy tắc phân lớp dưới dạng luật if-then hoặc cây quyết định.
Hình 2-2: Quá trình phân lớp dữ liệu - Bước xây dựng mô hình phân lớp
Bước thứ hai – phân lớp
Bước thứ hai là sử dụng mô hình đã xây dựng để phân lớp dữ liệu mới, trong đó độ chính xác dự đoán của mô hình được ước lượng Kỹ thuật Holdout là một phương pháp đơn giản để ước lượng độ chính xác này.
Kỹ thuật này áp dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp, được chọn ngẫu nhiên và độc lập với tập dữ liệu huấn luyện Độ chính xác của mô hình trên tập dữ liệu kiểm tra được tính bằng tỷ lệ phần trăm các mẫu được phân loại đúng Nếu độ chính xác được ước lượng từ tập dữ liệu huấn luyện, kết quả có thể rất khả quan do mô hình có xu hướng quá khớp với dữ liệu.
Cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu huấn luyện để đánh giá độ chính xác của mô hình Nếu độ chính xác đạt yêu cầu, mô hình sẽ được áp dụng để phân lớp các dữ liệu tương lai hoặc những dữ liệu có giá trị thuộc tính phân lớp chưa biết.
Hình 2-3: Quá trình phân lớp dữ liệu –Ước lượng độ chính xác mô hình
Hình 2-4: Quá trình phân lớp dữ liệu –Phân lớp dữ liệu mới 2.1.3.2 Phân l ớ p d ữ li ệ u b ằ ng thu ậ t gi ả i Inductive Learning Algorithm
Thuật giải Inductive Learning Algorithm (ILA) được sử dụng để xác định các luật phân loại cho tập hợp mẫu học Thuật giải này hoạt động theo cơ chế lặp để tìm ra luật đại diện cho từng lớp mẫu Sau khi xác định luật, thuật giải sẽ loại bỏ các mẫu mà luật này bao hàm và thêm luật mới vào tập luật Kết quả cuối cùng là một danh sách có thứ tự các luật.
Mô tả thuật giải ILA [23]