(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối(Luận văn thạc sĩ) Sử dụng cây quyết định phân lớp dữ liệu mất cân đối
TỔNG QUAN
Cơ sở hình thành đề tài
Dữ liệu thu thập từ các ứng dụng thực tế thường là các tập dữ liệu mất cân đối (imbalanced datasets) [4], tức là số lượng mẫu ở các lớp khác nhau không đồng đều Tính chất mất cân đối này đặt ra thách thức lớn cho quá trình huấn luyện và đánh giá mô hình, vì các lớp ít xuất hiện có thể bị mô hình bỏ qua Trong thực tế, hiện tượng này thường gặp ở nhiều lĩnh vực, đặc biệt là chẩn đoán y tế, nơi các trường hợp bất thường hoặc bệnh hiếm gặp chiếm tỉ lệ nhỏ so với các lớp phổ biến Do đó, việc thiết kế và áp dụng các kỹ thuật xử lý mất cân đối cùng với các tiêu chí đánh giá phù hợp là rất quan trọng để đảm bảo hiệu suất và độ tin cậy của hệ thống phân tích dữ liệu.
[5], phát hiện ung thư bằng xét nghiệm nhũ ảnh [6], phát hiện thư rác trong các giao dịch thư điện tử [7], phát hiện thâm nhập hệ thống [8]…
Trong các bài toán phân lớp, vấn đề bất cân bằng mẫu giữa các lớp khiến mẫu của lớp thiểu số (minority class instances) rất ít so với lớp đa số (majority class instances) trong tập dữ liệu Cụ thể, lớp bệnh nhân có rất ít mẫu so với các lớp khác trong ứng dụng y học; lớp tấn công mạng cũng có số mẫu rất ít so với các lớp giao dịch khác của hệ thống mạng.
Trong thực tế, việc đối mặt với mất cân đối dữ liệu và chẩn đoán nhãn đúng cho mẫu thuộc lớp thiểu số là vấn đề thiết yếu và có ý nghĩa Tuy nhiên, khi áp dụng các kỹ thuật phân lớp truyền thống như hồi quy logistic, cây quyết định và máy hỗ trợ vector (SVM) lên các tập dữ liệu mất cân đối được huấn luyện để tối ưu độ chính xác tổng thể, những mô hình này có xu hướng dự đoán nhãn thuộc lớp đa số nhiều hơn và dự đoán nhãn của lớp thiểu số kém đi.
Ví dụ: một tập dữ liệu 10.000 mẫu có lớp đa số với 9.900 mẫu và lớp thiểu số với 100 mẫu, khi gán nhãn theo nguyên tắc số đông sẽ khiến mô hình thiên về dự đoán lớp chiếm ưu thế và bỏ qua lớp ít, dẫn đến hiệu suất kém trên lớp thiểu số Điều này cho thấy vấn đề mất cân bằng dữ liệu là thách thức lớn trong huấn luyện mô hình phân loại và cần các biện pháp cân bằng để cải thiện khả năng nhận diện của lớp ít Để khắc phục, có thể áp dụng các kỹ thuật như oversampling lớp thiểu số, undersampling lớp đa số, hoặc cân nhắc trọng số lớp khi huấn luyện; các phương pháp tổng hợp dữ liệu như SMOTE cũng được xem xét để tăng đại diện cho lớp ít Ngoài ra, nên đánh giá mô hình bằng các chỉ số nhạy với mất cân bằng như F1-score, Precision-Recall hoặc ROC-AUC thay vì chỉ dựa vào accuracy.
Tổng quan cho thấy độ chính xác của lớp thiểu số gần như bằng 0%, nhưng điều này không chứng minh bộ phân lớp hoạt động chính xác Vì vậy, vấn đề đặt ra là cần có các phương pháp tiếp cận riêng cho các bài toán phân lớp có dữ liệu mất cân đối để dự đoán chính xác các mẫu thuộc lớp thiểu số.
Các nghiên cứu liên quan
Có nhiều nghiên cứu đã cố gắng đưa ra những giải thuật tốt hơn cho phân lớp dữ liệu mất cân đối Để giải quyết bài toán phân lớp dữ liệu mất cân đối, có hai hướng tiếp cận chủ yếu:
Tiếp cận ở mức độ dữ liệu
Những nỗ lực này nhằm mục đích thay đổi lại kích thước tập huấn để việc phân bố lớp có thể được cân đối Nghĩa là điều chỉnh phân bố dữ liệu của các lớp sao cho giảm bớt hoặc không còn tính mất cân đối để đưa vào áp dụng các thuật toán phân lớp chuẩn Có nhiều cách điều chỉnh dữ liệu khác nhau như: phương pháp Under-sampling [9] giảm phần tử ở lớp đa số để làm giảm tính mất cân đối dữ liệu Cách đơn giản nhất đó là loại bỏ các phần tử ở lớp đa số một cách ngẫu nhiên Dựa trên kỹ thuật under-sampling, nhóm tác giả trong bài báo [10] đưa ra các tiếp cận lấy mẫu dựa trên cụm Cách tiếp cận đầu tiên là tập hợp tất cả các mẫu huấn luyện vào một số cụm Nếu một cụm có mẫu lớp đa số nhiều hơn các mẫu lớp thiểu số, nó sẽ hoạt động giống như các mẫu lớp đa số Mặt khác, nếu một cụm có mẫu lớp thiểu số nhiều hơn các mẫu lớp đa số, nó hoạt động giống như các mẫu lớp thiểu số Trong khi đó, với thuật toán Random Border
Undersampling [11], làm giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân đối
Thuật toán được cải tiến dựa trên thuật toán Under-sampling [9], kết hợp các bước loại bỏ một phần mẫu của lớp quá chiếm để tối ưu hóa quá trình phân lớp Kỹ thuật Under-sampling tuy tiết kiệm thời gian và bộ nhớ nhưng có nguy cơ làm mất các thông tin quan trọng của lớp đa số, từ đó có thể ảnh hưởng đến hiệu quả phân loại nếu không được xử lý cẩn thận.
Over-sampling là một phương pháp điều chỉnh tăng kích thước mẫu cho lớp thiểu số bằng cách chọn ngẫu nhiên các phần tử thuộc lớp thiểu số và sao chép chúng để cân bằng dữ liệu; tuy nhiên nhược điểm của phương pháp này là làm tăng đáng kể kích thước tập huấn luyện và dễ gây quá khớp Để giải quyết hạn chế này, phương pháp SMOTE [13] điều chỉnh dữ liệu bằng cách với mỗi phần tử thiểu số tạo ra các phần tử nhân tạo ở giữa phần tử đó và các láng giềng của nó, từ đó mở rộng biên của lớp thiểu số một cách liên tục Nhóm tác giả trong bài báo [14] đã đề xuất một phương pháp cải tiến để nâng cao hiệu quả của SMOTE trong xử lý dữ liệu mất cân bằng.
Borderline-SMOTE là một cải tiến của SMOTE, chỉ thực hiện sinh thêm các phần tử lớp thiểu số nằm ở biên của tập dữ liệu Theo Borderline-SMOTE, các mẫu thiểu số ở đường biên dễ bị phân loại nhầm hơn so với các mẫu nằm xa biên, nên thuật toán tập trung tăng cường ở khu vực này để cải thiện hiệu suất phân loại Việc gia tăng các mẫu tại biên giúp cân bằng tập dữ liệu một cách hiệu quả hơn mà không làm tăng quá mức số lượng mẫu ở vùng giữa, từ đó giảm sai lệch do mất cân bằng lớp và nâng cao khả năng nhận diện lớp thiểu số Đây là chiến lược oversampling nhắm tới biên dữ liệu, phù hợp với các bài toán xử lý dữ liệu imbalanced và tối ưu hóa kết quả phân loại.
Tiếp cận ở mức độ thuật toán
Trong tiếp cận ở mức độ dữ liệu, phương pháp lấy mẫu cố gắng cân bằng phân bổ dữ liệu bằng cách xem xét tỷ lệ đại diện của các mẫu trong phân bố dữ liệu để điều chỉnh mẫu sao cho các lớp có đại diện công bằng; còn ở mức độ thuật toán, các giải pháp tập trung vào điều chỉnh chi phí của các lớp khác nhau để chống lại sự mất cân đối của lớp và cải thiện hiệu suất phân loại trên những lớp có số lượng mẫu không đồng đều.
Học với chi phí nhạy cảm (cost-sensitive learning) là một nhánh của khai thác dữ liệu xem xét chi phí phân loại sai Bằng cách gán chi phí khác nhau cho lớp thiểu số và lớp đa số, các bộ phân loại được xây dựng theo chi phí nhạy cảm thường tăng khả năng dự đoán chính xác cho lớp thiểu số Có nhiều cách triển khai học với chi phí nhạy cảm, chẳng hạn dùng chi phí nhạy cảm làm tiêu chí tách và kết hợp với các phương pháp cắt tỉa Một số bộ phân loại thuộc họ quần thể như AdaCost, AdaC1, AdaC2, AdaC3 và DataBoost-IM Marcus A Maloof (2003) đề xuất dùng chi phí của phân loại sai để cập nhật quá trình huấn luyện, điều chỉnh trọng số cho vòng boosting tiếp theo nhằm giảm chi phí phân loại sai trên tập huấn luyện.
Tuy cả hai cách tiếp cận trên về mặt lý thuyết đều hợp lý, nhưng khi lấy mẫu vẫn còn sự không chính xác liên quan đến việc xác định tỷ lệ lấy mẫu; và ở các phương pháp học nhạy cảm với chi phí, việc tính toán chi phí cho phân loại sai vẫn là vấn đề cần xem xét.
Mục tiêu của luận văn
Thách thức của bài toán phân lớp dữ liệu mất cân đối nằm ở việc đối tượng cần quan tâm nghiên cứu có rất ít mẫu, tức là mẫu của lớp thiểu số so với các lớp khác trong tập dữ liệu, khiến trình tự phân loại dễ bị thiên lệch về lớp chiếm ưu thế Dữ liệu bất cân đối làm giảm chất lượng phân loại đối với lớp thiểu số và làm méo các chỉ số đánh giá hiệu suất của mô hình Để xử lý, người làm dữ liệu thường áp dụng các kỹ thuật cân bằng dữ liệu, điều chỉnh trọng số lớp, hoặc lựa chọn các tiêu chí đánh giá phù hợp với dữ liệu mất cân đối, nhằm cải thiện khả năng phân lớp cho lớp thiểu số.
Bài toán phân lớp dữ liệu mất cân đối dựa trên cây quyết định là phương pháp sử dụng học máy
Tổng quan cho thấy ý nghĩa khoa học rất cao của việc tối ưu hóa cây quyết định thông qua tiêu chí tách và phương pháp cắt tỉa Áp dụng đúng cách các kỹ thuật cắt tỉa giúp cải thiện hiệu suất mô hình, đặc biệt trong dự đoán chính xác mẫu lớp thiểu số Những vấn đề này cần được nghiên cứu và cải tiến liên tục nhằm nâng cao khả năng phân lớp dữ liệu mất cân đối, tối ưu hóa khai thác dữ liệu và tăng độ tin cậy của kết quả phân tích.
Với các vấn đề nêu trên, nghiên cứu cho thấy sự đồng bộ giữa lý luận và thực tiễn là rất cần thiết để tập trung nghiên cứu và đề xuất phương pháp cải tiến nhằm giải quyết các vướng mắc còn tồn đọng của bài toán phân lớp cho dữ liệu mất cân đối bằng cây quyết định Bài viết nhấn mạnh cách tiếp cận vừa lý thuyết vừa thực nghiệm để nâng cao hiệu suất và độ tin cậy của cây quyết định khi xử lý dữ liệu mất cân đối, đồng thời giảm thiểu sai lệch phân loại Trên cơ sở đó, đề xuất các hướng nghiên cứu tiếp theo nhằm mở rộng ứng dụng, cải thiện hiệu suất và phát triển các biện pháp tối ưu cho mảng phân lớp này.
Thuật toán được đề cập ở đây có tên AUC4.5, là một biến thể được cải tiến từ thuật toán C4.5 [21], nhằm tối ưu hóa hiệu suất phân loại bằng cách tích hợp giá trị AUC (Area Under the ROC Curve – đường cong ROC) làm thước đo đánh giá chất lượng mô hình.
Đồ thị đặc trưng (Characteristic Curve) [22] được dùng thay cho Gain-entropy để phân lớp dữ liệu mất cân đối, nhằm phục vụ hai mục đích chính: mục tiêu học và độ đo đánh giá Việc áp dụng Curve giúp cân bằng giữa hiệu quả dự đoán và độ tin cậy của các thước đo, đặc biệt trong tập dữ liệu có phân bổ lớp không đều, từ đó cải thiện chất lượng mô hình ở cả hai khía cạnh huấn luyện và đánh giá.
1.6 Các phương pháp nghiên cứu
1.6.1 Phương pháp nghiên cứu tài liệu
- Nghiên cứu các tài liệu, bài báo liên quan là cơ sở lý luận của luận văn
Đây là bài tổng quan nghiên cứu về các cách tiếp cận, kỹ thuật và phương pháp đã được công bố ở trong nước và nước ngoài liên quan đến lĩnh vực sử dụng cây quyết định để phân lớp dữ liệu mất cân đối, đồng thời phân tích hiện trạng các công trình về phân lớp trong khai thác dữ liệu nói chung Bài viết nhấn mạnh vai trò của cây quyết định trong xử lý dữ liệu mất cân đối, so sánh hiệu quả với các kỹ thuật phân lớp khác và đề xuất các hướng ứng dụng và cơ hội nghiên cứu tiếp theo trong thực tiễn khai thác dữ liệu.
- Nghiên cứu các xu thế và hướng phát triển tương lai liên quan đến luận văn
- Nghiên cứu các tài liệu liên quan, phục vụ cho việc nghiên cứu của luận văn
Chúng tôi tiến hành hiện thực và thực nghiệm các phương pháp được đề xuất trong luận văn nhằm xác định tính đúng đắn, tính khả thi và mức độ phát triển so với các phương pháp đã công bố của các tác giả trong nước và nước ngoài có liên quan đến đề tài.
1.6.3 Phương pháp thống kê, phân tích dữ liệu
Trong quá trình thực nghiệm, việc thống kê và tổng hợp số liệu đóng vai trò nền tảng cho quá trình phân tích và đánh giá Từ các dữ liệu được tổng hợp, nghiên cứu viên tiến hành phân tích hệ thống, nhận diện xu hướng và biến động của kết quả Dựa trên phân tích và đánh giá này, người thực hiện rút ra các kết luận có ý nghĩa và đề xuất điều chỉnh nội dung nghiên cứu nhằm cải thiện độ tin cậy, tính nhất quán và phù hợp với mục tiêu nghiên cứu.
1.7 Nội dung và phạm vi của luận văn
Nội dung và phạm vi nghiên cứu của luận văn
Để nắm vững các kiến thức nền tảng về khai thác dữ liệu và phân lớp, bài viết này tập trung vào các khái niệm và kỹ thuật cơ bản giúp bạn hiểu cách khai thác dữ liệu và xây dựng mô hình phân loại Cây quyết định là công cụ trực quan và hiệu quả cho bài toán phân loại, biểu diễn quy trình ra quyết định bằng các nhánh dựa trên đặc trưng của dữ liệu và cho phép diễn giải kết quả một cách dễ hiểu Trên tập dữ liệu mất cân đối, các thách thức về hiệu suất và độ lệch trong phân loại đặt ra nhiều bài toán cần giải pháp điều chỉnh và đánh giá phù hợp Thuật toán gốc của cây quyết định C4.5 được giới thiệu để xử lý dữ liệu liên tục, xử lý giá trị thiếu và chọn thuộc tính tốt nhất dựa trên đo lường thông tin, đồng thời các cải tiến của AUC4.5 được trình bày nhằm tối ưu hóa đánh giá và hiệu suất phân loại trên tập dữ liệu mất cân đối, đồng thời tối ưu hóa chỉ số AUC Những cải tiến này giúp cân bằng giữa độ phức tạp của mô hình và chất lượng dự đoán, mở rộng phạm vi ứng dụng của cây quyết định trong khai thác dữ liệu và phân lớp.
Tiếp theo, người nghiên cứu tiến hành hiện thực thuật toán cải tiến dựa trên thuật toán C4.5, được gọi là AUC4.5 Thuật toán AUC4.5 được thiết kế để nâng cao hiệu suất và độ chính xác thông qua các tối ưu hóa đặc trưng và quy trình phân chia tập dữ liệu Nghiên cứu sẽ tiến hành thực nghiệm và so sánh kết quả giữa AUC4.5 và C4.5 nhằm đánh giá mức cải tiến về hiệu suất, độ ổn định và tính khả thi của thuật toán mới.
Phân lớp dữ liệu mất cân đối dựa trên cây quyết định là một phương pháp máy học dùng để phân loại dữ liệu, trong đó nâng cao độ chính xác dự đoán mẫu lớp thiểu số là vấn đề cấp thiết và có ý nghĩa khoa học to lớn Do đó, cần xác định tiêu chí phân tách và áp dụng các phương pháp cắt tỉa phù hợp khi triển khai trên cây quyết định, những vấn đề này cần được nghiên cứu và cải tiến nhằm tăng cường độ chính xác của mẫu lớp thiểu số, từ đó đóng góp vào nâng cao hiệu quả khai thác và phân lớp dữ liệu mất cân đối.
Mục đích cuối cùng của khai thác dữ liệu là ứng dụng các kết quả vào thực tế Cây quyết định có ưu thế lớn vì các quy tắc được sinh ra một cách đơn giản và dễ hiểu, đồng thời kết quả của nó được ứng dụng rộng rãi trong các hệ thống ra quyết định Tuy nhiên, khi sử dụng cây quyết định để phân lớp tập dữ liệu mất cân đối, kết quả thường không chính xác Do đó cần nghiên cứu và điều chỉnh tiêu chí tách cũng như phương pháp cắt tỉa để dự báo chính xác cho tập dữ liệu mất cân đối Vì vậy, bài toán sử dụng cây quyết định cho tập dữ liệu mất cân đối cần được quan tâm và tiếp tục nghiên cứu.
Các phương pháp nghiên cứu
1.6.1 Phương pháp nghiên cứu tài liệu
- Nghiên cứu các tài liệu, bài báo liên quan là cơ sở lý luận của luận văn
Bài viết tổng hợp này phân tích các cách tiếp cận, kỹ thuật và phương pháp đã được công bố bởi các tác giả trong và ngoài nước liên quan đến lĩnh vực sử dụng cây quyết định cho phân lớp dữ liệu mất cân đối nói riêng và lĩnh vực phân lớp trong khai thác dữ liệu nói chung Qua các công trình này, hiện trạng nghiên cứu cho thấy sự đa dạng phương pháp từ tối ưu hóa cây quyết định, cài đặt các chiến lược xử lý mất cân bằng (ví dụ cân nhắc trọng số, áp dụng kỹ thuật undersampling/oversampling, hay điều chỉnh ngưỡng phân lớp) đến các mô hình ensemble như Random Forest, Gradient Boosting và XGBoost, cùng với các biến thể cải tiến nhằm nâng cao độ chính xác, độ nhạy và AUC Các bài báo cũng đánh giá hiệu suất bằng các thước đo phổ biến như F1-score và ROC-AUC trên các bộ dữ liệu thực tế khai thác dữ liệu, chỉ ra xu hướng nghiên cứu tập trung vào tối ưu hóa phân lớp dữ liệu mất cân đối và nâng cao khả năng ứng dụng của cây quyết định trong khai thác dữ liệu.
- Nghiên cứu các xu thế và hướng phát triển tương lai liên quan đến luận văn
- Nghiên cứu các tài liệu liên quan, phục vụ cho việc nghiên cứu của luận văn
Tiến hành hiện thực hóa và thực nghiệm các phương pháp được đề xuất trong luận văn nhằm xác định tính đúng đắn và tính khả thi của chúng, đồng thời so sánh với các phương pháp đã công bố bởi các tác giả trong nước và nước ngoài có liên quan đến đề tài của luận văn Quá trình đánh giá giúp làm nổi bật ưu điểm, nhược điểm và mức độ phát triển của các phương pháp so với chuẩn mực khoa học hiện có, từ đó đề xuất các hướng cải tiến phù hợp với mục tiêu nghiên cứu Kết quả nghiên cứu góp phần củng cố tính xác thực của các phương pháp đề xuất và mở rộng phạm vi ứng dụng trong lĩnh vực liên quan.
1.6.3 Phương pháp thống kê, phân tích dữ liệu
Trong quá trình thực nghiệm, tiến hành thống kê và tổng hợp các số liệu một cách có hệ thống để làm nổi bật các xu hướng và biến động chính của dữ liệu Từ đó, thực hiện phân tích dữ liệu thực nghiệm để đánh giá kết quả một cách khách quan và rút ra những kết luận có căn cứ khoa học Đồng thời, trên cơ sở kết quả phân tích, đề xuất điều chỉnh nội dung nghiên cứu nhằm hoàn thiện phạm vi, phương pháp và chất lượng nghiên cứu để phù hợp với thực tế và mục tiêu nghiên cứu.
Nội dung và phạm vi của luận văn
Nội dung và phạm vi nghiên cứu của luận văn
Kiến thức nền tảng về khai thác dữ liệu và phân lớp được trình bày rõ ràng, từ các khái niệm cơ bản đến các kỹ thuật ứng dụng thực tế Bài viết đi sâu vào cách thiết kế và đánh giá cây quyết định trong khai thác dữ liệu, đồng thời phân tích các thách thức của tập dữ liệu mất cân đối và các phương pháp xử lý để cải thiện hiệu suất phân loại Bạn sẽ được làm quen với thuật toán gốc của cây quyết định C4.5 và những cải tiến của AUC4.5 nhằm nâng cao độ chính xác, khả năng tổng quát và hiệu suất mô hình trong các bài toán phân loại.
Tiếp theo, nghiên cứu sẽ tiến hành hiện thực thuật toán AUC4.5, một phiên bản cải tiến từ thuật toán C4.5 Mục tiêu là so sánh kết quả thực nghiệm giữa AUC4.5 và C4.5 để đánh giá hiệu suất phân loại, độ chính xác và khả năng khái quát hóa trên tập dữ liệu được sử dụng Các chỉ số đánh giá gồm độ chính xác, ma trận nhầm lẫn, thời gian huấn luyện và sự ổn định của cây quyết định, được mô tả chi tiết và thực hiện bằng phương pháp thử nghiệm chuẩn để đảm bảo tính khách quan và có thể tái lập.
Ý nghĩa của luận văn
Phân lớp dữ liệu mất cân đối dựa trên cây quyết định là phương pháp học máy được sử dụng để phân lớp, và nâng cao dự đoán chính xác cho mẫu lớp thiểu số là vấn đề rất cần thiết và mang ý nghĩa khoa học cao Do đó, cần xác định tiêu chí tách và phương pháp cắt tỉa phù hợp khi áp dụng trên cây quyết định, đây là những vấn đề cần được nghiên cứu và cải tiến để đạt được dự đoán chính xác cho mẫu lớp thiểu số, góp phần nâng cao hiệu quả khai thác và phân lớp dữ liệu mất cân đối.
Mục tiêu cuối cùng của quá trình khai thác dữ liệu là khả năng ứng dụng các kết quả vào thực tế Cây quyết định mang lại ưu thế lớn nhờ các quy tắc đơn giản, dễ hiểu và dễ được triển khai trong các hệ thống ra quyết định Tuy nhiên, khi phân lớp dữ liệu mất cân đối, kết quả của cây quyết định có thể không chính xác Do đó, cần nghiên cứu và điều chỉnh tiêu chí tách cũng như phương pháp cắt tỉa để nâng cao độ chính xác của dự báo trên tập dữ liệu mất cân đối Bài toán phân lớp bằng cây quyết định với dữ liệu mất cân đối xứng cần được quan tâm và tiếp tục nghiên cứu.
Tổng quan này nhấn mạnh nhu cầu nghiên cứu sâu hơn để đóng góp về mặt lý luận cho lĩnh vực phân lớp nói riêng và lĩnh vực khai thác dữ liệu và khám phá tri thức nói chung; từ đó đề xuất các khung lý thuyết, nhận diện các khoảng trống nghiên cứu và gợi ý hướng tiếp cận mới Bài viết tập trung làm rõ sự liên hệ giữa lý thuyết và ứng dụng thực tiễn, nhằm nâng cao hiệu quả phân tích dữ liệu, tối ưu hóa quá trình khám phá tri thức và đóng góp vào sự phát triển của cả hai lĩnh vực.
Bố cục luận văn
Luận văn bao gồm các phần sau:
Đề tài này phân tích những vấn đề liên quan đến phân lớp dữ liệu trong khai thác dữ liệu, nhấn mạnh vai trò của phân lớp để nâng cao hiệu quả và độ chính xác trong xử lý dữ liệu lớn Cơ sở hình thành đề tài được xây dựng trên nền tảng lý thuyết phân lớp và thực tiễn triển khai trong khai thác dữ liệu, nhận diện các khoảng trống và cơ hội cải tiến Các nghiên cứu liên quan tổng hợp các phương pháp phân lớp từ máy học và khai thác dữ liệu, so sánh ưu nhược điểm và ứng dụng điển hình Mục tiêu của luận văn là đề xuất khung phân lớp dữ liệu hiệu quả, đánh giá bằng các tiêu chí chất lượng và so sánh với các phương pháp hiện có Đối tượng nghiên cứu gồm các tập dữ liệu thực nghiệm, đặc trưng dữ liệu và các thuật toán phân lớp được áp dụng Các phương pháp nghiên cứu gồm tiền xử lý dữ liệu, chọn và tối ưu thuật toán phân lớp, thiết kế thí nghiệm và phân tích kết quả Nội dung và phạm vi nghiên cứu tập trung vào các kỹ thuật phân lớp, các điều kiện áp dụng và nêu rõ giới hạn cùng phạm vi ứng dụng của kết quả Ý nghĩa của luận văn được làm rõ từ góc độ khoa học và thực tiễn, và bố cục luận văn được trình bày theo trình tự từ giới thiệu, tổng quan, phương pháp, kết quả và kết luận.
CƠ SỞ LÝ THUYẾT
Tổng quan về khai thác dữ liệu
2.1.1 Khai thác dữ liệu là gì?
Khai thác dữ liệu (KTDL) ra đời vào cuối những năm 1980 và là quá trình khám phá thông tin ẩn chứa trong cơ sở dữ liệu (CSDL), được coi là một bước then chốt trong chu trình khám phá tri thức KTDL là giai đoạn quan trọng nhất trong quá trình khai phá tri thức từ CSDL, với các tri thức thu được hỗ trợ ra quyết định trong các lĩnh vực như khoa học, giáo dục và kinh doanh.
Năm 1989, Fayyad, Smyth và Piatestsky-Shapiro đã đề xuất khái niệm Phát hiện tri thức từ CSDL (KDD), xem KDD như một giai đoạn đặc biệt và là yếu tố cốt lõi trong toàn bộ quá trình khai thác dữ liệu Giai đoạn này sử dụng các kỹ thuật phân tích dữ liệu để tìm ra các mẫu và quy luật từ dữ liệu, từ đó chuyển đổi dữ liệu thô thành tri thức có giá trị cho quyết định và nghiên cứu.
Khai thác dữ liệu (KTDL) là quá trình phát hiện các mô hình, tổng hợp thông tin và rút ra các giá trị từ tập dữ liệu cho trước Nói ngắn gọn, KTDL là sự thăm dò và phân tích lượng dữ liệu lớn nhằm khám phá từ dữ liệu các mẫu hợp lệ, mới lạ, hữu ích và có thể hiểu được Quá trình này giúp chuyển đổi dữ liệu thành kiến thức có thể hành động, từ đó hỗ trợ ra quyết định, tối ưu hóa quy trình và thúc đẩy đổi mới trong nhiều lĩnh vực.
2.1.2 Quá trình khai thác dữ liệu
Hình 2-1: Quá trình khai thác dữ liệu
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình,…
Tập hợp dữ liệu Đây là giai đoạn đầu tiên trong quá trình KTDL Giai đoạn này lấy dữ liệu trong một CSDL, một kho dữ liệu và dữ liệu từ các nguồn Internet
Trích lọc dữ liệu
Giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó
Tiền xử lý và chuẩn bị dữ liệu
Giai đoạn này rất quan trọng trong quá trình KTDL, vì nó ảnh hưởng trực tiếp đến chất lượng và độ tin cậy của dữ liệu thu thập được Trong quá trình thu thập dữ liệu thường gặp các lỗi như thiếu thông tin, thiếu tính logic hoặc không nhất quán, khiến dữ liệu trở nên vô nghĩa và khó kết nối giữa các nguồn Vì vậy, việc kiểm tra, làm sạch và chuẩn hóa dữ liệu ngay từ đầu là cần thiết để đảm bảo dữ liệu có tính liên kết, phù hợp cho phân tích và ra quyết định dựa trên dữ liệu.
Ở giai đoạn này, chúng ta tiến hành xử lý các dạng dữ liệu đã nêu Những dữ liệu này được xem là thông tin dư thừa và không có giá trị cho phân tích Vì vậy, đây là bước rất quan trọng: nếu dữ liệu này không được làm sạch, tiền xử lý và chuẩn bị đúng cách trước khi phân tích, kết quả trong quá trình khai thác dữ liệu (KTDL) sẽ bị sai lệch nghiêm trọng.
Trong giai đoạn chuyển đổi dữ liệu, dữ liệu được tổ chức lại để bảo đảm có thể sử dụng và kiểm soát dễ dàng, nhờ đó tăng tính sẵn sàng và hiệu quả khai thác Việc chuyển đổi giúp dữ liệu phù hợp với mục đích khai thác, tối ưu hoá quy trình phân tích và hỗ trợ ra quyết định dựa trên dữ liệu thực tế.
Giai đoạn mang tính tư duy trong khai thác dữ liệu (KTDL) đánh dấu quá trình chuyển đổi dữ liệu thành kiến thức thông qua suy luận và phân tích sâu sắc Ở giai đoạn này, nhiều thuật toán khác nhau đã được sử dụng để xuất ra các mẫu từ dữ liệu, nhằm nhận diện xu hướng, quan hệ và mẫu tiềm ẩn Các thuật toán thường được áp dụng bao gồm phân loại dữ liệu, kết hợp dữ liệu và mô hình hóa dữ liệu tuần tự, giúp tối ưu hóa khả năng dự đoán và hỗ trợ ra quyết định dựa trên dữ liệu.
Đánh giá kết quả mẫu
Giai đoạn cuối của quá trình KTDL tập trung vào việc chiết xuất và đánh giá các mẫu dữ liệu do phần mềm khai thác dữ liệu sinh ra Không phải mọi mẫu dữ liệu đều hữu ích và có thể bị sai lệch hoặc nhiễu, vì vậy cần ưu tiên áp dụng các tiêu chuẩn đánh giá để lọc bỏ những thông tin không đáng tin cậy và tinh chỉnh những dữ liệu có giá trị Việc xác định và đánh giá đúng các mẫu dữ liệu giúp rút ra tri thức có thể sử dụng được cho quyết định và ứng dụng thực tế, đồng thời tăng độ tin cậy và khả năng triển khai của các kết quả phân tích.
2.1.3 Khai thác dữ liệu sử dụng phân lớp
Phân lớp dữ liệu là một quá trình gồm hai bước
Bước thứ nhất – bước học
Quá trình học máy nhằm xây dựng một mô hình có khả năng mô tả một tập dữ liệu gồm các lớp định trước hoặc khái niệm Đầu vào là một bộ dữ liệu có cấu trúc, được đặc trưng bởi các thuộc tính và các giá trị của chúng; mỗi phần tử dữ liệu (mẫu) được cho là thuộc về một lớp mục tiêu, tức nhãn lớp hoặc thuộc tính phân lớp Đầu ra của quá trình học thường là một quy tắc phân lớp dưới dạng if-then hoặc một cây quyết định, phục vụ cho việc phân loại các mẫu mới dựa trên các thuộc tính Quá trình này được mô tả như hình 2-2.
Hình 2-2: Quá trình phân lớp dữ liệu - Bước xây dựng mô hình phân lớp
Bước thứ hai – phân lớp
Bước thứ hai sử dụng mô hình được xây dựng ở bước trước để phân lớp dữ liệu mới Đầu tiên, độ chính xác của khả năng dự đoán của mô hình phân loại vừa được xây dựng được ước lượng, cho thấy mức độ tin cậy khi phân loại dữ liệu mới Kỹ thuật holdout là một phương pháp đơn giản để ước lượng độ chính xác này và hỗ trợ đánh giá hiệu suất của mô hình trong quy trình phân lớp.
Kỹ thuật này đánh giá mô hình bằng một tập dữ liệu kiểm tra chứa các mẫu đã được gán nhãn lớp Các mẫu trong tập kiểm tra được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu huấn luyện, giúp đảm bảo đánh giá khách quan về khả năng phân lớp Độ chính xác của mô hình trên tập dữ liệu kiểm tra được định nghĩa là tỷ lệ phần trăm mẫu được mô hình phân lớp đúng so với nhãn thật Việc ước lượng độ chính xác dựa trên tập huấn luyện có thể cho kết quả rất khả quan nhưng dễ dẫn tới hiện tượng quá khớp dữ liệu, khiến mô hình hoạt động kém khi gặp dữ liệu mới ngoài tập huấn luyện; do đó đánh giá trên tập dữ liệu kiểm tra là quan trọng để xác định hiệu suất thực sự của mô hình.
Do đó, nên sử dụng một tập dữ liệu kiểm tra độc lập so với tập dữ liệu huấn luyện để đánh giá hiệu suất của mô hình Khi độ chính xác của mô hình đạt mức chấp nhận được, mô hình sẽ được dùng để phân lớp dữ liệu tương lai hoặc những dữ liệu mà giá trị của thuộc tính phân lớp vẫn chưa được biết.
Hình 2-3: Quá trình phân lớp dữ liệu – Ước lượng độ chính xác mô hình
Hình 2-4: Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới 2.1.3.2 Phân lớp dữ liệu bằng thuật giải Inductive Learning Algorithm
Thuật toán Inductive Learning Algorithm (ILA) được dùng để xác định các luật phân loại từ tập mẫu học, là một phương pháp trong học máy Thuật toán hoạt động theo cơ chế lặp nhằm tìm ra một luật đại diện cho tập mẫu của mỗi lớp Khi một luật được phát hiện, các mẫu bị luật đó bao phủ sẽ được loại bỏ khỏi tập mẫu và luật mới được bổ sung vào tập luật Kết quả thu được là một danh sách các luật có thứ tự, phục vụ cho quá trình phân loại dữ liệu một cách có cấu trúc và dễ mở rộng.
Mô tả thuật giải ILA [23]