Đã có nhiều nghiên cứu giải quyết vấn đề phân lớp như phân lớp dựa vào cây quyết định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM
Cán bộ hướng dẫn khoa học: PGS TS Lê Hoài Bắc
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP HCM ngày 09 tháng 11 năm 2014
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được sửa chữa (nếu có)
Chủ tịch Hội đồng đánh giá LV
Trang 3PHÒNG QLKH – ĐTSĐH Độc lập – Tự do – Hạnh phúc
TP HCM, ngày 27 tháng 09 năm 2014
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Phạm Xuân Dũng Giới tính: Nam
Ngày, tháng, năm sinh: 22/10/1984 Nơi sinh: Phú Yên
Chuyên ngành: Công nghệ thông tin MSHV: 1241860002
sánh với các thuật toán khác
III- Ngày giao nhiệm vụ: 02/04/2014
IV- Ngày hoàn thành nhiệm vụ: 27/09/2014
V- Cán bộ hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên)
PGS TS LÊ HOÀI BẮC
(Họ tên và chữ ký) (Họ tên và chữ ký)
PGS TS LÊ HOÀI BẮC
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc
Học viên thực hiện Luận văn
(Ký và ghi rõ họ tên)
Phạm Xuân Dũng
Trang 5Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè, những người luôn cổ vũ, quan tâm và giúp đỡ tôi trong suốt thời gian học tập cũng như làm luận văn
Do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những thiếu sót nhất định Tôi rất mong nhận được những sự góp ý quý báu của thầy cô và các bạn
Hồ Chí Minh, 09-2014
Phạm Xuân Dũng
Trang 6TÓM TẮT
Sự phát triển của công nghệ thông tin kéo theo sự bùng nổ thông tin Các kho tài liệu ngày càng lớn và chứa nhiều tài liệu thuộc nhiều loại khác nhau Rõ ràng nhiệm vụ phân loại các tài liệu này theo từng chuyên mục là một việc hết sức cần thiết Từ đó mở ra khả năng phân loại các tài liệu mới vào các phân lớp đã biết
Phân lớp và Tìm luật kết hợp là hai nhiệm vụ quan trọng trong khai thác dữ liệu Việc phân lớp nhằm mục đích dự đoán một cách chính xác nhất có thể có phân lớp của một đối tượng chưa biết Việc phân lớp và tìm luật kết hợp là tương tự nhau ngoại trừ đối với phân lớp thì mục tiêu dự đoán chỉ là một thuộc tính phân lớp trong khi luật kết hợp có khả năng suy diễn đối với một tập các thuộc tính khác nhau
Đã có nhiều nghiên cứu giải quyết vấn đề phân lớp như phân lớp dựa vào cây quyết định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân lớp dựa vào thống kê…
Hướng tiếp cận sử dụng luật kết hợp trong việc phân loại dữ liệu lần đầu tiên được đưa ra vào năm 1998 và đã đạt được nhiều kết quả khả quan so với hướng tiếp cận truyền thống sử dụng cây quyết định Quinlan Đã có một số bộ phân lớp dựa vào luật kết hợp khá chính xác như CBA, CMAR Tuy nhiên, các bộ phân lớp này chỉ gắn một thuộc tính phân lớp với mỗi luật kết hợp, vì thế các luật kết hợp này thường không thích hợp cho việc phân loại đa lớp
Luận văn sẽ tập trung vào việc nghiên cứu, phân tích và đánh giá thuật toán phân loại đa nhãn, đa lớp dựa vào luật kết hợp (Multi-class Multi-label Associative Classification – MMAC) để giải quyết vấn đề Theo đó một đối tượng không chỉ được gán nhãn phân lớp với một lớp duy nhất mà có khả năng được gán nhãn với nhiều phân loại khác nhau, các nhãn này được sắp xếp theo một thứ tự nhất định Bên cạnh đó luận văn còn trình bày 3 đơn vị đo lường độ chính xác của việc phân
Trang 7loại dựa vào luật kết hợp nhằm đánh giá độ chính xác của MMAC so với các bộ phân loại hiện có
Một cách tiếp cận mới đối với phân loại đa nhãn, đa lớp đã được đề xuất có nhiều đặc điểm khác biệt so với truyền thống và phương pháp phân loại dựa vào luật kết hợp ở chỗ: (1) MMAC là một bộ phân loại đa nhãn, đa lớp, theo đó mỗi thể hiện được gắn kết với một danh sách có thứ tự các nhãn phân loại (2) Những hướng tiếp cận phân loại dựa vào luật kết hợp truyền thống thường phải duyệt dữ liệu huấn luyện nhiều lần để tìm các tập phổ biến trong khi đó MMAC chỉ cần duyệt dữ liệu huấn luyện một lần (3) MMAC đưa ra một kỹ thuật sắp thứ tự luật một cách chi tiết nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật trong qui trình sắp thứ
tự luật (4) MMAC đưa ra khái niệm học đệ qui nhằm rút trích nhiều luật hơn và giảm tối thiểu vai trò của phân lớp mặc định (default class) khi phân lớp các đối tượng kiểm tra
Nghiên cứu thực hiện trên 16 bộ dữ liệu Weka đã cho thấy phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp có hiệu quả, phù hợp và có tỷ lệ phân loại cao hơn các phương pháp cây quyết định (PART), thuật toán CBA và RIPPER Định hướng trong tương lai sẽ dự kiến mở rộng phương pháp để xử lý dữ liệu liên tục
Trang 8The development of information technology leads to the information explosion The increasingly large document repositories, and contains many documents of different types Clearly the task of document classification for each category is an essential work Since then opens the possibility of classifying new documents classified in the know
Classification and Finding association rules are two important tasks in data mining The classification for the purpose of accurately predicting possible classification of an unknown object The classification and to find association rules are similar except for the target classification predicts only a subclass properties while association rules are capable of inference for a different set of attributes
There have been many studies to solve the problem as subclass classification based on decision trees, classification based on neural networks, classification based
on Bayesian probability theory, classification based on rough set theory, classification based on association rules, classification based on statistical
The approach uses association rules to classify data was first launched in
1998 and has achieved many positive results compared to the traditional approach using decision trees Quinlan There have been a number of classification based on association rule fairly accurate as CBA, CMAR However, the classification is only
an attribute associated with each classification association rules, hence the association rules are usually not suitable for multi-class classification
This thesis will focus on research, analysis and evaluation algorithm class multi-label classification based on association rules (Multi-Class, Multi-Label Associative Classification - MMAC) to solve the problem Accordingly, an object not only labeled classification with a single class that is likely to be labeled with many different classification, the labels are arranged in a certain order Besides, the thesis presents three units of measurement accuracy of the classification based on
Trang 9multi-association rules in order to assess the accuracy of the MMAC compared with the existing classification
A new approach for multi-class multi-label classification has been proposed many different characteristics compared to traditional classification methods based
on association rules in place: (1) MMAC is a multi-classifier multi-layer label, in which each instance is associated with an ordered list of classification labels (2) The approach to classification based on association rules have traditionally approved training data multiple times to find common set while browsing MMAC just once training data (3) MMAC gives a sort of technical detail rules to minimize randomly select two or more law in law ordering process (4) MMAC introduces the concept of recursive learning to extract many more law and minimize the role of the default classification (default class) when classifying test subjects
Research carried out on 16 Weka data sets show that multi-class classification method based on multi-label association rules is effective, consistent and high classification rate than the decision tree method (PART), CBA and RIPPER algorithm Orientation future plans to expand the approach to handle continuous data
Trang 10MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
TÓM TẮT iii
ABSTRACT v
MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG ix
DANH MỤC BẢNG x
DANH MỤC HÌNH xi
Chương 1: TỔNG QUAN 1
1.1 Giới thiệu 1
1.2 Mục tiêu nghiên cứu 2
1.3 Đối tượng nghiên cứu 2
1.4 Phạm vi nghiên cứu 2
1.5 Bố cục luận văn 3
Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN 4
Chương 3: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP 9
3.1 Phân loại là gì? 9
3.2 Các vấn đề quan tâm của phân loại 11
3.3 Phân loại đa nhãn (Multi-label Classification) 12
3.4 Luật kết hợp 13
3.5 Một số định nghĩa 14
3.6 Phân loại dựa vào luật kết hợp 15
3.7 Phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp (MMAC) 18
3.8 Độ đo lượng giá 32
Trang 113.9 Độ chính xác phân loại 34
3.10 Kết luận 36
Chương 4: THỬ NGHIỆM, ĐÁNH GIÁ, HƯỚNG PHÁT TRIỂN 37
4.1 Thiết kế tổng thể 37
4.2 Chuẩn bị dữ liệu 37
4.3 Thiết kế chương trình 39
4.4 Kết quả thực nghiệm và đánh giá 39
4.5 Kết luận 46
Chương 5: KẾT LUẬN 47
5.1 Ưu điểm 47
5.2 Nhược điểm 48
5.3 Hướng phát triển 48
TÀI LIỆU THAM KHẢO 49
Trang 12MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG
MMAC Multi-class Multi-label Associative Classification
Trang 13DANH MỤC BẢNG
Bảng 3.1: Tập dữ liệu huấn luyện ví dụ 23
Bảng 3.2: Tập phổ biến có một phần tử 24
Bảng 3.3: Tập phổ biến có hai phần tử 25
Bảng 3.4: Tập phổ biến có ba phần tử 26
Bảng 3.5: Các luật phân loại sau khi phân rã các tập phổ biến 26
Bảng 3.6: Các luật phân loại sau khi sắp xếp theo độ Confidence, Support, và loại bỏ luật thừa 27
Bảng 3.7: Tập dữ liệu huấn luyện mới 27
Bảng 3.8: Tập phổ biến một phần tử (quá trình học đệ qui) 28
Bảng 3.9: Tập phổ biến hai phần tử (quá trình học đệ qui) 28
Bảng 3.10: Tập phổ biến ba phần tử (quá trình học đệ qui) 29
Bảng 3.11: Các luật phân loại sau khi phân rã các tập phổ biến (quá trình học đệ qui) 29
Bảng 3.12: Các luật phân loại sau khi sắp xếp theo độ Confidence, Support, và loại bỏ luật thừa (quá trình học đệ qui) 30
Bảng 3.13: Tập dữ liệu huấn luyện mới (quá trình học đệ qui) 30
Bảng 3.14: Tập phổ biến một phần tử (quá trình học đệ qui) 30
Bảng 3.15: Tập phổ biến hai phần tử (quá trình học đệ qui) 31
Bảng 3.16: Tập phổ biến ba phần tử (quá trình học đệ qui) 31
Bảng 3.17: Các luật phân loại sau khi phân rã các tập phổ biến (quá trình học đệ qui) 31
Bảng 3.18: Các luật phân loại sau khi sắp xếp theo độ Confidence, Support, và loại bỏ luật thừa (quá trình học đệ qui) 31
Bảng 4.1: Dữ liệu huấn luyện 40
Bảng 4.2: Bộ phân loại CBA 41
Bảng 4.3: Bộ phân loại MMAC 41
Bảng 4.4: Độ chính xác phân loại của PART, RIPPER, CBA và MMAC 43
Bảng 4.5: Số bộ phân loại của các thuật toán PART, RIPPER, CBA và MMAC 45
Trang 14DANH MỤC HÌNH
Hình 2.1: Cây quyết định cho bộ dữ liệu thời tiết 6
Hình 3.1: Xử lý phân loại dữ liệu 9
Hình 3.2: Tìm Luật kết hợp 14
Hình 3.3: Phân lớp dựa vào luật kết hợp 18
Hình 3.4: Đánh giá độ chính xác phân loại 34
Hình 4.1: Thiết kế chương trình 39
Hình 4.2: Độ chính xác trung bình của các thuật toán PART, RIPPER, CBA và MMAC dựa trên 16 bộ dữ liệu Weka khác nhau 44
Hình 4.3: Số lượng trung bình các bộ phân loại được xác định bằng các thuật toán PART, RIPPER, CBA và MMAC 46
Trang 15Chương 1: TỔNG QUAN 1.1 Giới thiệu
Trong quá trình hoạt động, con người tạo ra nhiều dữ liệu nghiệp vụ Các tập
dữ liệu được tích lũy có kích thước ngày càng lớn và có thể chứa nhiều thông tin ẩn dạng những quy luật chưa được khám phá Chính vì vậy, một nhu cầu đặt ra là cần tìm cách trích rút từ tập dữ liệu đó các luật về phân loại dữ liệu hay dự đoán những
xu hướng dữ liệu tương lai Những quy tắc nghiệp vụ thông minh được tạo ra sẽ phục vụ đắc lực cho các hoạt động thực tiễn, cũng như phục vụ đắc lực cho quá trình nghiên cứu khoa học Nhiệm vụ phân loại và dự đoán dữ liệu ra đời để đáp ứng mong muốn đó
Nhiệm vụ phân loại dữ liệu đã, đang và sẽ phát triển mạnh mẽ trước những khao khát tri thức của con người Trong những năm qua, phân loại dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Phân loại cũng được ứng dụng trong nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục
Một nhiệm vụ quan trọng trong khai thác dữ liệu là tìm ra tất cả các luật kết hợp trong dữ liệu Phân loại và tìm luật kết hợp là tương tự nhau, ngoại trừ đối với phân loại thì mục tiêu dự đoán chỉ là một thuộc tính phân loại trong khi đó luật kết hợp có khả năng suy diễn đối với một tập các thuộc tính khác nhau
Đã có nhiều nghiên cứu giải quyết vấn đề phân loại như phân loại dựa vào cây quyết định, phân loại dựa vào mạng nơ ron, phân loại dựa vào lý thuyết xác suất Bayes, phân loại dựa vào lý thuyết tập thô, phân loại dựa vào luật kết hợp, phân loại dựa vào thống kê…
Trong những năm gần đây, hướng tiếp cận sử dụng luật kết hợp trong việc phân loại dữ liệu, gọi là phân loại kết hợp, đã được đề xuất và đã đạt được nhiều kết
Trang 16quả khả quan so với hướng tiếp cận truyền thống sử dụng cây quyết định Quinlan
Đã có một số bộ phân loại dựa vào luật kết hợp khá chính xác như CBA, CMAR Tuy nhiên, các bộ phân loại này chỉ gắn một thuộc tính phân loại với mỗi luật kết hợp, vì thế các luật kết hợp này thường không thích hợp cho việc phân loại đa lớp
1.2 Mục tiêu nghiên cứu
Luận văn sẽ tập trung vào việc nghiên cứu, phân tích và đánh giá thuật toán phân loại đa nhãn, đa lớp dựa vào luật kết hợp (Multi-class Multi-label Associative Classification – MMAC) để giải quyết vấn đề Theo đó một đối tượng không chỉ được gán nhãn phân loại với một lớp duy nhất mà có khả năng được gán nhãn với nhiều phân loại khác nhau, các nhãn này được sắp xếp theo một thứ tự nhất định Bên cạnh đó luận văn còn trình bày 3 đơn vị đo lường độ chính xác của việc phân loại dựa vào luật kết hợp nhằm đánh giá độ chính xác của MMAC so với các bộ phân loại hiện có
1.3 Đối tượng nghiên cứu
Đối tượng nghiên cứu là tập cơ sở dữ liệu Weka [16]
1.4 Phạm vi nghiên cứu
Luận văn sẽ tìm hiểu các phương pháp phân loại đa nhãn đa lớp Từ đó tập trung nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp Thực hiện thuật toán và xác định tính hiệu quả của phương pháp này bằng việc đánh giá
độ chính xác của bộ phân loại, đồng thời so sánh với các kết quả của thuật toán PART, RIPPER và CBA Kết quả thực nghiệm cho thấy, độ chính xác và số lượng
bộ phân loại sử dụng phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp được đề cập trong luận văn cho kết quả cao hơn so với các thuật toán phân loại đa nhãn đa lớp khác, cải thiện nhiều khả năng dự đoán, đây đáng là một hướng nên xem xét và phát triển trong tương lai
Trang 171.5 Bố cục luận văn
Luận văn được bố cục như sau:
Chương 1: tổng quan về luận văn gồm các mục: giới thiệu, mục tiêu, đối tượng và phạm vi nghiên cứu
Chương 2: giới thiệu về các nghiên cứu liên quan trong và ngoài nước Chương 3: tập trung trình bày phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp và 3 đơn vị đo lường độ chính xác của việc phân loại dựa vào luật kết hợp nhằm đánh giá độ chính xác của MMAC so với các bộ phân loại hiện có
Chương 4: trình bày một số kết quả đã đạt được khi tiến hành áp dụng phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp trên bộ dữ liệu Weka
Trang 18Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN
Phân loại là một công việc quan trọng trong khai thác dữ liệu nhằm mục đích
dự đoán một cách chính xác nhất có thể có phân loại của một đối tượng chưa biết Trong khi phân loại đơn nhãn chỉ gắn một thuộc tính phân loại với một luật kết hợp
đã được nghiên cứu phổ biến [6], [14], [15], [18] và một vài nghiên cứu khác đã thực hiện được phân loại đa nhãn Hầu hết các nghiên cứu cho đến nay về phân loại
đa nhãn đều có liên quan đến phân loại văn bản [12], [13] Có rất nhiều phương pháp để xây dựng phân loại đơn lớp từ dữ liệu, chẳng hạn như chia để trị [7] và chia tách để trị [4] Hầu hết các kỹ thuật phân loại truyền thống có nguồn gốc từ các phương pháp tiếp cận, chẳng hạn như cây quyết định [6], thống kê đã không thể giải quyết vấn đề đa nhãn
Một phương pháp phân loại đa nhãn được biết đến là phân loại mỗi lớp với mọi lớp còn lại (One vs rest - OvR) [19] từ dữ liệu huấn luyện xây dựng được một
bộ phân loại nhị phân trên mỗi lớp, thực hiện so sánh với tất các cả các phần còn lại Phương pháp OvR chỉ định một giá trị thực cho các thành viên của mỗi lớp
Một phương pháp phân loại đa nhãn khác là phân loại theo từng cặp (One vs One - OvO) [19] thực hiện xây dựng một phân loại đã được huấn luyện trên mỗi cặp
có thể có của lớp Cho K lớp, kết quả có (K-1)*K/2 phân loại nhị phân, có thể xảy
ra vấn đề nếu K lớn Mặt khác, phương pháp OvR không hiệu quả do tạo ra phân loại đơn, vì mỗi lớp có thể dễ dàng được tách ra khỏi phần còn lại bất cứ khi nào có hai hay nhiều luật dự đoán thử nghiệm, nghĩa là bất cứ khi nào kết quả không có luật có thể dự đoán các trường hợp thử nghiệm [11]
Một nhiệm vụ quan trọng trong khai thác dữ liệu là tìm ra tất cả các luật kết hợp trong dữ liệu Phân loại và tìm luật kết hợp là tương tự nhau, ngoại trừ đối với phân loại thì mục tiêu dự đoán chỉ là một thuộc tính phân loại trong khi đó luật kết hợp có khả năng suy diễn đối với một tập các thuộc tính khác nhau Trong
Trang 19những năm gần đây, một cách tiếp cận mới sử dụng luật kết hợp trong việc phân loại, gọi là phân loại kết hợp, đã được đề xuất [15], [1]
Hướng tiếp cận sử dụng luật kết hợp trong việc phân loại dữ liệu lần đầu tiên được trình bày bởi Liu và các đồng sự của Đại học Quốc gia Singapore trong việc phát hiện tri thức trong cơ sở dữ liệu ở hội nghị quốc tế được tổ chức tại New York,
1998 [1] và đã đạt được nhiều kết quả khả quan so với hướng tiếp cận truyền thống
sử dụng cây quyết định Quinlan [6] Kể từ đó việc phân loại kết hợp đã được mở ra
Bộ phân loại chính xác của thuật toán phân loại kết hợp đã được xác nhận trong 10 năm qua thông qua các nghiên cứu và thực nghiệm
Đã có một số phương pháp phân loại dựa vào luật kết hợp khá chính xác như CBA [1], CMAR [15] và CPAR [18] Thuật toán phân loại kết hợp đầu tiên CBA tạo ra các phân loại các luật kết hợp bằng cách sử dụng phương pháp lặp đi lặp lại tương tự như thuật toán Apriori Để tạo ra và thử nghiệm trên các tập dữ liệu lớn, cơ
sở dữ liệu cần phải được quét nhiều lần, do đó, số lượng các luật tăng theo cấp số nhân và sử dụng nhiều tài nguyên hệ thống hơn Đối với các luật có cùng một độ hỗ trợ và tin cậy, thuật toán CBA sắp xếp và chọn ngẫu nhiên, điều này làm giảm độ chính xác phân loại trong một số trường hợp Thuật toán CMAR là mở rộng của thuật toán CBA, sử dụng phương pháp phát sinh luật giống như FP-Growth Thuật toán CMAR tìm thấy các mô hình phổ biến và đồng thời tạo ra luật phân loại kết hợp, sử dụng phương pháp kiểm tra giá trị χ 2 để đánh giá các luật và sau đó phân loại một trường hợp mới, khắc phục xu hướng của việc sử dụng một luật đơn CMAR cải thiện hiệu quả của thuật toán bằng cách định nghĩa một cấu trúc dữ liệu mới đó là CR-tree (Compressed Rule tree) cây nén có mức độ cao, lưu trữ, sao lưu, lượt bớt các luật phân loại Trong khi thuật toán CMAR không tận dụng đầy đủ lợi thế của các đặc điểm phân loại, có rất nhiều các nút dư thừa trong FP-tree
Ross Quinlan đã đề xuất một kỹ thuật gọi là phân loại ID3 [8] có khả năng phân loại dữ liệu sử dụng cây Phương pháp này có thể được coi là một phần của luật phân loại dựa trên việc phân loại (cây) có thể được chuyển đổi thành một bộ
Trang 20các luật mà mỗi đường đi từ nút gốc đến lá là một luật có ý nghĩa Hình 2.1 cho thấy một cây gồm 5 luật Các cách để xây dựng một cây bằng thuật toán ID3 được dựa trên một công thức toán học được gọi là information gain (IG) trong đó IG của tất
cả các thuộc tính trong tập dữ liệu huấn luyện sẽ được đánh giá để chọn ra nút gốc Thuộc tính với mức tăng cao nhất được chọn là nút gốc và một nhánh cho mỗi giá trị của nó được xây dựng
Hình 2.1: Cây quyết định cho bộ dữ liệu thời tiết [8]
IG về cơ bản đánh giá các thuộc tính trong việc phân chia dữ liệu dựa trên nhãn lớp như thế nào là tốt Kết quả của một sự phân chia được xác định bằng cách
sử dụng một thuộc tính của lớp có nhãn tăng cao nhất gán cho thuộc tính đó Thuật toán lặp đi lặp lại quá trình này cho các thuộc tính còn lại cho đến khi cây không thể chia được nữa hoặc tất cả các trường dữ liệu trong một nút đang có cùng một lớp Khi cây kết thúc, một luật sẽ được đại diện bởi một đường dẫn bắt đầu từ gốc đến lá bất kỳ, trong đó đường đi chính của luật là các nút trên đường đi và lớp là lá
Sau khi giới thiệu thuật toán ID3, Quinlan tăng cường nó bằng cách tỉa thêm
để đơn giản hóa kết quả bằng cách loại bỏ các cây con có giá trị lỗi lớn Trong một bản tóm tắt, cắt tỉa liên quan đến tính toán sai lầm của các cây con và so sánh nó với
Quang cảnh
Trang 21những lá của nó Kết quả của việc tăng cường vào ID3 là một thuật toán gọi là C4.5 [6] cho thấy sự vượt trội so kỹ thuật phân loại khác như xác suất và bao phủ
RIPPER [17] chia các dữ liệu huấn luyện liên quan đến nhãn lớp Sau đó, thường bắt đầu với tập lớp ít nhất, nó xây dựng một luật bằng cách thêm các mẫu (giá trị thuộc tính) cho đến khi luật là hoàn hảo Đối với mỗi luật rỗng, các thuật toán tìm kiếm các giá trị tốt nhất của thuộc tính trong tập dữ liệu sử dụng IG và thêm nó vào luật Thực hiện thêm giá trị của thuộc tính cho đến khi luật trở nên hoàn hảo tại thời điểm đó các luật sẽ được tạo ra Giai đoạn này được gọi là phát triển luật Đồng thời, trong khi các luật được xây dựng, RIPPER sử dụng cắt tỉa mở rộng các mẫu tích cực và tiêu cực liên quan đến các luật ứng cử viên để giảm sự dư thừa và loại bỏ các giá trị của thuộc tính không cần thiết Thuật toán dừng xây dựng các luật khi bất kỳ luật tìm thấy có 50% lỗi hoặc trong một cài đặt mới của RIPPER các luật tạo ra có độ dài tổi thiểu sau khi thêm một luật ứng cử viên là lớn hơn một luật thu được trước khi thêm các luật ứng cử viên
Công việc cắt tỉa khác xảy ra trên các luật ứng cử viên để đưa ra các phân loại chính thức Vì vậy, đối với mỗi luật ứng cử viên tạo ra, việc thay thế hai luật được thực hiện: thay thế và sửa đổi nó Đầu tiên thực hiện bằng cách phát triển một luật và lọc để giảm thiểu các lỗi trên các luật tổng thể được tìm thấy Việc sửa đổi các luật được thực hiện tương tự, ngoại trừ các thuật toán chỉ chèn một mẫu bổ sung cho luật và các quy định sửa đổi đối với dữ liệu để lựa chọn các luật với tỷ lệ lỗi thấp nhất Công việc cắt tỉa trong RIPPER giải thích tại sao kích thước bộ phân loại được tạo của thuật toán là nhỏ Lần thử nghiệm trên một số bộ dữ liệu UCI cho thấy rằng các thuật toán quy nạp như RIPPER có độ chính xác tốt hơn khi so sánh với cây quyết định
Một thuật toán phân loại lai ghép có sử dụng cây quyết định và phương pháp tiếp cận quy tắc quy nạp với nhau để tạo ra phân loại trong một giai đoạn chứ không phải là hai giai đoạn được gọi là PART đã được đề xuất trong [20] PART sử dụng quy tắc quy nạp để tạo ra các luật ứng cử viên và sau đó thực hiện lọc bằng cách sử
Trang 22dụng phương pháp cắt tỉa dựa trên cây quyết định PART xây dựng một luật giống như các thuật toán quy nạp, xây dựng các quy tắc trực tiếp từ các dữ liệu, nó xuất phát từ một cây con (một phần của cây quyết định) của dữ liệu và sau đó PART sẽ chuyển đổi đường dẫn đến lá với phạm vi độ bao phủ lớn nhất tạo thành một quy tắc
và các cây con sẽ được loại bỏ cùng với các trường hợp tích cực của nó từ tập dữ liệu Quá trình tương tự được lặp đi lặp lại cho đến khi tất cả các trường trong tập
dữ liệu được lấy ra
Tuy nhiên, các phương pháp phân loại này chỉ gắn một thuộc tính phân loại với mỗi luật kết hợp, vì thế các luật kết hợp này thường không thích hợp cho việc phân loại đa lớp Ví dụ một tài liệu có hai nhãn phân loại là “Sức khỏe” và “Chính phủ”, giả sử rằng tài liệu này kết hợp với nhãn “Sức khỏe” 50 lần và nhãn “Chính phủ” 48 lần trong tổng số 98 lần tài liệu xuất hiện trong dữ liệu huấn luyện Hướng tiếp cận truyền thống trong CBA sẽ tạo ra luật gắn nhãn “Sức khỏe” cho tài liệu vì
nó có tần suất xuất hiện nhiều hơn và loại bỏ luật gắn nhãn “Chính phủ” Tuy nhiên
rõ ràng việc giữ lại luật gán nhãn “Chính phủ” sẽ cung cấp nhiều thông tin hữu ích trong việc phân loại tài liệu vì nó vẫn có tần suất xuất hiện cao
Trang 23Chương 3: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP
3.1 Phân loại là gì?
Phân loại dữ liệu là một xử lý bao gồm hai bước (Hình 3.1) Ở bước đầu tiên, xây dựng mô hình mô tả một tập cho trước các lớp dữ liệu Mô hình này có được bằng cách phân tích các bộ cơ sở dữ liệu Mỗi bộ được giả định thuộc về một lớp cho trước, các lớp này chính là các giá trị của một thuộc tính được chỉ định, gọi là thuộc tính nhãn lớp Các bộ dữ liệu để xây dựng mô hình gọi là tập dữ liệu huấn luyện Do nhãn lớp của mỗi mẫu huấn luyện đã biết trước nên bước này cũng được biết đến như là học có giám sát Điều này trái ngược với học không có giám sát, trong đó các mẫu huấn luyện chưa biết sẽ thuộc về nhãn lớp nào và số lượng hay tập các lớp được học chưa biết trước
Hình 3.1: Xử lý phân loại dữ liệu [5]
Trang 24Mô hình học được biểu diễn dưới dạng các luật phân loại, cây quyết định hay công thức toán học Ví dụ, cho trước một cơ sở dữ liệu thông tin về độ tín nhiệm của khách hàng, các luật phân loại được học để nhận biết các khách hàng có độ tín nhiệm là tốt hay khá tốt (Hình 3.1a) Các luật được dùng để phân loại các mẫu dữ liệu tương lai cũng như cung cấp cách hiểu tốt hơn về nội dung cơ sở dữ liệu
Trong bước thứ hai (hình 3.1b), mô hình được dùng để phân loại Trước tiên, đánh giá độ chính xác dự đoán của mô hình (hay phân loại) Phần cuối của chương này sẽ mô tả một số phương pháp đánh giá độ chính xác phân loại Phương pháp holdout là một kỹ thuật đơn giản sử dụng một tập kiểm tra các mẫu đã được gắn nhãn lớp Các mẫu này được chọn lựa ngẫu nhiên và độc lập với các mẫu huấn luyện Độ chính xác của mô hình trên một tập kiểm tra cho trước là phần trăm các mẫu của tập kiểm tra được mô hình phân loại đúng Đối với mỗi mẫu kiểm tra, nhãn lớp đã biết được so sánh với dự đoán lớp của mô hình đã học cho mẫu đó Nếu độ chính xác của mô hình được đánh giá dựa trên tập dữ liệu huấn luyện, sự đánh giá này có thể là tối ưu, do vậy mô hình học có khuynh hướng quá phù hợp dữ liệu Bởi vậy, cần dùng một tập kiểm tra
Nếu độ chính xác của mô hình là chấp nhận được, mô hình có thể được sử dụng để phân loại các bộ hay các đối tượng dữ liệu tương lai mà chưa biết nhãn lớp
Ví dụ, các luật phân loại học trong hình 3.1a: việc phân tích dữ liệu khách hàng từ các khách hàng đã tồn tại có thể được dùng để dự đoán độ tín nhiệm của các khách hàng mới
Ví dụ: Giả sử rằng ta có một cơ sở dữ liệu các khách hàng trên danh sách thư AllElectronics Danh sách thư được dùng để gửi đi các tài liệu quảng cáo mô tả các sản phẩm mới và niêm yết lên các sản phẩm hạ giá Cơ sở dữ liệu mô tả các thuộc tính của khách hàng như tên, tuổi, thu nhập, nghề nghiệp và độ tín nhiệm Khách hàng được phân loại vào nhóm người mua hay không mua máy tính tại AllElectronics Giả sử rằng các khách hàng mới được thêm vào cơ sở dữ liệu và bạn
Trang 25sẽ thông báo cho những khách hàng này thông tin bán máy tính Thay vì gửi tài liệu quảng cáo tới từng khách hàng mới, ta chỉ gửi tài liệu quảng cáo tới những người có khả năng muốn mua máy tính, như vậy chi phí sẽ hiệu quả hơn Mô hình phân loại được xây dựng và sử dụng cho mục đích này
3.2 Các vấn đề quan tâm của phân loại
3.2.1 Chuẩn bị dữ liệu để phân loại
Các bước tiền xử lý dữ liệu sau đây giúp cải thiện độ chính xác, hiệu suất và khả năng mở rộng của phân loại
- Làm sạch dữ liệu: Đây là quá trình thuộc về tiền xử lý dữ liệu để gỡ bỏ hoặc làm giảm nhiễu và cách xử lý các giá trị khuyết Bước này giúp làm giảm sự mập mờ khi học
- Phân tích sự thích hợp: Nhiều thuộc tính trong dữ liệu có thể không thích hợp hay không cần thiết để phân loại Vì vậy, phép phân tích sự thích hợp được thực hiện trên dữ liệu với mục đích gỡ bỏ bất kỳ những thuộc tính không thích hợp hay không cần thiết Trong học máy, bước này gọi là trích chọn đặc trưng Phép phân tích này giúp phân loại hiệu quả và nâng cao khả năng mở rộng
- Biến đổi dữ liệu: Dữ liệu có thể được tổng quát hoá tới các mức khái niệm cao hơn Điều này rất hữu ích cho các thuộc tính có giá trị liên tục Ví dụ, các giá trị
số của thuộc tính thu nhập được tổng quát hoá sang các phạm vi rời rạc như thấp, trung bình và cao Tương tự, các thuộc tính giá trị tên như đường phố được tổng quát hoá tới khái niệm mức cao hơn như thành phố Nhờ đó các thao tác vào/ra trong quá trình học sẽ ít đi
Dữ liệu cũng có thể được tiêu chuẩn hoá, đặc biệt khi các mạng nơron hay các phương pháp dùng phép đo khoảng cách trong bước học Tiêu chuẩn hoá biến đổi theo tỷ lệ tất cả các giá trị của một thuộc tính cho trước để chúng rơi vào phạm
vi chỉ định nhỏ như [-1.0,1.0] hay [0,1.0] Tuy nhiên điều này sẽ cản trở các thuộc
Trang 26tính có phạm vi ban đầu lớn (như thu nhập) có nhiều ảnh hưởng hơn đối với các thuộc tính có phạm vi nhỏ hơn ban đầu (như các thuộc tính nhị phân)
3.2.2 So sánh các phương pháp phân loại
Các phương pháp phân loại có thể được so sánh và đánh giá theo các tiêu chí sau:
- Độ chính xác dự đoán: Dựa trên khả năng mô hình dự đoán đúng nhãn lớp của dữ liệu mới
- Tốc độ: Dựa trên các chi phí tính toán Chi phí này bao gồm sinh và sử dụng mô hình
- Tính bền vững: Dựa trên khả năng mô hình đưa ra các dự đoán chính xác
dữ liệu nhiễu hay dữ liệu với các giá trị khuyết cho trước
- Khả năng mở rộng: Dựa trên khả năng trình diễn hiệu quả của mô hình đối với dữ liệu lớn
- Khả năng diễn giải: Dựa trên mức khả năng mà mô hình cung cấp để hiểu thấu đáo dữ liệu
3.3 Phân loại đa nhãn (Multi-label Classification)
Phân loại đa nhãn là một đối tượng không chỉ được gán nhãn phân loại với một lớp duy nhất mà có khả năng được gán nhãn với nhiều phân loại khác nhau, các nhãn này được sắp xếp theo một thứ tự nhất định
Gọi C là tập dữ liệu huấn luyện và c là danh sách nhãn phân loại Bộ phân loại H xác định hàm T C, trong đó mỗi đối tượng i T được gán một hoặc nhiều nhãn phân loại (i, (c1,c2, ,c k)) với c iC Mục tiêu là tìm được hàm h H có khả năng cực đại khả năng h(i) c cho mỗi trường hợp ( c i, )
Trang 273.4 Luật kết hợp
Luật kết hợp là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai thác dữ liệu là tập luật kết hợp tìm được
Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa Thông tin mà dạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ cơ sở
dữ liệu tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai thác
dữ liệu
Giả sử chúng ta có một cơ sở dữ liệu D Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các thuộc tính S nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập những thuộc tính khác U cũng trong những record đó Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ (ration) hỗ trợ Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả S và U
Vấn đề khám phá luật kết hợp được phát biểu như sau:
Cho trước tỉ lệ hỗ trợ (support ration) α và độ tin cậy (confidence) γ
Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn α và γ tương ứng
Ví dụ: D là cơ sở dữ liệu mua bán và với α = 40%, γ = 90% Vấn đề phát hiện luật kết hợp được thực hiện như sau:
Liệt kê (đếm) tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác
Chỉ xét những luật có ngưỡng hỗ trợ lớn hơn 40% và ngưỡng tin cậy lớn hơn 90%
Trang 28Hay chúng ta hãy tưởng tượng, một công ty bán hàng qua mạng Internet Các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một cơ sở
dữ liệu về các yêu cầu của khách hàng Giả sử công ty quan tâm đến mối quan hệ
"tuổi, giới tính, nghề nghiệp → sản phẩm" Khi đó có thể có rất nhiều câu hỏi tương ứng với luật trên Ví dụ: trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất (thoả mãn một ngưỡng nào đó)?
Cho trước một tập các dòng dữ liệu, mỗi dòng chứa một số lượng các phần
tử được lấy từ một tập cho trước Mục tiêu là rút trích được các phụ thuộc hàm dự đoán khả năng xuất hiện của một hoặc nhiều phần tử dựa vào sự xuất hiện của các phần tử khác
Hình 3.2: Tìm Luật kết hợp [5]
3.5 Một số định nghĩa
Gọi T là tập dữ liệu huấn luyện với n thuộc tính A1, A2, …, An và c là danh sách nhãn phân loại Một giá trị cụ thể của thuộc tính Ai được ký hiệu ai và giá trị cụ thể cho nhãn phân loại C được ký hiệu là cj
Định nghĩa 1: Một phần tử được định nghĩa bởi một tập kết hợp các thuộc
c a
A a
A a
A , ) ( , ) ( , )
(
Trang 29Trong đó vế điều kiện của luật là một phần tử và vế kết quả là danh sách các nhãn phân loại được sắp thứ tự
Định nghĩa 3: Độ xảy ra thực sự của một luật r trong T là số trường hợp
trong T thỏa điều kiện của luật r
Định nghĩa 4: Độ phổ biến (SuppCount) của luật r là số trường hợp trong T
thỏa điều kiện của luật r và thuộc về một lớp ci Khi một phần tử được gán nhiều nhãn sẽ có nhiều SuppCount khác nhau cho mỗi nhãn phân loại
Định nghĩa 5: Một luật r thỏa ngưỡng phổ biến tối thiểu (MinSupp) nếu
MinSupp T
r
SuppCount( ) / | | , trong đó |T| là số các thể hiện trong T
Định nghĩa 6: Một luật r thỏa ngưỡng tin cậy tối thiểu (MinConf) nếu
MinConf r
ActOccr r
Định nghĩa 7: Một phần tử bất kỳ trong T thoả MinSupp được gọi là một
phần tử phổ biến
3.6 Phân loại dựa vào luật kết hợp
"Khai thác luật kết hợp có thể được sử dụng để phân loại không?"
Khai thác luật kết hợp là một lĩnh vực quan trọng và có tính thiết thực cao của nghiên cứu khai thác dữ liệu Các kỹ thuật khai thác dữ liệu áp dụng khai thác luật kết hợp cho các bài toán phân loại đã phát triển Trong phần này, ta nghiên cứu phân loại dựa trên sự kết hợp
Một phương pháp phân loại dựa trên sự kết hợp gọi là phân loại kết hợp, gồm có 2 bước Bước đầu tiên, các luật kết hợp được sinh ra sử dụng một phiên bản
đã sửa đổi của giải thuật khai thác luật kết hợp chuẩn đã biết như Apriori Bước 2 xây dựng một phân loại dựa trên các luật kết hợp đã phát hiện
Cho D là dữ liệu huấn luyện và Y là tập tất cả các lớp trong D Giải thuật ánh
xạ các thuộc tính xác thực vào các giá trị nguyên dương liên tiếp Các thuộc tính
Trang 30liên tục được rời rạc hoá và được ánh xạ Mỗi mẫu dữ liệu d trong D sau đó được biểu diễn bởi một tập các cặp (thuộc tính, giá trị nguyên) gọi là các item và một nhãn lớp y Cho I là tập tất cả các item trong D Một luật kết hợp lớp (viết tắt: CAR
- Class Association Rule) có dạng condset ⇒ y, với condset là một tập các item (condset ⊆ I) và y ∈Y Các luật đó được biểu diễn bởi các ruleitem có dạng
<condset,y>
CAR có độ tin cậy c nếu c% các mẫu trong D chứa condset thuộc lớp y CAR có hỗ trợ s nếu s% các mẫu trong D chứa condset và thuộc lớp y Tổng hỗ trợ của một condset (condsupCount) là số lượng mẫu trong D chứa condset
Tổng luật của một ruleitem (luật của mẫu) có độ hỗ trợ (rulesupCount) là số lượng mẫu trong D có condset và được gán nhãn với lớp y Các ruleitem thoả độ hỗ trợ cực tiểu là các ruleitem phổ biến Nếu một tập các ruleitem có cùng condset thì luật với độ tin cậy cao nhất được lựa chọn như một luật có thể (viết tắt: PR - Possible Rule) để miêu tả tập Một luật thoả độ tin cậy cực tiểu được gọi là luật chính xác
"Phân loại kết hợp làm việc như thế nào?"
Trước tiên, phương pháp phân loại kết hợp tìm tập tất cả các PR mà có cả tính phổ biến và tính chính xác Đó chính là các luật kết hợp lớp (viết tắt CARs - Class Association Rules) Một ruleitem mà condset của nó chứa k item là một k-ruleitem Giải thuật dùng một tiếp cận lặp, ở đây các ruleitem được xử lý tốt hơn các itemset Giải thuật quét cơ sở dữ liệu, tìm kiếm k-ruleitems phổ biến, với k= 1,2, cho tới khi tất cả các k-ruleitems phổ biến được tìm ra Một lần quét được thực hiện đối với mỗi giá trị của k k-ruleitems được dùng để khảo sát (k+1)-ruleitems Khi quét cơ sở dữ liệu lần đầu tiên, tổng số hỗ trợ của 1-ruleitems được xác định và 1-ruleitems phổ biến được giữ lại 1-ruleitems phổ biến còn gọi là tập F1
được dùng để sinh ra ứng cử 2-ruleitems C2 Tri thức của các đặc tính ruleitem thường xuyên được dùng để cắt tỉa các ruleitem ứng cử không phải là thường
Trang 31xuyên Tri thức này cho thấy rằng tất cả các tập con không rỗng của một ruleitems thường xuyên cũng phải là thường xuyên Cơ sở dữ liệu được quét lần thứ 2 để tính tổng số hỗ trợ của mỗi ứng cử, để 2-ruleitems thường xuyên (F2) có thể được xác định Xử lý này lặp lại với Fk được dùng để sinh ra Ck+1, cho tới khi không tìm thấy một ruleitems thường xuyên nào nữa Các ruleitems thường xuyên mà thoả độ tin cậy cực tiểu hình thành nên tập các CAR Việc cắt tỉa có thể được áp dụng cho tập luật này
Bước thứ 2 của phương pháp phân loại kết hợp xử lý các CAR được phát sinh để xây dựng phân loại Vì tổng số lượng các tập con các luật được kiểm tra để xác định tập các luật chính xác nhất có thể là khổng lồ nên một phương pháp heuristic sẽ được dùng Một thứ tự quyền ưu tiên giữa các luật được định nghĩa, tại
đó một luật ri có độ ưu tiên cao hơn các luật rj (tức là ri≻ rj) nếu:
(1) Độ tin cậy của ri lớn hơn của rj, hay
(2) Các độ tin cậy là giống nhau nhưng ri có hỗ trợ lớn hơn, hay
(3) Các độ tin cậy và hỗ trợ của ri và rj là như nhau nhưng ri được sinh ra sớm hơn rj
Nhìn chung, giải thuật lựa chọn một tập các CAR quyền ưu tiên cao để phủ các mẫu trong D Phân loại duy trì các luật được chọn lựa từ thứ tự ưu tiên cao tới thấp Khi phân loại một mẫu mới, luật đầu tiên thoả mẫu sẽ được dùng để phân loại
nó Phân loại cũng chứa đựng một luật ngầm định, có thứ tự ưu tiên thấp nhất, nó định rõ một lớp ngầm định cho bất kỳ một mẫu mới nào mà không thoả bởi bất cứ một luật nào khác trong phân loại
Do vậy, khai thác luật kết hợp là một chiến lược quan trọng để sinh ra các phân loại chính xác và có thể mở rộng
Trang 32Hướng tiếp cận phân loại dựa vào luật kết hợp đầu tiên sẽ tìm tất cả các tập phần tử phổ biến thỏa MinSupp trong tập dữ liệu huấn luyện Nếu phần tử phổ biến chỉ bao gồm một giá trị đơn ví dụ như <(A1, a1)>, <(A2, a2)>, <(A3, a3)> được gọi là phần tử phổ biến đơn Những phần tử phổ biến đơn này sẽ được sử dụng để tạo các tập phổ biến đôi chứa 2 phần tử Những tập phổ biến đôi lại được sử dụng để tạo tập phổ biến ba phần tử… Tất cả các tập phổ biến được tìm thấy sau đó sẽ được sử dụng để rút luật kết hợp phân loại có đặc điểm vế phải chỉ bao gồm thuộc tính phân loại Các luật kết hợp phân loại này phải thỏa ngưỡng MinConf và phân loại được ít nhất một thể hiện trong dữ liệu huấn luyện
3.7 Phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp (MMAC)
Giải thuật MMAC [3] đưa ra bao gồm 3 bước: tạo luật kết hợp, học đệ qui và phân loại Bước 1 duyệt dữ liệu huấn luyện để rút trích tất cả các luật phân loại Bước 2 tiếp tục rút trích các luật thỏa ngưỡng MinSupp và MinConf trên tập những
Tid Refund Marital
Status
Taxable Income Cheat
DL Huấn Luyện
Mô hình
Bộ học phân lớp