Phát triển một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận filter wrapper (developing the filter wrapper attribute reduction methods in incomplete decision tables)

Luận án tiến sĩ [1] đề xuấtcác thuật toán rút gọn thuộc tính trong bảng quyết định không đầy đủ cố định.Trong luận án tiến sĩ [3], các tác giả đề xuất hướng tiếp cận kết hợp filter-wrapp

Trang 2

NGUYỄN BÁ QUẢNG

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH

KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER

Chuyên ngành: Cơ sở toán học cho tin học

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

Hà Nội - 2021

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các số liệu,kết quả nghiên cứu trong luận án này là hoàn toàn trung thực và chưa từngđược ai công bố trong bất kỳ công trình nào khác, các dữ liệu tham khảo đượctrích dẫn đầy đủ

Tác giả luận án

Nguyễn Bá Quảng

Trang 4

LỜI CÁM ƠN

Tôi xin chân thành cám ơn Thủ trưởng Viện Khoa học và Công nghệquân sự, Phòng Đào tạo, Viện Công nghệ thông tin và các đồng nghiệp đãluôn động viên, quan tâm, tạo điều kiện thuận lợi và giúp đỡ tôi trong quátrình học tập và nghiên cứu của mình

Tôi xin bày tỏ sự biết ơn chân thành và sâu sắc đến PGS TS NguyễnLong Giang, TS Ngô Trọng Mại đã tận tình chỉ bảo, hướng dẫn tôi trong suốtquá trình nghiên cứu và hoàn thành bản luận án này

Tôi xin chân thành cám ơn các nhà khoa học của Viện Khoa học vàCông nghệ quân sự, các nhà khoa học Viện Hàn lâm Khoa học và Công nghệViệt Nam, các nhà khoa học trong và ngoài quân đội đã giúp đỡ tôi hoànthành luận án

Xin chân thành cám ơn gia đình và bạn bè đã luôn chia sẻ, động viên vàgiúp đỡ tôi trong suốt thời gian học tập và nghiên cứu

Trang 5

MỤC LỤC

Trang

LỜI CAM ĐOAN i

LỜI CÁM ƠN ii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ vii

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ DUNG SAI 10

1.1 Hệ thông tin và mô hình tập thô truyền thống 10

1.1.1 Hệ thông tin 10

1.1.2 Mô hình tập thô truyền thống 11

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 12

1.2.1 Hệ thông tin không đầy đủ 12

1.2.2 Mô hình tập thô dung sai 12

1.2.3 Bảng quyết định không đầy đủ 14

1.2.4 Ma trận dung sai 16

1.3 Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô dung sai 18

1.3.1 Tổng quan về rút gọn thuộc tính 18

1.3.2 Tiếp cận filter, wrapper trong rút gọn thuộc tính 19

1.3.3 Rút gọn thuộc tính theo tiếp cận tập thô dung sai 21

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai 24 1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô dung sai 24

1.4.2 Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai 27

1.5 Kết luận chương 1 36

CHƯƠNG 2 THUẬT TOÁN FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 37

2.1 Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ 38

2.1.1 Xây dựng độ đo khoảng cách giữa hai tập hợp 39

2.1.2 Xây dựng độ đo khoảng cách giữa hai tập thuộc tính 40

Trang 6

2.2.1 Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định

không đầy đủ 43

2.2.2 Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ 46

2.2.3 Thực nghiệm và đánh giá kết quả 49

CHƯƠNG 3 CÁC THUẬT TOÁN GIA TĂNG FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH THAY ĐỔI 55 3.1 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập đối tượng 58

3.1.1 Công thức cập nhật khoảng cách khi bổ sung tập đối tượng 58

3.1.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập đối tượng 62

3.1.3 Công thức cập nhật khoảng cách khi loại bỏ tập đối tượng 67

3.1.4 Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập đối tượng 70

3.1.5 Thực nghiệm và đánh giá các thuật toán 74

3.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập thuộc tính 92

3.2.1 Công thức cập nhật khoảng cách khi bổ sung tập thuộc tính 92

3.2.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính 93

3.2.3 Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính 97

3.2.4 Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập thuộc tính 98

3.2.5 Thực nghiệm và đánh giá các thuật toán 101

KẾT LUẬN 108

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 110

TÀI LIỆU THAM KHẢO 111

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Lớp dung sai chứa u của phủ U/SIM PLực lượng lớp dung sai

S P 

u 

Số đối tượng Giá trị của đối tượng u tại thuộc tính a

Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Add Objects.

Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Delete Attributes.

Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Delete Objects.

Filter-Wrapper Distance based Attribute Reduction in Incomplete Decision Tables

Trang 8

Bảng 1.1 Bảng quyết định không đầy đủ về các xe hơi 16

Bảng 1.2 Các thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai 24

Bảng 1.3 Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình mở rộng 28

Bảng 1.4 Các thuật toán gia tăng tính toán các tập xấp xỉ và tìm tập rút gọn theo tiếp cận tập thô dung sai 33

Bảng 2.1 Bảng quyết định của Ví dụ 2.1 45

Bảng 2.2 Bộ dữ liệu thực nghiệm thuật toán IDS_FW_DAR 50

Bảng 2.3 Thời gian thực hiện ba thuật toán (tính bằng giây) 51

Bảng 2.4 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của ba thuật toán 52

Bảng 3.3 Bộ dữ liệu thử nghiệm thuật toán IDS_IFW_AO 75

Bảng 3.4 Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR (s) 77 Bảng 3.5 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật toán IDS_IFW_AO và IDS_FW_DAR 80

Bảng 3.6 Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán IDS_IFW_AO và IARM-I 82

Bảng 3.7 Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I (s) 86

Bảng 3.8 Thời gian thực hiện của 03 thuật toán (s) 89

Bảng 3.9 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của 03 thuật toán 90 Bảng 3.10 Bộ dữ liệu thực nghiệm của thuật toán IDS_IFW_AA 102

Bảng 3.11 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật toán IDS_IFW_AA và UARA 103

Bảng 3.12 Thời gian thực hiện của thuật toán IDS_IFW_AA và UARA (s) 105

Trang 9

DANH MỤC CÁC HÌNH VẼ

Trang

Hình 1.1 Quy trình rút gọn thuộc tính 20

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính 21

Hình 1.3 Mô hình phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai 22 Hình 2.1 Thời gian thực hiện ba thuật toán (tính bằng giây) 51

Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán 53

Hình 2.3 Độ chính xác phân lớp của ba thuật toán 54

Hình 3.1 Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR 79

Hình 3.2 Độ chính xác phân lớp của IDS_IFW_AO và IDS_FW_DAR 81

Hình 3.3.a Bộ số liệu Audiology 84

Hình 3.3.b Bộ số liệu Soybean-large 84

Hình 3.3.c Bộ số liệu Congressional Voting Records 84

Hình 3.3.d Bộ số liệu Arrhythmia 85

Hình 3.3.e Bộ số liệu Anneal 85

Hình 3.3.f Bộ số liệu Advertisements 85

Hình 3.3 Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán IDS_IFW_AO và IARM-I 85

Hình 3.4 Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I 88

Hình 3.5 Thời gian thực hiện của 03 thuật toán (s) 89

Hình 3.6 Độ chính xác phân lớp của 03 thuật toán 91

Hình 3.7 Số thuộc tính tập rút gọn của 03 thuật toán 91

Trang 10

1 Tính cấp thiết của đề tài luận án

Trong bối cảnh ngày nay, sự tăng trưởng không ngừng của dung lượng

dữ liệu và số lượng các thuộc tính đã gây khó khăn, thách thức cho việc thựcthi các thuật toán khai phá dữ liệu, phát hiện tri thức Rút gọn thuộc tính (còngọi là rút gọn chiều, hay rút gọn đặc trưng) là bài toán quan trọng trong bướctiền xử lý dữ liệu với mục tiêu là loại bỏ các thuộc tính dư thừa, không cầnthiết nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu Hiện nay cóhai cách tiếp cận chính đối với bài toán rút gọn thuộc tính [39-40]: filter (lọc)

và wrapper (đóng gói) Cách tiếp cận filter thực hiện việc rút gọn thuộc tínhđộc lập với thuật khai phá dữ liệu sử dụng sau này Các thuộc tính được chọnchỉ dựa trên độ quan trọng của chúng trong việc phân lớp dữ liệu Trong khi

đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngaythuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọncác tập con thuộc tính

Lý thuyết tập thô (Rough set) do Pawlak đề xuất [113] được xem là công

cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy

đủ, đã và đang được cộng đồng nghiên cứu về tập thô thực hiện lâu nay.Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền

giá trị thuộc tính, gọi là bảng quyết định không đầy đủ Ví dụ với bảng quyết

định chẩn đoán bệnh viêm gan với các thuộc tính là các triệu chứng, các bác sĩkhông thể thu thập đầy đủ các triệu chứng của tất cả các bệnh nhân để raquyết định Để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyếtđịnh không đầy đủ mà không qua bước tiền xử lý giá trị thiếu, Kryszkiewicz[67] mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thànhquan hệ dung sai và xây dựng mô hình tập thô dung sai (tolerance rough set)

Các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo

Trang 11

tiếp cận mô hình tập thô dung sai là các nghiên cứu mở rộng của các phươngpháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống Đây là các phươngpháp heuristic bao gồm các bước: xây dựng độ đo, định nghĩa tập rút gọn và

độ quan trọng của thuộc tính sử dụng độ đo được xây dựng, trên cơ sở đó xâydựng thuật toán heuristic tìm tập rút gọn theo tiêu chuẩn là độ quan trọng củathuộc tính Các nghiên cứu liên quan đến rút gọn thuộc tính trong bảng quyếtđịnh không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phươngpháp chính như: các phương pháp sử dụng miền dương mở rộng [25], [51],[99], [114], [117], các phương pháp sử dụng ma trận phân biệt, hàm phân biệt

mở rộng [29], [45], [47], [57], [77], [80], [116], các phương pháp sử dụngentropy thông tin mở rộng [26], [48-50], [64], [79], [107], các phương pháp

sử dụng độ đo lượng thông tin [72], [91], [94], phương pháp sử dụng khoảngcách [62], [78] và một số phương pháp sử dụng các độ đo khác như quan hệkhông phân biệt mở rộng [85], độ bao phủ của thuộc tính [93] Nhìn chung,các phương pháp rút gọn thuộc tính theo tiếp cận tập thô và tập thô dung saiđều hướng tới mục tiêu là tìm được tập rút gọn hiệu quả nhất để thực thi môhình phân lớp dựa trên các tiêu chí: giảm thiểu số thuộc tính tập rút gọn đểgiảm thiểu độ phức tạp và nâng cao độ chính xác của mô hình Các thuật toán

đã đề xuất trong các phương pháp nêu trên đều là các thuật toán heuristic theo

tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối

thiểu bảo toàn độ đo được định nghĩa Việc đánh giá độ chính xác của môhình phân lớp được thực hiện sau khi tìm được tập rút gọn Do đó, tập rút gọn

của các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ

Trang 12

quyết định đầy đủ theo tiếp cận filter truyền thống Luận án tiến sĩ [1] đề xuấtcác thuật toán rút gọn thuộc tính trong bảng quyết định không đầy đủ cố định.Trong luận án tiến sĩ [3], các tác giả đề xuất hướng tiếp cận kết hợp filter-wrapper tìm tập rút gọn của bảng quyết định đầy đủ dựa trên lý thuyết tập thô

mờ (fuzzy rough set) Trong đó, giai đoạn filter tìm các ứng viên cho tập rútgọn dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính toán

độ chính xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độchính xác phân lớp cao nhất Kết quả thử nghiệm cho thấy, số lượng thuộctính tập rút gọn giảm thiểu đáng kể so với các phương pháp filter, trong khi độchính xác phân lớp vẫn được bảo toàn và cải thiện hơn Tuy nhiên, cácphương pháp trong luận án [3] đều thực hiện trên bảng quyết định đầy đủ theo

tiếp cận tập thô mờ (fuzzy rough set) Do đó, mục tiêu nghiên cứu thứ nhất

của luận án là nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rútgọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai nhằmgiảm thiểu số lượng thuộc tính tập rút gọn, trong khi cố gắng bảo toàn, cảithiện độ chính xác mô hình phân lớp

Ngày nay, trong xu thế phát triển của dữ liệu lớn (Big data), các bảngquyết định ngày càng có kích thước lớn và luôn thay đổi, cập nhật Việc ápdụng các thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiềuthách thức Với trường hợp bảng quyết định có kích thước lớn, việc thực hiệncác thuật toán tìm tập rút gọn gặp khó khăn do hạn chế về không gian lưu trữ

và tốc độ tính toán Với trường hợp bảng quyết định thay đổi, cập nhật, cácthuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết định saukhi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể Để vượtqua các thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toángia tăng tìm tập rút gọn Phương pháp gia tăng tìm tập rút gọn là kỹ thuật chỉtính toán sự thay đổi của tập rút gọn trên phần dữ liệu bổ sung (hoặc loại bỏ)

Trang 13

chứ không tính lại tập rút gọn trên toàn bộ tập dữ liệu ban đầu Do các thuậttoán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị thay đổi nênchúng giảm thiểu đáng kể thời gian thực hiện khi thực thi trên các bảng dữliệu thay đổi, biến động Hơn nữa, các thuật toán gia tăng có thể thực hiệnđược trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảngquyết định thành nhiều phần, sau đó tập rút gọn được tính khi lần lượt bổ sungtừng phần vào bảng quyết định.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự

quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua Theo tiếp

cận tập thô truyền thống và các mô hình mở rộng, các nghiên cứu liên quan

đến thuật toán gia tăng tìm tập rút gọn và tính toán các tập xấp xỉ của bảngquyết định thay đổi khá sôi động và phong phú Các nghiên cứu liên quan đếncác thuật toán gia tăng tìm tập rút gọn và tập trung vào các trường hợp: bổsung và loại bỏ tập đối tượng [14], [20-21], [30], [33], [35], [37], [52], [55],[59], [70], [87], [89], [95-96], [100], [102], [106], [108], [110-112], bổ sung

và loại bỏ tập thuộc tính [6], [19], [32], [53], [58], [60], [68], [76], [101],[104], tập đối tượng thay đổi giá trị [10], [66], [88], [90], [103], tập thuộc tínhthay đổi giá trị [22], [31], [34], [36], [65] Ngoài ra, một số công bố đề xuấtcác thuật toán gia tăng tính toán các tập xấp xỉ trong các trường hợp: bổ sung

và loại bỏ tập đối tượng [12], [15], [43], [97], [105], [109], bổ sung và loại bỏtập thuộc tính [7], [24], [73], [75], tập đối tượng thay đổi giá trị [44], tập

thuộc tính thay đổi giá trị [11], [41], [74] Theo tiếp cận tập thô dung sai,

trong mấy năm gần đây các nghiên cứu liên quan đến thuật toán gia tăng tínhtoán các tập xấp xỉ và tìm tập rút gọn của bảng quyết định không đầy đủ khásôi động và phong phú Giống như tiếp cận tập thô truyền thống và các môhình mở rộng được trình bày ở trên, các nghiên cứu liên quan chủ yếu tậptrung vào trường hợp bổ sung, loại bỏ tập đối tượng [9], [13], [18], [23], [28],[38], [42], [46], [56], [71], [81-82], [86] Ngoài ra, công bố [83] giải quyết bài

Trang 14

bài toán trong trường hợp tập đối tượng thay đổi giá trị; công bố [92] giảiquyết bài toán trong trường hợp tập thuộc tính thay đổi giá trị.

Giống như các thuật toán tìm tập rút gọn trong bảng quyết định khôngđầy đủ đã trình bày ở trên, các thuật toán gia tăng tìm tập rút gọn trong cácphương pháp nêu trên đều theo hướng tiếp cận filter truyền thống Do đó, tậprút gọn tìm được chưa tối ưu cả về số lượng thuộc tính và độ chính xác phânlớp Gần đây, các tác giả trong công trình [4] đề xuất thuật toán gia tăng tìmtập rút gọn theo tiếp cận kết hợp filter-wrapper Tuy nhiên, thuật toán gia tăngtrong [4] chỉ tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô

mờ trong trường hợp bổ sung tập đối tượng Vì vậy, mục tiêu nghiên cứu thứ

hai của luận án là nghiên cứu các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu

số lượng thuộc tính tập rút gọn và cải thiện độ chính xác phân lớp so với cácthuật toán đã công bố

2 Mục tiêu nghiên cứu

Trên cơ sở phân tích các vấn đề còn tồn tại của các nghiên cứu liên quan,

mục tiêu của luận án là:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết địnhkhông đầy đủ theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộctính tập rút gọn (từ đó giảm thiểu độ phức tạp của mô hình) và cải thiện độchính xác của mô hình phân lớp

2) Đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn củabảng quyết định không đầy đủ thay đổi theo tiếp cận tập thô dung sai nhằm giảmthiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phânlớp so với các thuật toán gia tăng khác

Đối tượng nghiên cứu của luận án là bảng quyết định không đầy đủ, mô

Trang 15

hình tập thô dung sai, các phương pháp rút gọn thuộc tính theo tiếp cận tậpthô dung sai và các phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tậpthô dung sai.

Phạm vi nghiên cứu của luận án là các phương pháp rút gọn thuộc tínhtrong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiêncứu thực nghiệm

1) Nghiên cứu lý thuyết: Nghiên cứu các thuật toán rút gọn thuộc tính

theo tiếp cận tập thô dung sai đã công bố, bao gồm các thuật toán trên bảng quyếtđịnh không thay đổi và các thuật toán gia tăng trên bảng quyết định

thay đổi Phân tích ưu điểm, nhược điểm và các vấn đề còn tồn tại của cácthuật toán đã có Trên cơ sở đó, đề xuất các độ đo cải tiến và các thuật toántheo hướng tiếp cận kết hợp filter-wrapper Các đề xuất, cải tiến được chứngminh chặt chẽ về lý thuyết bởi các định lý, mệnh đề

2) Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy

thử nghiệm, so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từkho dữ liệu UCI nhằm minh chứng về tính hiệu quả của các nghiên cứu về

lý thuyết

1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyếtđịnh không đầy đủ dựa trên mô hình tập thô dung sai theo tiếp cận kết hợp filter-wrapper

2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảngquyết định không đầy đủ thay đổi theo tiếp cận kết hợp filter-wrapper Bảng

Trang 16

3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với cácthuật toán khác đã công bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI[118]

2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không

Trang 17

(4) Thuật toán gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn trong trường hợp loại bỏ tập thuộc tính.

Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [118]cho thấy, các thuật toán gia tăng filter-wrapper IDS_IFW_AO vàIDS_IFW_AA giảm thiểu đáng kể số lượng thuộc tính tập rút gọn và cải thiện

độ chính xác mô hình phân lớp so với các thuật toán gia tăng filter khác

Ý nghĩa thực tiễn

Các thuật toán đề xuất có thể áp dụng để giải quyết bài toán rút gọnthuộc tính trong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa,nâng cao hiệu quả các mô hình khai phá dữ liệu và học máy, đặc biệt là các hệthống cơ sở dữ liệu không đầy đủ, thiếu giá trị trong các lĩnh vực chẩn đoán y

Các đóng góp chính của luận án được trình bày trong chương 2, chương

3 Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mới

Sử dụng độ đo khoảng cách mới, chương 2 đề xuất thuật toán IDS_F_DAR tìm tập rútgọn theo tiếp cận filter và thuật toán IDS_FW_DAR tìm tập rút gọn

Trang 18

quyết định không đầy đủ cố định.

Chương 3 xây dựng các công thức gia tăng tính độ đo khoảng cách và đềxuất bốn thuật toán gia tăng filter-wrapper tìm tập rút gọn trong bảng quyếtđịnh thay đổi, cụ thể là:

1) Thuật toán IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung tập đối tượng;

2) Thuật toán IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tậpđối tượng;

3) Thuật toán IDS_IFW_AA tìm tập rút gọn trong trường hợp bổ sung tập thuộc tính;

4) Thuật toán IDS_IFW_DA tìm tập rút gọn trong trường hợp loại bỏ tậpthuộc tính

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của tác giả

Trang 19

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH

THEO TIẾP CẬN TẬP THÔ DUNG SAI

1.1 Hệ thông tin và mô hình tập thô truyền thống

Lý thuyết tập thô truyền thống do Z.Pawlak [113] đề xuất là công cụtoán học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn

Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương

đương (hay quan hệ không phân biệt được) để xấp xỉ tập hợp Khi đó, mọi tập

đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó.Mỗi tập xấp xỉ được hợp thành bởi một hoặc nhiều lớp tương đương, là cơ sở

để xây dựng các thuật toán rút gọn thuộc tính và khai phá tri thức từ dữ liệu.Trong phần này, luận án trình bày một số khái niệm cơ bản trong lý thuyết tậpthô truyền thống của Z.Pawlak [113], là cơ sở nền tảng cho mô hình tập thôdung sai được trình bày ở phần 1.2

1.1.1 Hệ thông tin

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu

gồm n cột ứng với n thuộc tính và m hàng ứng với m đối tượng Một cách

hình thức, hệ thông tin là một cặp IS U , A trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính Mỗi thuộc tính

a  A

Xét hệ thông tin IS U , A Mỗi tập con các thuộc tính

một quan hệ hai ngôi trên U, ký hiệu là INDP , xác định bởi

P 

A xác định

IND P    u , v  U  U a  P , a u   a v 

IND P là quan hệP-không phân biệt được Dễ thấy rằng IND P là một

quan hệ tương đương trên U Nếu u,v INDP thì hai đối tượng u và v

Trang 20

P xác định một phân hoạch trênU, ký hiệu là U

hiệu lớp tương đương trong phân hoạch U/P chứa đối

/ IND

tượng

1.1.2 Mô hình tập thô truyền thống

Cho hệ thông tin IS U, A và tập đối tượng XU Với một tập thuộctính BA cho trước, chúng ta biểu diễn X thông qua các lớp tương đươngcủa U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi

hợp của một số hữu hạn các lớp tương đương của U / B Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-

xấp xỉ trên của X, ký hiệu là lượt là BX và BX , được xác định như sau:

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập

BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B.

Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc

X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể

Trang 21

là

tập chí

nh xá

c (ex act thô (ro ug

h set ).

Trang 22

Phần này trình bày một số khái niệm cơ bản về mô hình tập thô dung saitrên hệ thông tin không đầy đủ do Kryszkiewicz [67] đề xuất

1.2.1 Hệ thông tin không đầy đủ

Xét hệ thông tin ISU, A , nếu tồn tại u U và a A sao cho au chứa

giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái

lại IS được gọi là hệ thông tin đầy đủ Ta biểu diễn giá trị thiếu được ký hiệu

là ‘*’ và hệ thông tin không đầy đủ là IIS U , A

1.2.2 Mô hình tập thô dung sai

Xét hệ thông tin không đầy đủ IISU ,A , với tập thuộc tính P, PA

ta

định nghĩa một quan hệ nhị phân trên U như sau:

SIM P    u , v  U  U a  P , a u   a v   a u   '*'  a v   '*'

Quan hệ SIMP  không phải là quan hệ tương đương vì chúng có tính

phản xạ, đối xứng nhưng không có tính bắc cầu Do đó,

P  là một quan

hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên

U Dễ thấy rằng SIMP aP SIMa

Trang 23

tượng không có khả năng phân biệt được với u trên tập thuộc tính P dựa trên

quan hệ dung sai, còn gọi là một lớp dung sai hay một hạt thông tin Ký hiệu

tập tất cả các lớp dung sai sinh bởi quan hệ SIM(P) trên U là

Cho tập đối tượng X , dựa trên quan hệ dung sai các tập P-xấp xỉ dưới và

P-xấp xỉ trên của X trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PX

và PX , được xác định như sau

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập

là tập thô dung sai (tolerance rough set).

Với P,DA , ta gọi P-miền dương của D là tập được xác định như sau

POS

P

XU /D

Rõ ràng POS P (D) là tập tất cả các đối tượng u sao cho với mọi vS Pu

ta đều có uD vD Nói cách khác, POS P (D) uU S Pu   uD

Trang 25

1.2.3 Bảng quyết định không đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều

ứng dụng là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt

được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là

Xét bảng quyết định DSU ,C D  , nếu tồn tại u U và c C sao cho c

u thiếu giá trịthìDSđược gọi làbảng quyết định không đầy đủ, trái lại DS

được gọi là bảng quyết định đầy đủ Ta biểu diễn bảng quyết định không đầy

đủ là IDS  U ,C D  với d D, '*'V d Không mất tính chất tổng quát, giả

thiết D chỉ gồm một thuộc tính quyết định duy nhất d

và c C sao cho cu  thiếu giá trị thì DS được gọi là bảng quyết định không

đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ.

Bảng quyết định không đầy đủ được ký hiệu là IDS U ,CD  với giảthiết d D, '*'V d (thuộc tính quyết định có đầy đủ giá trị)

d,

giả sử tập đối tượng U được bổ sung vào U hoặc loại bỏ từ U Khi đó, IDS được

gọi là bảng quyết định thay đổi khi bổ sung hoặc loại bỏ tập đối tượng và

bảng quyết định mới là IDS1 U  U ,Cd hoặc IDS2 U  U ,C d

 tương ứng

d,

giả sử tập thuộc tính điều kiện C được bổ sung vào C hoặc loại bỏ từ C Khi

đó, IDS được gọi là bảng quyết định thay đổi khi bổ sung hoặc loại bỏ tập

Trang 26

IDS 

2

 U  C d  tương ứng. IDS1 U , CC  d

Cho bảng quyết định không đầy đủ IDS  U , C d  .Với P  C ,u U,

 P (u) dvvS P (u) gọi là hàm quyết định suy rộng của đối tượng u trên tập thuộc tính P Nếu | (u) |1 với mọi u U thì IDS là nhất quán, trái lại IDS là

C

không nhất quán.

Với bảng quyết định không đầy đủ IDS, miền dương của C đối với d

là POS C (d )  { C X |XU / {d}} , khi đó IDS là nhất quán khi và chỉ khi

K    S Au  S Au   U , u U được gọi là phủmột khối Một quan hệthứtự

Ví dụ 1.1 Xét bảng quyết định về các xe hơi cho ở Bảng 1.1 Bảng 1.1 là

bảng quyết định không đầy đủ IDS  U , C d   với U {u1 ,u2 ,u3 ,u4 ,u5 ,u6 } ,

Trang 27

C  {c1 , c2 , c3 , c4} với c1 (Đơn giá), c2 (Km đã đi), c3 (Kích

thước),

và d (Gia tốc)

Bảng 1.1 Bảng quyết định không đầy đủ về các xe hơi

c4 (Tốc độ)

Các lớp dung sai của các đối tượng như sau:

Cácđó,

Trang 29

Định nghĩa 1.4 Cho bảng quyết định không đầy đủ

Với việc biểu diễn quan hệ

dung sai giữa hai đối tượng u i và

và

Trang 31

 0 ) 

 0



 0

,

0 0 0 1 1 1

S

C

0 1 0 0 1 1

số lượng thuộc tính mà không làm mất mát những thông tin cần thiết phục vụnhiệm vụ khai phá dữ liệu Do đó, rút gọn thuộc tính (hay còn gọi là rút gọnchiều - dimension reduction, rút gọn đặc trưng - feature reduction) trở thành

đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu thuộc các lĩnh vực nhậndạng thống kê, học máy, khai phá dữ liệu

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệuvới mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tínhhiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chấtlượng và tính dễ hiểu của các kết quả thu được Các kỹ thuật rút gọn thuộctính thường được phân thành hai loại: Lựa chọn thuộc tính (Attributeselection) và biến đổi thuộc tính (Attribute transformation) Lựa chọn thuộctính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào đó) từ tập thuộctính ban đầu của tập dữ liệu Trong khi đó, biến đổi thuộc tính là thực hiện

Trang 33

này, chúng tôi nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung làrút gọn thuộc tính.

1.3.2 Tiếp cận filter, wrapper trong rút gọn thuộc tính

Rút gọn thuộc tính là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm M thuộc tính (P ≤ M) sao cho không gian thuộc tính được thu gọn lại

một cách tối ưu theo một tiêu chuẩn nhất định Việc tìm ra một tập con thuộctính tốt nhất (làm mất đi ít nhất lượng thông tin cần thiết) thường khó thựchiện; nhiều bài toán liên quan đến vấn đề này là những bài toán NP - khó.Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơbản:

(3) Kiểm tra điều kiện dừng,

Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các

tập con để đánh giá, lựa chọn Giả sử có M thuộc tính trong tập dữ liệu ban đầu, khi đó số tất cả các tập con từ M thuộc tính sẽ là 2 M Với số ứng viên

này, việc tìm tập con tối ưu, ngay cả khi M không lớn lắm, cũng là một việc

không thể Vì vậy, phương pháp chung để tìm tập con thuộc tính tối ưu là lầnlượt tạo ra các tập con để so sánh Mỗi tập con sinh ra bởi một thủ tục sẽ đượcđánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhấttrước đó Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ Quá trình tìm kiếmtập con thuộc tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra: (a)

đã thu được số thuộc tính quy định, (b) số bước lặp quy định cho quá trình lựachọn đã hết, (c) việc thêm vào hay loại bớt một thuộc tính nào đó không chomột tập con tốt hơn, (d) đã thu được tập con tối ưu theo tiêu chuẩn đánh giá.Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành

Trang 34

này và tập thuộc tính ban đầu trên các tập dữ liệu thực hoặc nhân tạo khácnhau.

Phát sinh

Đánh giá tập con

Tập con Thích hợp

Hình 1.1 Quy trình rút gọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính

[39-40]: filter (lọc) và wrapper (đóng gói) Mỗi cách tiếp cận có những mục

tiêu riêng về giảm thiểu số lượng thuộc tính hay nâng cao độ chính xác

Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với thuậtkhai phá dữ liệu sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độquan trọng của chúng trong việc mô tả dữ liệu, gọi là độ quan trọng của thuộctính Cho đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lýthuyết tập thô và các mở rộng đều theo hướng tiếp cận này Ngược lại vớicách tiếp cận filter, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách

áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêuchuẩn để lựa chọn các tập con thuộc tính Cách tiếp cận filter có ưu điểm làthời gian tính toán nhanh, nhược điểm là không sử dụng sử dụng thông tinnhãn lớp của các bộ dữ liệu nên độ chính xác không cao

Trang 35

Đánh giá

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Với phương pháp rút gọn thuộc tính dựa trên lý thuyết tập thô, theo cách

tiếp cận truyền thống filter, tập rút gọn là tập thuộc tính tối thiểu bảo toàn độ

đo được định nghĩa, độ chính xác phân lớp được tính sau khi tìm được tập rút

gọn, do đó tập rút gọn chưa tối ưu về số thuộc tính tập rút gọn và độ chính xác

phân lớp Cách tiếp cận kết hợp filter-wrapper bao gồm hai giai đoạn: giai

đoạn filter tìm các ứng viên cho tập rút gọn, giai đoạn wrapper tìm ứng viên

tập rút gọn có độ chính xác phân lớp cao nhất Do đó, tập rút gọn tìm được

giảm thiểu số thuộc tính và cải thiện độ chính xác phân lớp Tuy nhiên, nhược

điểm của phương pháp filter-wrapper này là thời gian thực hiện lớn hơn các

phương pháp filter do phải chạy bộ phân lớp trong bước wrapper Hướng tiếp

cận này được sử dụng chủ yếu trong bước rút gọn thuộc tính trong giai đoạn

tiền xử lý dữ liệu của khai phá dữ liệu

1.3.3 Rút gọn thuộc tính theo tiếp cận tập thô dung sai

Lý thuyết tập thô truyền thống do Pawlak đề xuất [113] là công cụ hiệu

quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ, đã và

đang được cộng đồng nghiên cứu về tập thô thực hiện lâu nay Trong các bài

Trang 36

tính, gọi là bảng quyết định không đầy đủ Để giải quyết bài toán rút gọn

thuộc tính trực tiếp trên bảng quyết định không đầy đủ mà không qua bướctiền xử lý giá trị thiếu, Kryszkiewicz [67] mở rộng quan hệ tương đương trong

lý thuyết tập thô truyền thống thành quan hệ dung sai và xây dựng mô hìnhtập thô dung sai Các phương pháp rút gọn thuộc tính trong bảng quyết địnhkhông đầy đủ theo tiếp cận mô hình tập thô dung sai là các nghiên cứu mởrộng của các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyềnthống, bao gồm các bước như sau:

Tập thuộc tính ban đầu

Định nghĩa tập rút gọn

Định nghĩa

độ quan trọng của thuộc tính

Xây dựng thuật toán heuristic tìm một tập rút gọn

Tập rút gọn

Hình 1.3 Mô hình phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai

1) Định nghĩa khái niệm tập rút gọn dựa trên một độ đo được định nghĩa,

ví dụ miền dương, ma trận phân biệt, hàm phân biệt, entropy thông tin, khoảngcách, lượng thông tin, hạt thông tin

Trang 37

2) Đưa ra khái niệm độ quan trọng của thuộc tính dựa trên độ đo được định

nghĩa Độ quan trọng của thuộc tính đặc trưng cho khả năng đóng góp của thuộctính vào việc phân lớp tập đối tượng Thuộc tính có độ quan trọng càng lớn thìkhả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại

3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo

tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (khả năng phân lớp của thuộctính)

Như vậy, nhiệm vụ quan trọng nhất của một phương pháp rút gọn thuộctính theo tiếp cận tập thô là xây dựng một thuật toán heuristic tìm tập rút gọncủa bảng quyết định Thuật toán này giảm thiểu đáng kể khối lượng tính toán,nhờ đó có thể áp dụng đối với các bài toán có dữ liệu lớn Các thuật toánheuristic này thường được xây dựng theo hai hướng tiếp cận khác nhau:

hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống

(top-down) Ý tưởng chung của các thuật toán theo tiếp cận top-down là xuất phát

từ tập rỗng, lần lượt bổ sung vào các thuộc tính điều kiện có độ quan trọng lớnnhất cho cho đến khi thu được tập rút gọn Các thuật toán được xây dựng theo

hướng tiếp cận bottom-up xuất phát từ tập thuộc tính điều kiện ban đầu, lần

lượt loại bỏ các thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được tậprút gọn Cả hai hướng tiếp cận này đều đòi hỏi phải sắp xếp danh sách cácthuộc tính theo thứ tự tăng dần hoặc giảm dần theo độ quan trọng tại mỗibước lặp của thuật toán Tập rút gọn tìm được là tập thuộc tính điều kiện nhỏnhất bảo toàn độ đo được định nghĩa Việc kiểm tra độ chính xác phân lớp củabảng quyết định được thực hiện sau khi tìm được tập rút gọn Do đó, cácphương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai được đề xuấtcho đến nay là các phương pháp theo tiếp cận filter

Trang 38

thô dung sai

Kể từ khi Kryszkiewicz [67] đề xuất mô hình tập thô dung sai, cácphương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định không đầy đủtheo tiếp cận tập thô dung sai đã thu hút sự quan tâm của cộng đồng nghiêncứu về tập thô Trong phần này, chúng tôi trình bày tóm tắt các nghiên cứuliên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai với hai trườnghợp: bảng quyết định không thay đổi và bảng quyết định thay đổi

1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô dung sai

1.4.1.1 Các nghiên cứu liên quan

Trong hai thập kỷ vừa qua đã chứng kiến sự phát triển mạnh mẽ và sôiđộng của lĩnh vực nghiên cứu về rút gọn thuộc tính theo tiếp cận tập thô dungsai Nhiều nhóm nhà khoa học trên thế giới và tại Việt Nam đã đề xuất cácthuật toán rút gọn thuộc tính hiệu quả trong bảng quyết định không đầy đủ sửdụng các độ đo khác nhau như miền dương, entropy thông tin, lượng thông tin,

ma trận phân biệt, hàm phân biệt, khoảng cách…Bảng 2.1 trình bày các

nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của bảngquyết định không đầy đủ theo tiếp cận tập thô dung sai

Bảng 1.2 Các thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp

cận tập thô dung sai

Trang 39

STT Công bố, năm xuất bản Thuật toán

2) Ma trận phân biệt, hàm phân biệt

3  Ma và các cộng sự [29], 2017 Các thuật toán sử dụng ma trận

 Vu Van Dinh, Nguyen Long phân biệt, hàm phân biệt mở

4  Zou và các cộng sự [45], 2012 Các thuật toán tìm tập rút gọn sử

 Tan và các cộng sự [80], 2010 dụng ma trận phân biệt, ma trận

3) Entropy thông tin

7  Tao và các cộng sự [107], 2017 Các thuật toán tìm tập rút gọn sử

 Yue và các cộng sự [26], 2015 dụng entropy thông tin mở rộng

 Xu và các cộng sự [94], 2012 dụng lượng thông tin mở rộng

10  Sai Prasad và các cộng sự [72], Thuật toán tìm tập rút gọn sử

12  Xie và các cộng sự [92], 2018 Thuật toán tìm tập rút gọn sử

dụng độ đo không nhất quán

Trang 40

13  Shu và các cộng sự [85], 2014 Thuật toán tìm tập rút gọn sử

dụng quan hệ không phân biệtđược

14  Zhao và các cộng sự [48], 2014 Các thuật toán tìm tập rút gọn sử

dụng hàm quyết định suy rộng,entropy dựa trên quan hệ dung sailân cận

15  Meng và các cộng sự [115], So sánh, đánh giá các thuật toán

16  Dai và các cộng sự [93], 2010 Thuật toán tìm tập rút gọn sử

dụng độ bao phủ của thuộc tính

17  Qian và các cộng sự [98], 2010 Nghiên cứu về các tập rút gọn và

 Nguyen Long Giang và các mối quan hệ giữa chúng

cộng sự [69], 2013

1.4.1.2 Các vấn đề còn tồn tại

Các thuật toán tìm tập rút gọn đều hướng tới mục tiêu là tìm được tập rútgọn hiệu quả nhất để thực thi mô hình phân lớp dựa trên các tiêu chí: giảm thiểutối đa số thuộc tính tập rút gọn để giảm thiểu độ phức tạp của mô hình và nângcao độ chính xác của mô hình Các thuật toán đã đề xuất được trình bày trong

Bảng 1.2 nêu trên đều là các thuật toán heuristic theo tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối thiểu bảo toàn độ đo được định

nghĩa Việc đánh giá độ chính xác của mô hình phân lớp được thực hiện sau khi

tìm được tập rút gọn Do đó, tập rút gọn của các thuật toán filter nêu trên chưa

tối ưu về số lượng thuộc tính và độ chính xác phân lớp.

1.4.1.3 Định hướng nghiên cứu thứ nhất của luận án

Trong các độ đo được sử dụng trong các thuật toán trong Bảng 1.2,khoảng cách được chứng minh là độ đo hiệu quả giải quyết bài toán rút gọnthuộc tính trong bảng quyết định không đầy đủ [62], [78] Do đó, mục tiêunghiên cứu thứ nhất của luận án là nghiên cứu, đề xuất các thuật toán tìm tập

Định dạng
Số trang	179
Dung lượng	2,93 MB