1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ

148 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 148
Dung lượng 3,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hơn nữa, các thuật toán gia tăng có thểthực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảngquyết định thành nhiều phần, tập rút gọn được

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH

HÀ NỘI - 2021

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

Chuyên ngành: Khoa học máy tính

Mã số : 9 48 01 01

LUẬN ÁN TIẾN SĨ MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS Nguyễn Long Giang

HÀ NỘI - 2021 LỜI CẢM ƠN

Trang 3

Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự giúp

đỡ hết mình từ các thầy giáo hướng dẫn, bạn bè và người thân Đầu tiên, tác giả xinbày tỏ lời tri ân tới PGS.TS Nguyễn Long Giang, Viện Công nghệ Thông tin, ViệnHàn lâm Khoa học và Công nghệ Việt Nam người thầy đã tận tình hướng dẫn tác giảhoàn thành luận án này

Tác giả xin gửi lời cảm ơn sâu sắc đến thầy cô, bạn bè công tác tại Viện Côngnghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã nhiệt tình giúp đỡvà tạo ra môi trường nghiên cứu tốt để tác giả hoàn thành công trình của mình; cảm ơncác thầy cô và các đồng nghiệp ở các nơi mà tác giả tham gia viết bài đã có những góp

ý chính xác để tác giả có được những công bố như ngày hôm nay

Cảm ơn Học viện Khoa học và Công nghệ đã tạo mọi điều kiện thuận lợi để tácgiả hoàn thành Luận án này

Tác giả xin gửi lời cảm ơn tới Đảng ủy, Ban Giám hiệu trường Đại học TâyNguyên nơi tác giả công tác đã ủng hộ và tạo mọi điều kiện để tác giả hoàn thành luậnán đúng thời hạn

Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành nhất vì

đã đồng hành cùng tác giả trong suốt thời gian qua Con xin cảm ơn Cha, Mẹ và giađình đã luôn là chỗ dựa vững chắc về tinh thần và vật chất, cũng là những người luônmong mỏi cho con thành công; cảm ơn chồng và các anh chị em đã gánh vác công việcgia đình thay cho em; xin lỗi các con vì phần nào đó đã chịu thiệt thòi trong thời gian

mẹ học tập nghiên cứu, chính các con là nguồn động lực lớn lao giúp mẹ hoàn thànhđược công việc khó khăn này

Hà Nội, tháng 01 năm 2021

Hồ Thị Phượng

Trang 4

LỜI CAM ĐOAN

Các kết quả trình bày trong luận án là công trình nghiên cứu của tôi được hoànthành dưới sự hướng dẫn của PGS.TS Nguyễn Long Giang Những kết quả trình bàylà mới và chưa từng được công bố ở các công trình của người khác

Tôi xin chịu trách nhiệm về những lời cam đoan của mình

Hà Nội, Ngày….tháng ….năm 2021

Nghiên cứu sinh

Hồ Thị Phượng

Trang 5

MỤC LỤC

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THÔ MỜ 8

1.1 Tổng quan về rút gọn thuộc tính 8

1.2 Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính 10

1.3 Tổng quan về tập thô mờ 11

1.3.1 Bảng quyết định và quan hệ tương đương 12

1.3.2 Quan hệ tương đương mờ 12

1.3.3 Ma trận tương đương mờ 14

1.3.4 Phân hoạch mờ 14

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ 17

1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô mờ 17

1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ 19

1.5 Tóm tắt các đóng góp của luận án 23

1.6 Kết luận chương 1 24

CHƯƠNG 2 THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 25

2.1 Mở đầu 25

2.2 Xây dựng khoảng cách giữa hai tập mờ 26

2.2.1 Độ đo khoảng cách mờ 27

2.2.2 Độ đo khoảng cách mờ và các tính chất 27

2.3 Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ 30

2.4 Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ 36

2.5 Thực nghiệm và đánh giá kết quả các thuật toán 37

2.5.1 Mục tiêu thực nghiệm 37

2.5.2 Số liệu, phương pháp và môi trường thực nghiệm 38

Trang 6

2.5.3 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập

rút gọn 39

2.5.4 Kết quả so sánh thời gian thực hiện 41

2.6 Kết luận Chương 2 42

CHƯƠNG 3 THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG 44

3.1 Mở đầu 44

3.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng 47

3.2.1 Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng .47

3.2.2 Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng 50

3.3 Thuật toán gia tăng fifter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng 71

3.4 Kết luận Chương 3 88

CHƯƠNG 4 THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 90

4.1 Mở đầu 90

4.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính 93

4.2.1 Công thức gia tăng cập nhật khoảng cách khi bổ sung tập thuộc tính 93

4.2.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính 94

4.2.3 Thực nghiệm và đánh giá thuật toán 97

4.3 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính 106

4.3.1 Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính 106

4.3.2 Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập thuộc tính 106

4.4 Kết luận Chương 4 108

KẾT LUẬN 110

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 111

TÀI LIỆU THAM KHẢO 112

Trang 8

DANH MỤC CÁC THUẬT NGỮ

Bảng quyết định mờ Fuzzy Decision Tables

Quan hệ tương đương Equivalence Relation

Quan hệ tương đương mờ Fuzzy Equivalence Relation

Ma trận tương đương mờ Fuzzy Equivalence Matrix Lớp tương đương mờ Fuzzy equivalence Classes Xấp xỉ dưới mờ Fuzzy Lower Approximation Xấp xỉ trên mờ Fuzzy Upper Approximation Rút gọn thuộc tính Attribute Reduction

Phương pháp gia tăng Incremental Methods

Hàm thuộc mờ Fuzzy Dependency Function

Trang 9

 u B Lớp tương đương chứa u của phân hoạch U P/

Ra Quan hệ tương đương mờ R

Φ R P Phân hoạch mờ trên ~R P

 x i P Lớp tương đương mờ của x i thuộc phân hoạch mờ Φ R P

 x i P Lực lượng lớp tương đương mờ  x i P

PX Tập xấp xỉ dưới mờ củaX đối với R P

PX Tập xấp xỉ trên mờ củaX đối với R P

Trang 10

DANH MỤC CÁC BẢ

Bảng 1.1 Bảng quyết định của Ví dụ 1.1 16

Bảng 1.2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ 18

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ 21Y Bảng 2.1 Bảng quyết định của Ví dụ 2.2 33

Bảng 2.2 Bộ dữ liệu thử nghiệm thuật toán FW_FDBAR 38

Bảng 2.3 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn 39

Bảng 2.4 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR 4 Bảng 3.1 Bảng quyết định của Ví dụ 3.1 48

Bảng 3.2 Bảng quyết định sau khi thêm đối tượng u4 của Ví dụ 3.1 49

Bảng 3.3 Bảng quyết định của Ví dụ 3.2 51

Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng 52

Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng 59

Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA (tính bằng giây) 60

Bảng 3.7 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA 65

Bảng 3.8 Bảng quyết định của Ví dụ 3.3 72

Bảng 3.9 Bảng quyết định sau khi loại bỏ 1 đối tượng của Ví dụ 3.3 74

Bảng 3.10 Bảng quyết định của Ví dụ 3.4 76

Bảng 3.11 Bảng quyết định sau khi loại bỏ tập đối tượng của Ví dụ 3.4 78

Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng 83

Bảng 3.13 Thời gian thực hiện của thuật toán IFW_FDAR_DelObj và IFSD 84

Bảng 3.14 Độ chính xác phân lớp của thuật toán IFW_FDAR_DelObj và IFSD 8 Bảng 4.1 Bộ dữ liệu thử nghiệm 98

Bảng 4.2 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của IFW_FDAR_AA và FRSA-IFS-HIS(AA) 99

Bảng 4.3 Thời gian thực hiện của IFW_FDAR_AA và FRSA-IFS-HIS(AA) 103

Trang 12

DANH SÁCH CÁC HÌN

Hình 1.1 Quy trình rút gọn thuộc tính 10

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính 11

Y Hình 2.1 Độ chính xác phân lớp của ba thuật toán 40

Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán 41

Hình 2.3 Thời gian thực thiện của ba thuật toán 42Y Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA 64

Hình 3.2 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA 71

Hình 3.3 Thời gian thực hiện các thuật toán IFW_FDAR_DelObj và IFSD 86

Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj và IFSD 8 Hình 4.1 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) 103

Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) 105

Trang 13

MỞ ĐẦU

1 Tính cấp thiết

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quátrình khai phá tri thức từ dữ liệu Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộctính dư thừa, không cần thiết nhằm nâng cao tính hiệu quả của các mô hình khai phá

dữ liệu Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhấtcủa tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin phânlớp của bảng quyết định, gọi là tập rút gọn (reduct) Kết quả rút gọn thuộc tính ảnhhưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Gia tăng tốc độ, cảithiện chất lượng, tính dễ hiểu của các kết quả thu được Cho đến nay, có hai hướngtiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc (filter) và đóng gói (wrapper).Cách tiếp cận fifter thực hiện việc lựa chọn thuộc tính độc lập với thuật toán khai phá

sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trongviệc mô tả dữ liệu Trong khi đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằngcách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn đểlựa chọn các tập con thuộc tính

Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và các cộng sự [1] đề xuất là

công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết địnhgốc không qua bước tiền xử lý dữ liệu nhằm nâng cao hiệu quả độ chính xác mô hìnhphân lớp Cho đến nay, nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

đã được đề xuất, điển hình là các phương pháp sử dụng hàm thuộc mờ [2, 3, 4], cácphương pháp sử dụng miền dương mờ [5, 6], các phương pháp sử dụng entropy mờ [7,

8, 9], các phương pháp sử dụng khoảng cách mờ [10, 11, 12] và một số phương phápkhác [13, 14, 15, 16, 17, 18] Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảngquyết định ngày càng có số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tinsinh học có hàng triệu thuộc tính Hơn nữa, các bảng quyết định luôn luôn thay đổi,cập nhật với các tình huống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏtập thuộc tính, giá trị tập đối tượng, tập thuộc tính thay đổi Để xây dựng mô hình phânlớp hiệu quả, ta cần giải quyết bài toán rút gọn thuộc tính trên các bảng quyết địnhkích thước lớn và thay đổi Các phương pháp rút gọn thuộc tính theo tiếp cận truyềnthống trên các bảng quyết định như vậy gặp hai thách thức Thứ nhất, với các bảngquyết định có kích thước lớn, việc thực hiện các thuật toán tìm tập rút gọn gặp khó

Trang 14

khăn về không gian lưu trữ và tốc độ tính toán Thứ hai, với các bảng quyết định thayđổi, cập nhật, các thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyếtđịnh sau khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể Để giảiquyết hai thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăngtìm tập rút gọn Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bịthay đổi mà không tính lại tập rút gọn trên toàn bộ bảng quyết định ban đầu Do đó,chúng giảm thiểu đáng kể thời gian thực hiện Hơn nữa, các thuật toán gia tăng có thểthực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảngquyết định thành nhiều phần, tập rút gọn được tính khi lần lượt bổ sung từng phần.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn của bảng quyết định đã vàđang thu hút sự quan tâm của các nhà nghiên cứu trong suốt hơn thập kỷ qua

Theo tiếp cận lý thuyết tập thô truyền thống của Pawlak [19] và các mô hình tập thô mở rộng, các nhà nghiên cứu đã đề xuất nhiều thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi Với trường hợp bổ sung, loại bỏ tập đối tượng, một

số thuật toán gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24,

25, 26, 27], ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc[36], quan hệ không phân biệt được [37], entropy thông tin [38], độ đo không nhất

quán [39], lựa chọn mẫu kích hoạt [40] Với trường hợp bổ sung, loại bỏ tập thuộc tính, một số thuật toán gia tăng tìm tập rút gọn đã được đề xuất sử dụng miền dương

[41], entropy thông tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt[46, 47], khoảng cách [48], độ phụ thuộc của thuộc tính [49], hạt tri thức [50, 51]

Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây một số thuật toán gia tăng

tìm tập rút gọn của bảng quyết định đã được đề xuất với các trường hợp: bổ sung và

loại bỏ tập đối tượng [52, 53, 54, 56, 57], bổ sung và loại bỏ tập thuộc tính [58] Với trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các cộng sự [52] xây dựng công

thức gia tăng tính độ phụ thuộc mờ và đề xuất thuật toán giăng FIAT tìm tập rút gọnkhi bổ sung tập đối tượng Yang và các cộng sự [53] xây dựng công thức gia tăng tínhquan hệ phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng IARM tìm tập rút gọnkhi bổ sung tập đối tượng Yang và các cộng sự [54] xây dựng cơ chế cập nhật quan hệphân biệt và đề xuất hai thuật toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trongtrường hợp bổ sung tập đối tượng Zhang và các cộng sự [56] đề xuất thuật toán gia

Trang 15

tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trong trường hợp

bổ sung tập đối tượng Ni và các cộng sự [57] đưa ra khái niệm tập đối tượng chính(key instance set), trên cơ sở đó xây dựng hai thuật toán gia tăng tìm tập rút gọn dựatrên tập đối tượng chính trong trường hợp bổ sung tập đối tượng: thuật toán DIAR sử

dụng hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ Với trường hợp bổ sung, loại bỏ tập thuộc tính, các kết quả nghiên cứu về các thuật toán gia tăng tìm tập

rút gọn theo tiếp cận tập thô mờ còn hạn chế Zeng và các cộng sự [58] xây dựng cáccông thức gia tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ

sở đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ:thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toánFRSA-IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính Kết quả thực nghiệmtrong các công trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thờigian thực hiện so với các thuật toán không gia tăng Do đó, chúng có thể thực thi hiệu

quả trên các bảng quyết định có kích thước lớn và thay đổi, cập nhật Tuy nhiên, phần lớn các thuật toán đề xuất đều theo hướng tiếp cận lọc (filter) truyền thống Với cách

tiếp cận này, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được xâydựng Việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rútgọn Vì vậy, tập rút gọn thu được chưa phải là lựa chọn tốt nhất trên hai tiêu chí: sốlượng thuộc tính tập rút gọn và độ chính xác phân lớp Do đó, động lực nghiên cứu của

luận án là nghiên cứu, đề xuất các thuật toán gia tăng theo tiếp cận kết hợp wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác

filter-mô hình phân lớp.

2 Mục tiêu nghiên cứu

Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định

thay đổi dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó

giảm thiểu độ phức tạp của mô hình khai phá dữ liệu

Với mục tiêu đặt ra, luận án đã thu được các kết quả chính như sau:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định sửdụng độ đo khoảng cách mờ Đóng góp này được trình bày ở Chương 2 củaluận án

Trang 16

2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyếtđịnh thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng Đóng góp nàyđược trình bày ở Chương 3 của luận án.

3) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyếtđịnh thay đổi trong trường hợp bổ sung, loại bỏ tập thuộc tính Đóng gópnày được trình bày ở Chương 4 của luận án

3 Đối tượng nghiên cứu của luận án:

- Tập thô mờ và các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

- Bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng, tậpthuộc tính

- Các độ đo được sử dụng trong lý thuyết tập thô mờ, tập trung vào độ đokhoảng cách mờ

4 Phạm vi nghiên cứu

Về lý thuyết: Nghiên cứu các thuật toán heuristic tìm tập rút gọn của bảng quyết

định thay đổi (bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính) sử dụngcác độ đo trong tập thô mờ

Về thử nghiệm: Thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các

thuật toán đã công bố trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [59] nhằm đánh giátính hiệu quả của các thuật toán đề xuất theo các mục tiêu đặt ra

5 Phương pháp nghiên cứu

Nghiên cứu lý thuyết: Tổng hợp các nghiên cứu liên quan về các phương pháp

gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ, trên cơ sở đó phân tích, đánh giácác vấn đề còn tồn tại và xây dựng các đề xuất cải tiến: Cải tiến về độ chính xác môhình phân lớp và cải tiến về số lượng thuộc tính tập rút gọn, từ đó giảm độ phức tạpcủa mô hình

Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy thử nghiệm,

so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từ kho dữ liệu UCI[59] nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết

Trang 17

6 Nội dung nghiên cứu

1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định dựatrên mô hình tập thô mờ theo tiếp cận kết hợp filter-wrapper

2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng quyếtđịnh thay đổi theo tiếp cận kết hợp filter-wrapper Bảng quyết định thay đổi trongtrường hợp bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính

3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các thuậttoán khác đã công bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI [59]

7 Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học:

Đề xuất các thuật toán mới tìm tập rút gọn của bảng quyết định theo tiếp cận kếthợp filter-wrapper trong trường hợp bảng quyết định thay đổi Cụ thể luận án có cáckết quả chính như sau:

1) Xây dựng một độ đo khoảng cách mờ và đề xuất thuật toán theo tiếp cận kếthợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng quyết định sử dụng độ đokhoảng cách mờ Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59]cho thấy, thuật thoán filter-wrapper FW_FDBAR giảm thiểu đáng kể số lượng thuộctính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán filtertruyền thống khác

2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04 thuật toángia tăng filter-wrapper tìm tập rút gọn của bảng quyết định :

a Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn trongtrường hợp bổ sung tập đối tượng

b Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn trong

trường hợp loại bỏ tập đối tượng

c Thuật toán gia tăng filter-wrapper IFW_FDAR_AA tìm tập rút gọn trongtrường hợp bổ sung tập thuộc tính

d Thuật toán gia tăng filter-wrapper IFW_FDAR_DA tìm tập rút gọn trongtrường hợp loại bỏ tập thuộc tính

Trang 18

Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] cho thấy,bốn thuật toán đề xuất đều theo tiếp cận kết hợp filter-wrapper, trong đó giai đoạnfilter tìm các ứng viên cho tập rút gọn (là các tập thuộc tính bảo toàn độ đo sử dụng),giai đoạn wrapper tìm tập rút gọn có độ chính xác phân lớp cao nhất Bốn thuật toán đềxuất đều giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phânlớp so với các thuật toán được so sánh.

Ý nghĩa thực tiễn

Các thuật toán đề xuất có thể áp dụng để giải quyết bài toán rút gọn thuộc tínhtrong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa, nâng cao hiệu quảcác mô hình khai phá dữ liệu và học máy, đặc biệt là trong các hệ thống cơ sở dữ liệutrong các lĩnh vực chẩn đoán y tế, tài chính ngân hàng,

cơ bản này được sử dụng trong các chương sau, là các đóng góp chính của luận án.Các đóng góp chính của luận án được trình bày trong Chương 2, Chương 3 vàChương 4 Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mờ

và đề xuất thuật toán kết hợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng

quyết định

Chương 3 và Chương 4 đề xuất các công thức gia tính khoảng cách mờ và vậndụng các khoảng cách này để xây dựng 4 thuật toán gia tăng filter-wrapper; thuật toángia tăng filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp

bổ sung tập đối tượng; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn củabảng quyết định trong trường hợp loại bỏ tập đối tượng; thuật toán gia tăng filter-

Trang 19

wrapper thứ ba tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tậpthuộc tính; thuật toán gia tăng filter-wrapper thứ bốn tìm tập rút gọn của bảng quyếtđịnh trong trường hợp loại bỏ tập thuộc tính Cả bốn thuật toán đề xuất đều sử dụng độ

đo khoảng cách mờ đề xuất ở Chương 2 và đều có mục tiêu là giảm thiểu thời gianthực hiện so với thuật toán không gia tăng, nâng cao độ chính xác phân lớp và tối thiểuhóa số lượng thuộc tính tập rút gọn so với các thuật toán gia tăng khác đã công bố

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển vànhững vấn đề quan tâm của tác giả

Trang 20

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH

THEO TẬP THÔ MỜ

Trong chương này, luận án sẽ trình bày tổng quan về rút gọn thuộc tính, cáchướng tiếp cận filter và hướng tiếp cận kết hợp fifter-wrapper trong rút gọn thuộc tính,nhằm rút ra những ưu nhược điểm của các cách tiếp cận trên, từ đó đề xuất hướng tiếpcận phù hợp; trình bày tổng quan lý thuyết tập thô mờ là những khái niệm cơ bản đểnghiên cứu vận dụng vào bài toán rút gọn trên tập mờ, là cơ sở nền tảng để đưa ra đềxuất thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrappervà cũng là căn cứ cơ bản để chúng tôi nghiên cứu và phát triển cho các thuật toán giatăng rút gọn thuộc tính trong các chương tiếp theo

1.1 Tổng quan về rút gọn thuộc tính

Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng

dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi cácthuật toán khai phá dữ liệu Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc tínhmà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ liệu

Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều – dimension reduction, rút gọnđặc trưng – feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều nhànghiên cứu trong việc xử lý dữ liệu lớn thuộc các hệ thống Internet of Things (IoT) nơixuất hiện một lượng lớn dữ liệu ở các dạng và khối lượng khác nhau

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục

tiêu là loại bỏ các thuộc tính dư thừa, không liên quan, chỉ giữ lại các thuộc tính hữuích nhất từ một tập các thuộc tính ban đầu nhằm tăng tính hiệu quả của các thuật toánkhai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quảthu được

Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [60]

Lựa chọn thuộc tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào

đó) từ tập thuộc tính ban đầu của tập dữ liệu

Biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính ban đầu thành một

tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất

Trang 21

Với những cách thực hiện việc rút gọn thuộc tính như trên, trong quá trình phân

tích luận án đề xuất nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút gọn thuộc tính.

Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên

cứu các kỹ thuật lựa chọn thuộc tính Lựa chọn thuộc tính là quá trình lựa chọn một

tập con gồm P thuộc tính từ tập gồm A thuộc tính (P A) sao cho không gian thuộctính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định Việc tìm ra mộttập con thuộc tính tốt nhất thường khó thực hiện; bài toán liên quan đến vấn đề nàythuộc lớp bài toán NP-khó Nhìn chung, một thuật toán lựa chọn thuộc tính thườngbao gồm bốn khâu cơ bản:

(1) Tạo lập tập con;

(2) Đánh giá tập con;

(3 ) Kiểm tra điều kiện dừng;

(4) Kiểm chứng kết quả

Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các tậpcon để đánh giá, lựa chọn Giả sử có A thuộc tính trong tập dữ liệu ban đầu, khi đó sốtất cả các tập con từ A thuộc tính sẽ là 2A

Như vậy, rất khó khăn khi tìm tập con tối ưu

từ tất cả các tập con này Phương pháp chung để tìm tập con thuộc tính tối ưu là lầnlượt tạo ra các tập con để so sánh Mỗi tập con sinh ra bởi một thủ tục sẽ được đánhgiá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất trước đó Nếutập con này tốt hơn, nó sẽ thay thế tập cũ Quá trình tìm kiếm tập con thuộc tính tối ưu

sẽ dừng khi một trong bốn điều kiện sau xảy ra:

- Đã thu được số thuộc tính quy định

- Số bước lặp quy định cho quá trình lựa chọn đã hết

- Việc thêm vào hay loại bớt một thuộc tính nào đó không làm cho một tập contrở nên tốt hơn

- Đã thu được tập con tốt nhất theo tiêu chuẩn đánh giá

Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành cácphép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập

Trang 22

thuộc tính ban đầu trên các tập dữ liệu khác nhau Quá trình lựa chọn thuộc tính đượcbiểu diễn như hình sau: [60]

Hình 1.1 Quy trình rút gọn thuộc tính

1.2 Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc(filter) và đóng gói (wrapper), với mỗi hướng tiếp cận có những mục tiêu riêng vềgiảm số lượng thuộc tính hoặc nâng cao độ chính xác của mô hình phân lớp

Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc tính độc lập với các thuậttoán khai phá sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọngcủa chúng trong việc mô tả dữ liệu

Cách tiếp cận kiểu lọc có ưu điểm là thời gian tính toán nhanh, nhược điểm làkhông sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao

Ngược lại với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hànhviệc lựa chọn bằng cách áp dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừathu được, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập conthuộc tính

Các hướng tiếp cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểudiễn.[60]

Trang 23

Sự đánh giá

Tập con được lựa chọn

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Từ những ưu nhược điểm của 2 cách tiếp cận trên, nghiên cứu sinh đã nghiêncứu và đề xuất một số cách tiếp cận mới nhằm kết hợp những ưu điểm của phươngpháp filter, wapper và loại bỏ đi những nhược điểm của nó, nghiên cứu sinh đã đề xuất

một số cách tiếp cận mới, như là: cách tiếp cận kết hợp fifter-wrapper [9, 61]

1.3 Tổng quan về tập thô mờ

Lý thuyết tập thô truyền thống của Pawlak [19] sử dụng quan hệ tương đương

để xấp xỉ tập hợp Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D Dübois và các cộng sự [1] đề xuất sử dụng quan hệ tương đương mờ để xấp xỉ tập mờ Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ được xem là công

cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên bảng quyếtđịnh Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tậpthô mờ tập trung vào hai hướng chính: thứ nhất là rút gọn thuộc tính trên các bảngquyết định mờ (bảng quyết định với giá trị thuộc tính là các tập mờ); thứ hai là rútgọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bướcrời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp Luận ánnghiên cứu hướng thứ hai, do đó trong phần này luận án trình bày một số khái niệm

cơ bản về mô hình tập thô mờ trên bảng quyết định Các khái niệm này được sử dụngtrong các chương sau của luận án

Trang 24

1.3.1 Bảng quyết định và quan hệ tương đương

Bảng quyết định là một cặp DSU C, D trong đó U là tập hữu hạn, khácrỗng các đối tượng; C là tập thuộc tính điều kiện, D là tập thuộc tính quyết định với

CD

Lý thuyết tập thô truyền thống của Pawlak [19] sử dụng quan hệ tương đương để

xấp xỉ tập hợp Xét bảng quyết định DSU C, D , mỗi tập con thuộc tính PC xácđịnh một quan hệ tương đương trên miền giá trị thuộc tính, ký hiệu là R P

P

Rx yU U a P a x   a y

Với a x  là giá trị thuộc tính a tại đối tượng x Quan hệ R P xác định một phân

hoạch trên U, ký hiệu là K P  U R/ p   x P x U 

với  x Plà lớp tương đương chứa

gọi là tập thô (rough set) của X đối với R P

1.3.2 Quan hệ tương đương mờ

Định nghĩa 1.1 [1] Cho bảng quyết định DS U C, D , một quan hệ R xác

định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn

các điều kiện sau với mọi x y z U , , 

1) Tính phản xạ (reflexive): R x x  ,  1;

Trang 25

Mệnh đề 1.1 [58] Cho bảng quyết định DS U C, D và quan hệ tương

đương mờ R Ký hiệu R P, R Q tương ứng là quan hệ R xác định trên tập thuộc tính

P, Q Khi đó, với mọi x y, U ta có:

2) Trong các công trình [9], các tác giả sử dụng quan hệ tương đương mờ theo công

thức (1.2) trên thuộc tính a C có miền giá trị thực thuộc đoạn [0, 1]

R x i,x j  1 a x ia x j

(1.2)Trong trường hợp giá trị thuộc tính a không thuộc đoạn [0, 1], các tác giả sửdụng một phương pháp tiền xử lý để ánh xạ miền giá trị thuộc tính a về đoạn [0, 1]

Ngoài ra, một số công trình [53] sử dụng quan hệ tương đương mờ

i, j mina x a y   , 

R x x 

trên thuộc tính a C có miền giá trị số thuộc đoạn [0, 1]

Trang 26

3) Trên các thuộc tính a C

có miền giá trị định danh (nominal) hoặc nhị phân(binary), các tác giả sử dụng quan hệ tương đương Quan hệ tương đương được xem là

quan hệ tương đương mờ theo công thức (1.3) như sau:

1, if

Ux x x và R P là quan hệ tương đương mờ xác định trên tập thuộc tính

PC Khi đó, ma trận tương đương mờ biểu diễn R P, ký hiệu là ( ) ij

n n P

Như vậy, giá trị các phần tử của ma trận tương đương mờ M R( )P phụ thuộc vào

quan hệ tương đương mờ R P

được chọn Mặt khác, ma trận tương đương mờ là cơ sở để

xây dựng các độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính trong bảng quyết

định Do đó, việc lựa chọn các quan hệ tương đương mờ ảnh hưởng đến kết quả thực hiện các phương pháp rút gọn thuộc tính

Trang 27

tương ứng là ma trận tương đương mờ của R P, R Q

khi đó ma trận tương đương mờ trên tập thuộc tính SPQ là:

Ux x x và R P là quan hệ tương đương mờ trên P Khi đó phân hoạch mờ trên

U sinh bởi R P, ký hiệu là: Φ R P

được xác định như sau:

là một tập mờ đóng vai trò là một lớp tương

đương mờ (fuzzy equivalent class) của đối tượng x iU

Với lớp tương đương mờ  x i P, hàm thuộc của các của các đối tượng x jU

được xác định bởi       ,   , 

P

và lực lượng của lớp đương

đương mờ  x i P được tính bởi  i 1 i

Định nghĩa 1.4 Xét phân hoạch mờ Φ R P   x i P in1

sinh bởi quan hệ tương

đương mờ R P với  x i P p i1 /x1  p in /x n, có 2 trường hợp đặc biệt xảy ra:

Trang 28

(1) Nếu p ij 0, ij v p) à ii 1 (với 1,i j n thì  x i P 1

Trang 29

 1  2

1 0.7 0.7 0.7 1 1 0.6 0.80.7 1 0.4 0.4 1 1 0.6 0.8

,0.7 0.4 1 1 0.6 0.6 1 0.40.7 0.4 1 1 0.8 0.8 0.4 1

Trang 30

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ

Kể từ khi Lý thuyết tập thô mờ (Fuzzy rough set) do Dübois và các cộng sự[1] đề xuất, các phương pháp rút gọn thuộc tính trên bảng quyết định theo tiếp cậntập thô mờ đã thu hút sự quan tâm của cộng đồng nghiên cứu Trong phần này, luậnán trình bày tóm tắt các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cậntập thô mờ

1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.1.1 Các nghiên cứu liên quan

Các phương pháp rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thômờ đều dựa trên các phương pháp rút gọn thuộc tính theo tiếp cận tập thô đã đượcnghiên cứu lâu nay Đây là các phương pháp heuristic theo tiếp cận filter, bao gồm cácbước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụngđộ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm tập rút gọn theotiêu chuẩn là độ quan trọng của thuộc tính Việc đánh giá độ chính xác của mô hìnhphân lớp được thực hiện sau khi tìm được tập rút gọn Cho đến nay, các nghiên cứuliên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung vào các phươngpháp chính như: phương pháp sử dụng hàm thuộc mờ, phương pháp sử dụng miềndương mờ, các phương pháp sử dụng entropy mờ, phương pháp sử dụng khoảng cáchmờ và một số phương pháp mở rộng gần đây

Trang 31

Bảng 1 2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ.

1) Hàm thuộc mờ

1

 Anoop Kumar Tiwari 2018, [3]

 Z Wang và cộng sự 2017, [4]

 Zhang và cộng sự 2018, [5]

Các thuật toán tìm tập rút gọn sử dụng hàm thuộc mờ

2) Miền dương mờ

2  T.K Sheeja và cộng sự 2018, [6]

 Y Lin và cộng sự 2018, [7]

Các phương pháp sử dụng miền dương mờ

3) Entropy mờ

3

 J.H Dai và cộng sự 2018, [8]

 Q.H Hu và cộng sự 2016, [9]

 X Zhang và cộng sự 2016,[10]

Các thuật toán tìm tập rút gọn sử dụng phương pháp entropy mờ

4) Phương pháp sử dụng khoảng cách mờ

4

 C.Z Wang và cộng sự 2019, [11]

 C.Z Wang và cộng sự 2015, [12]

 Cao Chinh Nghia và cộng sự 2016,

[13]

Các thuật toán tìm tập rút gọn sử dụng độ đo phương pháp khoảng cách mờ

5) Các phương pháp khác

5

 J.H Dai và cộng sự 2018, [14]

 J.H Dai và cộng sự 2017, [15]

 L.J.Ping và cộng sự 2020, [16]

 W.P Ding và cộng sự 2019, [17]

 X.M Liu và cộng sự 2019, [18]

 Y.J Lin và cộng sự 2017, [19]

Các thuật toán tìm tập rút gọn sử dụng một số phương pháp khác

1.4.1.2 Các điểm chung của các nghiên cứu liên quan

Từ các nghiên cứu liên quan được trình bày ở phần 1.4.1.1, tác giả tổng kết các

phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có các điểm chung như sau:1) Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xácphân lớp cao hơn các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyềnthống Điều này được thể hiện ở các kết quả thử nghiệm trên các tập dữ liệu mẫu trongcác công bố

2) Mục tiêu chung của các phương pháp đề xuất là nâng cao độ chính xác phânlớp, tối thiểu hóa số thuộc tính của tập rút gọn và thời gian thực hiện Vì vậy, cácphương pháp đã đề xuất trong luận án đều cố gắng cải thiện độ chính xác mô hình

Trang 32

phân lớp, rút gọn thuộc tính và cải thiện đáng kể thời gian thực hiện so với các phươngpháp trước đó.

3) Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, cácphương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ là các phương pháp heuristictheo tiếp cận filter Nghĩa là, độ chính xác phân lớp được đánh giá sau khi tìm đượctập rút gọn Các phương pháp bao gồm 03 bước chính: (1) Xây dựng độ đo, (2) xâydựng tập rút gọn và độ quan trọng của thuộc tính dựa trên độ đo và (3) xây dựng thuậttoán heuristic tìm một tập rút gọn theo tiêu chuẩn độ quan trọng của thuộc tính

1.4.1.3 Các vấn đề còn tồn tại

Các thuật toán đã đề xuất được trình bày trong Bảng 1.2 nêu trên đều là cácthuật toán heuristic theo tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được làtập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa Việc đánh giá độ chính xáccủa mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn Do đó, tập rút gọncủa các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xácphân lớp

1.4.1.4 Đề xuất nghiên cứu của luận án

Trong các độ đo được sử dụng trong các thuật toán trong Bảng 1.2, khoảngcách mờ được chứng minh là độ đo hiệu quả giải quyết bài toán rút gọn thuộc tínhtrong bảng quyết định Động lực nghiên cứu thứ nhất là nghiên cứu, đề xuất các

thuật toán tìm tập rút gọn theo hướng tiếp cận kết hợp filter-wrapper sử dụng

độ đo khoảng cách mờ, là sự kết hợp giữa tiếp cận lọc (filter) và đóng gói

(wrapper) Với cách tiếp cận này, giai đoạn filter tìm ra các tập rút gọn xấp xỉ, giaiđoạn wrapper sử dụng các bộ phân lớp để tính độ chính xác của các tập rút gọn xấp

xỉ và tìm ra tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất, đồng thời giảmthiểu số lượng thuộc tính tập rút gọn

1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ

Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng quyết định ngày càng có

số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin sinh học có hàng triệuthuộc tính Hơn nữa, các bảng quyết định luôn luôn thay đổi, cập nhật với các tìnhhuống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏ tập thuộc tính, giá trị

Trang 33

tập đối tượng, tập thuộc tính thay đổi Trong đó, trường hợp bổ sung, loại bỏ tậpthuộc tính xuất hiện ngày càng phổ biến Ví dụ bài toán chuẩn đoán bệnh trong lĩnhvực y tế, các triệu chứng lâm sàng được xem như các thuộc tính ban đầu để bác sĩchẩn đoán bệnh Sau đó, các chỉ số xét nghiệm được xem như các thuộc tính tiếptheo liên tục được bổ sung, cập nhật nhằm hỗ trợ bác sĩ trong việc nâng cao độ chínhxác chẩn đoán Để xây dựng mô hình phân lớp hiệu quả, ta cần giải quyết bài toán rútgọn thuộc tính trên các bảng quyết định kích thước lớn và thay đổi Việc áp dụng cácthuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều thách thức Vớitrường hợp bảng quyết định có kích thước lớn, việc thực hiện các thuật toán tìm tậprút gọn gặp khó khăn do hạn chế về không gian lưu trữ và tốc độ tính toán Vớitrường hợp bảng quyết định thay đổi, cập nhật, các thuật toán này phải tính toán lạitập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi, do đó chi phí về thời giantính toán tăng lên đáng kể Để vượt qua các thách thức trên, các nhà nghiên cứu đềxuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Các thuật toán gia tăng chỉ cậpnhật lại tập rút gọn trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trêntoàn bộ bảng quyết định Với các bảng quyết định thay đổi, cập nhật, các thuật toángia tăng giảm thiểu đáng kể thời gian thực hiện Hơn nữa, các thuật toán gia tăng cóthể thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏbảng quyết định thành nhiều phần, sau đó tập rút gọn được tính khi lần lượt bổ sungtừng phần vào bảng quyết định

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự quantâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua Trong phần này, tác giảtrình bày các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảngquyết định theo tiếp cận tập thô mờ, trên cơ sở đó đưa ra các vấn đề còn tồn tại vàđộng lực nghiên cứu của luận án

1.4.2.1 Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ

Các hướng nghiên cứu được liệt kê tóm tắt trong bảng dưới đây:

Trang 34

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ.

1 Trường hợp bổ sung, loại bỏ tập đối tượng

1.1 Tiếp cận tập thô truyền thống

 Y.G Jing và cộng sự [22, 23], 2017

 Zhang và cộng sự [24], 2020

 Cai và cộng sự [25], 2019

 Zhang và cộng sự [26], 2019

 Zhang và cộng sự [27], 2020

Các thuật toán gia tăng tìm tập rútgọn sử dụng hạt thông tin

3

 W Wei và cộng sự 2018, [28]

 G Lang và cộng sự 2017, [29]

 Ma và cộng sự 2019, [30]

 Yang và cộng sự, [31]

 Liu và cộng sự, [32]

Các thuật toán gia tăng tìm tập rútgọn sử dụng ma trận phân biệt

4

 Das và cộng sự 2018, [33]

 Lang và cộng sự 2018, [34]

 Hao và cộng sự 2019, [35]

Các thuật toán gia tăng tìm tập rútgọn sử dụng miền dương

5  Shua và cộng sự 2019, [36] Các thuật toán gia tăng tìm tập rút

gọn sử dụng hàm thuộc

6

 Nandhini và cộng sự 2019, [37] Các thuật toán gia tăng tìm tập rút

gọn sử dụng quan hệ không phânbiệt được

7  Shu và cộng sự 2020, [38] Các thuật toán gia tăng tìm tập rút

gọn sử dụng entropy thông tin

8  Xie và cộng sự 2018, [39] Thuật toán gia tăng tìm tập rút gọn

sử dụng độ đo không nhất quán

9

 Y.Y Yang và cộng sự Các thuật toán gia tăng tìm tập rút

gọn sử dụng lựa chọn mẫu kíchhoạt

1.2 Tiếp cận tập thô mờ

10  Liu và các cộng sự 2017, [52] Thuật toán gia tăng FIAT tìm tập

rút gọn sử dụng độ phụ thuộc mờ

11

 Yang và các cộng sự 2017, [53] Các thuật toán gia tăng IARM tìm

tập rút gọn sử dụng quan hệ phânbiệt mờ

12

 Yang và các cộng sự 2017, [54] Các thuật toán gia tăng

IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rútgọn sử dụng quan hệ phân biệt mờ

13  Giang và các cộng sự 2020, [55] Các thuật toán gia tăng

Trang 35

IFW_FDAR_AdObj vàIFW_FDAR_DelObj tìm tập rútgọn sử dụng quan hệ khoảng cáchmờ.

14

 Zhang và các cộng sự 2020, [56] Thuật toán gia tăng AIFWAR tìm

tập rút gọn sử dụng entropy có điềukiện mở rộng

15

 Ni và các cộng sự 2020, [57] Thuật toán gia tăng DIAR sử dụng

hàm thuộc mờ và thuật toán PIAR

sử dụng miền dương mờ tìm tập rútgọn dựa trên tập đối tượng chính

2 Trường hợp bổ sung, loại bỏ tập thuộc tính

2.1 Tiếp cận tập thô truyền thống

16  W.H Shu và cộng sự 2014, [41] Thuật toán gia tăng tìm tập rút gọn

sử dụng miền dương

17  F Wang và cộng sự 2013, [42] Thuật toán gia tăng tìm tập rút gọn

sử dụng entropy thông tin

18

 M.J Cai và cộng sự 2017, [43]

 Ma và cộng sự 2019, [44]

 Wei và cộng sự 2019, [45]

Thuật toán gia tăng tìm tập rút gọn

sử dụng ma trận phân biệt

19  Nandhini và cộng sự 2019, [46]

 Chen và cộng sự 2020, [47]

Thuật toán gia tăng tìm tập rút gọn

sử dụng quan hệ không phân biệt

20  Demetrovics Janos và cộng sự 2016,

[48]

Thuật toán gia tăng tìm tập rút gọn

sử dụng khoảng cách

21

 M.S Raza và cộng sự 2016, [49] Thuật toán gia tăng tìm tập rút gọn

sử dụng độ phụ thuộc của thuộctính

22

 Y Jing và cộng sự 2016, [50]

 Y.G Jing và cộng sự 2018, [51]

Các thuật toán gia tăng tìm tập rútgọn sử dụng hạt tri thức

2.2 Tiếp cận tập thô mờ

23

 A.P Zeng và các cộng sự 2015, [58] Xây dựng các công thức gia tăng

cập nhật độ phụ thuộc mờ trong hệthông tin hỗn hợp (HIS), trên cơ sở

đó đề xuất hai thuật toán gia tăngcập nhật tập rút gọn sử dụng độphụ thuộc mờ: thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổsung tập thuộc tính và thuật toánFRSA-IFS-HIS(AD) trong trườnghợp loại bỏ tập thuộc tính

1.4.2.2 Các vấn đề còn tồn tại

Trang 36

Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thờigian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trêncác bảng dữ liệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo hướngtiếp cận lọc truyền thống (filter) Trong đó, tập rút gọn tìm được là tập thuộc tính tốithiểu bảo toàn độ đo được định nghĩa (hàm thuộc mờ, quan hệ phân biệt…), việc đánhgiá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn Vì vậy, tập rútgọn tìm được của các thuật toán nêu trên chưa tối ưu cả về số lượng thuộc tính và độchính xác phân lớp, nghĩa là tập rút gọn tìm được chưa chắc có độ chính xác phân lớptốt nhất.

1.4.2.3 Các đề xuất của luận án

Từ vấn đề còn tồn tại của các thuật toán gia tăng đã trình bày ở trên, động lựcnghiên cứu của luận án là:

1) Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng

thuộc tính tập rút gọn, trong khi cố gắng bảo toàn và cải thiện độ chính xác

mô hình phân lớp

2) Các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận kết

hợp được nghiên cứu, đề xuất trong các trường hợp: bổ sung, loại bỏ tập đối

tượng; bổ sung, loại bỏ tập thuộc tính.

1.5 Tóm tắt các đóng góp của luận án

Dựa trên lý thuyết tập thô mờ, luận án đề xuất các thuật toán cải tiến tìm tập rút

gọn theo tiếp cận tập thô mờ bằng thuật toán kết hợp filter-wrapper nhằm giải

quyết các vấn đề còn tồn tại được trình bày ở mục 1.4.1 và 1.4.2 với hai đóng góp chínhnhư sau:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định

theo tiếp cận tập thô mờ: Thuật toán sử dụng khoảng cách mờ Độ đo

khoảng cách mờ được xây dựng là mở rộng của độ đo khoảng cách trong côngtrình [65] Các đóng góp này được trình bày ở Chương 2 của luận án và đượccông bố trong các công trình 1, 2 phần “Danh mục công trình của tác giả”

Trang 37

2) Đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng

quyết định trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính Các đóng góp này được trình bày ở Chương 3 và

Chương 4 của luận án và được công bố trong công trình 1,3,4 phần “Danhmục công trình của tác giả”

1.6 Kết luận chương 1

Trong chương 1 luận án đã nêu tổng quan về những vấn đề cơ bản:

Tổng quan về rút gọn thuộc tính, các hướng tiếp cận fifter - wrapper trong rútgọn thuộc tính; một số khái niệm cơ bản về tập thô mờ nhằm giải quyết bài toán rútgọn thuộc tính Ngoài ra, chương 1 còn trình bày tổng quan về rút gọn thuộc tính từ

đó đưa ra các thuật toán fifter-wrapper về tìm tập rút gọn của bảng quyết định và địnhhướng nghiên cứu của luận án Các khái niệm được trình bày ở chương 1 là kiến thứcnền tảng được sử dụng trong các chương sau của luận án

Trang 38

CHƯƠNG 2 THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ

2.1 Mở đầu

Trong mấy năm gần đây, nhóm nghiên cứu của PGS.TS Nguyễn Long Giang vàcộng sự đã sử dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tínhtrong bảng quyết định theo tiếp cận tập thô truyền thống [48, 66, 67, 68] và bảng quyếtđịnh không đầy đủ theo tiếp cận tập thô dung sai [66, 69, 70, 71, 72] Đáng chú ý theotiếp cận tập thô mờ, nhóm nghiên cứu đã mở rộng các độ đo khoảng cách đã đề xuấtthành các độ đo khoảng cách mờ và đã có một số kết quả trong việc sử dụng độ đokhoảng cách mờ để giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miềngiá trị số Trong công trình [73], nhóm tác giả xây dựng độ đo khoảng cách Jaccardmờ giữa hai tập thuộc tính dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn vàchứng minh một số tính chất của nó Trong công trình [74], các tác giả đã sử dụngkhoảng cách Jaccard mờ trong [73] để giải quyết bài toán rút gọn thuộc tính trực tiếptrên bảng quyết định gốc có miền giá trị số Trong công trình [12], các tác giả xâydựng độ đo khoảng cách mờ và sử dụng khoảng cách mờ giải quyết bài toán rút gọnthuộc tính trên bảng quyết định có miền giá trị số

Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm các độ đo khoảng cáchhiệu quả (có công thức tính toán đơn giản) giải quyết bài toán rút gọn thuộc tính, giảmthiểu thời gian thực hiện, trong chương này luận án đề xuất độ đo khoảng cách mờ(sau đây gọi là khoảng cách mờ) dựa trên độ đo khoảng cách phân hoạch trong côngtrình [65] Sử dụng khoảng cách mờ được xây dựng, luận án đề xuất phương phápfilter-wrapper rút gọn thuộc tính trong bảng quyết định nhằm nâng cao độ chính xácphân lớp và giảm thiểu số lượng thuộc tính tập rút gọn Bao gồm các nội dung sau: (1) Xây dựng khoảng cách giữa hai tập mờ;

(2) Xây dựng khoảng cách mờ giữa hai phân hoạch mờ;

(3) Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ;

(4) Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ;

(5) Thử nghiệm và đánh giá tính hiệu quả của các thuật toán đề xuất

Các kết quả trong chương này được công bố trong các công trình 1, 2 phần

“Danh mục công trình của tác giả”

Trang 39

2.2 Xây dựng khoảng cách giữa hai tập mờ

Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các đốitượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay một khối.Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương đương) giữa các tri thức,nghĩa là khoảng cách giữa hai tri thức càng nhỏ thì hai tri thức đó càng gần nhau,hay càng tương đương nhau và ngược lại Như vậy, khi một khoảng cách nào đóđược định nghĩa trên tập các tri thức thì cũng có nghĩa là một khoảng cách đã đượcxác lập trên tập các thuộc tính Sử dụng khoảng cách để đánh giá sự khác nhau giữacác thuộc tính, phát hiện các thuộc tính quan trọng [63, 66, 67, 75] Nhờ đó, xâydựng thuật toán hiệu quả để giải quyết bài toán rút gọn thuộc tính trong lý thuyết tậpthô mờ

Kế thừa sự thành công của kỹ thuật rút gọn thuộc tính sử dụng khoảng cáchphân hoạch theo tiếp cận tập thô truyền thống [76] luận án đề xuất thuật toán heuristic

để rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng khoảng cách mờ.Khoảng cách mờ giữa hai tập thuộc tính được xây dựng dựa trên khoảng cách mờ giữahai tập mờ Kết quả thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI[59] chothấy, phương pháp đề xuất cải thiện độ chính xác phân lớp dữ liệu tốt hơn so với cáccông bố trước đây [77]

Đầu tiên trong chương này luận án xây dựng độ đo khoảng cách giữa hai tậpmờ, gọi là khoảng cách mờ

Cho bảng quyết định DSU C, D với U x x1 , , , 2 x n

là khoảng cách phân hoạch giữa K P K Q  với X là lực lượng của X Luận án

mở rộng khoảng cách này để xây dựng khoảng cách mờ

Trang 40

Chứng minh: Đầu tiên, bất đẳng thức XYXY suy ra FDX Y ,  0.

Hơn nữa, ta cóFDX Y,  FDY X,  FDX Y,  là độ đo khoảng cách nếu nó thỏa mãnbất đẳng thức tam giác Không mất tính tổng quát, ta cần chứng minh

Ngày đăng: 28/04/2021, 08:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] D. Dübois, H. Prade, “Rough fuzzy sets and fuzzy rough sets”, International Journal of General Systems 17, pp.191-209, 1990 Sách, tạp chí
Tiêu đề: Rough fuzzy sets and fuzzy rough sets”, "InternationalJournal of General Systems
[2] Anoop Kumar Tiwari, Shivam Shreevastava, Tanmoy Som, K.K. Shukla,“Tolerance-based intuitionistic fuzzy-rough set approach for attribute reduction”, Expert Systems With Applications 101, pp. 205–212, 2018 Sách, tạp chí
Tiêu đề: Tolerance-based intuitionistic fuzzy-rough set approach for attributereduction
[3] Z. Wang, Y.L. Qi, M.W. Shao, Q.H. Hu, D.G. Chen, Y.H. Qian, Y.J. Lin, “A Fitting Model for Feature Selection with Fuzzy Rough Sets”, IEEE Transactions on Fuzzy Systems, Volume: 25, Issue: 4, pp. 741-753, 2017 Sách, tạp chí
Tiêu đề: AFitting Model for Feature Selection with Fuzzy Rough Sets
[4] Zhang, C.L. Mei, D.G. Chen, Y.Y. Yang, “A fuzzy rough set-based feature selection method using representative instances”, Knowledge-Based Systems, Vol. 151, pp. 216-229, 2018 Sách, tạp chí
Tiêu đề: A fuzzy rough set-based featureselection method using representative instances
[5] T.K. Sheeja, A. Sunny Kuriakose, “A novel feature selection method using fuzzy rough sets”, Computers in Industry 97, pp. 111- 116, 2018 Sách, tạp chí
Tiêu đề: A novel feature selection method using fuzzyrough sets
[6] Y. Lin, Y. Li, C. Wang, J. Chen, “Attribute reduction for multi-label learning with fuzzy rough set”, Knowl.-Based Syst. 152, pp. 51-61, 2018 Sách, tạp chí
Tiêu đề: Attribute reduction for multi-label learningwith fuzzy rough set
[7] J.H. Dai, Y.J. Yan, Z.W. Li, B.S. Liao, “Dominance-based fuzzy rough set approach for incomplete interval-valued data”, Journal of Intelligent & Fuzzy Systems 34, pp. 423-436, 2018 Sách, tạp chí
Tiêu đề: Dominance-based fuzzy rough setapproach for incomplete interval-valued data
[8] Q.H. Hu, D.R. Yu, Z.X. Xie, “Information-preserving hybrid data reduction based on fuzzy-rough techniques”, Pattern Recognit. Lett. 27(5), pp. 414-423, 2016 Sách, tạp chí
Tiêu đề: Information-preserving hybrid data reductionbased on fuzzy-rough techniques
[9] X. Zhang, C.L. Mei, D. G. Chen, J. Li, “Feature selection in mixed data: A method using a novel fuzzy rough set-based information entropy”, Pattern Recognition 56, pp. 1-15, 2016 Sách, tạp chí
Tiêu đề: Feature selection in mixed data: Amethod using a novel fuzzy rough set-based information entropy
[10] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, “Fuzzy rough setbased attribute reduction using distance measures”, Knowledge-Based Systems, Vol. 164, 2019, pp. 205-212 Sách, tạp chí
Tiêu đề: Fuzzy rough setbased attributereduction using distance measures
[11] C.Z. Wang, Y. Qi, Q. He, “Attribute reduction using distancebased fuzzy rough sets”, International Conference on Machine Learning and Cybernetics, IEEE, 2015 Sách, tạp chí
Tiêu đề: Attribute reduction using distancebased fuzzy roughsets
[12] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi,“About a fuzzy distance between two fuzzy partitions and attribute reduction problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-28, 2016 Sách, tạp chí
Tiêu đề: About a fuzzy distance between two fuzzy partitions and attribute reductionproblem
[13] J.H. Dai, H. Hu, W.Z. Wu,Y.H. Qian, D.B. Huang, “Maximal Discernibility Pairs Based Approach to Attribute Reduction in Fuzzy Rough Sets”, IEEE Transactions on Fuzzy Systems, Vol. 26, Issue 4, pp. 2174-2187, 2018 Sách, tạp chí
Tiêu đề: Maximal DiscernibilityPairs Based Approach to Attribute Reduction in Fuzzy Rough Sets
[14] J.H. Dai, Q.H. Hu, H. Hu, D.B.Huang, “Neighbor inconsistent pair selection for attribute reduction by rough set approach”. IEEE Transactions on Fuzzy Systems, Vol. 26, Issue 2, pp. 937-950, 2017 Sách, tạp chí
Tiêu đề: Neighbor inconsistent pair selection forattribute reduction by rough set approach
[15] L.J.Ping, Z. W. Xia, T.Z. Hui, X.Y. Fang, M. T. Yu, Z.J. Jing, Z. G. Yong, J. P.Niyoyita, “learning with fuzzy rough set-based attribute selection”, Expert Systems with Applications, Vol. 139, pp. 1- 17, 2020 Sách, tạp chí
Tiêu đề: learning with fuzzy rough set-based attribute selection
[24] Zhang, C., Dai, J. & Chen, J. (2020). Knowledge granularity based incremental attribute reduction for incomplete decision systems. International Journal of Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-020-01089-4 Link
[27] Zhang, C., Dai, J. &Chen, J. (2020). Knowledge granularity based incremental attribute reduction for incomplete decision systems. International Journal of Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-020-01089-4 Link
[37] Nandhini, N., &Thangadurai, K. (2019). An incremental rough set approach for faster attribute reduction, International Journal of Information Technology.https://doi.org/10.1007/s41870-019-00326-6 Link
[46] Nandhini, N., &Thangadurai, K. (2019). An incremental rough set approach for faster attribute reduction, International Journal of Information Technology.https://doi.org/10.1007/s41870-019-00326-6 Link
[59] The UCI machine learning repository, http://archive.ics.uci.edu/ml/datasets.html. https://sourceforge.net/projects/weka/ Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w