1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ máy tính phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ

132 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Tác giả Hồ Thị Phượng
Người hướng dẫn PGS.TS Nguyễn Long Giang
Trường học Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Chuyên ngành Khoa học máy tính
Thể loại Luận án tiến sĩ
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 132
Dung lượng 4,33 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu nghiên cứu Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giả

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH

HÀ NỘI - 2021

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

Chuyên ngành : Khoa học máy tính

LUẬN ÁN TIẾN SĨ MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS Nguyễn Long Giang

HÀ NỘI - 2021

Trang 3

LỜI CẢM ƠN

Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự giúp

đỡ hết mình từ các thầy giáo hướng dẫn, bạn bè và người thân Đầu tiên, tác giả xin bày tỏ lời tri ân tới PGS.TS Nguyễn Long Giang, Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam người thầy đã tận tình hướng dẫn tác giả hoàn thành luận án này

Tác giả xin gửi lời cảm ơn sâu sắc đến thầy cô, bạn bè công tác tại Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã nhiệt tình giúp đỡ và tạo ra môi trường nghiên cứu tốt để tác giả hoàn thành công trình của mình; cảm ơn các thầy cô và các đồng nghiệp ở các nơi mà tác giả tham gia viết bài đã có những góp

ý chính xác để tác giả có được những công bố như ngày hôm nay

Cảm ơn Học Viện Khoa học và Công nghệ Việt Nam đã tạo mọi điều kiện thuận lợi để tác giả hoàn thành Luận án này

Tác giả xin gửi lời cảm ơn tới Đảng ủy, Ban Giám hiệu trường Đại học Tây Nguyên nơi tác giả công tác đã ủng hộ và tạo mọi điều kiện để tác giả hoàn thành luận án đúng thời hạn

Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành nhất vì

đã đồng hành cùng tác giả trong suốt thời gian qua Con xin cảm ơn Cha, Mẹ và gia đình đã luôn là chỗ dựa vững chắc về tinh thần và vật chất, cũng là những người luôn mong mỏi cho con thành công; cảm ơn chồng và các anh chị em đã gánh vác công việc gia đình thay cho em; xin lỗi các con vì phần nào đó đã chịu thiệt thòi trong thời gian

mẹ học tập nghiên cứu, chính các con là nguồn động lực lớn lao giúp mẹ hoàn thành được công việc khó khăn này

Hà Nội, tháng 01 năm 2021

Hồ Thị Phượng

Trang 4

LỜI CAM ĐOAN

Các kết quả trình bày trong luận án là công trình nghiên cứu của tôi được hoàn thành dưới sự hướng dẫn của PGS.TS Nguyễn Long Giang Những kết quả trình bày là mới và chưa từng được công bố ở các công trình của người khác

Tôi xin chịu trách nhiệm về những lời cam đoan của mình

Hà Nội, Ngày….tháng ….năm 2021

Nghiên cứu sinh

Hồ Thị Phượng

Trang 5

MỤC LỤC

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THÔ MỜ 8

1.1 Tổng quan về rút gọn thuộc tính 8

1.2 Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính 10

1.3 Tổng quan về tập thô mờ 11

1.3.1 Bảng quyết định và quan hệ tương đương 12

1.3.2 Quan hệ tương đương mờ 12

1.3.3 Ma trận tương đương mờ 14

1.3.4 Phân hoạch mờ 14

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ 17

1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô mờ 17

1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ 19

1.5 Tóm tắt các đóng góp của luận án 23

1.6 Kết luận chương 1 24

CHƯƠNG 2 THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 25

2.1 Mở đầu 25

2.2 Xây dựng khoảng cách giữa hai tập mờ 26

2.2.1 Độ đo khoảng cách mờ 27

2.2.2 Độ đo khoảng cách mờ và các tính chất 27

2.3 Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ 30

2.4 Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ 36

2.5 Thực nghiệm và đánh giá kết quả các thuật toán 37

2.5.1 Mục tiêu thực nghiệm 37

2.5.2 Số liệu, phương pháp và môi trường thực nghiệm 38

2.5.3 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn 39

2.5.4 Kết quả so sánh thời gian thực hiện 41

2.6 Kết luận Chương 2 42

Trang 6

CHƯƠNG 3 THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP

RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG 44

3.1 Mở đầu 44

3.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng 47

3.2.1 Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng 47

3.2.2 Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng 50

3.3 Thuật toán gia tăng fifter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng 71

3.4 Kết luận Chương 3 88

CHƯƠNG 4 THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 90

4.1 Mở đầu 90

4.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính 93

4.2.1 Công thức gia tăng cập nhật khoảng cách khi bổ sung tập thuộc tính 93

4.2.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính 94

4.2.3 Thực nghiệm và đánh giá thuật toán 97

4.3 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính 106

4.3.1 Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính 106

4.3.2 Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập thuộc tính 106

4.4 Kết luận Chương 4 108

KẾT LUẬN 110

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 111

TÀI LIỆU THAM KHẢO 112

Trang 7

DANH MỤC CÁC THUẬT NGỮ

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Hệ thông tin Information System

Bảng quyết định Decision Tables

Bảng quyết định mờ Fuzzy Decision Tables

Quan hệ tương đương Equivalence Relation

Quan hệ tương đương mờ Fuzzy Equivalence Relation Phân hoạch mờ Fuzzy Partition

Ma trận tương đương mờ Fuzzy Equivalence Matrix Lớp tương đương mờ Fuzzy equivalence Classes Xấp xỉ dưới mờ Fuzzy Lower Approximation Xấp xỉ trên mờ Fuzzy Upper Approximation Rút gọn thuộc tính Attribute Reduction

Phương pháp gia tăng Incremental Methods

Khoảng cách mờ Fuzzy Distance

Hàm thuộc mờ Fuzzy Dependency Function

Trang 8

 u B Lớp tương đương chứa u của phân hoạch U P/

 x i P Lớp tương đương mờ của x i thuộc phân hoạch mờ Φ R P

 x i P Lực lượng lớp tương đương mờ  x i P

PX Tập xấp xỉ dưới mờ củaX đối với R P

PX Tập xấp xỉ trên mờ củaX đối với R P

   

FPD Φ R PR Q Khoảng cách mờ giữa hai phân hoạch mờ Φ R P   và Φ R Q

Trang 9

DANH MỤC CÁC BẢNG

Bảng 1.1 Bảng quyết định của Ví dụ 1.1 16

Bảng 1.2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ 18

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ 21

Bảng 2.1 Bảng quyết định của Ví dụ 2.2 33

Bảng 2.2 Bộ dữ liệu thử nghiệm thuật toán FW_FDBAR 38

Bảng 2.3 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn 39

Bảng 2.4 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR 41

Bảng 3.1 Bảng quyết định của Ví dụ 3.1 48

Bảng 3.2 Bảng quyết định sau khi thêm đối tượng u4 của Ví dụ 3.1 49

Bảng 3.3 Bảng quyết định của Ví dụ 3.2 51

Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng 52

Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng 59

Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA (tính bằng giây) 60

Bảng 3.7 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA 65

Bảng 3.8 Bảng quyết định của Ví dụ 3.3 72

Bảng 3.9 Bảng quyết định sau khi loại bỏ 1 đối tượng của Ví dụ 3.3 74

Bảng 3.10 Bảng quyết định của Ví dụ 3.4 76

Bảng 3.11 Bảng quyết định sau khi loại bỏ tập đối tượng của Ví dụ 3.4 78

Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng 83

Bảng 3.13 Thời gian thực hiện của thuật toán IFW_FDAR_DelObj và IFSD 84

Bảng 3.14 Độ chính xác phân lớp của thuật toán IFW_FDAR_DelObj và IFSD 86

Bảng 4.1 Bộ dữ liệu thử nghiệm 98

Bảng 4.2 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của IFW_FDAR_AA và FRSA-IFS-HIS(AA) 99

Bảng 4.3 Thời gian thực hiện của IFW_FDAR_AA và FRSA-IFS-HIS(AA) 103

Trang 10

DANH SÁCH CÁC HÌNH VẼ

Hình 1.1 Quy trình rút gọn thuộc tính 10

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính 11

Hình 2.1 Độ chính xác phân lớp của ba thuật toán 40

Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán 41

Hình 2.3 Thời gian thực thiện của ba thuật toán 42

Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA 64

Hình 3.2 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA 71

Hình 3.3 Thời gian thực hiện các thuật toán IFW_FDAR_DelObj và IFSD 86

Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj và IFSD 88

Hình 4.1 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) 103

Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) 105

Trang 11

MỞ ĐẦU

1 Tính cấp thiết

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá trình khai phá tri thức từ dữ liệu Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa, không cần thiết nhằm nâng cao tính hiệu quả của các mô hình khai phá

dữ liệu Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất của tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin phân lớp của bảng quyết định, gọi là tập rút gọn (reduct) Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu của các kết quả thu được Cho đến nay, có hai hướng tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc (filter) và đóng gói (wrapper) Cách tiếp cận fifter thực hiện việc lựa chọn thuộc tính độc lập với thuật toán khai phá

sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu Trong khi đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính

Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và các cộng sự [1] đề xuất là

công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc không qua bước tiền xử lý dữ liệu nhằm nâng cao hiệu quả độ chính xác mô hình phân lớp Cho đến nay, nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

đã được đề xuất, điển hình là các phương pháp sử dụng hàm thuộc mờ [2, 3, 4], các phương pháp sử dụng miền dương mờ [5, 6], các phương pháp sử dụng entropy mờ [7,

8, 9], các phương pháp sử dụng khoảng cách mờ [10, 11, 12] và một số phương pháp khác [13, 14, 15, 16, 17, 18] Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng quyết định ngày càng có số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin sinh học có hàng triệu thuộc tính Hơn nữa, các bảng quyết định luôn luôn thay đổi, cập nhật với các tình huống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏ tập thuộc tính, giá trị tập đối tượng, tập thuộc tính thay đổi Để xây dựng mô hình phân lớp hiệu quả, ta cần giải quyết bài toán rút gọn thuộc tính trên các bảng quyết định kích thước lớn và thay đổi Các phương pháp rút gọn thuộc tính theo tiếp cận truyền thống trên các bảng quyết định như vậy gặp hai thách thức Thứ nhất, với các bảng quyết định có kích thước lớn, việc thực hiện các thuật toán tìm tập rút gọn gặp khó

Trang 12

khăn về không gian lưu trữ và tốc độ tính toán Thứ hai, với các bảng quyết định thay đổi, cập nhật, các thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể Để giải quyết hai thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trên toàn bộ bảng quyết định ban đầu Do đó, chúng giảm thiểu đáng kể thời gian thực hiện Hơn nữa, các thuật toán gia tăng có thể thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết định thành nhiều phần, tập rút gọn được tính khi lần lượt bổ sung từng phần

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn của bảng quyết định đã và đang thu hút sự quan tâm của các nhà nghiên cứu trong suốt hơn thập kỷ qua

Theo tiếp cận lý thuyết tập thô truyền thống của Pawlak [19] và các mô hình tập thô mở rộng, các nhà nghiên cứu đã đề xuất nhiều thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi Với trường hợp bổ sung, loại bỏ tập đối tượng, một

số thuật toán gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24,

25, 26, 27], ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc [36], quan hệ không phân biệt được [37], entropy thông tin [38], độ đo không nhất

quán [39], lựa chọn mẫu kích hoạt [40] Với trường hợp bổ sung, loại bỏ tập thuộc tính, một số thuật toán gia tăng tìm tập rút gọn đã được đề xuất sử dụng miền dương

[41], entropy thông tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt [46, 47], khoảng cách [48], độ phụ thuộc của thuộc tính [49], hạt tri thức [50, 51]

Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây một số thuật toán gia tăng

tìm tập rút gọn của bảng quyết định đã được đề xuất với các trường hợp: bổ sung và

loại bỏ tập đối tượng [52, 53, 54, 56, 57], bổ sung và loại bỏ tập thuộc tính [58] Với trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các cộng sự [52] xây dựng công

thức gia tăng tính độ phụ thuộc mờ và đề xuất thuật toán giăng FIAT tìm tập rút gọn khi bổ sung tập đối tượng Yang và các cộng sự [53] xây dựng công thức gia tăng tính quan hệ phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng IARM tìm tập rút gọn khi bổ sung tập đối tượng Yang và các cộng sự [54] xây dựng cơ chế cập nhật quan hệ phân biệt và đề xuất hai thuật toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trong trường hợp bổ sung tập đối tượng Zhang và các cộng sự [56] đề xuất thuật toán gia

Trang 13

tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trong trường hợp

bổ sung tập đối tượng Ni và các cộng sự [57] đưa ra khái niệm tập đối tượng chính (key instance set), trên cơ sở đó xây dựng hai thuật toán gia tăng tìm tập rút gọn dựa trên tập đối tượng chính trong trường hợp bổ sung tập đối tượng: thuật toán DIAR sử

dụng hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ Với trường hợp bổ sung, loại bỏ tập thuộc tính, các kết quả nghiên cứu về các thuật toán gia tăng tìm tập

rút gọn theo tiếp cận tập thô mờ còn hạn chế Zeng và các cộng sự [58] xây dựng các công thức gia tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ

sở đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toán FRSA-IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính Kết quả thực nghiệm trong các công trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện so với các thuật toán không gia tăng Do đó, chúng có thể thực thi hiệu

quả trên các bảng quyết định có kích thước lớn và thay đổi, cập nhật Tuy nhiên, phần lớn các thuật toán đề xuất đều theo hướng tiếp cận lọc (filter) truyền thống Với cách

tiếp cận này, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được xây dựng Việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn Vì vậy, tập rút gọn thu được chưa phải là lựa chọn tốt nhất trên hai tiêu chí: số lượng thuộc tính tập rút gọn và độ chính xác phân lớp Do đó, động lực nghiên cứu của

luận án là nghiên cứu, đề xuất các thuật toán gia tăng theo tiếp cận kết hợp wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác

filter-mô hình phân lớp

2 Mục tiêu nghiên cứu

Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định

thay đổi dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó

giảm thiểu độ phức tạp của mô hình khai phá dữ liệu

Với mục tiêu đặt ra, luận án đã thu được các kết quả chính như sau:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định sử dụng độ đo khoảng cách mờ Đóng góp này được trình bày ở Chương 2 của luận án

Trang 14

2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng Đóng góp này được trình bày ở Chương 3 của luận án

3) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập thuộc tính Đóng góp này được trình bày ở Chương 4 của luận án

3 Đối tượng nghiên cứu của luận án:

- Tập thô mờ và các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

- Bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng, tập thuộc tính

- Các độ đo được sử dụng trong lý thuyết tập thô mờ, tập trung vào độ đo khoảng cách mờ

4 Phạm vi nghiên cứu

Về lý thuyết: Nghiên cứu các thuật toán heuristic tìm tập rút gọn của bảng quyết

định thay đổi (bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính) sử dụng các độ đo trong tập thô mờ

Về thử nghiệm: Thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các

thuật toán đã công bố trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [59] nhằm đánh giá tính hiệu quả của các thuật toán đề xuất theo các mục tiêu đặt ra

5 Phương pháp nghiên cứu

Nghiên cứu lý thuyết: Tổng hợp các nghiên cứu liên quan về các phương pháp

gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ, trên cơ sở đó phân tích, đánh giá các vấn đề còn tồn tại và xây dựng các đề xuất cải tiến: Cải tiến về độ chính xác mô hình phân lớp và cải tiến về số lượng thuộc tính tập rút gọn, từ đó giảm độ phức tạp của mô hình

Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy thử nghiệm,

so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết

Trang 15

6 Nội dung nghiên cứu

1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định dựa trên mô hình tập thô mờ theo tiếp cận kết hợp filter-wrapper

2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận kết hợp filter-wrapper Bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính

3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các thuật

toán khác đã công bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI [59]

7 Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học:

Đề xuất các thuật toán mới tìm tập rút gọn của bảng quyết định theo tiếp cận kết hợp filter-wrapper trong trường hợp bảng quyết định thay đổi Cụ thể luận án có các kết quả chính như sau:

1) Xây dựng một độ đo khoảng cách mờ và đề xuất thuật toán theo tiếp cận kết hợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng quyết định sử dụng độ đo khoảng cách mờ Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] cho thấy, thuật thoán filter-wrapper FW_FDBAR giảm thiểu đáng kể số lượng thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán filter truyền thống khác

2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04 thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định :

a Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn trong trường hợp bổ sung tập đối tượng

b Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn trong

trường hợp loại bỏ tập đối tượng

c Thuật toán gia tăng filter-wrapper IFW_FDAR_AA tìm tập rút gọn trong trường hợp bổ sung tập thuộc tính

d Thuật toán gia tăng filter-wrapper IFW_FDAR_DA tìm tập rút gọn trong trường hợp loại bỏ tập thuộc tính

Trang 16

Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] cho thấy, bốn thuật toán đề xuất đều theo tiếp cận kết hợp filter-wrapper, trong đó giai đoạn filter tìm các ứng viên cho tập rút gọn (là các tập thuộc tính bảo toàn độ đo sử dụng), giai đoạn wrapper tìm tập rút gọn có độ chính xác phân lớp cao nhất Bốn thuật toán đề xuất đều giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán được so sánh

Ý nghĩa thực tiễn

Các thuật toán đề xuất có thể áp dụng để giải quyết bài toán rút gọn thuộc tính trong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa, nâng caohiệu quả các mô hình khai phá dữ liệu và học máy, đặc biệt là trong các hệ thống cơ sở dữ liệu trong các lĩnh vực chẩn đoán y tế, tài chính ngân hàng,

8 Bố cục của luận án

Bố cục của luận án gồm: phần mở đầu và bốn chương nội dung, phần kết luận

và danh mục các tài liệu tham khảo Cụ thể như sau:

Chương 1 trình bày một số khái niệm cơ bản gồm: tổng quan về rút gọn thuộc tính và về cách tiếp cận filter-wrapper trong rút gọn thuộc tính Chương 1 cũng trình bày các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ trong mấy năm gần đây Trên cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được Các kiến thức

cơ bản này được sử dụng trong các chương sau, là các đóng góp chính của luận án Các đóng góp chính của luận án được trình bày trong Chương 2, Chương 3 và Chương 4 Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mờ

và đề xuất thuật toán kết hợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng

quyết định

Chương 3 và Chương 4 đề xuất các công thức gia tính khoảng cách mờ và vận dụng các khoảng cách này để xây dựng 4 thuật toán gia tăng filter-wrapper; thuật toán gia tăng filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp

bổ sung tập đối tượng; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn của bảng quyết định trong trường hợp loại bỏ tập đối tượng; thuật toán gia tăng filter-

Trang 17

wrapper thứ ba tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập thuộc tính; thuật toán gia tăng filter-wrapper thứ bốn tìm tập rút gọn của bảng quyết định trong trường hợp loại bỏ tập thuộc tính Cả bốn thuật toán đề xuất đều sử dụng độ

đo khoảng cách mờ đề xuất ở Chương 2 và đều có mục tiêu là giảm thiểu thời gian thực hiện so với thuật toán không gia tăng, nâng cao độ chính xác phân lớp và tối thiểu hóa số lượng thuộc tính tập rút gọn so với các thuật toán gia tăng khác đã công bố

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của tác giả

Trang 18

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH

THEO TẬP THÔ MỜ

Trong chương này, luận án sẽ trình bày tổng quan về rút gọn thuộc tính, các hướng tiếp cận filter và hướng tiếp cận kết hợp fifter-wrapper trong rút gọn thuộc tính, nhằm rút ra những ưu nhược điểm của các cách tiếp cận trên, từ đó đề xuất hướng tiếp cận phù hợp; trình bày tổng quan lý thuyết tập thô mờ là những khái niệm cơ bản để nghiên cứu vận dụng vào bài toán rút gọn trên tập mờ, là cơ sở nền tảng để đưa ra đề xuất thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper và cũng là căn cứ cơ bản để chúng tôi nghiên cứu và phát triển cho các thuật toán gia tăng rút gọn thuộc tính trong các chương tiếp theo

1.1 Tổng quan về rút gọn thuộc tính

Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng

dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi các thuật toán khai phá dữ liệu Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc tính

mà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ liệu

Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều – dimension reduction, rút gọn đặc trưng – feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu trong việc xử lý dữ liệu lớn thuộc các hệ thống Internet of Things (IoT) nơi xuất hiện một lượng lớn dữ liệu ở các dạng và khối lượng khác nhau

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục

tiêu là loại bỏ các thuộc tính dư thừa, không liên quan, chỉ giữ lại các thuộc tính hữu ích nhất từ một tập các thuộc tính ban đầu nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quả thu được

Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [60]

Lựa chọn thuộc tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào

đó) từ tập thuộc tính ban đầu của tập dữ liệu

Biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính ban đầu thành một

tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất

Trang 19

Với những cách thực hiện việc rút gọn thuộc tính như trên, trong quá trình phân

tích luận án đề xuất nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút gọn thuộc tính

Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên

cứu các kỹ thuật lựa chọn thuộc tính Lựa chọn thuộc tính là quá trình lựa chọn một

tập con gồm P thuộc tính từ tập gồm A thuộc tính (P A) sao cho không gian thuộc tính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định Việc tìm ra một tập con thuộc tính tốt nhất thường khó thực hiện; bài toán liên quan đến vấn đề này thuộc lớp bài toán NP-khó Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ bản:

(1) Tạo lập tập con;

(2) Đánh giá tập con;

(3 ) Kiểm tra điều kiện dừng;

(4) Kiểm chứng kết quả

Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các tập con để đánh giá, lựa chọn Giả sử có A thuộc tính trong tập dữ liệu ban đầu, khi đó số tất cả các tập con từ A thuộc tính sẽ là 2A Như vậy, rất khó khăn khi tìm tập con tối ưu

từ tất cả các tập con này Phương pháp chung để tìm tập con thuộc tính tối ưu là lần lượt tạo ra các tập con để so sánh Mỗi tập con sinh ra bởi một thủ tục sẽ được đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất trước đó Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ Quá trình tìm kiếm tập con thuộc tính tối ưu

sẽ dừng khi một trong bốn điều kiện sau xảy ra:

- Đã thu được số thuộc tính quy định

- Số bước lặp quy định cho quá trình lựa chọn đã hết

- Việc thêm vào hay loại bớt một thuộc tính nào đó không làm cho một tập con trở nên tốt hơn

- Đã thu được tập con tốt nhất theo tiêu chuẩn đánh giá

Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành các phép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập

Trang 20

thuộc tính ban đầu trên các tập dữ liệu khác nhau Quá trình lựa chọn thuộc tính được biểu diễn như hình sau: [60]

Hình 1.1 Quy trình rút gọn thuộc tính

1.2 Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc (filter) và đóng gói (wrapper), với mỗi hướng tiếp cận có những mục tiêu riêng về giảm số lượng thuộc tính hoặc nâng cao độ chính xác của mô hình phân lớp

Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc tính độc lập với các thuật toán khai phá sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu

Cách tiếp cận kiểu lọc có ưu điểm là thời gian tính toán nhanh, nhược điểm là không sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao

Ngược lại với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn bằng cách áp dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừa thu được, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính

Các hướng tiếp cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểu diễn.[60]

Trang 21

Sự đánh giá

Tập con được lựa chọn

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Từ những ưu nhược điểm của 2 cách tiếp cận trên, nghiên cứu sinh đã nghiên cứu và đề xuất một số cách tiếp cận mới nhằm kết hợp những ưu điểm của phương pháp filter, wapper và loại bỏ đi những nhược điểm của nó, nghiên cứu sinh đã đề xuất

một số cách tiếp cận mới, như là: cách tiếp cận kết hợp fifter-wrapper [9, 61]

1.3 Tổng quan về tập thô mờ

Lý thuyết tập thô truyền thống của Pawlak [19] sử dụng quan hệ tương đương

để xấp xỉ tập hợp Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D Dübois và các cộng sự [1] đề xuất sử dụng quan hệ tương đương mờ để xấp xỉ tập mờ Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ được xem là công

cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên bảng quyết định Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung vào hai hướng chính: thứ nhất là rút gọn thuộc tính trên các bảng quyết định mờ (bảng quyết định với giá trị thuộc tính là các tập mờ); thứ hai là rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bước rời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp Luận án nghiên cứu hướng thứ hai, do đó trong phần này luận án trình bày một số khái niệm

cơ bản về mô hình tập thô mờ trên bảng quyết định Các khái niệm này được sử dụng trong các chương sau của luận án

Trang 22

1.3.1 Bảng quyết định và quan hệ tương đương

Bảng quyết định là một cặp DSU C, D trong đó U là tập hữu hạn, khác rỗng các đối tượng; C là tập thuộc tính điều kiện, D là tập thuộc tính quyết định với

C  D

Lý thuyết tập thô truyền thống của Pawlak [19] sử dụng quan hệ tương đương để xấp xỉ tập hợp Xét bảng quyết định DSU C, D, mỗi tập con thuộc tính PC xác định một quan hệ tương đương trên miền giá trị thuộc tính, ký hiệu là R P

1.3.2 Quan hệ tương đương mờ

Định nghĩa 1.1 [1] Cho bảng quyết định DSU C, D, một quan hệ R xác

định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn

các điều kiện sau với mọi x y z U, , 

1) Tính phản xạ (reflexive): R x x ,  1;

Trang 23

công thức (1.1) trên thuộc tính aC có miền giá trị số

  1 4*  max  min  max min  0.25

2) Trong các công trình [9], các tác giả sử dụng quan hệ tương đương mờ theo công

thức (1.2) trên thuộc tính aC có miền giá trị thực thuộc đoạn [0, 1]

R x x  trên thuộc tính aC có miền giá trị số thuộc đoạn [0, 1]

3) Trên các thuộc tính aC có miền giá trị định danh (nominal) hoặc nhị phân (binary), các tác giả sử dụng quan hệ tương đương Quan hệ tương đương được xem là

quan hệ tương đương mờ theo công thức (1.3) như sau:

   

1, if,

a x

x

a x x

Trang 24

Ux x xR P là quan hệ tương đương mờ xác định trên tập thuộc tính

PC Khi đó, ma trận tương đương mờ biểu diễn R P, ký hiệu là ( ) ij

n n P

 

  được định nghĩa như sau:

Như vậy, giá trị các phần tử của ma trận tương đương mờ M R( P) phụ thuộc vào

quan hệ tương đương mờ R P được chọn Mặt khác, ma trận tương đương mờ là cơ sở để

xây dựng các độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính trong bảng quyết

định Do đó, việc lựa chọn các quan hệ tương đương mờ ảnh hưởng đến kết quả thực hiện các phương pháp rút gọn thuộc tính

M R    p  , ( ) ij

n n Q

M R    q tương ứng là ma trận tương đương mờ của R P, R Q khi đó ma trận tương đương mờ trên tập thuộc tính SPQ là:

Trang 25

U sinh bởi R P, ký hiệu là: Φ R P được xác định như sau:

Với lớp tương đương mờ  x i P, hàm thuộc của các của các đối tượng x jU

được xác định bởi      ,   , 

P

i P j R i j P i j ij

x x x x R x x p

đương mờ  x i P được tính bởi  

1

i i

Định nghĩa 1.4 Xét phân hoạch mờ Φ P     n1

i P i

 sinh bởi quan hệ tương

đương mờ R P với  x i Pp i1 /x1   p in/x n, có 2 trường hợp đặc biệt xảy ra:

(1) Nếu p ij 0, ij v p) à ii 1 (với 1i j, n thì  x i P  1, in, phân hoạch mờ Φ R P được gọi là mịn nhất ký hiệu là Φ 

(2) Nếu p ij 1 với 1i j, n thì  x i PU , in, phân hoạch mờ Φ R P được gọi là thô nhất (roughest) ký hiệu là Φ 

Định nghĩa 1.5 [64] Xét hai phân hoạch mờ Φ   R P , Φ R Q  , quan hệ thứ

tự bộ phận được định nghĩa như sau:

Trang 26

Ví dụ 1.1 Cho bảng quyết định DS U C,  d  trong Bảng 1.1 với

Trang 27

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ

Kể từ khi Lý thuyết tập thô mờ (Fuzzy rough set) do Dübois và các cộng sự [1] đề xuất, các phương pháp rút gọn thuộc tính trên bảng quyết định theo tiếp cận tập thô mờ đã thu hút sự quan tâm của cộng đồng nghiên cứu Trong phần này, luận

án trình bày tóm tắt các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.1.1 Các nghiên cứu liên quan

Các phương pháp rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô mờ đều dựa trên các phương pháp rút gọn thuộc tính theo tiếp cận tập thô đã được nghiên cứu lâu nay Đây là các phương pháp heuristic theo tiếp cận filter, bao gồm các bước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụng độ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm tập rút gọn theo tiêu chuẩn là độ quan trọng của thuộc tính Việc đánh giá độ chính xác của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung vào các phương pháp chính như: phương pháp sử dụng hàm thuộc mờ, phương pháp sử dụng miền dương mờ, các phương pháp sử dụng entropy mờ, phương pháp sử dụng khoảng cách mờ và một số phương pháp mở rộng gần đây

Trang 28

Bảng 1 2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ

 Y.J Lin và cộng sự 2017, [19]

Các thuật toán tìm tập rút gọn sử dụng một số phương pháp khác

1.4.1.2 Các điểm chung của các nghiên cứu liên quan

Từ các nghiên cứu liên quan được trình bày ở phần 1.4.1.1, tác giả tổng kết các

phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có các điểm chung như sau: 1) Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống Điều này được thể hiện ở các kết quả thử nghiệm trên các tập dữ liệu mẫu trong các công bố

2) Mục tiêu chung của các phương pháp đề xuất là nâng cao độ chính xác phân lớp, tối thiểu hóa số thuộc tính của tập rút gọn và thời gian thực hiện Vì vậy, các

Trang 29

phương pháp đã đề xuất trong luận án đều cố gắng cải thiện độ chính xác mô hình phân lớp, rút gọn thuộc tính và cải thiện đáng kể thời gian thực hiện so với các phương pháp trước đó

3) Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ là các phương pháp heuristic theo tiếp cận filter Nghĩa là, độ chính xác phân lớp được đánh giá sau khi tìm được tập rút gọn Các phương pháp bao gồm 03 bước chính: (1) Xây dựng độ đo, (2) xây dựng tập rút gọn và độ quan trọng của thuộc tính dựa trên độ đo và (3) xây dựng thuật toán heuristic tìm một tập rút gọn theo tiêu chuẩn độ quan trọng của thuộc tính

1.4.1.3 Các vấn đề còn tồn tại

Các thuật toán đã đề xuất được trình bày trong Bảng 1.2 nêu trên đều là các thuật toán heuristic theo tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa Việc đánh giá độ chính xác của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn Do đó, tập rút gọn của các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp

1.4.1.4 Đề xuất nghiên cứu của luận án

Trong các độ đo được sử dụng trong các thuật toán trong Bảng 1.2, khoảng cách mờ được chứng minh là độ đo hiệu quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định Động lực nghiên cứu thứ nhất là nghiên cứu, đề xuất các

thuật toán tìm tập rút gọn theo hướng tiếp cận kết hợp filter-wrapper sử dụng

độ đo khoảng cách mờ, là sự kết hợp giữa tiếp cận lọc (filter) và đóng gói

(wrapper) Với cách tiếp cận này, giai đoạn filter tìm ra các tập rút gọn xấp xỉ, giai đoạn wrapper sử dụng các bộ phân lớp để tính độ chính xác của các tập rút gọn xấp

xỉ và tìm ra tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất, đồng thời giảm thiểu số lượng thuộc tính tập rút gọn

1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ

Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng quyết định ngày càng có

số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin sinh học có hàng triệu thuộc tính Hơn nữa, các bảng quyết định luôn luôn thay đổi, cập nhật với các tình

Trang 30

huống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏ tập thuộc tính, giá trị tập đối tượng, tập thuộc tính thay đổi Trong đó, trường hợp bổ sung, loại bỏ tập thuộc tính xuất hiện ngày càng phổ biến Ví dụ bài toán chuẩn đoán bệnh trong lĩnh vực y tế, các triệu chứng lâm sàng được xem như các thuộc tính ban đầu để bác sĩ chẩn đoán bệnh Sau đó, các chỉ số xét nghiệm được xem như các thuộc tính tiếp theo liên tục được bổ sung, cập nhật nhằm hỗ trợ bác sĩ trong việc nâng cao độ chính xác chẩn đoán Để xây dựng mô hình phân lớp hiệu quả, ta cần giải quyết bài toán rút gọn thuộc tính trên các bảng quyết định kích thước lớn và thay đổi Việc áp dụng các thuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều thách thức Với trường hợp bảng quyết định có kích thước lớn, việc thực hiện các thuật toán tìm tập rút gọn gặp khó khăn do hạn chế về không gian lưu trữ và tốc độ tính toán Với trường hợp bảng quyết định thay đổi, cập nhật, các thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể Để vượt qua các thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trên toàn bộ bảng quyết định Với các bảng quyết định thay đổi, cập nhật, các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện Hơn nữa, các thuật toán gia tăng có thể thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết định thành nhiều phần, sau đó tập rút gọn được tính khi lần lượt bổ sung từng phần vào bảng quyết định

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua Trong phần này, tác giả trình bày các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ, trên cơ sở đó đưa ra các vấn đề còn tồn tại và động lực nghiên cứu của luận án

1.4.2.1 Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ

Các hướng nghiên cứu được liệt kê tóm tắt trong bảng dưới đây:

Trang 31

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ

1 Trường hợp bổ sung, loại bỏ tập đối tượng

1.1 Tiếp cận tập thô truyền thống

5  Shua và cộng sự 2019, [36] Các thuật toán gia tăng tìm tập rút

gọn sử dụng hàm thuộc

6

 Nandhini và cộng sự 2019, [37] Các thuật toán gia tăng tìm tập rút

gọn sử dụng quan hệ không phân biệt được

7  Shu và cộng sự 2020, [38] Các thuật toán gia tăng tìm tập rút

gọn sử dụng entropy thông tin

8  Xie và cộng sự 2018, [39] Thuật toán gia tăng tìm tập rút gọn

sử dụng độ đo không nhất quán

9  Y.Y Yang và cộng sự Các thuật toán gia tăng tìm tập rút

gọn sử dụng lựa chọn mẫu kích hoạt

1.2 Tiếp cận tập thô mờ

10  Liu và các cộng sự 2017, [52] Thuật toán gia tăng FIAT tìm tập rút

gọn sử dụng độ phụ thuộc mờ

11

 Yang và các cộng sự 2017, [53] Các thuật toán gia tăng IARM tìm

tập rút gọn sử dụng quan hệ phân biệt mờ

12

 Yang và các cộng sự 2017, [54] Các thuật toán gia tăng

IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn

sử dụng quan hệ phân biệt mờ

Trang 32

13

 Giang và các cộng sự 2020, [55] Các thuật toán gia tăng

IFW_FDAR_DelObj tìm tập rút gọn

sử dụng quan hệ khoảng cách mờ

14

 Zhang và các cộng sự 2020, [56] Thuật toán gia tăng AIFWAR tìm

tập rút gọn sử dụng entropy có điều kiện mở rộng

15

 Ni và các cộng sự 2020, [57] Thuật toán gia tăng DIAR sử dụng

hàm thuộc mờ và thuật toán PIAR

sử dụng miền dương mờ tìm tập rút gọn dựa trên tập đối tượng chính

2 Trường hợp bổ sung, loại bỏ tập thuộc tính

2.1 Tiếp cận tập thô truyền thống

16  W.H Shu và cộng sự 2014, [41] Thuật toán gia tăng tìm tập rút gọn

sử dụng miền dương

17  F Wang và cộng sự 2013, [42] Thuật toán gia tăng tìm tập rút gọn

sử dụng entropy thông tin

18

 M.J Cai và cộng sự 2017, [43]

 Ma và cộng sự 2019, [44]

 Wei và cộng sự 2019, [45]

Thuật toán gia tăng tìm tập rút gọn

sử dụng ma trận phân biệt

19  Nandhini và cộng sự 2019, [46]

 Chen và cộng sự 2020, [47]

Thuật toán gia tăng tìm tập rút gọn

sử dụng quan hệ không phân biệt

20  Demetrovics Janos và cộng sự 2016,

[48]

Thuật toán gia tăng tìm tập rút gọn

sử dụng khoảng cách

21

 M.S Raza và cộng sự 2016, [49] Thuật toán gia tăng tìm tập rút gọn

sử dụng độ phụ thuộc của thuộc tính

22

 Y Jing và cộng sự 2016, [50]

 Y.G Jing và cộng sự 2018, [51]

Các thuật toán gia tăng tìm tập rút gọn sử dụng hạt tri thức

2.2 Tiếp cận tập thô mờ

23

 A.P Zeng và các cộng sự 2015, [58] Xây dựng các công thức gia tăng

cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ sở

đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toán FRSA-IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính

Trang 33

1.4.2.2 Các vấn đề còn tồn tại

Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng dữ liệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận lọc truyền thống (filter) Trong đó, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa (hàm thuộc mờ, quan hệ phân biệt…), việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn Vì vậy, tập rút gọn tìm được của các thuật toán nêu trên chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp, nghĩa là tập rút gọn tìm được chưa chắc có độ chính xác phân lớp tốt nhất

1.4.2.3 Các đề xuất của luận án

Từ vấn đề còn tồn tại của các thuật toán gia tăng đã trình bày ở trên, động lực nghiên cứu của luận án là:

1) Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng

thuộc tính tập rút gọn, trong khi cố gắng bảo toàn và cải thiện độ chính xác

mô hình phân lớp

2) Các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận kết

hợp được nghiên cứu, đề xuất trong các trường hợp: bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính

Trang 34

2) Đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính Các đóng góp này được trình bày ở Chương 3 và

Chương 4 của luận án và được công bố trong công trình 1,3,4 phần “Danh mục công trình của tác giả”

1.6 Kết luận chương 1

Trong chương 1 luận án đã nêu tổng quan về những vấn đề cơ bản:

Tổng quan về rút gọn thuộc tính, các hướng tiếp cận fifter - wrapper trong rút gọn thuộc tính; một số khái niệm cơ bản về tập thô mờ nhằm giải quyết bài toán rút gọn thuộc tính Ngoài ra, chương 1 còn trình bày tổng quan về rút gọn thuộc tính từ

đó đưa ra các thuật toán fifter-wrapper về tìm tập rút gọn của bảng quyết định và định hướng nghiên cứu của luận án Các khái niệm được trình bày ở chương 1 là kiến thức

nền tảng được sử dụng trong các chương sau của luận án

Trang 35

CHƯƠNG 2 THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ

2.1 Mở đầu

Trong mấy năm gần đây, nhóm nghiên cứu của PGS.TS Nguyễn Long Giang và cộng sự đã sử dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô truyền thống [48, 66, 67, 68] và bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai [66, 69, 70, 71, 72] Đáng chú ý theo tiếp cận tập thô mờ, nhóm nghiên cứu đã mở rộng các độ đo khoảng cách đã đề xuất thành các độ đo khoảng cách mờ và đã có một số kết quả trong việc sử dụng độ đo khoảng cách mờ để giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá trị số Trong công trình [73], nhóm tác giả xây dựng độ đo khoảng cách Jaccard mờ giữa hai tập thuộc tính dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn và chứng minh một số tính chất của nó Trong công trình [74], các tác giả đã sử dụng khoảng cách Jaccard mờ trong [73] để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc có miền giá trị số Trong công trình [12], các tác giả xây dựng độ đo khoảng cách mờ và sử dụng khoảng cách mờ giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá trị số

Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm các độ đo khoảng cách hiệu quả (có công thức tính toán đơn giản) giải quyết bài toán rút gọn thuộc tính, giảm thiểu thời gian thực hiện, trong chương này luận án đề xuất độ đo khoảng cách mờ (sau đây gọi là khoảng cách mờ) dựa trên độ đo khoảng cách phân hoạch trong công trình [65] Sử dụng khoảng cách mờ được xây dựng, luận án đề xuất phương pháp filter-wrapper rút gọn thuộc tính trong bảng quyết định nhằm nâng cao độ chính xác phân lớp và giảm thiểu số lượng thuộc tính tập rút gọn Bao gồm các nội dung sau: (1) Xây dựng khoảng cách giữa hai tập mờ;

(2) Xây dựng khoảng cách mờ giữa hai phân hoạch mờ;

(3) Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ;

(4) Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ;

(5) Thử nghiệm và đánh giá tính hiệu quả của các thuật toán đề xuất

Các kết quả trong chương này được công bố trong các công trình 1, 2 phần

“Danh mục công trình của tác giả”

Trang 36

2.2 Xây dựng khoảng cách giữa hai tập mờ

Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các đối tượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay một khối Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương đương) giữa các tri thức, nghĩa là khoảng cách giữa hai tri thức càng nhỏ thì hai tri thức đó càng gần nhau, hay càng tương đương nhau và ngược lại Như vậy, khi một khoảng cách nào đó được định nghĩa trên tập các tri thức thì cũng có nghĩa là một khoảng cách đã được xác lập trên tập các thuộc tính Sử dụng khoảng cách để đánh giá sự khác nhau giữa các thuộc tính, phát hiện các thuộc tính quan trọng [63, 66, 67, 75] Nhờ đó, xây dựng thuật toán hiệu quả để giải quyết bài toán rút gọn thuộc tính trong lý thuyết tập thô mờ

Kế thừa sự thành công của kỹ thuật rút gọn thuộc tính sử dụng khoảng cách phân hoạch theo tiếp cận tập thô truyền thống [76] luận án đề xuất thuật toán heuristic

để rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng khoảng cách mờ Khoảng cách mờ giữa hai tập thuộc tính được xây dựng dựa trên khoảng cách mờ giữa hai tập mờ Kết quả thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI[59] cho thấy, phương pháp đề xuất cải thiện độ chính xác phân lớp dữ liệu tốt hơn so với các công bố trước đây [77]

Đầu tiên trong chương này luận án xây dựng độ đo khoảng cách giữa hai tập mờ, gọi là khoảng cách mờ

Cho bảng quyết định DSU C, D với U x x1 , 2 , ,x n

là khoảng cách phân hoạch giữa K P K Q  với X là lực lượng của X Luận án

mở rộng khoảng cách này để xây dựng khoảng cách mờ

Trang 37

FD X Y,  FD X Z,  FD Y Z, Theo Bộ đề 2.1, ta có:

XX Y Z  Z XZ  Z Y (1)

XX Z Y  Y XY  Y Z (2) Cộng (1) và (2) vế theo vế, ta có:

XY  2 XY   XZ  2 XZ  YZ  2YZ (3) Với 2 số bất kì a, b, ta có max a b,   a b min a b, Khi đó, ta có

i

n

Trang 38

Là một khoảng cách mờ giữa hai phân hoạch mờ  R P và  R Q , gọi là khoảng cách mờ

Chứng minh: Rõ ràng FPD Φ    R PR Q 0 và

   

bất đẳng thức tam giác Không mất tính tổng quát với mọi  R P , R Q ,Φ R S , ta cần chứng minh: FPD Φ    R PR Q FPD Φ    R QR S FPD Φ    R PR S

Trang 39

Mệnh đề 2.3 Cho bảng quyết định DSU C, D với U x x1 , 2 ,  ,x n R

là một quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, khi

đó khoảng cách mờ giữa hai tập thuộc tính C và CD được xác định như sau:

Chứng minh: Từ BC, theo [29] ta có Φ   R C Φ R B Nghĩa là    x i Cx i B

với 1  i n  x i C   x i B với 1  i n Xét đối tượng x iU, ta có:

Trang 40

2.3 Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ

Trong mục này, chúng tôi trình bày phương pháp rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter Giống các phương pháp filter khác theo tiếp cận tập thô, phương pháp đề xuất bao gồm các bước:

(1) Định nghĩa tập rút gọn dựa trên khoảng cách mờ;

(2) Định nghĩa độ quan trọng của thuộc tính dựa trên khoảng cách mờ;

(3) Xây dựng thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ;

(4) Độ chính xác phân lớp được đánh giá sau khi tìm được tập rút gọn

Định nghĩa 2.1 Bảng quyết định DS U C, D và R R B, C là các quan hệ tương đương mờ trên tập thuộc tính điều kiện B, C với BC Nếu:

1)FPD Φ   R BR B D  FPD Φ   R CR C D  

2) b B, FPD Φ R B b ,ΦRB bD  FPD Φ   R CR C D  

Ngày đăng: 30/05/2023, 15:23

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] D. Dübois, H. Prade, “Rough fuzzy sets and fuzzy rough sets”, International Journal of General Systems 17, pp.191-209, 1990 Sách, tạp chí
Tiêu đề: Rough fuzzy sets and fuzzy rough sets
Tác giả: D. Dübois, H. Prade
Nhà XB: International Journal of General Systems
Năm: 1990
[2] Anoop Kumar Tiwari, Shivam Shreevastava, Tanmoy Som, K.K. Shukla, “Tolerance-based intuitionistic fuzzy-rough set approach for attribute reduction”, Expert Systems With Applications 101, pp. 205–212, 2018 Sách, tạp chí
Tiêu đề: Tolerance-based intuitionistic fuzzy-rough set approach for attribute reduction
Tác giả: Anoop Kumar Tiwari, Shivam Shreevastava, Tanmoy Som, K.K. Shukla
Nhà XB: Expert Systems With Applications
Năm: 2018
[3] Z. Wang, Y.L. Qi, M.W. Shao, Q.H. Hu, D.G. Chen, Y.H. Qian, Y.J. Lin, “A Fitting Model for Feature Selection with Fuzzy Rough Sets”, IEEE Transactions on Fuzzy Systems, Volume: 25, Issue: 4, pp. 741-753, 2017 Sách, tạp chí
Tiêu đề: A Fitting Model for Feature Selection with Fuzzy Rough Sets
Tác giả: Z. Wang, Y.L. Qi, M.W. Shao, Q.H. Hu, D.G. Chen, Y.H. Qian, Y.J. Lin
Nhà XB: IEEE Transactions on Fuzzy Systems
Năm: 2017
[4] Zhang, C.L. Mei, D.G. Chen, Y.Y. Yang, “A fuzzy rough set-based feature selection method using representative instances”, Knowledge-Based Systems, Vol. 151, pp. 216-229, 2018 Sách, tạp chí
Tiêu đề: A fuzzy rough set-based feature selection method using representative instances
Tác giả: Zhang, C.L., Mei, D.G., Chen, Y.Y., Yang
Nhà XB: Knowledge-Based Systems
Năm: 2018
[5] T.K. Sheeja, A. Sunny Kuriakose, “A novel feature selection method using fuzzy rough sets”, Computers in Industry 97, pp. 111- 116, 2018 Sách, tạp chí
Tiêu đề: A novel feature selection method using fuzzy rough sets
Tác giả: T.K. Sheeja, A. Sunny Kuriakose
Nhà XB: Computers in Industry
Năm: 2018
[6] Y. Lin, Y. Li, C. Wang, J. Chen, “Attribute reduction for multi-label learning with fuzzy rough set”, Knowl.-Based Syst. 152, pp. 51-61, 2018 Sách, tạp chí
Tiêu đề: Attribute reduction for multi-label learning with fuzzy rough set
Tác giả: Y. Lin, Y. Li, C. Wang, J. Chen
Nhà XB: Knowl.-Based Syst.
Năm: 2018
[7] J.H. Dai, Y.J. Yan, Z.W. Li, B.S. Liao, “Dominance-based fuzzy rough set approach for incomplete interval-valued data”, Journal of Intelligent & Fuzzy Systems 34, pp. 423-436, 2018 Sách, tạp chí
Tiêu đề: Dominance-based fuzzy rough set approach for incomplete interval-valued data
Tác giả: J.H. Dai, Y.J. Yan, Z.W. Li, B.S. Liao
Nhà XB: Journal of Intelligent & Fuzzy Systems
Năm: 2018
[8] Q.H. Hu, D.R. Yu, Z.X. Xie, “Information-preserving hybrid data reduction based on fuzzy-rough techniques”, Pattern Recognit. Lett. 27(5), pp. 414-423, 2016 Sách, tạp chí
Tiêu đề: Information-preserving hybrid data reduction based on fuzzy-rough techniques
Tác giả: Q.H. Hu, D.R. Yu, Z.X. Xie
Nhà XB: Pattern Recognit. Lett.
Năm: 2016
[9] X. Zhang, C.L. Mei, D. G. Chen, J. Li, “Feature selection in mixed data: A method using a novel fuzzy rough set-based information entropy”, Pattern Recognition 56, pp. 1-15, 2016 Sách, tạp chí
Tiêu đề: Feature selection in mixed data: A method using a novel fuzzy rough set-based information entropy
Tác giả: X. Zhang, C.L. Mei, D. G. Chen, J. Li
Nhà XB: Pattern Recognition
Năm: 2016
[10] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, “Fuzzy rough setbased attribute reduction using distance measures”, Knowledge-Based Systems, Vol. 164, 2019, pp. 205-212 Sách, tạp chí
Tiêu đề: Fuzzy rough setbased attribute reduction using distance measures
Tác giả: C.Z. Wang, Y. Huang, M.W. Shao, X.D. Fan
Nhà XB: Knowledge-Based Systems
Năm: 2019
[11] C.Z. Wang, Y. Qi, Q. He, “Attribute reduction using distancebased fuzzy rough sets”, International Conference on Machine Learning and Cybernetics, IEEE, 2015 Sách, tạp chí
Tiêu đề: Attribute reduction using distancebased fuzzy rough sets
Tác giả: C.Z. Wang, Y. Qi, Q. He
Nhà XB: IEEE
Năm: 2015
[12] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi, “About a fuzzy distance between two fuzzy partitions and attribute reduction problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-28, 2016 Sách, tạp chí
Tiêu đề: About a fuzzy distance between two fuzzy partitions and attribute reduction problem
Tác giả: Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi
Nhà XB: Cybernetics and Information Technologies
Năm: 2016
[13] J.H. Dai, H. Hu, W.Z. Wu,Y.H. Qian, D.B. Huang, “Maximal Discernibility Pairs Based Approach to Attribute Reduction in Fuzzy Rough Sets”, IEEE Transactions on Fuzzy Systems, Vol. 26, Issue 4, pp. 2174-2187, 2018 Sách, tạp chí
Tiêu đề: Maximal Discernibility Pairs Based Approach to Attribute Reduction in Fuzzy Rough Sets
Tác giả: J.H. Dai, H. Hu, W.Z. Wu, Y.H. Qian, D.B. Huang
Nhà XB: IEEE Transactions on Fuzzy Systems
Năm: 2018
[14] J.H. Dai, Q.H. Hu, H. Hu, D.B.Huang, “Neighbor inconsistent pair selection for attribute reduction by rough set approach”. IEEE Transactions on Fuzzy Systems, Vol. 26, Issue 2, pp. 937-950, 2017 Sách, tạp chí
Tiêu đề: Neighbor inconsistent pair selection for attribute reduction by rough set approach
Tác giả: J.H. Dai, Q.H. Hu, H. Hu, D.B. Huang
Nhà XB: IEEE Transactions on Fuzzy Systems
Năm: 2017
[15] L.J.Ping, Z. W. Xia, T.Z. Hui, X.Y. Fang, M. T. Yu, Z.J. Jing, Z. G. Yong, J. P. Niyoyita, “learning with fuzzy rough set-based attribute selection”, Expert Systems with Applications, Vol. 139, pp. 1- 17, 2020 Sách, tạp chí
Tiêu đề: learning with fuzzy rough set-based attribute selection
Tác giả: L.J. Ping, Z. W. Xia, T.Z. Hui, X.Y. Fang, M. T. Yu, Z.J. Jing, Z. G. Yong, J. P. Niyoyita
Nhà XB: Expert Systems with Applications
Năm: 2020
[16] W.P. Ding, C.T. Lin, Z.H. Cao, “Deep neuro-cognitive coevolution for fuzzy attribute reduction by quantum leaping PSO with nearest-neighbor memeplexes”, IEEE Transactions on Cybernetics, 49(7):2744-2757, 2019 Sách, tạp chí
Tiêu đề: Deep neuro-cognitive coevolution for fuzzy attribute reduction by quantum leaping PSO with nearest-neighbor memeplexes
Tác giả: W.P. Ding, C.T. Lin, Z.H. Cao
Nhà XB: IEEE Transactions on Cybernetics
Năm: 2019
[17] X.M. Liu, C. Shen, W. Wang, X.H. Guan, “CoEvil: A Coevolutionary Model for Crime Inference Based on Fuzzy Rough Feature Selection”, IEEE Transactions on Fuzzy Systems, Early Access, 2019 Sách, tạp chí
Tiêu đề: CoEvil: A Coevolutionary Model for Crime Inference Based on Fuzzy Rough Feature Selection
Tác giả: X.M. Liu, C. Shen, W. Wang, X.H. Guan
Nhà XB: IEEE Transactions on Fuzzy Systems
Năm: 2019
[18] Y.J. Lin, Q.H. Hu, J.H. Liu, J.J. Li, X.D. Wu, “Streaming feature selection for multi-label learning based on fuzzy mutual information”, IEEE Transactions on Fuzzy Systems, Vol. 25, Issue 6, pp. 1491-1507, 2017 Sách, tạp chí
Tiêu đề: Streaming feature selection for multi-label learning based on fuzzy mutual information
Tác giả: Y.J. Lin, Q.H. Hu, J.H. Liu, J.J. Li, X.D. Wu
Nhà XB: IEEE Transactions on Fuzzy Systems
Năm: 2017
[19] Z. Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publisher, London, 1991 Sách, tạp chí
Tiêu đề: Rough sets: Theoretical Aspects of Reasoning about Data
Tác giả: Z. Pawlak
Nhà XB: Kluwer Academic Publisher
Năm: 1991
[20] Demetrovics, J., Thi, V.D., & Giang, N.L. (2014). Metric Based Attribute Reduction in Dynamic Decision systems. Annales Univ. Sci. Budapest., Sect.Comp, Vol. 42, 157-172 Sách, tạp chí
Tiêu đề: Metric Based Attribute Reduction in Dynamic Decision systems
Tác giả: Demetrovics, J., Thi, V.D., Giang, N.L
Nhà XB: Annales Univ. Sci. Budapest., Sect.Comp
Năm: 2014

HÌNH ẢNH LIÊN QUAN

Hình 1.1  Quy trình rút gọn thuộc tính - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 1.1 Quy trình rút gọn thuộc tính (Trang 20)
Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán (Trang 51)
Hình 2.3 Thời gian thực thiện của ba thuật toán - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 2.3 Thời gian thực thiện của ba thuật toán (Trang 52)
Hình 3.1b. Thời gian thực hiện các thuật toán trên bộ dữ liệu WDBC - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 3.1b. Thời gian thực hiện các thuật toán trên bộ dữ liệu WDBC (Trang 72)
Hình 3.1.e Thời gian thực hiện các thuật toán trên bộ dữ liệu Credit - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 3.1.e Thời gian thực hiện các thuật toán trên bộ dữ liệu Credit (Trang 73)
Hình 3.1.h Thời gian thực hiện các thuật toán trên bộ dữ liệu Wave - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 3.1.h Thời gian thực hiện các thuật toán trên bộ dữ liệu Wave (Trang 74)
Hình 3.2.b Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu WDBC - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 3.2.b Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu WDBC (Trang 79)
Hình 3.2.e  Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Credit - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 3.2.e Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Credit (Trang 80)
Hình 3.2.h Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Wave - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 3.2.h Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Wave (Trang 81)
Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng (Trang 93)
Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj (Trang 98)
Hình 4.1.a. Tập dữ liệu Libra - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 4.1.a. Tập dữ liệu Libra (Trang 111)
Hình 4.1.e. Tập dữ liệu Credit - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 4.1.e. Tập dữ liệu Credit (Trang 112)
Hình 4.1.g. Tập dữ liệu Wave - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 4.1.g. Tập dữ liệu Wave (Trang 113)
Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) - Luận án tiến sĩ máy tính  phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) (Trang 115)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w