Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ

Hơn nữa, các thuật toán gia tăng có thểthực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảngquyết định thành nhiều phần, tập rút gọn được

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH

HÀ NỘI - 2021

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

Chuyên ngành: Khoa học máy tính

Mã số : 9 48 01 01

LUẬN ÁN TIẾN SĨ MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS Nguyễn Long Giang

HÀ NỘI - 2021 LỜI CẢM ƠN

Trang 3

Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự giúp

đỡ hết mình từ các thầy giáo hướng dẫn, bạn bè và người thân Đầu tiên, tác giả xinbày tỏ lời tri ân tới PGS.TS Nguyễn Long Giang, Viện Công nghệ Thông tin, ViệnHàn lâm Khoa học và Công nghệ Việt Nam người thầy đã tận tình hướng dẫn tác giảhoàn thành luận án này

Tác giả xin gửi lời cảm ơn sâu sắc đến thầy cô, bạn bè công tác tại Viện Côngnghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã nhiệt tình giúp đỡvà tạo ra môi trường nghiên cứu tốt để tác giả hoàn thành công trình của mình; cảm ơncác thầy cô và các đồng nghiệp ở các nơi mà tác giả tham gia viết bài đã có những góp

ý chính xác để tác giả có được những công bố như ngày hôm nay

Cảm ơn Học viện Khoa học và Công nghệ đã tạo mọi điều kiện thuận lợi để tácgiả hoàn thành Luận án này

Tác giả xin gửi lời cảm ơn tới Đảng ủy, Ban Giám hiệu trường Đại học TâyNguyên nơi tác giả công tác đã ủng hộ và tạo mọi điều kiện để tác giả hoàn thành luậnán đúng thời hạn

Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành nhất vì

đã đồng hành cùng tác giả trong suốt thời gian qua Con xin cảm ơn Cha, Mẹ và giađình đã luôn là chỗ dựa vững chắc về tinh thần và vật chất, cũng là những người luônmong mỏi cho con thành công; cảm ơn chồng và các anh chị em đã gánh vác công việcgia đình thay cho em; xin lỗi các con vì phần nào đó đã chịu thiệt thòi trong thời gian

mẹ học tập nghiên cứu, chính các con là nguồn động lực lớn lao giúp mẹ hoàn thànhđược công việc khó khăn này

Hà Nội, tháng 01 năm 2021

Hồ Thị Phượng

Trang 4

LỜI CAM ĐOAN

Các kết quả trình bày trong luận án là công trình nghiên cứu của tôi được hoànthành dưới sự hướng dẫn của PGS.TS Nguyễn Long Giang Những kết quả trình bàylà mới và chưa từng được công bố ở các công trình của người khác

Tôi xin chịu trách nhiệm về những lời cam đoan của mình

Hà Nội, Ngày….tháng ….năm 2021

Nghiên cứu sinh

Hồ Thị Phượng

Trang 5

MỤC LỤC

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THÔ MỜ 8

1.1 Tổng quan về rút gọn thuộc tính 8

1.2 Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính 10

1.3 Tổng quan về tập thô mờ 11

1.3.1 Bảng quyết định và quan hệ tương đương 12

1.3.2 Quan hệ tương đương mờ 12

1.3.3 Ma trận tương đương mờ 14

1.3.4 Phân hoạch mờ 14

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ 17

1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô mờ 17

1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ 19

1.5 Tóm tắt các đóng góp của luận án 23

1.6 Kết luận chương 1 24

CHƯƠNG 2 THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 25

2.1 Mở đầu 25

2.2 Xây dựng khoảng cách giữa hai tập mờ 26

2.2.1 Độ đo khoảng cách mờ 27

2.2.2 Độ đo khoảng cách mờ và các tính chất 27

2.3 Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ 30

2.4 Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ 36

2.5 Thực nghiệm và đánh giá kết quả các thuật toán 37

2.5.1 Mục tiêu thực nghiệm 37

2.5.2 Số liệu, phương pháp và môi trường thực nghiệm 38

Trang 6

2.5.3 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập

rút gọn 39

2.5.4 Kết quả so sánh thời gian thực hiện 41

2.6 Kết luận Chương 2 42

CHƯƠNG 3 THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG 44

3.1 Mở đầu 44

3.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng 47

3.2.1 Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng .47

3.2.2 Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng 50

3.3 Thuật toán gia tăng fifter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng 71

CHƯƠNG 4 THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 90

4.1 Mở đầu 90

4.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính 93

4.2.1 Công thức gia tăng cập nhật khoảng cách khi bổ sung tập thuộc tính 93

4.2.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính 94

4.2.3 Thực nghiệm và đánh giá thuật toán 97

4.3 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính 106

4.3.1 Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính 106

4.3.2 Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập thuộc tính 106

KẾT LUẬN 110

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 111

TÀI LIỆU THAM KHẢO 112

Trang 8

DANH MỤC CÁC THUẬT NGỮ

Bảng quyết định mờ Fuzzy Decision Tables

Quan hệ tương đương Equivalence Relation

Quan hệ tương đương mờ Fuzzy Equivalence Relation

Ma trận tương đương mờ Fuzzy Equivalence Matrix Lớp tương đương mờ Fuzzy equivalence Classes Xấp xỉ dưới mờ Fuzzy Lower Approximation Xấp xỉ trên mờ Fuzzy Upper Approximation Rút gọn thuộc tính Attribute Reduction

Phương pháp gia tăng Incremental Methods

Hàm thuộc mờ Fuzzy Dependency Function

Trang 9

 u B Lớp tương đương chứa u của phân hoạch U P/

Ra Quan hệ tương đương mờ R

Φ R P Phân hoạch mờ trên ~R P

 x i P Lớp tương đương mờ của x i thuộc phân hoạch mờ Φ R P

 x i P Lực lượng lớp tương đương mờ  x i P

PX Tập xấp xỉ dưới mờ củaX đối với R P

PX Tập xấp xỉ trên mờ củaX đối với R P

Trang 10

DANH MỤC CÁC BẢ

Bảng 1.1 Bảng quyết định của Ví dụ 1.1 16

Bảng 1.2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ 18

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ 21Y Bảng 2.1 Bảng quyết định của Ví dụ 2.2 33

Bảng 2.2 Bộ dữ liệu thử nghiệm thuật toán FW_FDBAR 38

Bảng 2.3 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn 39

Bảng 2.4 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR 4 Bảng 3.1 Bảng quyết định của Ví dụ 3.1 48

Bảng 3.2 Bảng quyết định sau khi thêm đối tượng u4 của Ví dụ 3.1 49

Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng 52

Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng 59

Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA (tính bằng giây) 60

Bảng 3.7 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA 65

Bảng 3.9 Bảng quyết định sau khi loại bỏ 1 đối tượng của Ví dụ 3.3 74

Bảng 3.11 Bảng quyết định sau khi loại bỏ tập đối tượng của Ví dụ 3.4 78

Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng 83

Bảng 3.13 Thời gian thực hiện của thuật toán IFW_FDAR_DelObj và IFSD 84

Bảng 3.14 Độ chính xác phân lớp của thuật toán IFW_FDAR_DelObj và IFSD 8 Bảng 4.1 Bộ dữ liệu thử nghiệm 98

Bảng 4.2 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của IFW_FDAR_AA và FRSA-IFS-HIS(AA) 99

Bảng 4.3 Thời gian thực hiện của IFW_FDAR_AA và FRSA-IFS-HIS(AA) 103

Trang 12

DANH SÁCH CÁC HÌN

Hình 1.1 Quy trình rút gọn thuộc tính 10

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính 11

Y Hình 2.1 Độ chính xác phân lớp của ba thuật toán 40

Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán 41

Hình 2.3 Thời gian thực thiện của ba thuật toán 42Y Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA 64

Hình 3.2 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA 71

Hình 3.3 Thời gian thực hiện các thuật toán IFW_FDAR_DelObj và IFSD 86

Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj và IFSD 8 Hình 4.1 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) 103

Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) 105

Trang 13

MỞ ĐẦU

1 Tính cấp thiết

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quátrình khai phá tri thức từ dữ liệu Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộctính dư thừa, không cần thiết nhằm nâng cao tính hiệu quả của các mô hình khai phá

dữ liệu Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhấtcủa tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin phânlớp của bảng quyết định, gọi là tập rút gọn (reduct) Kết quả rút gọn thuộc tính ảnhhưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Gia tăng tốc độ, cảithiện chất lượng, tính dễ hiểu của các kết quả thu được Cho đến nay, có hai hướngtiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc (filter) và đóng gói (wrapper).Cách tiếp cận fifter thực hiện việc lựa chọn thuộc tính độc lập với thuật toán khai phá

sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trongviệc mô tả dữ liệu Trong khi đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằngcách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn đểlựa chọn các tập con thuộc tính

Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và các cộng sự [1] đề xuất là

công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết địnhgốc không qua bước tiền xử lý dữ liệu nhằm nâng cao hiệu quả độ chính xác mô hìnhphân lớp Cho đến nay, nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

đã được đề xuất, điển hình là các phương pháp sử dụng hàm thuộc mờ [2, 3, 4], cácphương pháp sử dụng miền dương mờ [5, 6], các phương pháp sử dụng entropy mờ [7,

8, 9], các phương pháp sử dụng khoảng cách mờ [10, 11, 12] và một số phương phápkhác [13, 14, 15, 16, 17, 18] Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảngquyết định ngày càng có số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tinsinh học có hàng triệu thuộc tính Hơn nữa, các bảng quyết định luôn luôn thay đổi,cập nhật với các tình huống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏtập thuộc tính, giá trị tập đối tượng, tập thuộc tính thay đổi Để xây dựng mô hình phânlớp hiệu quả, ta cần giải quyết bài toán rút gọn thuộc tính trên các bảng quyết địnhkích thước lớn và thay đổi Các phương pháp rút gọn thuộc tính theo tiếp cận truyềnthống trên các bảng quyết định như vậy gặp hai thách thức Thứ nhất, với các bảngquyết định có kích thước lớn, việc thực hiện các thuật toán tìm tập rút gọn gặp khó

Trang 14

khăn về không gian lưu trữ và tốc độ tính toán Thứ hai, với các bảng quyết định thayđổi, cập nhật, các thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyếtđịnh sau khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể Để giảiquyết hai thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăngtìm tập rút gọn Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bịthay đổi mà không tính lại tập rút gọn trên toàn bộ bảng quyết định ban đầu Do đó,chúng giảm thiểu đáng kể thời gian thực hiện Hơn nữa, các thuật toán gia tăng có thểthực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảngquyết định thành nhiều phần, tập rút gọn được tính khi lần lượt bổ sung từng phần.

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn của bảng quyết định đã vàđang thu hút sự quan tâm của các nhà nghiên cứu trong suốt hơn thập kỷ qua

Theo tiếp cận lý thuyết tập thô truyền thống của Pawlak [19] và các mô hình tập thô mở rộng, các nhà nghiên cứu đã đề xuất nhiều thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi Với trường hợp bổ sung, loại bỏ tập đối tượng, một

số thuật toán gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24,

25, 26, 27], ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc[36], quan hệ không phân biệt được [37], entropy thông tin [38], độ đo không nhất

quán [39], lựa chọn mẫu kích hoạt [40] Với trường hợp bổ sung, loại bỏ tập thuộc tính, một số thuật toán gia tăng tìm tập rút gọn đã được đề xuất sử dụng miền dương

[41], entropy thông tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt[46, 47], khoảng cách [48], độ phụ thuộc của thuộc tính [49], hạt tri thức [50, 51]

Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây một số thuật toán gia tăng

tìm tập rút gọn của bảng quyết định đã được đề xuất với các trường hợp: bổ sung và

loại bỏ tập đối tượng [52, 53, 54, 56, 57], bổ sung và loại bỏ tập thuộc tính [58] Với trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các cộng sự [52] xây dựng công

thức gia tăng tính độ phụ thuộc mờ và đề xuất thuật toán giăng FIAT tìm tập rút gọnkhi bổ sung tập đối tượng Yang và các cộng sự [53] xây dựng công thức gia tăng tínhquan hệ phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng IARM tìm tập rút gọnkhi bổ sung tập đối tượng Yang và các cộng sự [54] xây dựng cơ chế cập nhật quan hệphân biệt và đề xuất hai thuật toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trongtrường hợp bổ sung tập đối tượng Zhang và các cộng sự [56] đề xuất thuật toán gia

Trang 15

tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trong trường hợp

bổ sung tập đối tượng Ni và các cộng sự [57] đưa ra khái niệm tập đối tượng chính(key instance set), trên cơ sở đó xây dựng hai thuật toán gia tăng tìm tập rút gọn dựatrên tập đối tượng chính trong trường hợp bổ sung tập đối tượng: thuật toán DIAR sử

dụng hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ Với trường hợp bổ sung, loại bỏ tập thuộc tính, các kết quả nghiên cứu về các thuật toán gia tăng tìm tập

rút gọn theo tiếp cận tập thô mờ còn hạn chế Zeng và các cộng sự [58] xây dựng cáccông thức gia tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ

sở đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ:thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toánFRSA-IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính Kết quả thực nghiệmtrong các công trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thờigian thực hiện so với các thuật toán không gia tăng Do đó, chúng có thể thực thi hiệu

quả trên các bảng quyết định có kích thước lớn và thay đổi, cập nhật Tuy nhiên, phần lớn các thuật toán đề xuất đều theo hướng tiếp cận lọc (filter) truyền thống Với cách

tiếp cận này, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được xâydựng Việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rútgọn Vì vậy, tập rút gọn thu được chưa phải là lựa chọn tốt nhất trên hai tiêu chí: sốlượng thuộc tính tập rút gọn và độ chính xác phân lớp Do đó, động lực nghiên cứu của

luận án là nghiên cứu, đề xuất các thuật toán gia tăng theo tiếp cận kết hợp wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác

filter-mô hình phân lớp.

2 Mục tiêu nghiên cứu

Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định

thay đổi dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó

giảm thiểu độ phức tạp của mô hình khai phá dữ liệu

Với mục tiêu đặt ra, luận án đã thu được các kết quả chính như sau:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định sửdụng độ đo khoảng cách mờ Đóng góp này được trình bày ở Chương 2 củaluận án

Trang 16

2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyếtđịnh thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng Đóng góp nàyđược trình bày ở Chương 3 của luận án.

3) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyếtđịnh thay đổi trong trường hợp bổ sung, loại bỏ tập thuộc tính Đóng gópnày được trình bày ở Chương 4 của luận án

3 Đối tượng nghiên cứu của luận án:

- Tập thô mờ và các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

- Bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng, tậpthuộc tính

- Các độ đo được sử dụng trong lý thuyết tập thô mờ, tập trung vào độ đokhoảng cách mờ

4 Phạm vi nghiên cứu

Về lý thuyết: Nghiên cứu các thuật toán heuristic tìm tập rút gọn của bảng quyết

định thay đổi (bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính) sử dụngcác độ đo trong tập thô mờ

Về thử nghiệm: Thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các

thuật toán đã công bố trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [59] nhằm đánh giátính hiệu quả của các thuật toán đề xuất theo các mục tiêu đặt ra

5 Phương pháp nghiên cứu

Nghiên cứu lý thuyết: Tổng hợp các nghiên cứu liên quan về các phương pháp

gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ, trên cơ sở đó phân tích, đánh giácác vấn đề còn tồn tại và xây dựng các đề xuất cải tiến: Cải tiến về độ chính xác môhình phân lớp và cải tiến về số lượng thuộc tính tập rút gọn, từ đó giảm độ phức tạpcủa mô hình

Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy thử nghiệm,

so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từ kho dữ liệu UCI[59] nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết

Trang 17

6 Nội dung nghiên cứu

1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định dựatrên mô hình tập thô mờ theo tiếp cận kết hợp filter-wrapper

2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng quyếtđịnh thay đổi theo tiếp cận kết hợp filter-wrapper Bảng quyết định thay đổi trongtrường hợp bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính

3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các thuậttoán khác đã công bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI [59]

7 Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học:

Đề xuất các thuật toán mới tìm tập rút gọn của bảng quyết định theo tiếp cận kếthợp filter-wrapper trong trường hợp bảng quyết định thay đổi Cụ thể luận án có cáckết quả chính như sau:

1) Xây dựng một độ đo khoảng cách mờ và đề xuất thuật toán theo tiếp cận kếthợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng quyết định sử dụng độ đokhoảng cách mờ Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59]cho thấy, thuật thoán filter-wrapper FW_FDBAR giảm thiểu đáng kể số lượng thuộctính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán filtertruyền thống khác

2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04 thuật toángia tăng filter-wrapper tìm tập rút gọn của bảng quyết định :

a Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn trongtrường hợp bổ sung tập đối tượng

b Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn trong

trường hợp loại bỏ tập đối tượng

c Thuật toán gia tăng filter-wrapper IFW_FDAR_AA tìm tập rút gọn trongtrường hợp bổ sung tập thuộc tính

d Thuật toán gia tăng filter-wrapper IFW_FDAR_DA tìm tập rút gọn trongtrường hợp loại bỏ tập thuộc tính

Trang 18

Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] cho thấy,bốn thuật toán đề xuất đều theo tiếp cận kết hợp filter-wrapper, trong đó giai đoạnfilter tìm các ứng viên cho tập rút gọn (là các tập thuộc tính bảo toàn độ đo sử dụng),giai đoạn wrapper tìm tập rút gọn có độ chính xác phân lớp cao nhất Bốn thuật toán đềxuất đều giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phânlớp so với các thuật toán được so sánh.

Ý nghĩa thực tiễn

Các thuật toán đề xuất có thể áp dụng để giải quyết bài toán rút gọn thuộc tínhtrong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa, nâng cao hiệu quảcác mô hình khai phá dữ liệu và học máy, đặc biệt là trong các hệ thống cơ sở dữ liệutrong các lĩnh vực chẩn đoán y tế, tài chính ngân hàng,

cơ bản này được sử dụng trong các chương sau, là các đóng góp chính của luận án.Các đóng góp chính của luận án được trình bày trong Chương 2, Chương 3 vàChương 4 Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mờ

và đề xuất thuật toán kết hợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng

quyết định

Chương 3 và Chương 4 đề xuất các công thức gia tính khoảng cách mờ và vậndụng các khoảng cách này để xây dựng 4 thuật toán gia tăng filter-wrapper; thuật toángia tăng filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp

bổ sung tập đối tượng; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn củabảng quyết định trong trường hợp loại bỏ tập đối tượng; thuật toán gia tăng filter-

Trang 19

wrapper thứ ba tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tậpthuộc tính; thuật toán gia tăng filter-wrapper thứ bốn tìm tập rút gọn của bảng quyếtđịnh trong trường hợp loại bỏ tập thuộc tính Cả bốn thuật toán đề xuất đều sử dụng độ

đo khoảng cách mờ đề xuất ở Chương 2 và đều có mục tiêu là giảm thiểu thời gianthực hiện so với thuật toán không gia tăng, nâng cao độ chính xác phân lớp và tối thiểuhóa số lượng thuộc tính tập rút gọn so với các thuật toán gia tăng khác đã công bố

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển vànhững vấn đề quan tâm của tác giả

Trang 20

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH

THEO TẬP THÔ MỜ

Trong chương này, luận án sẽ trình bày tổng quan về rút gọn thuộc tính, cáchướng tiếp cận filter và hướng tiếp cận kết hợp fifter-wrapper trong rút gọn thuộc tính,nhằm rút ra những ưu nhược điểm của các cách tiếp cận trên, từ đó đề xuất hướng tiếpcận phù hợp; trình bày tổng quan lý thuyết tập thô mờ là những khái niệm cơ bản đểnghiên cứu vận dụng vào bài toán rút gọn trên tập mờ, là cơ sở nền tảng để đưa ra đềxuất thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrappervà cũng là căn cứ cơ bản để chúng tôi nghiên cứu và phát triển cho các thuật toán giatăng rút gọn thuộc tính trong các chương tiếp theo

1.1 Tổng quan về rút gọn thuộc tính

Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng

dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi cácthuật toán khai phá dữ liệu Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc tínhmà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ liệu

Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều – dimension reduction, rút gọnđặc trưng – feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều nhànghiên cứu trong việc xử lý dữ liệu lớn thuộc các hệ thống Internet of Things (IoT) nơixuất hiện một lượng lớn dữ liệu ở các dạng và khối lượng khác nhau

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục

tiêu là loại bỏ các thuộc tính dư thừa, không liên quan, chỉ giữ lại các thuộc tính hữuích nhất từ một tập các thuộc tính ban đầu nhằm tăng tính hiệu quả của các thuật toánkhai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quảthu được

Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [60]

Lựa chọn thuộc tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào

đó) từ tập thuộc tính ban đầu của tập dữ liệu

Biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính ban đầu thành một

tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất

Trang 21

Với những cách thực hiện việc rút gọn thuộc tính như trên, trong quá trình phân

tích luận án đề xuất nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút gọn thuộc tính.

Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên

cứu các kỹ thuật lựa chọn thuộc tính Lựa chọn thuộc tính là quá trình lựa chọn một

tập con gồm P thuộc tính từ tập gồm A thuộc tính (P A) sao cho không gian thuộctính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định Việc tìm ra mộttập con thuộc tính tốt nhất thường khó thực hiện; bài toán liên quan đến vấn đề nàythuộc lớp bài toán NP-khó Nhìn chung, một thuật toán lựa chọn thuộc tính thườngbao gồm bốn khâu cơ bản:

(1) Tạo lập tập con;

(2) Đánh giá tập con;

(3 ) Kiểm tra điều kiện dừng;

(4) Kiểm chứng kết quả

Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các tậpcon để đánh giá, lựa chọn Giả sử có A thuộc tính trong tập dữ liệu ban đầu, khi đó sốtất cả các tập con từ A thuộc tính sẽ là 2A

Như vậy, rất khó khăn khi tìm tập con tối ưu

từ tất cả các tập con này Phương pháp chung để tìm tập con thuộc tính tối ưu là lầnlượt tạo ra các tập con để so sánh Mỗi tập con sinh ra bởi một thủ tục sẽ được đánhgiá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất trước đó Nếutập con này tốt hơn, nó sẽ thay thế tập cũ Quá trình tìm kiếm tập con thuộc tính tối ưu

sẽ dừng khi một trong bốn điều kiện sau xảy ra:

- Đã thu được số thuộc tính quy định

- Số bước lặp quy định cho quá trình lựa chọn đã hết

- Việc thêm vào hay loại bớt một thuộc tính nào đó không làm cho một tập contrở nên tốt hơn

- Đã thu được tập con tốt nhất theo tiêu chuẩn đánh giá

Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành cácphép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập

Trang 22

thuộc tính ban đầu trên các tập dữ liệu khác nhau Quá trình lựa chọn thuộc tính đượcbiểu diễn như hình sau: [60]

Hình 1.1 Quy trình rút gọn thuộc tính

1.2 Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc(filter) và đóng gói (wrapper), với mỗi hướng tiếp cận có những mục tiêu riêng vềgiảm số lượng thuộc tính hoặc nâng cao độ chính xác của mô hình phân lớp

Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc tính độc lập với các thuậttoán khai phá sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọngcủa chúng trong việc mô tả dữ liệu

Cách tiếp cận kiểu lọc có ưu điểm là thời gian tính toán nhanh, nhược điểm làkhông sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao

Ngược lại với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hànhviệc lựa chọn bằng cách áp dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừathu được, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập conthuộc tính

Các hướng tiếp cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểudiễn.[60]

Trang 23

Sự đánh giá

Tập con được lựa chọn

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Từ những ưu nhược điểm của 2 cách tiếp cận trên, nghiên cứu sinh đã nghiêncứu và đề xuất một số cách tiếp cận mới nhằm kết hợp những ưu điểm của phươngpháp filter, wapper và loại bỏ đi những nhược điểm của nó, nghiên cứu sinh đã đề xuất

một số cách tiếp cận mới, như là: cách tiếp cận kết hợp fifter-wrapper [9, 61]

1.3 Tổng quan về tập thô mờ

Lý thuyết tập thô truyền thống của Pawlak [19] sử dụng quan hệ tương đương

để xấp xỉ tập hợp Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D Dübois và các cộng sự [1] đề xuất sử dụng quan hệ tương đương mờ để xấp xỉ tập mờ Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ được xem là công

cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên bảng quyếtđịnh Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tậpthô mờ tập trung vào hai hướng chính: thứ nhất là rút gọn thuộc tính trên các bảngquyết định mờ (bảng quyết định với giá trị thuộc tính là các tập mờ); thứ hai là rútgọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bướcrời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp Luận ánnghiên cứu hướng thứ hai, do đó trong phần này luận án trình bày một số khái niệm

cơ bản về mô hình tập thô mờ trên bảng quyết định Các khái niệm này được sử dụngtrong các chương sau của luận án

Trang 24

1.3.1 Bảng quyết định và quan hệ tương đương

Bảng quyết định là một cặp DSU C, D trong đó U là tập hữu hạn, khácrỗng các đối tượng; C là tập thuộc tính điều kiện, D là tập thuộc tính quyết định với

CD

Lý thuyết tập thô truyền thống của Pawlak [19] sử dụng quan hệ tương đương để

xấp xỉ tập hợp Xét bảng quyết định DSU C, D , mỗi tập con thuộc tính PC xácđịnh một quan hệ tương đương trên miền giá trị thuộc tính, ký hiệu là R P

P

R  x y U U a P a x   a y

Với a x  là giá trị thuộc tính a tại đối tượng x Quan hệ R P xác định một phân

hoạch trên U, ký hiệu là K P  U R/ p   x P x U 

với  x Plà lớp tương đương chứa

gọi là tập thô (rough set) của X đối với R P

1.3.2 Quan hệ tương đương mờ

Định nghĩa 1.1 [1] Cho bảng quyết định DS U C, D , một quan hệ R xác

định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn

các điều kiện sau với mọi x y z U , , 

1) Tính phản xạ (reflexive): R x x  ,  1;

Trang 25

Mệnh đề 1.1 [58] Cho bảng quyết định DS U C, D và quan hệ tương

đương mờ R Ký hiệu R P, R Q tương ứng là quan hệ R xác định trên tập thuộc tính

P, Q Khi đó, với mọi x y, U ta có:

2) Trong các công trình [9], các tác giả sử dụng quan hệ tương đương mờ theo công

thức (1.2) trên thuộc tính a C có miền giá trị thực thuộc đoạn [0, 1]

R x i,x j  1 a x i  a x j

(1.2)Trong trường hợp giá trị thuộc tính a không thuộc đoạn [0, 1], các tác giả sửdụng một phương pháp tiền xử lý để ánh xạ miền giá trị thuộc tính a về đoạn [0, 1]

Ngoài ra, một số công trình [53] sử dụng quan hệ tương đương mờ

 i, j mina x a y   , 

R x x 

trên thuộc tính a C có miền giá trị số thuộc đoạn [0, 1]

Trang 26

3) Trên các thuộc tính a C

có miền giá trị định danh (nominal) hoặc nhị phân(binary), các tác giả sử dụng quan hệ tương đương Quan hệ tương đương được xem là

quan hệ tương đương mờ theo công thức (1.3) như sau:

1, if

U  x x x và R P là quan hệ tương đương mờ xác định trên tập thuộc tính

PC Khi đó, ma trận tương đương mờ biểu diễn R P, ký hiệu là ( ) ij

n n P

Như vậy, giá trị các phần tử của ma trận tương đương mờ M R( )P phụ thuộc vào

quan hệ tương đương mờ R P

được chọn Mặt khác, ma trận tương đương mờ là cơ sở để

xây dựng các độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính trong bảng quyết

định Do đó, việc lựa chọn các quan hệ tương đương mờ ảnh hưởng đến kết quả thực hiện các phương pháp rút gọn thuộc tính

Trang 27

tương ứng là ma trận tương đương mờ của R P, R Q

khi đó ma trận tương đương mờ trên tập thuộc tính S PQ là:

U x x x và R P là quan hệ tương đương mờ trên P Khi đó phân hoạch mờ trên

U sinh bởi R P, ký hiệu là: Φ R P

được xác định như sau:

là một tập mờ đóng vai trò là một lớp tương

đương mờ (fuzzy equivalent class) của đối tượng x i U

Với lớp tương đương mờ  x i P, hàm thuộc của các của các đối tượng x jU

được xác định bởi       ,   , 

P

và lực lượng của lớp đương

đương mờ  x i P được tính bởi  i 1 i

Định nghĩa 1.4 Xét phân hoạch mờ Φ R P   x i P in1





sinh bởi quan hệ tương

đương mờ R P với  x i P p i1 /x1  p in /x n, có 2 trường hợp đặc biệt xảy ra:

Trang 28

(1) Nếu p ij 0, ij v p) à ii 1 (với 1,i j n thì  x i P 1

Trang 29

 1  2

1 0.7 0.7 0.7 1 1 0.6 0.80.7 1 0.4 0.4 1 1 0.6 0.8

,0.7 0.4 1 1 0.6 0.6 1 0.40.7 0.4 1 1 0.8 0.8 0.4 1

Trang 30

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ

Kể từ khi Lý thuyết tập thô mờ (Fuzzy rough set) do Dübois và các cộng sự[1] đề xuất, các phương pháp rút gọn thuộc tính trên bảng quyết định theo tiếp cậntập thô mờ đã thu hút sự quan tâm của cộng đồng nghiên cứu Trong phần này, luậnán trình bày tóm tắt các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cậntập thô mờ

1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.1.1 Các nghiên cứu liên quan

Các phương pháp rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thômờ đều dựa trên các phương pháp rút gọn thuộc tính theo tiếp cận tập thô đã đượcnghiên cứu lâu nay Đây là các phương pháp heuristic theo tiếp cận filter, bao gồm cácbước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụngđộ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm tập rút gọn theotiêu chuẩn là độ quan trọng của thuộc tính Việc đánh giá độ chính xác của mô hìnhphân lớp được thực hiện sau khi tìm được tập rút gọn Cho đến nay, các nghiên cứuliên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung vào các phươngpháp chính như: phương pháp sử dụng hàm thuộc mờ, phương pháp sử dụng miềndương mờ, các phương pháp sử dụng entropy mờ, phương pháp sử dụng khoảng cáchmờ và một số phương pháp mở rộng gần đây

Trang 31

Bảng 1 2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ.

1) Hàm thuộc mờ

1

 Anoop Kumar Tiwari 2018, [3]

 Z Wang và cộng sự 2017, [4]

 Zhang và cộng sự 2018, [5]

Các thuật toán tìm tập rút gọn sử dụng hàm thuộc mờ

2) Miền dương mờ

2  T.K Sheeja và cộng sự 2018, [6]

 Y Lin và cộng sự 2018, [7]

Các phương pháp sử dụng miền dương mờ

3) Entropy mờ

3

 J.H Dai và cộng sự 2018, [8]

 Q.H Hu và cộng sự 2016, [9]

 X Zhang và cộng sự 2016,[10]

Các thuật toán tìm tập rút gọn sử dụng phương pháp entropy mờ

4) Phương pháp sử dụng khoảng cách mờ

4

 C.Z Wang và cộng sự 2019, [11]

 C.Z Wang và cộng sự 2015, [12]

 Cao Chinh Nghia và cộng sự 2016,

[13]

Các thuật toán tìm tập rút gọn sử dụng độ đo phương pháp khoảng cách mờ

5) Các phương pháp khác

5

 J.H Dai và cộng sự 2018, [14]

 J.H Dai và cộng sự 2017, [15]

 L.J.Ping và cộng sự 2020, [16]

 W.P Ding và cộng sự 2019, [17]

 X.M Liu và cộng sự 2019, [18]

 Y.J Lin và cộng sự 2017, [19]

Các thuật toán tìm tập rút gọn sử dụng một số phương pháp khác

1.4.1.2 Các điểm chung của các nghiên cứu liên quan

Từ các nghiên cứu liên quan được trình bày ở phần 1.4.1.1, tác giả tổng kết các

phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có các điểm chung như sau:1) Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xácphân lớp cao hơn các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyềnthống Điều này được thể hiện ở các kết quả thử nghiệm trên các tập dữ liệu mẫu trongcác công bố

2) Mục tiêu chung của các phương pháp đề xuất là nâng cao độ chính xác phânlớp, tối thiểu hóa số thuộc tính của tập rút gọn và thời gian thực hiện Vì vậy, cácphương pháp đã đề xuất trong luận án đều cố gắng cải thiện độ chính xác mô hình

Trang 32

phân lớp, rút gọn thuộc tính và cải thiện đáng kể thời gian thực hiện so với các phươngpháp trước đó.

3) Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, cácphương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ là các phương pháp heuristictheo tiếp cận filter Nghĩa là, độ chính xác phân lớp được đánh giá sau khi tìm đượctập rút gọn Các phương pháp bao gồm 03 bước chính: (1) Xây dựng độ đo, (2) xâydựng tập rút gọn và độ quan trọng của thuộc tính dựa trên độ đo và (3) xây dựng thuậttoán heuristic tìm một tập rút gọn theo tiêu chuẩn độ quan trọng của thuộc tính

1.4.1.3 Các vấn đề còn tồn tại

Các thuật toán đã đề xuất được trình bày trong Bảng 1.2 nêu trên đều là cácthuật toán heuristic theo tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được làtập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa Việc đánh giá độ chính xáccủa mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn Do đó, tập rút gọncủa các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xácphân lớp

1.4.1.4 Đề xuất nghiên cứu của luận án

Trong các độ đo được sử dụng trong các thuật toán trong Bảng 1.2, khoảngcách mờ được chứng minh là độ đo hiệu quả giải quyết bài toán rút gọn thuộc tínhtrong bảng quyết định Động lực nghiên cứu thứ nhất là nghiên cứu, đề xuất các

thuật toán tìm tập rút gọn theo hướng tiếp cận kết hợp filter-wrapper sử dụng

độ đo khoảng cách mờ, là sự kết hợp giữa tiếp cận lọc (filter) và đóng gói

(wrapper) Với cách tiếp cận này, giai đoạn filter tìm ra các tập rút gọn xấp xỉ, giaiđoạn wrapper sử dụng các bộ phân lớp để tính độ chính xác của các tập rút gọn xấp

xỉ và tìm ra tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất, đồng thời giảmthiểu số lượng thuộc tính tập rút gọn

1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ

Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng quyết định ngày càng có

số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin sinh học có hàng triệuthuộc tính Hơn nữa, các bảng quyết định luôn luôn thay đổi, cập nhật với các tìnhhuống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏ tập thuộc tính, giá trị

Trang 33

tập đối tượng, tập thuộc tính thay đổi Trong đó, trường hợp bổ sung, loại bỏ tậpthuộc tính xuất hiện ngày càng phổ biến Ví dụ bài toán chuẩn đoán bệnh trong lĩnhvực y tế, các triệu chứng lâm sàng được xem như các thuộc tính ban đầu để bác sĩchẩn đoán bệnh Sau đó, các chỉ số xét nghiệm được xem như các thuộc tính tiếptheo liên tục được bổ sung, cập nhật nhằm hỗ trợ bác sĩ trong việc nâng cao độ chínhxác chẩn đoán Để xây dựng mô hình phân lớp hiệu quả, ta cần giải quyết bài toán rútgọn thuộc tính trên các bảng quyết định kích thước lớn và thay đổi Việc áp dụng cácthuật toán tìm tập rút gọn theo phương pháp truyền thống gặp nhiều thách thức Vớitrường hợp bảng quyết định có kích thước lớn, việc thực hiện các thuật toán tìm tậprút gọn gặp khó khăn do hạn chế về không gian lưu trữ và tốc độ tính toán Vớitrường hợp bảng quyết định thay đổi, cập nhật, các thuật toán này phải tính toán lạitập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi, do đó chi phí về thời giantính toán tăng lên đáng kể Để vượt qua các thách thức trên, các nhà nghiên cứu đềxuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Các thuật toán gia tăng chỉ cậpnhật lại tập rút gọn trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trêntoàn bộ bảng quyết định Với các bảng quyết định thay đổi, cập nhật, các thuật toángia tăng giảm thiểu đáng kể thời gian thực hiện Hơn nữa, các thuật toán gia tăng cóthể thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏbảng quyết định thành nhiều phần, sau đó tập rút gọn được tính khi lần lượt bổ sungtừng phần vào bảng quyết định

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn đã và đang thu hút sự quantâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua Trong phần này, tác giảtrình bày các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảngquyết định theo tiếp cận tập thô mờ, trên cơ sở đó đưa ra các vấn đề còn tồn tại vàđộng lực nghiên cứu của luận án

1.4.2.1 Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ

Các hướng nghiên cứu được liệt kê tóm tắt trong bảng dưới đây:

Trang 34

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ.

1 Trường hợp bổ sung, loại bỏ tập đối tượng

1.1 Tiếp cận tập thô truyền thống

 Y.G Jing và cộng sự [22, 23], 2017

 Zhang và cộng sự [24], 2020

 Cai và cộng sự [25], 2019

Các thuật toán gia tăng tìm tập rútgọn sử dụng hạt thông tin

3

 W Wei và cộng sự 2018, [28]

 G Lang và cộng sự 2017, [29]

 Ma và cộng sự 2019, [30]

 Yang và cộng sự, [31]

 Liu và cộng sự, [32]

Các thuật toán gia tăng tìm tập rútgọn sử dụng ma trận phân biệt

4

 Das và cộng sự 2018, [33]

 Lang và cộng sự 2018, [34]

 Hao và cộng sự 2019, [35]

Các thuật toán gia tăng tìm tập rútgọn sử dụng miền dương

5  Shua và cộng sự 2019, [36] Các thuật toán gia tăng tìm tập rút

gọn sử dụng hàm thuộc

6

 Nandhini và cộng sự 2019, [37] Các thuật toán gia tăng tìm tập rút

gọn sử dụng quan hệ không phânbiệt được

7  Shu và cộng sự 2020, [38] Các thuật toán gia tăng tìm tập rút

gọn sử dụng entropy thông tin

8  Xie và cộng sự 2018, [39] Thuật toán gia tăng tìm tập rút gọn

sử dụng độ đo không nhất quán

9

 Y.Y Yang và cộng sự Các thuật toán gia tăng tìm tập rút

gọn sử dụng lựa chọn mẫu kíchhoạt

1.2 Tiếp cận tập thô mờ

10  Liu và các cộng sự 2017, [52] Thuật toán gia tăng FIAT tìm tập

rút gọn sử dụng độ phụ thuộc mờ

11

 Yang và các cộng sự 2017, [53] Các thuật toán gia tăng IARM tìm

tập rút gọn sử dụng quan hệ phânbiệt mờ

12

 Yang và các cộng sự 2017, [54] Các thuật toán gia tăng

IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rútgọn sử dụng quan hệ phân biệt mờ

13  Giang và các cộng sự 2020, [55] Các thuật toán gia tăng

Trang 35

IFW_FDAR_AdObj vàIFW_FDAR_DelObj tìm tập rútgọn sử dụng quan hệ khoảng cáchmờ.

14

 Zhang và các cộng sự 2020, [56] Thuật toán gia tăng AIFWAR tìm

tập rút gọn sử dụng entropy có điềukiện mở rộng

15

 Ni và các cộng sự 2020, [57] Thuật toán gia tăng DIAR sử dụng

hàm thuộc mờ và thuật toán PIAR

sử dụng miền dương mờ tìm tập rútgọn dựa trên tập đối tượng chính

2 Trường hợp bổ sung, loại bỏ tập thuộc tính

2.1 Tiếp cận tập thô truyền thống

16  W.H Shu và cộng sự 2014, [41] Thuật toán gia tăng tìm tập rút gọn

sử dụng miền dương

17  F Wang và cộng sự 2013, [42] Thuật toán gia tăng tìm tập rút gọn

sử dụng entropy thông tin

18

 M.J Cai và cộng sự 2017, [43]

 Ma và cộng sự 2019, [44]

 Wei và cộng sự 2019, [45]

Thuật toán gia tăng tìm tập rút gọn

sử dụng ma trận phân biệt

19  Nandhini và cộng sự 2019, [46]

 Chen và cộng sự 2020, [47]

sử dụng quan hệ không phân biệt

20  Demetrovics Janos và cộng sự 2016,

[48]

sử dụng khoảng cách

21

 M.S Raza và cộng sự 2016, [49] Thuật toán gia tăng tìm tập rút gọn

sử dụng độ phụ thuộc của thuộctính

22

 Y Jing và cộng sự 2016, [50]

 Y.G Jing và cộng sự 2018, [51]

Các thuật toán gia tăng tìm tập rútgọn sử dụng hạt tri thức

2.2 Tiếp cận tập thô mờ

23

 A.P Zeng và các cộng sự 2015, [58] Xây dựng các công thức gia tăng

cập nhật độ phụ thuộc mờ trong hệthông tin hỗn hợp (HIS), trên cơ sở

đó đề xuất hai thuật toán gia tăngcập nhật tập rút gọn sử dụng độphụ thuộc mờ: thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổsung tập thuộc tính và thuật toánFRSA-IFS-HIS(AD) trong trườnghợp loại bỏ tập thuộc tính

1.4.2.2 Các vấn đề còn tồn tại

Trang 36

Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thờigian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trêncác bảng dữ liệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo hướngtiếp cận lọc truyền thống (filter) Trong đó, tập rút gọn tìm được là tập thuộc tính tốithiểu bảo toàn độ đo được định nghĩa (hàm thuộc mờ, quan hệ phân biệt…), việc đánhgiá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn Vì vậy, tập rútgọn tìm được của các thuật toán nêu trên chưa tối ưu cả về số lượng thuộc tính và độchính xác phân lớp, nghĩa là tập rút gọn tìm được chưa chắc có độ chính xác phân lớptốt nhất.

1.4.2.3 Các đề xuất của luận án

Từ vấn đề còn tồn tại của các thuật toán gia tăng đã trình bày ở trên, động lựcnghiên cứu của luận án là:

1) Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng

thuộc tính tập rút gọn, trong khi cố gắng bảo toàn và cải thiện độ chính xác

mô hình phân lớp

2) Các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận kết

hợp được nghiên cứu, đề xuất trong các trường hợp: bổ sung, loại bỏ tập đối

tượng; bổ sung, loại bỏ tập thuộc tính.

1.5 Tóm tắt các đóng góp của luận án

Dựa trên lý thuyết tập thô mờ, luận án đề xuất các thuật toán cải tiến tìm tập rút

gọn theo tiếp cận tập thô mờ bằng thuật toán kết hợp filter-wrapper nhằm giải

quyết các vấn đề còn tồn tại được trình bày ở mục 1.4.1 và 1.4.2 với hai đóng góp chínhnhư sau:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định

theo tiếp cận tập thô mờ: Thuật toán sử dụng khoảng cách mờ Độ đo

khoảng cách mờ được xây dựng là mở rộng của độ đo khoảng cách trong côngtrình [65] Các đóng góp này được trình bày ở Chương 2 của luận án và đượccông bố trong các công trình 1, 2 phần “Danh mục công trình của tác giả”

Trang 37

2) Đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng

quyết định trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính Các đóng góp này được trình bày ở Chương 3 và

Chương 4 của luận án và được công bố trong công trình 1,3,4 phần “Danhmục công trình của tác giả”

1.6 Kết luận chương 1

Trong chương 1 luận án đã nêu tổng quan về những vấn đề cơ bản:

Tổng quan về rút gọn thuộc tính, các hướng tiếp cận fifter - wrapper trong rútgọn thuộc tính; một số khái niệm cơ bản về tập thô mờ nhằm giải quyết bài toán rútgọn thuộc tính Ngoài ra, chương 1 còn trình bày tổng quan về rút gọn thuộc tính từ

đó đưa ra các thuật toán fifter-wrapper về tìm tập rút gọn của bảng quyết định và địnhhướng nghiên cứu của luận án Các khái niệm được trình bày ở chương 1 là kiến thứcnền tảng được sử dụng trong các chương sau của luận án

Trang 38

CHƯƠNG 2 THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ

2.1 Mở đầu

Trong mấy năm gần đây, nhóm nghiên cứu của PGS.TS Nguyễn Long Giang vàcộng sự đã sử dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tínhtrong bảng quyết định theo tiếp cận tập thô truyền thống [48, 66, 67, 68] và bảng quyếtđịnh không đầy đủ theo tiếp cận tập thô dung sai [66, 69, 70, 71, 72] Đáng chú ý theotiếp cận tập thô mờ, nhóm nghiên cứu đã mở rộng các độ đo khoảng cách đã đề xuấtthành các độ đo khoảng cách mờ và đã có một số kết quả trong việc sử dụng độ đokhoảng cách mờ để giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miềngiá trị số Trong công trình [73], nhóm tác giả xây dựng độ đo khoảng cách Jaccardmờ giữa hai tập thuộc tính dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn vàchứng minh một số tính chất của nó Trong công trình [74], các tác giả đã sử dụngkhoảng cách Jaccard mờ trong [73] để giải quyết bài toán rút gọn thuộc tính trực tiếptrên bảng quyết định gốc có miền giá trị số Trong công trình [12], các tác giả xâydựng độ đo khoảng cách mờ và sử dụng khoảng cách mờ giải quyết bài toán rút gọnthuộc tính trên bảng quyết định có miền giá trị số

Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm các độ đo khoảng cáchhiệu quả (có công thức tính toán đơn giản) giải quyết bài toán rút gọn thuộc tính, giảmthiểu thời gian thực hiện, trong chương này luận án đề xuất độ đo khoảng cách mờ(sau đây gọi là khoảng cách mờ) dựa trên độ đo khoảng cách phân hoạch trong côngtrình [65] Sử dụng khoảng cách mờ được xây dựng, luận án đề xuất phương phápfilter-wrapper rút gọn thuộc tính trong bảng quyết định nhằm nâng cao độ chính xácphân lớp và giảm thiểu số lượng thuộc tính tập rút gọn Bao gồm các nội dung sau: (1) Xây dựng khoảng cách giữa hai tập mờ;

(2) Xây dựng khoảng cách mờ giữa hai phân hoạch mờ;

(3) Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ;

(4) Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ;

(5) Thử nghiệm và đánh giá tính hiệu quả của các thuật toán đề xuất

Các kết quả trong chương này được công bố trong các công trình 1, 2 phần

“Danh mục công trình của tác giả”

Trang 39

2.2 Xây dựng khoảng cách giữa hai tập mờ

Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các đốitượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay một khối.Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương đương) giữa các tri thức,nghĩa là khoảng cách giữa hai tri thức càng nhỏ thì hai tri thức đó càng gần nhau,hay càng tương đương nhau và ngược lại Như vậy, khi một khoảng cách nào đóđược định nghĩa trên tập các tri thức thì cũng có nghĩa là một khoảng cách đã đượcxác lập trên tập các thuộc tính Sử dụng khoảng cách để đánh giá sự khác nhau giữacác thuộc tính, phát hiện các thuộc tính quan trọng [63, 66, 67, 75] Nhờ đó, xâydựng thuật toán hiệu quả để giải quyết bài toán rút gọn thuộc tính trong lý thuyết tậpthô mờ

Kế thừa sự thành công của kỹ thuật rút gọn thuộc tính sử dụng khoảng cáchphân hoạch theo tiếp cận tập thô truyền thống [76] luận án đề xuất thuật toán heuristic

để rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng khoảng cách mờ.Khoảng cách mờ giữa hai tập thuộc tính được xây dựng dựa trên khoảng cách mờ giữahai tập mờ Kết quả thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI[59] chothấy, phương pháp đề xuất cải thiện độ chính xác phân lớp dữ liệu tốt hơn so với cáccông bố trước đây [77]

Đầu tiên trong chương này luận án xây dựng độ đo khoảng cách giữa hai tậpmờ, gọi là khoảng cách mờ

Cho bảng quyết định DSU C, D với U x x1 , , , 2 x n

là khoảng cách phân hoạch giữa K P và K Q  với X là lực lượng của X Luận án

mở rộng khoảng cách này để xây dựng khoảng cách mờ

Trang 40

Chứng minh: Đầu tiên, bất đẳng thức X Y X Y suy ra FDX Y ,  0.

Hơn nữa, ta cóFDX Y,  FDY X,  FDX Y,  là độ đo khoảng cách nếu nó thỏa mãnbất đẳng thức tam giác Không mất tính tổng quát, ta cần chứng minh

Định dạng
Số trang	148
Dung lượng	3,01 MB