Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ TT

Lý thuyết tập thô mờ fuzzy rough set do Dübois và các cộng sự [1] đề xuất là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc khôngqua bước tiền

Trang 1

VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

Chuyên ngành: Khoa học máy tính

Mã số: 9 48 01 01

TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH

Hà Nội - 2021

Trang 2

Học viện Khoa học và Công nghệ Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Người hướng dẫn khoa học: PGS.TS Nguyễn Long Giang

Vào hồi… ngày tháng năm 20

Có thể tìm hiểu luận án tại:

- Thư viện Học viện Khoa học và Công nghệ

- Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá trìnhkhai phá tri thức từ dữ liệu Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dưthừa, không cần thiết nhằm nâng cao tính hiệu quả của các mô hình khai phá dữ liệu Rútgọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất của tập thuộc tínhđiều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin phân lớp của bảng quyếtđịnh, gọi là tập rút gọn (reduct) Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quảthực hiện các nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu của cáckết quả thu được Cho đến nay, có hai hướng tiếp cận chính đối với bài toán lựa chọn thuộctính: Lọc (filter) và đóng gói (wrapper) Cách tiếp cận fifter thực hiện việc lựa chọn thuộctính độc lập với thuật toán khai phá sử dụng sau này Các thuộc tính được chọn chỉ dựa trên

độ quan trọng của chúng trong việc mô tả dữ liệu Trong khi đó, cách tiếp cận wrapper tiếnhành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả đượclấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính

Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và các cộng sự [1] đề xuất là công

cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc khôngqua bước tiền xử lý dữ liệu nhằm nâng cao hiệu quả độ chính xác mô hình phân lớp Chođến nay, nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ đã được đề xuất,điển hình là các phương pháp sử dụng hàm thuộc mờ [2, 3, 4], các phương pháp sử dụngmiền dương mờ [5, 6], các phương pháp sử dụng entropy mờ [7, 8, 9], các phương pháp sửdụng khoảng cách mờ [10, 11, 12] và một số phương pháp khác [13, 14, 15, 16, 17, 18].Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng quyết định ngày càng có số thuộctính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin sinh học có hàng triệu thuộc tính Hơnnữa, các bảng quyết định luôn luôn thay đổi, cập nhật với các tình huống như bổ sung vàloại bỏ tập đối tượng, bổ sung và loại bỏ tập thuộc tính, giá trị tập đối tượng, tập thuộc tínhthay đổi Để xây dựng mô hình phân lớp hiệu quả, ta cần giải quyết bài toán rút gọn thuộctính trên các bảng quyết định kích thước lớn và thay đổi Các phương pháp rút gọn thuộctính theo tiếp cận truyền thống trên các bảng quyết định như vậy gặp hai thách thức Thứnhất, với các bảng quyết định có kích thước lớn, việc thực hiện các thuật toán tìm tập rútgọn gặp khó khăn về không gian lưu trữ và tốc độ tính toán Thứ hai, với các bảng quyếtđịnh thay đổi, cập nhật, các thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảngquyết định sau khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể Để giảiquyết hai thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìmtập rút gọn Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị thay đổi

mà không tính lại tập rút gọn trên toàn bộ bảng quyết định ban đầu Do đó, chúng giảmthiểu đáng kể thời gian thực hiện Hơn nữa, các thuật toán gia tăng có thể thực hiện đượctrên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết định thànhnhiều phần, tập rút gọn được tính khi lần lượt bổ sung từng phần

Hướng tiếp cận tính toán gia tăng tìm tập rút gọn của bảng quyết định đã và đang thuhút sự quan tâm của các nhà nghiên cứu trong suốt hơn thập kỷ qua

Theo tiếp cận lý thuyết tập thô truyền thống của Pawlak [19] và các mô hình tập thô

mở rộng, các nhà nghiên cứu đã đề xuất nhiều thuật toán gia tăng tìm tập rút gọn của bảng

quyết định thay đổi Với trường hợp bổ sung, loại bỏ tập đối tượng, một số thuật toán gia

tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24, 25, 26, 27], ma trậnphân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc [36], quan hệ không phânbiệt được [37], entropy thông tin [38], độ đo không nhất quán [39], lựa chọn mẫu kích hoạt

Trang 4

[40] Với trường hợp bổ sung, loại bỏ tập thuộc tính, một số thuật toán gia tăng tìm tập rút

gọn đã được đề xuất sử dụng miền dương [41], entropy thông tin [42], ma trận phân biệt[43, 44, 45], quan hệ không phân biệt [46, 47], khoảng cách [48], độ phụ thuộc của thuộctính [49], hạt tri thức [50, 51]

Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây một số thuật toán gia tăng tìm tập

rút gọn của bảng quyết định đã được đề xuất với các trường hợp: bổ sung và loại bỏ tập đối

tượng [52, 53, 54, 55, 56, 57], bổ sung và loại bỏ tập thuộc tính [58] Với trường hợp bổ

sung, loại bỏ tập đối tượng, Liu và các cộng sự [52] xây dựng công thức gia tăng tính độ

phụ thuộc mờ và đề xuất thuật toán giăng FIAT tìm tập rút gọn khi bổ sung tập đối tượng.Yang và các cộng sự [53] xây dựng công thức gia tăng tính quan hệ phân biệt, trên cơ sở đóxây dựng thuật toán gia tăng IARM tìm tập rút gọn khi bổ sung tập đối tượng Yang và cáccộng sự [54] xây dựng cơ chế cập nhật quan hệ phân biệt và đề xuất hai thuật toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trong trường hợp bổ sung tập đối tượng Zhang vàcác cộng sự [56] đề xuất thuật toán gia tăng AIFWAR tìm tập rút gọn sử dụng entropy cóđiều kiện mở rộng trong trường hợp bổ sung tập đối tượng Ni và các cộng sự [57] đưa rakhái niệm tập đối tượng chính (key instance set), trên cơ sở đó xây dựng hai thuật toán giatăng tìm tập rút gọn dựa trên tập đối tượng chính trong trường hợp bổ sung tập đối tượng:

thuật toán DIAR sử dụng hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ Với

trường hợp bổ sung, loại bỏ tập thuộc tính, các kết quả nghiên cứu về các thuật toán gia

tăng tìm tập rút gọn theo tiếp cận tập thô mờ còn hạn chế Zeng và các cộng sự [58] xâydựng các công thức gia tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS),trên cơ sở đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ:thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toánFRSA-IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính Kết quả thực nghiệm trong cáccông trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện

so với các thuật toán không gia tăng Do đó, chúng có thể thực thi hiệu quả trên các bảng

quyết định có kích thước lớn và thay đổi, cập nhật Tuy nhiên, phần lớn các thuật toán đề

xuất đều theo hướng tiếp cận lọc (filter) truyền thống Với cách tiếp cận này, tập rút gọn tìm

được là tập thuộc tính tối thiểu bảo toàn độ đo được xây dựng Việc đánh giá độ chính xácphân lớp được thực hiện sau khi tìm được tập rút gọn Vì vậy, tập rút gọn thu được chưaphải là lựa chọn tốt nhất trên hai tiêu chí: số lượng thuộc tính tập rút gọn và độ chính xác

phân lớp Do đó, động lực nghiên cứu của luận án là nghiên cứu, đề xuất các thuật toán gia

tăng theo tiếp cận kết hợp filter-wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp.

Mục tiêu nghiên cứu

Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi

dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc

tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó giảm thiểu độ phức

tạp của mô hình khai phá dữ liệu

Với mục tiêu đặt ra, luận án đã thu được các kết quả chính như sau:

1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định sử dụng độ đokhoảng cách mờ Đóng góp này được trình bày ở Chương 2 của luận án

2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết địnhthay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng Đóng góp này được trìnhbày ở Chương 3 của luận án

Trang 5

3) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết địnhthay đổi trong trường hợp bổ sung, loại bỏ tập thuộc tính Đóng góp này được trìnhbày ở Chương 4 của luận án.

CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THÔ MỜ

1.1 Tổng quan về rút gọn thuộc tính

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục tiêu làloại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính hiệu quả của các thuật toánkhai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quả thuđược Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn thuộc tính(Attribute selection) và biến đổi thuộc tính (Attribute transformation) Trong luận án này,tác giả nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút gọn thuộc tính

1.2 Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính [43, 44]: filter (lọc) và wrapper (đóng gói) Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập

với thuật khai phá dữ liệu sử dụng sau này Cho đến nay, phần lớn các phương pháp rút gọnthuộc tính dựa trên lý thuyết tập thô và các mở rộng đều theo hướng tiếp cận này Cách tiếpcận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xáccủa kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính

Cách tiếp cận filter có ưu điểm là thời gian tính toán nhanh, nhược điểm là không sửdụng sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao

Hình 1.1 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Nhằm kết hợp các ưu điểm của cả hai cách tiếp cận filter và wrapper, một số cách tiếpcận mới cũng đã được các tác giả đã đề xuất, chẳng hạn cách tiếp cận lai ghép filter-wrapper[67, 91]

Trang 6

1.3 Tổng quan về tập thô mờ

1.3.1 Quan hệ tương đương mờ

Định nghĩa 1.1 [1] Cho bảng quyết định DSU C, D, một quan hệ R xác định trên

miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn các điều kiện sau

là giá trị quan hệ giữa hai đối tượng x và y

Mệnh đề 1.1 [58] Cho bảng quyết định DSU C, D và quan hệ tương đương mờ R

4) RP RQ R x yP , RQx y, 

1.3.2 Ma trận tương đương mờ

Định nghĩa 1.2.[58] Cho bảng quyết định DS U C, D với Ux x1 , , , 2 x n và R P là

quan hệ tương đương mờ xác định trên tập thuộc tính PC Khi đó, ma trận tương đương

mờ biểu diễn R P, ký hiệu là ( ) ij

n n P

được chọn Mặt khác, ma trận tương đương mờ là cơ sở để xây dựng các

độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định Do đó, việc lựa

Trang 7

chọn các quan hệ tương đương mờ ảnh hưởng đến kết quả thực hiện các phương pháp rút gọn

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.1.1 Các nghiên cứu liên quan

Bảng 1 1 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của

bảng quyết định theo tiếp cận tập thô mờ.

Trang 8

1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.2.1 Các nghiên cứu liên quan

Bảng 1.2 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của

bảng quyết định theo tiếp cận tập thô mờ.

1 Trường hợp bổ sung, loại bỏ tập đối tượng

1.1 Tiếp cận tập thô truyền thống

Nandhini và cộng sự 2019, [37] Các thuật toán gia tăng tìm tập rút

gọn sử dụng quan hệ không phân biệtđược

7 Shu và cộng sự 2020, [38] Các thuật toán gia tăng tìm tập rút gọn sử dụng entropy thông tin

8 Xie và cộng sự 2018, [39] Thuật toán gia tăng tìm tập rút gọn sử

dụng độ đo không nhất quán

9 Y.Y Yang và cộng sự Các thuật toán gia tăng tìm tập rút

Trang 9

gọn sử dụng lựa chọn mẫu kích hoạt

1.2 Tiếp cận tập thô mờ

10 Liu và các cộng sự 2017, [52] Thuật toán gia tăng FIAT tìm tập rút gọn sử dụng độ phụ thuộc mờ.11

Yang và các cộng sự 2017, [53] Các thuật toán gia tăng IARM tìm tập

rút gọn sử dụng quan hệ phân biệt mờ

12

Yang và các cộng sự 2017, [54] Các thuật toán gia tăng IV-FS-FRS-1

và IV-FS-FRS-2 tìm tập rút gọn sử dụng quan hệ phân biệt mờ

13

Giang và các cộng sự 2020, [55] Các thuật toán gia tăng

IFW_FDAR_AdObj và IFW_FDAR_DelObj tìm tập rút gọn

sử dụng quan hệ khoảng cách mờ.14

Zhang và các cộng sự 2020, [56] Thuật toán gia tăng AIFWAR tìm tập

rút gọn sử dụng entropy có điều kiện

mở rộng15

Ni và các cộng sự 2020, [57] Thuật toán gia tăng DIAR sử dụng

hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ tìm tập rút gọn dựa trên tập đối tượng chính

2 Trường hợp bổ sung, loại bỏ tập thuộc tính

2.1 Tiếp cận tập thô truyền thống

16 W.H Shu và cộng sự 2014, [41] Thuật toán gia tăng tìm tập rút gọn sửdụng miền dương

17 F Wang và cộng sự 2013, [42] Thuật toán gia tăng tìm tập rút gọn sửdụng entropy thông tin18

19 Nandhini và cộng sự 2019, [46]Chen và cộng sự 2020, [47] Thuật toán gia tăng tìm tập rút gọn sửdụng quan hệ không phân biệt.

20 Demetrovics Janos và cộng sự 2016, [48] Thuật toán gia tăng tìm tập rút gọn sửdụng khoảng cách.

21 M.S Raza và cộng sự 2016, [49] Thuật toán gia tăng tìm tập rút gọn sửdụng độ phụ thuộc của thuộc tính.

22 Y Jing và cộng sự 2016, [50]Y.G Jing và cộng sự 2018, [51] Các thuật toán gia tăng tìm tập rút gọn sử dụng hạt tri thức.

2.2 Tiếp cận tập thô mờ

23 A.P Zeng và các cộng sự 2015, [58] Xây dựng các công thức gia tăng cập

nhật độ phụ thuộc mờ trong hệ thôngtin hỗn hợp (HIS), trên cơ sở đó đềxuất hai thuật toán gia tăng cập nhậttập rút gọn sử dụng độ phụ thuộc mờ:thuật toán FRSA-IFS-HIS(AA) trongtrường hợp bổ sung tập thuộc tính vàthuật toán FRSA-IFS-HIS(AD) trong

Trang 10

trường hợp loại bỏ tập thuộc tính

1.4.2.2 Các vấn đề còn tồn tại

Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thời gianthực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng dữliệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận lọc truyềnthống (filter) Trong đó, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo đượcđịnh nghĩa (hàm thuộc mờ, quan hệ phân biệt…), việc đánh giá độ chính xác phân lớp đượcthực hiện sau khi tìm được tập rút gọn Vì vậy, tập rút gọn tìm được của các thuật toán nêutrên chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp, nghĩa là tập rút gọn tìmđược chưa chắc có độ chính xác phân lớp tốt nhất

CHƯƠNG 2 THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ

2.1 Mở đầu

Trong mấy năm gần đây, nhóm nghiên cứu của Nguyễn Long Giang và cộng sự đã sửdụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tính trong bảng quyết địnhtheo tiếp cận tập thô truyền thống [9, 24, 57, 65] và bảng quyết định không đầy đủ theo tiếpcận tập thô dung sai [9, 10, 12, 25, 58] Theo tiếp cận tập thô mờ, nhóm nghiên cứu đã mởrộng các độ đo khoảng cách đã đề xuất thành các độ đo khoảng cách mờ và đã có một số kếtquả trong việc sử dụng độ đo khoảng cách mờ để giải quyết bài toán rút gọn thuộc tính trênbảng quyết định có miền giá trị số [3, 8, 18]

Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm các độ đo khoảng cách hiệu quả(có công thức tính toán đơn giản) giải quyết bài toán rút gọn thuộc tính, giảm thiểu thời gianthực hiện, trong chương này luận án đề xuất độ đo khoảng cách mờ (sau đây gọi là khoảngcách mờ) dựa trên độ đo khoảng cách phân hoạch trong công trình [65] Sử dụng khoảngcách mờ được xây dựng, luận án đề xuất phương pháp filter-wrapper rút gọn thuộc tínhtrong bảng quyết định nhằm nâng cao độ chính xác phân lớp và giảm thiểu số lượng thuộctính tập rút gọn Bao gồm các nội dung sau:

(1) Xây dựng khoảng cách giữa hai tập mờ;

(2) Xây dựng khoảng cách mờ giữa hai phân hoạch mờ;

(3) Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ;

(4) Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ;

(5) Thử nghiệm và đánh giá tính hiệu quả của các thuật toán đề xuất

Các kết quả trong chương này được công bố trong các công trình 1, 2 phần “Danh mục

các công trình khoa học đã công bố”.

2.2 Xây dựng khoảng cách giữa hai tập mờ

2.2.1 Độ đo khoảng cách mờ

Mệnh đề 2.1 Cho 2 tập mờ X , Y trên tập đối tượng U, khi đó FD X Y , XY  XY

là khoảng cách giữa X và Y

Trang 11

Mệnh đề 2.3 Cho bảng quyết định DSU C, D với U x x1 , , , 2  x n và R là một quan

hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, khi đó khoảng cách

mờ giữa hai tập thuộc tính C và CD được xác định như sau:

1 FPD Φ C , Φ C D n i C i C i D

là các quan hệ tương đương

mờ trên tập thuộc tính điều kiện B, C với BC Nếu:

1)FPD Φ   RB ,Φ RB D   FPD Φ   RC ,Φ RC D  

2) b B, FPD Φ RB b ,ΦRB b  D   FPD Φ   RC ,Φ RC D  

Thì B là tập rút gọn của bảng quyết định sử dụng khoảng cách mờ

Định nghĩa 2.2 Bảng quyết định DSU C, D với BC và b C B  Độ quan trọngcủa thuộc tính b đối với B được định nghĩa bởi:

  FPD Φ   ,Φ   FPD Φ   ,Φ    

Theo tính chất của khoảng cách mờ ta có SIG b  B  0 Độ quan trọng SIG b B  đặc trưng

cho chất lượng phân lớp của thuộc tính b đối với thuộc tính quyết định D và được sử dụng

làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán filter F_FDBAR tìm tập rút gọn.

Thuật toán F_FDBAR (Filter - Fuzzy Distance Based Attribute Reduction): Thuật

toán filter tìm tập rút gọn sử dụng khoảng cách mờ

Đầu vào: Bảng quyết định DSU C, D, quan hệ tương đương mờ R xác định trên tậpthuộc tính điều kiện

Trang 12

2.4 Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ

Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ được mô tảnhư sau:

Thuật toán FW_FDBAR (Filter-Wrapper Fuzzy Distance Based Attribute

Reduction): Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ

Đầu vào: Bảng quyết định DSU C, D, quan hệ tương đương mờ R trên miền giá trịthuộc tính điều kiện

Đầu ra: Tập rút gọn xấp xỉ B x có độ chính xác phân lớp tốt nhất

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

// Thêm dần vào B các thuộc tính có độ quan trọng lớn nhất

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất

9 Đặt tB // t là số phần tử của B, B chứa các chuỗi thuộc tính được chọn tại mỗi bước lặp của vòng lặp While, nghĩa là    1 , 1 , 2 , , 1 , 2 , ,  

Trang 13

11 For j = 1 to t

12 Begin

13 Tính độ chính xác phân lớp trên B j

bằng một bộ phân lớp và sử dụng phươngpháp 10-fold;

2.5 Thực nghiệm và đánh giá kết quả các thuật toán

2.5.1 Mục tiêu thực nghiệm

1) So sánh thuật toán filter-wrapper đề xuất FW_FDBAR với thuật toán filter-wrapperFEBAR trong [9] về thời gian thực hiện, độ chính xác phân lớp và số lượng thuộc tính tậprút gọn

2) So sánh thuật toán filter-wrapper đề xuất FW_FDBAR với thuật toán filter FPDARtrong [12] về thời gian thực hiện, số lượng thuộc tính tập rút gọn và độ chính xác phân lớp

Số thuộc tính điều kiện

Số lớp quyết định

Tất cả

Thuộc tính định danh (nominal)

Thuộc tính thực (Real- valued)

8 German German credit

Trang 14

2.5.3 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn

Độ chính xác phân lớp được biểu diễn bởi v  trong đó v là giá trị độ chính xác trungbình (mean) và  là sai số chuẩn (standard error) Sử dụng bộ phân lớp CART (cây phânlớp, hồi quy) để tính độ chính xác phân lớp trong giai đoạn wrapper với phương pháp kiểmtra chéo 10-fold

Hình 2.1 Độ chính xác phân lớp của ba thuật toán

Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán

Kết quả ở Hình 2.1 và Hình 2.2 cho thấy, số thuộc tính tập rút gọn của thuật toán đềxuất FW_FDAR nhỏ hơn nhiều so với thuật toán filter FPDAR Độ chính xác củaFW_FDAR cao hơn FPDAR trên tất cả các bộ dữ liệu Với thuật toán filter-wrapperFEBAR [91] sử dụng -entropy mờ, số lượng thuộc tính tập rút gọn của FW_FDAR xấp xỉFEBAR, độ chính xác phân lớp của FW_FDAR xấp xỉ FEBAR

2.5.4 Kết quả so sánh thời gian thực hiện

Hình 2.3 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR

Hình 2.3 cho thấy, thuật toán FW_FDAR có thời gian thực hiện nhỏ hơn đáng kể thuậttoán FEBAR [91], chủ yếu là ở thủ tục filter tìm tập rút gọn Nguyên nhân là thuật toánFEBAR phải tính miền dương mờ để xác định hệ số , hơn nữa thuật toán FEBAR phải tínhtoán các công thức logarit phức tạp trong công thức entropy Shannon Tuy nhiên, các thuật

Trang 15

toán theo tiếp cận filter-wrapper FW_FDAR và FEBAR [91] có thời gian thực hiện lớn hơn

thuật toán theo tiếp cận filter FPDAR [18] vì phải thực hiện bộ phân lớp để tính độ chính

xác của các tập rút gọn xấp xỉ trong giai đoạn wrapper

CHƯƠNG 3 THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN

KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG 3.1 Mở đầu

Trong chương này, trước hết luận án trình bày các công thức gia tăng cập nhật khoảng

cách mờ (được đề xuất ở Chương 2) trong trường hợp bổ sung, loại bỏ tập đối tượng Dựa

trên các công thức tính toán gia tăng khoảng cách mờ được xây dựng, luận án trình bày 02

thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận kết hợp filter-wrapper:

1) Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn khi bổ sung

tập đối tượng

2) Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn khi loại bỏ

tập đối tượng

Hai thuật toán đề xuất đều theo tiếp cận kết hợp filter-wrapper, trong đó giai đoạn filter

tìm các ứng viên cho tập rút gọn (là các tập thuộc tính bảo toàn độ đo sử dụng), giai đoạn

wrapper tìm tập rút gọn có độ chính xác phân lớp cao nhất Hai thuật toán đề xuất nhằm

mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp

Kết quả nghiên cứu ở chương này được công bố ở công trình số 1, 3 phần “Danh mục

các công trình của tác giả”

3.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng

3.2.1 Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng

Mệnh đề 3.2. Cho bảng quyết định DS U C, D với Ux x1, , ,2 x n và R là quan hệ

tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện Giả sử tập đối tượng

gồm s phần tử Ux n1 ,x n2 , ,x n s  được bổ sung vào U, mà s2 Với

trên C và D Khi đó, công thức gia tăng khoảng cách mờ như sau:

( ( | [x n+i]~C|−| [x n +i]~C ∩[x n +i]~D| )−α i)

Tiêu đề	Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Tác giả	Hồ Thị Phượng
Người hướng dẫn	PGS.TS. Nguyễn Long Giang
Trường học	Học viện Khoa học và Công nghệ
Chuyên ngành	Khoa học máy tính
Thể loại	Luận án tiến sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	31
Dung lượng	1,12 MB