Tuy nhiên, giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ đều là các phương pháp fil
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-
NGUYỄN VĂN THIỆN
MỘT SỐ PHƯƠNG PHÁP LAI GHÉP TRONG RÚT GỌN
THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ
Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04
TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH
VÀ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2018
Trang 2Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ -
Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Người hướng dẫn khoa học 1: PGS.TS Nguyễn Long Giang
Người hướng dẫn khoa học 2: TS Nguyễn Như Sơn
Phản biện 1: PGS.TS Lê Hoàng Sơn
Phản biện 2: PGS.TS Nguyễn Hà Nam
Phản biện 3: PGS.TS Đỗ Văn Thành
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi … giờ ’, ngày … tháng … năm 201…
Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam
Trang 3Danh mục các công trình của tác giả
1 Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Như Sơn, “Về phương
pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận
giá trị số theo tiếp cận tập thô mờ”, Chuyên san Các công trình nghiên cứu,
phát triển và ứng dụng CNTT&TT, Tạp chí thông tin khoa học công nghệ của
Bộ thông tin và Truyền thông, Tập V-2, số 16 (36), 12-2016, Tr 40-49
2 Nguyen Van Thien, Janos Demetrovics, Vu Duc Thi, Nguyen Long Giang,
Nguyen Nhu Son, “A Method to Construct an Extension of Fuzzy
Information Granularity Based on Fuzzy Distance”, Serdica Journal of
Computing 10 (2016), Sofia, Bulgarian Academy of Sciences, No 1, 2016,
pp 13-30
pháp rút gọn thuộc tính trong bảng quyết định có miền giá trị liên tục theo
tiếp cận tập thô mờ”, Kỷ yếu Hội thảo quốc gia lần thứ XVIII: Một số vấn đề
chọn lọc của Công nghệ thông tin và truyền thông-TP HCM,05-06/11/2015
4 Nguyễn Văn Thiện, Nguyễn Như Sơn, Nguyễn Long Giang, Cao Chính
Nghĩa, “Về một phương pháp xây dựng độ phân hạt mờ mở rộng dựa trên
khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XIX - Một số vấn đề
chọn lọc của CNTT và TT, Hà Nội, 01-02/10/2016, Tr 371-376
5 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về phương
pháp rút gọn thuộc tính trực tiếp trên bảng quyết định sử dụng khoảng cách
mờ”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và
ứng dụng CNTT (FAIR’9), Cần Thơ, 04-05/08/2016, Tr 825-835
Distance based Attribute Reduction in Decision Tables”, IJCRS'2018:
International Joint Conference on Rough Sets 2018, Quy Nhon, Viet Nam,
August 20-24, 2018 (Accepted)
7 Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son, “Phương pháp
gia tăng rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách phân
hoạch mờ”, Hội thảo Quốc gia lần thứ XXI - Một số vấn đề chọn lọc của
CNTT và TT, Thanh Hóa, 27-28/07/2018, Tr 296- 302
Trang 4MỞ ĐẦU
Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois và các cộng sự [22, 23] đề xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác định trên miền giá trị thuộc tính Từ khi xuất hiện, lý thuyết tập thô mờ là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bước rời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ khá sôi động trong mấy năm gần đây, bao gồm các phương pháp chính như phương pháp sử dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ [34, 42, 29, 30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] Gần đây, một số nhà nghiên cứu đề xuất các phương pháp mở rộng dựa trên các độ đo khác nhau được định nghĩa [14, 19, 21, 30,
33, 35, 46, 47, 59, 68, 85, 90, 100] Tuy nhiên, giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ đều là các phương pháp filter, nghĩa là độ chính xác của mô hình phân lớp được đánh giá sau khi tìm được tập rút gọn Tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn
độ đo mà không bảo đảm có độ chính xác phân lớp cao nhất Do đó, tập rút gọn của các phương pháp filter chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp Với mục tiêu tối ưu số lượng thuộc tính của tập rút gọn và nâng cao độ chính xác phân lớp so với các phương pháp filter đã công bố, luận án nghiên cứu hướng tiếp cận lai ghép filter-wrapper Ngày nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập nhật Việc
áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng gặp nhiều thách thức Trường hợp các bảng quyết định bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể Trường hợp bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng quyết định sẽ gặp khó khăn về thời gian thực hiện Vì vậy, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Các thuật toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực hiện trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết định thành từng phần Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi động và tập trung vào các trường hợp: bổ sung và loại bỏ đối tượng [20, 36, 37, 38, 49, 56, 66, 86, 95, 96, 102], bổ sung và loại bỏ thuộc tính
[31, 38, 49, 54, 86, 87, 88, 89] Sử dụng độ đo khoảng cách, các tác giả trong [24, 65] đã xây dựng các công thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán gia tăng tìm tập rút gọn trên bảng quyết định theo tiếp cận tập thô mờ trong các trường hợp: bổ sung và loại
bỏ tập thuộc tính [15, 16], bổ sung tập đối tượng [97, 98, 99] Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng dữ liệu kích thước lớn Tuy nhiên, các thuật
toán nêu trên đều theo hướng tiếp cận filter truyền thống Do đó theo tiếp cận tập thô mờ, luận
Trang 52
án nghiên cứu các thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp
Mục tiêu của luận án tập trung nghiên cứu hai nội dung chính Thứ nhất là đề xuất các
thuật toán lai ghép filter-wrapper tìm tập rút gọn của bảng quyết định sử dụng độ đo khoảng cách mờ cải tiến và các độ đo khác theo tiếp cận tập thô mờ nhằm giảm thiểu số lượng thuộc
tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp Thứ hai là đề xuất các
thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định thay đổi sử dụng độ đo khoảng cách mờ theo tiếp cận tập thô mờ nhằm giảm thiểu thời gian thực hiện và nâng cao độ chính xác so với các thuật toán gia tăng khác
Với mục tiêu đặt ra, luận án đạt được hai kết quả chính như sau:
1) Đề xuất hai thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định theo tiếp cận
tập thô mờ: Thuật toán sử dụng hàm thuộc mờ và thuật toán sử dụng khoảng cách mờ Độ đo
khoảng cách mờ được xây dựng là mở rộng của độ đo khoảng cách trong công trình [48] Các đóng góp này được trình bày ở chương 2 của luận án và được công bố ở công trình 1, 2, 4, 5, 6.2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập đối tượng và loại bỏ tập đối tượng sử dụng độ đo khoảng cách mờ được xây dựng Các đóng góp này được trình bày ở chương 3 của luận án và được công bố ở công trình 7
Bố cục của luận án gồm phần mở đầu và ba chương nội dung, phần kết luận và danh
mục các tài liệu tham khảo
Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô truyền thống, mô hình tập thô mờ và tổng quan về tiếp cận filter-wrapper trong rút gọn thuộc tính Chương 1 cũng trình bày các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ trong mấy năm gần đây Trêm cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được
Chương 2 trình bày hai kết quả nghiên cứu: thứ nhất là đề xuất thuật toán filter-wrapper tìm tập rút gọn sử dụng hàm thuộc mờ; thứ hai là xây dựng một độ đo khoảng cách mờ và đề xuất thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ được xây dựng Cả hai đề xuất đều nhằm mục tiêu tối thiểu hóa số thuộc tính của tập rút gọn và nâng cao độ chính xác của
mô hình phân lớp so với các phương pháp filter trước đây
Chương 3 đề xuất hai thuật toán gia tăng filter-wrapper; thuật toán gia tăng filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập thuộc tính; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn của bảng quyết định trong trường hợp loại bỏ tập thuộc tính Cả hai thuật toán đề xuất đều sử dụng độ đo khoảng cách mờ đề xuất ở chương 2 và đều có mục tiêu là giảm thiểu thời gian thực hiện so với thuật toán không gia tăng và nâng cao
độ chính xác phân lớp so với các thuật toán gia tăng khác đã công bố
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của tác giả
Trang 6Chương 1 TỔNG QUAN 1.1 Một số khái niệm trong lý thuyết tập thô mờ
1.1.1 Quan hệ tương đương mờ
Định nghĩa 1.1 [32, 71] Cho bảng quyết định DSU C, D, một quan hệ R xác định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn các điều kiện sau với mọi x y z U, ,
1) Tính phản xạ (reflexive): R x x , 1;
2) Tính đối xứng (symetric): R x y , R y x , ;
3)Tính bắc cầu max-min (max-min transitive): R x z , minR x y , ,R y z, ;
với R x y , là giá trị quan hệ giữa hai đối tương x và y
Mệnh đề 1.1 [72] Cho bảng quyết định DS U C, D và quan hệ tương đương mờ R Ký hiệu R P , R Q tương ứng là quan hệ R xác định trên tập thuộc tính P, Q Khi đó, với mọi x y, U
Định nghĩa 1.2 Cho bảng quyết định DS U C, D với U x x1, 2, ,x n và R là quan P
hệ tương đương mờ xác định trên tập thuộc tính PC Khi đó, ma trận tương đương mờ biểu diễn R P, ký hiệu là M R P pij n n
Định nghĩa 1.3 Cho bảng quyết định DSU C, D với PC, U x x1 , 2 , ,x n và R P là
quan hệ tương đương mờ trên P Khi đó phân hoạch mờ trên U sinh bởi R P, ký hiệu là R P , được xác định như sau
Trang 7với ký hiệu inf, sup tương ứng là cận dưới đúng và cận trên đúng của tập hợp X; F là các lớp
tương đương mờ của phân hoạch mờ U /R P
Với các tập xấp xỉ dưới mờ và xấp xỉ trên mờ xác định bởi Định nghĩa 1.6, bộ
, P
P
Định nghĩa 1.5 [66] Cho bảng quyết định DS U C, D và R P,R Q tương ứng là hai quan
hệ tương đương mờ xác định trên P Q, C Khi đó, miền dương mờ của R Q đối với R P, ký hiệu là P Q
1.2.2 Tiếp cận filter, wrapper trong rút gọn thuộc tính
Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính [43, 44]: filter (lọc) và wrapper (đóng gói) Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với
thuật khai phá dữ liệu sử dụng sau này Cho đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lý thuyết tập thô và các mở rộng đều theo hướng tiếp cận này Cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính
Cách tiếp cận filter có ưu điểm là thời gian tính toán nhanh, nhược điểm là không sử dụng
sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao
Trang 8Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính
Nhằm kết hợp các ưu điểm của cả hai cách tiếp cận filter và wrapper, một số cách tiếp cận mới cũng đã được các tác giả đã đề xuất, chẳng hạn cách tiếp cận lai ghép filter-wrapper
[67, 91]
1.3 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ
1.3.1 Các nghiên cứu liên quan
Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ tập trung vào các phương pháp chính như: phương pháp sử dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ [34, 42, 29,
30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] Gần đây, một số nhà nghiên cứu đề xuất các phương pháp
mở rộng dựa trên các độ đo khác nhau được định nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68,
85, 90, 100] Kết quả thử nghiệm trên các bộ số liệu mẫu cho thấy, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn
thuộc tính theo tiếp cận tập thô truyền thống
1.3.2 Các vấn đề còn tồn tại
Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, hầu hết các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ đã công bố là các phương pháp heuristic theo tiếp cận filter Nghĩa là, độ chính xác phân lớp được đánh giá sau khi tìm được tập rút gọn 1) Tập rút gọn của các phương pháp theo hướng tiếp cận filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp
1.4 Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ
1.4.1 Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận
tập thô truyền thống và tập thô dung sai
Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi động và tập trung vào các trường hợp: bổ sung và loại bỏ đối tượng [20, 36, 37, 38, 49, 56, 66, 86, 95, 96, 102], bổ sung và loại bỏ thuộc tính [31, 38, 49, 54, 86, 87, 88, 89] Sử dụng độ đo khoảng cách, các tác giả trong [24, 65]đã xây dựng các công thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính
1.4.2 Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận
tập thô mờ
Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán gia tăng tìm tập rút gọn trên bảng quyết định thay đổi theo tiếp cận tập thô mờ Zeng và các cộng sự [15]
xây dựng thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc mờ trong trường hợp bổ sung
và loại bỏ một thuộc tính (tương ứng là FRSA-IFS-HIS-AA và FRSA-IFS-HIS-AD) Với trường hợp bổ sung tập đối tượng, Yang và các cộng sự [98] xây dựng thuật toán gia tăng IARM tìm tập rút gọn sử dụng quan hệ phân biệt Yang và các cộng sự [99]đề xuất hai phiên bản của thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung tập đối tượng: thuật toán V-FS-FRS-1 và V-FS-FRS-2 Liu và các cộng sự [97] xây dựng công thức tính gia tăng hàm thuộc mờ trong trường hợp bổ sung tập đối tượng, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc mờ FIAR
Trang 96
RP RP P
2) Các nghiên cứu liên quan đến phương pháp gia tăng được trình bày ở mục 1.4.3.2 đã giải quyết bài toán rút gọn thuộc tính trong trường hợp bổ sung tập đối tượng, bổ sung và loại
bỏ tập thuộc tính, cập nhật tập thuộc tính, chưa giải quyết bài toán xóa bỏ tập đối tượng
Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
SỬ DỤNG HÀM THUỘC MỜ VÀ KHOẢNG CÁCH MỜ
2.1 Mở đầu
Trong chương này, luận án đề xuất hai thuật toán theo hướng tiếp cận lai ghép wrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp Giai đoạn filter tìm các ứng viên cho tập rút gọn dựa vào độ
filter-đo (còn gọi là tập rút gọn xấp xỉ), giai filter-đoạn wrapper tính toán độ chính xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất
(1) Thuật toán filter-wrapper tìm tập rút gọn sử dụng hàm thuộc mờ trong tập thô mờ (2) Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ Khoảng cách mờ được xây dựng là mở rộng của khoảng cách phân hoạch trong công trình [48] và khác các độ
đo khoảng cách mờ trong các công trình [3, 8, 18]
Các kết quả trong chương này được công bố trong các công trình 1, 2, 4, 5, 6
2.2 Rút gọn thuộc tính sử dụng hàm thuộc mờ
2.2.1 Rút gọn thuộc tính sử dụng hàm thuộc mờ theo tiếp cận filter
1) Hàm thuộc mờ trong tập thô mờ
Cho bảng quyết định DS U C, D với U u1, ,u n, Cc1 , ,c m Với PC, giả
sử R là một quan hệ tương đương mờ xác định trên miền giá trị thuộc tính P Hàm thuộc mờ P của P dựa trên quan hệ R được định nghĩa trong tập thô mờ như sau P [77, 78]
2) Thuật toán heuristic tìm một tập rút gọn sử dụng độ phụ thuộc mờ của thuộc tính theo tiếp cận filter
Thuật toán F_FRSAR (Filter_Fuzzy Rough Set based Attribute Reduction)
Đầu vào: Bảng quyết định DSU C, D, quan hệ tương đương mờ R xác định trên miền
giá trị của các thuộc tính điều kiện
Đầu ra: Tập rút gọn B của DS
Trang 102.2.2 Rút gọn thuộc tính sử dụng hàm thuộc mờ theo tiếp cận filter-wrapper
Xét bảng quyết định DSU C, D với Ca a1 , 2 , ,a m và R là quan hệ tương đương
mờ xác định trên miền giá trị thuộc tính Đặt R C D Theo thuật toán F_FRSAR, giả sử
các thuộc tính a a i1, i2, được thêm vào tập rỗng theo giá trị lớn nhất của độ quan trọng thuộc tính cho đến khi tồn tại t1, 2, m sao cho , , ,
1 2
a i a i a it
F_FRSAR, ta thu được tập rút gọn 1 , 2 , ,
B a a Khi đó, nếu chọn B k là kết quả của thuật toán thì B k có
độ chính xác phân lớp cao hơn, có số lượng thuộc tính ít hơn nên khả năng khái quát hóa và hiệu năng thực hiện các thuật toán phân lớp sẽ cao hơn Điều đó dẫn đến hướng tiếp cận lai ghép tìm tập rút gọn xấp xỉ, là sự kết hợp giữa filter (lọc) và wrapper (gói) Phương pháp filter tìm ra các tập rút gọn xấp xỉ, phương pháp wrapper kiểm tra độ chính xác phân lớp của các tập rút gọn xấp xỉ để chọn tập rút gọn có độ chính xác cao nhất Với hướng tiếp cận này, độ chính xác phân lớp trên tập rút gọn tìm được cao hơn so với các phương pháp lọc truyền thống Tuy nhiên, thời gian thực hiện sẽ lớn hơn vì phải thực hiện các bộ phân lớp
Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng hàm thuộc mờ như sau:
Thuật toán FW_FRSAR (Filter-Wrapper Fuzzy Rough Set based Attribute Reduction): Thuật
toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng hàm thuộc mờ
Đầu vào: Bảng quyết định DSU C, D, với Ca a1, 2, ,a n, quan hệ tương đương mờ
R xác định trên miền giá trị thuộc tính điều kiện
Đầu ra: Tập rút gọn xấp xỉ S x có độ chính xác phân lớp tốt nhất
// Khởi tạo
1 B: ; D 0; :S ;
Trang 118
2 Tính hàm thuộc mờ R C D ;
// Giai đoạn filter, tìm các ứng viên cho tập rút gọn
// Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất
9 Đặt t S //t là số phần tử của S, S chứa các chuỗi thuộc tính được chọn tại mỗi bước lặp của vòng lặp While, nghĩa là 1 , 1 , 2, , 1 , 2 , ,
Bảng 2.2 Bộ dữ liệu thử nghiệm thuật toán F_FRSAR, FW_FRSAR
STT Bộ dữ liệu Mô tả Số đối tƣợng
Số thuộc tính điều kiện
Số lớp quyết định
Tất
cả
Thuộc tính định danh (nominal)
Thuộc tính thực (Real- valued)
1 Ecoli Protein Localization
Sites
2 Ionosphere Johns Hopkins
University Ionosphere database
6 Glass Glass Identification
Trang 122) Đánh giá độ chính xác phân lớp của thuật toán filter F_FRSAR với các thuật toán khác theo tiếp cận tập thô mờ
Bảng 2.4 Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR
STT Bộ số
liệu U C
Thuật toán GAIN_RATIO_AS_FRS
[45]
Thuật toán F_FRSAR
R Độ chính xác phân lớp SVM
Độ chính xác phân lớp C4.5
R Độ chính xác phân
lớp SVM
Độ chính xác phân
Độ chính xác phân lớp của F_FRSAR cao hơn độ chính xác phân lớp của
nhiều thuộc tính hơn so với thuật toán GAIN_RATIO_AS_FRS trong [45]
3) Đánh giá độ chính xác phân lớp của thuật toán filter-wrapper FW_FRSAR với thuật toán filter F_FRSAR và các thuật toán filter khác theo tiếp cận tập thô mờ
Bảng 2.5 Độ chính xác phân lớp FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS
STT Tập dữ
liệu
Tập dữ liệu ban đầu
Thuật toán FW_FRSAR
Thuật toán
F_FRSAR
Thuật toán
GAIN_RATIO _AS_FRS [45]
xác phân
lớp
R Độ chính xác phân lớp
R Độ chính
xác phân lớp
4) So sánh thời gian thực hiện của FW_FRSAR, F_FRSAR và GAIN_RATIO_AS_FRS
Trang 13Thủ tục Filer
Thủ tục Wrapper
Tổng cộng
Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm các độ đo khoảng cách hiệu quả (có công thức tính toán đơn giản) giải quyết bài toán rút gọn thuộc tính, trong phần này chúng tôi xây dựng độ đo khoảng cách mờ mới (sau đây gọi là khoảng cách mờ) dựa trên độ đo khoảng cách phân hoạch trong công trình [48] Sử dụng khoảng cách mờ được xây dựng, chúng tôi đề xuất phương pháp filter-wrapper rút gọn thuộc tính trong bảng quyết định nhằm nâng cao độ chính xác phân lớp và giảm thiểu số lượng thuộc tính tập rút gọn
2.3.1 Xây dựng khoảng cách mờ giữa hai tập mờ
Mệnh đề 2.1 Cho hai tập mờ A B, trên tập đối tượng U Khi đó d A B , A B A B là một khoảng cách mờ giữa A và B
2.3.2 Xây dựng khoảng cách mờ giữa hai phân hoạch mờ
Mệnh đề 2.2 Cho bảng quyết định DSU C, D với U x x1, 2, ,x n và R P , R Q là hai phân hoạch mờ sinh bởi hai quan hệ tương đương mờ R P , R Q trên P Q, C Khi đó:
1
1 ,
là một khoảng cách mờ giữa R P và R Q , gọi là khoảng cách phân hoạch mờ
Mệnh đề 2.3 Cho bảng quyết định DSU C, D với U x x1, 2, ,x n và R là quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, khi đó khoảng cách mờ giữa hai tập thuộc tính C và CD được xác định như sau:
1
1 ,