Các nghiên cứu liên quan đến rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phương pháp chính như: các phương pháp sử dụng miền dư
Trang 1VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
NGUYỄN BÁ QUẢNG
PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER
Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 9 46 01 10
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
HÀ NỘI - 2021
Trang 2VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
Người hướng dẫn khoa học:
1 PGS.TS Nguyễn Long Giang
2 TS Ngô Trọng Mại
Phản biện 1: PGS TS Phạm Thanh Giang
Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Phản biện 2: PGS TS Ngô Thành Long
Học viện Kỹ thuật quân sự
Phản biện 3: TS Nguyễn Doãn Cường
Viện Khoa học và Công nghệ quân sự
Luận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấp Viện, họp tại Viện Khoa học và Công nghệ quân sự vào hồi giờ, ngày tháng năm 202
Có thể tìm hiểu luận án tại:
- Thư viện Viện Khoa học và Công nghệ quân sự
- Thư viện Quốc gia Việt Nam
Trang 31 Nguyen Ba Quang, Nguyen Long Giang, Dang Thi Oanh “A Distance
based Incremental Filter-Wrapper Algorithm for Fingding Reduct in
Incomplete Decision Tables”, Vietnam Journal of Science and Technology
- Vietnam Academy of Science and Technology, Vol 57, No 4, 2019, pp
499-512
2 Nguyễn Bá Quảng, Nguyễn Long Giang, Trần Thanh Đại, Nguyễn Ngọc
Cương, “Phương pháp Filter-Wrapper rút gọn thuộc tính trong bảng quyết
định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần
thứ XXII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông,
Thái Bình, 28-29/06/2019, Tr 246-252
3 Nguyễn Bá Quảng, Nguyễn Long Giang, Nguyễn Thị Lan Hương, Nguyễn
Ngọc Cương, “Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết
định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần
thứ XXII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông,
Thái Bình, 28-29/06/2019, Tr 253-259
4 Phạm Minh Ngọc Hà, Nguyễn Long Giang, Nguyễn Văn Thiện, Nguyễn
Bá Quảng, “Về một thuật toán gia tăng tìm tập rút gọn của bảng quyết định
không đầy đủ”, Chuyên san các công trình nghiên cứu phát triển
CNTT&TT, Tạp chí Công nghệ thông tin và truyền thông - Bộ TT&TT, Tập
2019, Số 1, Tháng 9, Tr 11-18
5 Nguyễn Bá Quảng, Nguyễn Long Giang, “Về một thuật toán gia tăng tìm
tập rút gọn của bảng quyết định không đầy đủ trong trường hợp bổ sung
tập thuộc tính”, Tạp chí Nghiên cứu KH&CN Quân sự, Số 63, 10-2019, Tr
171-183
Trang 4MỞ ĐẦU
Lý thuyết tập thô (Rough set) do Pawlak đề xuất được xem là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc tính, gọi
là bảng quyết định không đầy đủ Để giải quyết bài toán rút gọn thuộc tính trực tiếp
trên bảng quyết định không đầy đủ mà không qua bước tiền xử lý giá trị thiếu, Kryszkiewicz mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai và xây dựng mô hình tập thô dung sai (tolerance rough set) Các nghiên cứu liên quan đến rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phương pháp chính như: các phương pháp sử dụng miền dương mở rộng, các phương pháp sử dụng ma trận phân biệt, hàm phân biệt mở rộng, các phương pháp sử dụng entropy thông tin mở rộng, các phương pháp sử dụng độ đo lượng thông tin, phương pháp sử dụng khoảng cách và một số phương pháp sử dụng các độ đo khác như quan hệ không phân biệt mở rộng, độ bao phủ của thuộc tính Tuy nhiên, giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết các phương pháp rút gọn thuộc tính theo tiếp
cận tập thô dung sai đều là các phương pháp lọc (filter), nghĩa là độ chính xác của mô
hình phân lớp được đánh giá sau khi tìm được tập rút gọn Tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn độ đo mà không bảo đảm có độ chính xác phân lớp cao nhất Do đó, tập rút gọn của các phương pháp filter chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp Với mục tiêu tối ưu số lượng thuộc tính của tập rút gọn và nâng cao độ chính xác phân lớp so với các phương pháp filter đã công bố,
động lực nghiên cứu thứ nhất của luận án nghiên cứu các phương pháp rút gọn thuộc
tính trong bảng quyết định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper Ngày nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập nhật Việc áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng gặp nhiều thách thức Trường hợp các bảng quyết định
bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể Trường hợp bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng quyết định sẽ gặp khó khăn về thời gian thực hiện Vì vậy, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Các thuật toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực hiện trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết định thành từng phần Theo tiếp cận tập thô dung sai, trong mấy năm gần đây các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ khá sôi động và phong phú Các nghiên cứu liên quan chủ yếu tập trung vào trường hợp bổ sung, loại bỏ tập đối tượng Ngoài ra, có các công bố giải quyết bài toán trong trường hợp bổ sung, loại bỏ tập thuộc tính; tập đối tượng thay đổi giá trị; tập thuộc tính thay đổi giá trị Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô dung sai nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng
dữ liệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận
filter truyền thống Gần đây, có các tác giả trong công trình đề xuất thuật toán gia
Trang 5tăng tìm tập rút gọn theo tiếp cận kết hợp filter-wrapper Tuy nhiên, thuật toán gia tăng đó chỉ tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô mờ trong
trường hợp bổ sung tập đối tượng Vì vậy, động lực nghiên cứu thứ hai của luận án là
nghiên cứu các thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ
theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn
và cải thiện độ chính xác phân lớp so với các thuật toán đã công bố
Mục tiêu của luận án tập trung nghiên cứu hai nội dung chính Thứ nhất là đề
xuất các thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộc tính của tập rút gọn và
cải thiện độ chính xác của mô hình phân lớp Thứ hai là đề xuất các thuật toán gia
tăng filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ thay đổi theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộc tính của tập rút gọn và cải thiện độ chính xác so với các thuật toán gia tăng khác
Với mục tiêu đặt ra, luận án đạt được hai kết quả chính như sau:
1) Xây dựng khoảng cách mới và đề xuất thuật toán theo tiếp cận kết hợp wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định không đầy đủ sử dụng khoảng cách Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI cho thấy, thuật thoán filter-wrapper IDS_FW_DAR giảm thiểu đáng kể số lượng thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán filter khác 2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04 thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ:
filter-(1) Thuật toán gia tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung tập đối tượng;
(2) Thuật toán filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tập đối tượng;
(3) Thuật toán gia tăng filter-wrapper IDS_IFW_AA tìm tập rút gọn trong
trường hợp bổ sung tập thuộc tính
(4) Thuật toán gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn trong
trường hợp loại bỏ tập thuộc tính
Bố cục của luận án: Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập
thô truyền thống, mô hình tập thô dung sai, tổng quan về tiếp cận filter-wrapper trong rút gọn thuộc tính và các nghiên cứu liên quan Trên cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mới và
đề xuất thuật toán gia tăng filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định không đầy đủ Chương 3 đề xuất bốn thuật toán gia tăng filter-wrapper: (1) Thuật toán IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung tập đối tượng; (2) Thuật toán IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tập đối tượng; (3)
Thuật toán IDS_IFW_AA tìm tập rút gọn trong trường hợp bổ sung tập thuộc tính; (4) Thuật toán IDS_IFW_DA tìm tập rút gọn trong trường hợp loại bỏ tập thuộc tính
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của tác giả
Trang 6Chương 1 TỔNG QUAN
1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai
1.2.1 Hệ thông tin không đầy đủ
Hệ thông tin là một cặp IS U A, trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính Với hệ thông tin IS U A, , nếu tồn tại u U và aA sao cho a u chứa giá trị thiếu (missing value) thì IS được gọi
là hệ thông tin không đầy đủ, trái lại IS được gọi là hệ thông tin đầy đủ Ta biểu diễn giá trị thiếu được ký hiệu là ‘*’ và hệ thông tin không đầy đủ là IISU A,
1.2.2 Mô hình tập thô dung sai
Xét hệ thông tin không đầy đủ IIS U A, , với tập thuộc tính P, PA ta định
nghĩa một quan hệ nhị phân trên U như sau:
Quan hệ SIM P là quan hệ dung sai (tolerance relation) vì chúng có tính phản
xạ, đối xứng nhưng không có tính bắc cầu Dễ thấy rằng SIM P a P SIM a
Gọi S P u là tập v U u v , SIM P S P u là tập lớn nhất các đối tượng
không có khả năng phân biệt được với u trên tập thuộc tính P dựa trên quan hệ dung
sai, còn gọi là một lớp dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp
dung sai sinh bởi quan hệ SIM(P) trên U là U SIM P/ , khi đó các lớp dung sai trong
/
chúng có thể giao nhau và u U S P u U
Cho tập đối tượng X , dựa trên quan hệ dung sai các tập P-xấp xỉ dưới và P-xấp
xác định: PX u U S u P X u X S u P X, PX u U S P u X S P u u U
Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập BN P X PX PX,và
chính xác (exact set), ngược lại X được gọi là tập thô dung sai (tolerance rough set)
1.2.3 Bảng quyết định không đầy đủ
Xét bảng quyết định DS U C, D, nếu tồn tại uU và cC sao cho c u
thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ Ta biểu diễn bảng quyết định không đầy đủ là
,
IDS U CD với d D, '*' V d Không mất tính chất tổng quát, giả thiết D chỉ gồm
một thuộc tính quyết định duy nhất d Cho bảng quyết định không đầy đủ
IDS U C d Với PC, uU, P( )u d v v S u P( ) gọi là hàm quyết định suy
rộng của đối tượng u trên tập thuộc tính P Nếu | C( ) | 1u với mọi uU thì IDS là
nhất quán, trái lại IDS là không nhất quán
Với bảng quyết định không đầy đủ IDS, miền dương của C đối với d là
Trang 71.2.4 Ma trận dung sai
Cho bảng quyết định không đầy đủ IDS U C, d với U u u1 , 2 , ,u n và
PC Khi đó, ma trận dung sai của quan hệ dung sai SIM P , ký hiệu là
trong đó p ij là giá trị của quan hệ dung sai giữa hai đối tượng u i và u j trên tập thuộc tính
P, pij 1 nếu u jS P u i và pij 0 nếu u jS P u i với i j, 1 n
Với việc biểu diễn quan hệ dung sai SIM P bằng ma trận dung sai M P , ta
1.3.2 Tiếp cận filter, wrapper trong rút gọn thuộc tính
Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính: filter (lọc) và wrapper (đóng gói) Tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập
với thuật khai phá dữ liệu sử dụng sau này Đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lý thuyết tập thô và các mở rộng đều theo hướng tiếp cận này Tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính Tiếp cận filter có ưu điểm là thời gian tính toán nhanh, nhược điểm là không sử dụng sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao
Tập thuộc tính Tập rút gọn Thuật toán học
Filter
Tập thuộc tính
Tạo lập các tập con
Thuật toán học
Wrapper
Tập con thuộc tính
Đánh giá
Tập rút gọn
Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính
Trang 81.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai
1.4.1.1 Các nghiên cứu liên quan
Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp trên bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phương pháp chính như: các phương pháp sử dụng miền dương mở rộng, các phương pháp sử dụng
ma trận phân biệt, hàm phân biệt mở rộng, các phương pháp sử dụng entropy thông tin
mở rộng, các phương pháp sử dụng độ đo lượng thông tin, phương pháp sử dụng khoảng cách và một số phương pháp sử dụng các độ đo khác như quan hệ không phân biệt mở rộng, độ bao phủ của thuộc tính
1.4.1.2 Các vấn đề còn tồn tại
Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết các phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai đã trình bày ở
trên đều là các phương pháp lọc (filter), nghĩa là độ chính xác của mô hình phân lớp
được đánh giá sau khi tìm được tập rút gọn Tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn độ đo mà không bảo đảm có độ chính xác phân lớp cao nhất Do đó, tập rút gọn của các phương pháp filter chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp
1.4.1.3 Hướng nghiên cứu thứ nhất của luận án
Với mục tiêu tối ưu số lượng thuộc tính của tập rút gọn và nâng cao độ chính xác
phân lớp so với các phương pháp filter đã công bố, hướng nghiên cứu thứ nhất của luận
án nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper
1.4.2 Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định không đầy
đủ theo tiếp cận tập thô dung sai
1.4.2.2 Các nghiên cứu liên quan
Theo tiếp cận tập thô dung sai, trong mấy năm gần đây các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ thay đổi khá sôi động và phong phú Các nghiên cứu liên quan chủ yếu tập trung vào trường hợp bổ sung, loại bỏ tập đối tượng Ngoài ra, có các công bố giải quyết bài toán trong trường hợp bổ sung, loại bỏ tập thuộc tính; giải quyết bài toán trong trường hợp tập đối tượng thay đổi giá trị; giải quyết bài toán trong trường hợp tập thuộc tính thay đổi giá trị
1.4.2.3 Các vấn đề còn tồn tại
Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô dung sai nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng dữ liệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo
hướng tiếp cận filter truyền thống Gần đây, các tác giả trong công trình đề xuất thuật
toán gia tăng tìm tập rút gọn theo tiếp cận kết hợp filter-wrapper Tuy nhiên, thuật toán gia tăng trong đó chỉ tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô mờ trong trường hợp bổ sung tập đối tượng
1.4.2.4 Hướng nghiên cứu thứ hai của luận án
Hướng nghiên cứu thứ hai của luận án là nghiên cứu các thuật toán gia tăng tìm
tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper
nhằm giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác phân lớp
so với các thuật toán đã công bố
Trang 9Chương 2 THUẬT TOÁN FILTER-WRAPPER TÌM TẬP RÚT GỌN
CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ
Trong chương này, luận án đề xuất thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper sử dụng độ đo khoảng
cách Các kết quả trong chương này được công bố trong các công trình 2, phần “Danh
mục các công trình khoa học đã công bố”.
2.1 Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ
Mệnh đề 2.2 Cho bảng quyết định không đầy đủ IDSU C, d với
tương ứng là ma trận dung sai
2.2.1 Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định không đầy đủ
Ý tưởng của thuật toán là xuất phát từ tập rỗng B: , lần lượt bổ sung vào tập B
các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm được tập rút gọn
Thuật toán IDS_F_DAR (Filter - Distance based Attribute Reduction in Incomplete
Decision Tables): Thuật toán filter tìm một tập rút gọn xấp xỉ sử dụng khoảng cách
Đầu vào: Bảng quyết định không đầy đủ IDSU C, d
Đầu ra: Một tập rút gọn B của IDS
Trang 10// Loại bỏ các thuộc tính dư thừa trong B nếu có
1 , 2 , ,
t
Ba a a Độ chính xác của mô hình phân lớp được tính trên B sau khi thực hiện
thuật toán IDS_F_DAR
Mặt khác, ta có D a i1 , a d i1, D a a i1, i2 , a a i1, i2,d D B B , d Với ngưỡng cho trước, đặt 1 , ,
B a a chưa chắc đã tốt hơn trên B k Trong trường hợp B k có độ chính xác phân lớp tốt hơn được chọn làm tập rút gọn, số lượng thuộc tính của B k sẽ ít hơn, khả năng khái quát hóa và hiệu năng thực hiện các thuật toán phân lớp sẽ cao hơn Do đó, đề xuất hướng tiếp cận kết hợp filter-wrapper (lọc-đóng gói) tìm tập rút gọn ngưỡng có độ chính xác phân lớp cao nhất
Thuật toán IDS_FW_DAR (Filter-Wrapper Distance based Attribute Reduction in
Incomplete Decision Tables): Thuật toán filter-wrapper tìm một tập rút gọn sử dụng khoảng cách
Đầu vào: Bảng quyết định không đầy đủ IDSU C, d
Đầu ra: Tập rút gọn B best có độ chính xác phân lớp cao nhất
Trang 11// Giai đoạn wrapper, tìm tập rút gọn có độ chính xác phân lớp cao nhất
11 Đặt t T //t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là 1 , 1 , 2, , 1 , 2 , ,
2.2.3.2 Dữ liệu thực nghiệm và môi trường thực nghiệm
Ta chọn 10 bộ dữ liệu mẫu từ lấy từ kho dữ liệu UCI được mô tả ở Bảng 2.2 để tiến hành thực nghiệm
Bảng 2.2 Bộ dữ liệu thực nghiệm thuật toán IDS_FW_DAR
Trang 122.2.3.3 Kết quả đánh giá về thời gian thực hiện của thuật toán filter-wrapper
Giai đoạn Wrapper
2.2.3.4 Kết quả đánh giá số thuộc tính tập rút gọn và độ chính xác của mô hình
phân lớp của thuật toán filter-wrapper IDS_FW_DAR
Bảng 2.4 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của ba thuật toán
Độ chính xác ban đầu
chính xác
chính xác
Trang 13filter-trên 06 bộ số liệu Audiology, Soybean-large, Congressional Voting Records, Arrhythmia, Anneal, Advertisements và xấp xỉ bằng nhau trên 04 bộ dữ liệu còn lại
Số lượng thuộc tính của tập rút gọn của thuật toán filter-wrapper IDS_FW_DAR nhỏ hơn khá nhiều so với hai thuật toán filter NEW-R và IDS_F_DAR Do đó, hiệu năng tập luật quyết định thu được bởi IDS_FW_DAR cao hơn NEW-R và IDS_F_DAR
2.3 Kết luận
Trong Chương 2, luận án xây dựng thuật toán IDS_F_DAR tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận filter truyền thống và thuật toán theo tiếp cận kết hợp filter-wrapper IDS_FW_DAR nhằm nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI cho thấy, thuật toán filter-wrapper IDS_FW_DAR đề xuất giảm thiểu đáng kể số lượng thuộc tính tập rút gọn so với các thuật toán filter IDS_F_DAR và NEW-R Hơn nữa, thuật toán IDS_FW_DAR duy trì
và nâng cao độ chính xác phân lớp so với các thuật toán filter IDS_F_DAR và
NEW-R Tuy nhiên, thuật toán IDS_FW_DAR mất thêm chi phí thời gian tính toán các bộ phân lớp
Chương 3 CÁC THUẬT TOÁN GIA TĂNG FILTER-WRAPPER TÌM
TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH THAY ĐỔI
Trong chương này, trước hết luận án trình bày công thức gia tăng tính độ đo khoảng cách (được đề xuất ở chương 2) trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính Dựa trên công thức tính toán gia tăng khoảng cách được xây dựng, luận án trình bày 04 thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper Kết quả thử nghiệm trên các bộ dữ liệu mẫu từ kho dữ liệu UCI cho thấy, các thuật toán gia tăng
IDS_IFW_AO, IDS_IFW_AA có số lượng tập rút gọn nhỏ hơn đáng kể so với các
thuật toán filter khác đã đề xuất Hơn nữa, tập rút gọn của các thuật toán gia tăng IDS_IFW_AO, IDS_IFW_AA cải thiện độ chính xác phân lớp so với các thuật toán filter khác
Kết quả nghiên cứu ở chương này được công bố ở công trình số 1, 3, 4, 5, phần
“Danh mục các công trình khoa học đã công bố”
3.1 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập
đối tượng
3.1.1 Công thức cập nhật khoảng cách khi bổ sung tập đối tượng
3.1.1.1 Công thức cập nhật khoảng cách khi bổ sung một đối tượng
Mệnh đề 3.1 Cho bảng quyết định không đầy đủ IDS U C, d với
1 , 2 , , n
1 1 ( )