1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phát triển một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận filter wrapper (developing the filter wrapper attribute reduction methods in incomplete decision tables) TT

27 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,63 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các nghiên cứu liên quan đến rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phương pháp chính như: các phương pháp sử dụng miền dư

Trang 1

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

NGUYỄN BÁ QUẢNG

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 9 46 01 10

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI - 2021

Trang 2

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

Người hướng dẫn khoa học:

1 PGS.TS Nguyễn Long Giang

2 TS Ngô Trọng Mại

Phản biện 1: PGS TS Phạm Thanh Giang

Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Phản biện 2: PGS TS Ngô Thành Long

Học viện Kỹ thuật quân sự

Phản biện 3: TS Nguyễn Doãn Cường

Viện Khoa học và Công nghệ quân sự

Luận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấp Viện, họp tại Viện Khoa học và Công nghệ quân sự vào hồi giờ, ngày tháng năm 202

Có thể tìm hiểu luận án tại:

- Thư viện Viện Khoa học và Công nghệ quân sự

- Thư viện Quốc gia Việt Nam

Trang 3

1 Nguyen Ba Quang, Nguyen Long Giang, Dang Thi Oanh “A Distance

based Incremental Filter-Wrapper Algorithm for Fingding Reduct in

Incomplete Decision Tables”, Vietnam Journal of Science and Technology

- Vietnam Academy of Science and Technology, Vol 57, No 4, 2019, pp

499-512

2 Nguyễn Bá Quảng, Nguyễn Long Giang, Trần Thanh Đại, Nguyễn Ngọc

Cương, “Phương pháp Filter-Wrapper rút gọn thuộc tính trong bảng quyết

định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần

thứ XXII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông,

Thái Bình, 28-29/06/2019, Tr 246-252

3 Nguyễn Bá Quảng, Nguyễn Long Giang, Nguyễn Thị Lan Hương, Nguyễn

Ngọc Cương, “Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết

định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần

thứ XXII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông,

Thái Bình, 28-29/06/2019, Tr 253-259

4 Phạm Minh Ngọc Hà, Nguyễn Long Giang, Nguyễn Văn Thiện, Nguyễn

Bá Quảng, “Về một thuật toán gia tăng tìm tập rút gọn của bảng quyết định

không đầy đủ”, Chuyên san các công trình nghiên cứu phát triển

CNTT&TT, Tạp chí Công nghệ thông tin và truyền thông - Bộ TT&TT, Tập

2019, Số 1, Tháng 9, Tr 11-18

5 Nguyễn Bá Quảng, Nguyễn Long Giang, “Về một thuật toán gia tăng tìm

tập rút gọn của bảng quyết định không đầy đủ trong trường hợp bổ sung

tập thuộc tính”, Tạp chí Nghiên cứu KH&CN Quân sự, Số 63, 10-2019, Tr

171-183

Trang 4

MỞ ĐẦU

Lý thuyết tập thô (Rough set) do Pawlak đề xuất được xem là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc tính, gọi

là bảng quyết định không đầy đủ Để giải quyết bài toán rút gọn thuộc tính trực tiếp

trên bảng quyết định không đầy đủ mà không qua bước tiền xử lý giá trị thiếu, Kryszkiewicz mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai và xây dựng mô hình tập thô dung sai (tolerance rough set) Các nghiên cứu liên quan đến rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phương pháp chính như: các phương pháp sử dụng miền dương mở rộng, các phương pháp sử dụng ma trận phân biệt, hàm phân biệt mở rộng, các phương pháp sử dụng entropy thông tin mở rộng, các phương pháp sử dụng độ đo lượng thông tin, phương pháp sử dụng khoảng cách và một số phương pháp sử dụng các độ đo khác như quan hệ không phân biệt mở rộng, độ bao phủ của thuộc tính Tuy nhiên, giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết các phương pháp rút gọn thuộc tính theo tiếp

cận tập thô dung sai đều là các phương pháp lọc (filter), nghĩa là độ chính xác của mô

hình phân lớp được đánh giá sau khi tìm được tập rút gọn Tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn độ đo mà không bảo đảm có độ chính xác phân lớp cao nhất Do đó, tập rút gọn của các phương pháp filter chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp Với mục tiêu tối ưu số lượng thuộc tính của tập rút gọn và nâng cao độ chính xác phân lớp so với các phương pháp filter đã công bố,

động lực nghiên cứu thứ nhất của luận án nghiên cứu các phương pháp rút gọn thuộc

tính trong bảng quyết định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper Ngày nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập nhật Việc áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng gặp nhiều thách thức Trường hợp các bảng quyết định

bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể Trường hợp bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng quyết định sẽ gặp khó khăn về thời gian thực hiện Vì vậy, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Các thuật toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực hiện trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết định thành từng phần Theo tiếp cận tập thô dung sai, trong mấy năm gần đây các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ khá sôi động và phong phú Các nghiên cứu liên quan chủ yếu tập trung vào trường hợp bổ sung, loại bỏ tập đối tượng Ngoài ra, có các công bố giải quyết bài toán trong trường hợp bổ sung, loại bỏ tập thuộc tính; tập đối tượng thay đổi giá trị; tập thuộc tính thay đổi giá trị Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô dung sai nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng

dữ liệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận

filter truyền thống Gần đây, có các tác giả trong công trình đề xuất thuật toán gia

Trang 5

tăng tìm tập rút gọn theo tiếp cận kết hợp filter-wrapper Tuy nhiên, thuật toán gia tăng đó chỉ tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô mờ trong

trường hợp bổ sung tập đối tượng Vì vậy, động lực nghiên cứu thứ hai của luận án là

nghiên cứu các thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ

theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn

và cải thiện độ chính xác phân lớp so với các thuật toán đã công bố

Mục tiêu của luận án tập trung nghiên cứu hai nội dung chính Thứ nhất là đề

xuất các thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộc tính của tập rút gọn và

cải thiện độ chính xác của mô hình phân lớp Thứ hai là đề xuất các thuật toán gia

tăng filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ thay đổi theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộc tính của tập rút gọn và cải thiện độ chính xác so với các thuật toán gia tăng khác

Với mục tiêu đặt ra, luận án đạt được hai kết quả chính như sau:

1) Xây dựng khoảng cách mới và đề xuất thuật toán theo tiếp cận kết hợp wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định không đầy đủ sử dụng khoảng cách Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI cho thấy, thuật thoán filter-wrapper IDS_FW_DAR giảm thiểu đáng kể số lượng thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán filter khác 2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04 thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ:

filter-(1) Thuật toán gia tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung tập đối tượng;

(2) Thuật toán filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tập đối tượng;

(3) Thuật toán gia tăng filter-wrapper IDS_IFW_AA tìm tập rút gọn trong

trường hợp bổ sung tập thuộc tính

(4) Thuật toán gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn trong

trường hợp loại bỏ tập thuộc tính

Bố cục của luận án: Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập

thô truyền thống, mô hình tập thô dung sai, tổng quan về tiếp cận filter-wrapper trong rút gọn thuộc tính và các nghiên cứu liên quan Trên cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mới và

đề xuất thuật toán gia tăng filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định không đầy đủ Chương 3 đề xuất bốn thuật toán gia tăng filter-wrapper: (1) Thuật toán IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung tập đối tượng; (2) Thuật toán IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tập đối tượng; (3)

Thuật toán IDS_IFW_AA tìm tập rút gọn trong trường hợp bổ sung tập thuộc tính; (4) Thuật toán IDS_IFW_DA tìm tập rút gọn trong trường hợp loại bỏ tập thuộc tính

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của tác giả

Trang 6

Chương 1 TỔNG QUAN

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai

1.2.1 Hệ thông tin không đầy đủ

Hệ thông tin là một cặp IS U A,  trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính Với hệ thông tin IS U A, , nếu tồn tại u U và aA sao cho a u  chứa giá trị thiếu (missing value) thì IS được gọi

là hệ thông tin không đầy đủ, trái lại IS được gọi là hệ thông tin đầy đủ Ta biểu diễn giá trị thiếu được ký hiệu là ‘*’ và hệ thông tin không đầy đủ là IISU A, 

1.2.2 Mô hình tập thô dung sai

Xét hệ thông tin không đầy đủ IIS U A, , với tập thuộc tính P, PA ta định

nghĩa một quan hệ nhị phân trên U như sau:

Quan hệ SIM P  là quan hệ dung sai (tolerance relation) vì chúng có tính phản

xạ, đối xứng nhưng không có tính bắc cầu Dễ thấy rằng SIM P  a PSIM   a

Gọi S P u là tập v U u v  , SIM P   S P u là tập lớn nhất các đối tượng

không có khả năng phân biệt được với u trên tập thuộc tính P dựa trên quan hệ dung

sai, còn gọi là một lớp dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp

dung sai sinh bởi quan hệ SIM(P) trên U là U SIM P/  , khi đó các lớp dung sai trong

 

/

chúng có thể giao nhau và u US P uU

Cho tập đối tượng X , dựa trên quan hệ dung sai các tập P-xấp xỉ dưới và P-xấp

xác định: PX  u U S u P X u X S u P X, PX u U SP u    X  S P u u U 

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập BN P XPXPX,

chính xác (exact set), ngược lại X được gọi là tập thô dung sai (tolerance rough set)

1.2.3 Bảng quyết định không đầy đủ

Xét bảng quyết định DS U C, D, nếu tồn tại uUcC sao cho c u 

thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ Ta biểu diễn bảng quyết định không đầy đủ là

 , 

IDSU CD với  d D, '*' V d Không mất tính chất tổng quát, giả thiết D chỉ gồm

một thuộc tính quyết định duy nhất  d Cho bảng quyết định không đầy đủ

 

IDSU Cd Với PC, uU, P( )u d v v  S u P( ) gọi là hàm quyết định suy

rộng của đối tượng u trên tập thuộc tính P Nếu | C( ) | 1u  với mọi uU thì IDS là

nhất quán, trái lại IDS là không nhất quán

Với bảng quyết định không đầy đủ IDS, miền dương của C đối với  d

 

Trang 7

1.2.4 Ma trận dung sai

Cho bảng quyết định không đầy đủ IDS U C,  d  với U u u1 , 2 , ,u n và

PC Khi đó, ma trận dung sai của quan hệ dung sai SIM P , ký hiệu là

trong đó p ij là giá trị của quan hệ dung sai giữa hai đối tượng u iu j trên tập thuộc tính

P, pij  1 nếu u jS P u ipij 0 nếu u jS P u i với i j,  1 n

Với việc biểu diễn quan hệ dung sai SIM P  bằng ma trận dung sai M P , ta

1.3.2 Tiếp cận filter, wrapper trong rút gọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính: filter (lọc) và wrapper (đóng gói) Tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập

với thuật khai phá dữ liệu sử dụng sau này Đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lý thuyết tập thô và các mở rộng đều theo hướng tiếp cận này Tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính Tiếp cận filter có ưu điểm là thời gian tính toán nhanh, nhược điểm là không sử dụng sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao

Tập thuộc tính Tập rút gọn Thuật toán học

Filter

Tập thuộc tính

Tạo lập các tập con

Thuật toán học

Wrapper

Tập con thuộc tính

Đánh giá

Tập rút gọn

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Trang 8

1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai

1.4.1.1 Các nghiên cứu liên quan

Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp trên bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai tập trung vào các phương pháp chính như: các phương pháp sử dụng miền dương mở rộng, các phương pháp sử dụng

ma trận phân biệt, hàm phân biệt mở rộng, các phương pháp sử dụng entropy thông tin

mở rộng, các phương pháp sử dụng độ đo lượng thông tin, phương pháp sử dụng khoảng cách và một số phương pháp sử dụng các độ đo khác như quan hệ không phân biệt mở rộng, độ bao phủ của thuộc tính

1.4.1.2 Các vấn đề còn tồn tại

Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết các phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai đã trình bày ở

trên đều là các phương pháp lọc (filter), nghĩa là độ chính xác của mô hình phân lớp

được đánh giá sau khi tìm được tập rút gọn Tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn độ đo mà không bảo đảm có độ chính xác phân lớp cao nhất Do đó, tập rút gọn của các phương pháp filter chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp

1.4.1.3 Hướng nghiên cứu thứ nhất của luận án

Với mục tiêu tối ưu số lượng thuộc tính của tập rút gọn và nâng cao độ chính xác

phân lớp so với các phương pháp filter đã công bố, hướng nghiên cứu thứ nhất của luận

án nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper

1.4.2 Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định không đầy

đủ theo tiếp cận tập thô dung sai

1.4.2.2 Các nghiên cứu liên quan

Theo tiếp cận tập thô dung sai, trong mấy năm gần đây các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ thay đổi khá sôi động và phong phú Các nghiên cứu liên quan chủ yếu tập trung vào trường hợp bổ sung, loại bỏ tập đối tượng Ngoài ra, có các công bố giải quyết bài toán trong trường hợp bổ sung, loại bỏ tập thuộc tính; giải quyết bài toán trong trường hợp tập đối tượng thay đổi giá trị; giải quyết bài toán trong trường hợp tập thuộc tính thay đổi giá trị

1.4.2.3 Các vấn đề còn tồn tại

Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô dung sai nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng dữ liệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo

hướng tiếp cận filter truyền thống Gần đây, các tác giả trong công trình đề xuất thuật

toán gia tăng tìm tập rút gọn theo tiếp cận kết hợp filter-wrapper Tuy nhiên, thuật toán gia tăng trong đó chỉ tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thô mờ trong trường hợp bổ sung tập đối tượng

1.4.2.4 Hướng nghiên cứu thứ hai của luận án

Hướng nghiên cứu thứ hai của luận án là nghiên cứu các thuật toán gia tăng tìm

tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper

nhằm giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác phân lớp

so với các thuật toán đã công bố

Trang 9

Chương 2 THUẬT TOÁN FILTER-WRAPPER TÌM TẬP RÚT GỌN

CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

Trong chương này, luận án đề xuất thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper sử dụng độ đo khoảng

cách Các kết quả trong chương này được công bố trong các công trình 2, phần “Danh

mục các công trình khoa học đã công bố”.

2.1 Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ

Mệnh đề 2.2 Cho bảng quyết định không đầy đủ IDSU C,  d với

   tương ứng là ma trận dung sai

2.2.1 Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định không đầy đủ

Ý tưởng của thuật toán là xuất phát từ tập rỗng B:  , lần lượt bổ sung vào tập B

các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm được tập rút gọn

Thuật toán IDS_F_DAR (Filter - Distance based Attribute Reduction in Incomplete

Decision Tables): Thuật toán filter tìm một tập rút gọn xấp xỉ sử dụng khoảng cách

Đầu vào: Bảng quyết định không đầy đủ IDSU C,  d

Đầu ra: Một tập rút gọn B của IDS

Trang 10

// Loại bỏ các thuộc tính dư thừa trong B nếu có

1 , 2 , ,

t

Ba a a Độ chính xác của mô hình phân lớp được tính trên B sau khi thực hiện

thuật toán IDS_F_DAR

Mặt khác, ta có D   a i1 , a d i1,  D a a i1, i2 , a a i1, i2,d   D B B ,  d   Với ngưỡng    cho trước, đặt  1 , , 

Baa chưa chắc đã tốt hơn trên B k Trong trường hợp B k có độ chính xác phân lớp tốt hơn được chọn làm tập rút gọn, số lượng thuộc tính của B k sẽ ít hơn, khả năng khái quát hóa và hiệu năng thực hiện các thuật toán phân lớp sẽ cao hơn Do đó, đề xuất hướng tiếp cận kết hợp filter-wrapper (lọc-đóng gói) tìm tập rút gọn ngưỡng  có độ chính xác phân lớp cao nhất

Thuật toán IDS_FW_DAR (Filter-Wrapper Distance based Attribute Reduction in

Incomplete Decision Tables): Thuật toán filter-wrapper tìm một tập rút gọn sử dụng khoảng cách

Đầu vào: Bảng quyết định không đầy đủ IDSU C,  d

Đầu ra: Tập rút gọn B best có độ chính xác phân lớp cao nhất

Trang 11

// Giai đoạn wrapper, tìm tập rút gọn có độ chính xác phân lớp cao nhất

11 Đặt tT //t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là    1 , 1 , 2, , 1 , 2 , ,  

2.2.3.2 Dữ liệu thực nghiệm và môi trường thực nghiệm

Ta chọn 10 bộ dữ liệu mẫu từ lấy từ kho dữ liệu UCI được mô tả ở Bảng 2.2 để tiến hành thực nghiệm

Bảng 2.2 Bộ dữ liệu thực nghiệm thuật toán IDS_FW_DAR

Trang 12

2.2.3.3 Kết quả đánh giá về thời gian thực hiện của thuật toán filter-wrapper

Giai đoạn Wrapper

2.2.3.4 Kết quả đánh giá số thuộc tính tập rút gọn và độ chính xác của mô hình

phân lớp của thuật toán filter-wrapper IDS_FW_DAR

Bảng 2.4 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của ba thuật toán

Độ chính xác ban đầu

chính xác

chính xác

Trang 13

filter-trên 06 bộ số liệu Audiology, Soybean-large, Congressional Voting Records, Arrhythmia, Anneal, Advertisements và xấp xỉ bằng nhau trên 04 bộ dữ liệu còn lại

Số lượng thuộc tính của tập rút gọn của thuật toán filter-wrapper IDS_FW_DAR nhỏ hơn khá nhiều so với hai thuật toán filter NEW-R và IDS_F_DAR Do đó, hiệu năng tập luật quyết định thu được bởi IDS_FW_DAR cao hơn NEW-R và IDS_F_DAR

2.3 Kết luận

Trong Chương 2, luận án xây dựng thuật toán IDS_F_DAR tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận filter truyền thống và thuật toán theo tiếp cận kết hợp filter-wrapper IDS_FW_DAR nhằm nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI cho thấy, thuật toán filter-wrapper IDS_FW_DAR đề xuất giảm thiểu đáng kể số lượng thuộc tính tập rút gọn so với các thuật toán filter IDS_F_DAR và NEW-R Hơn nữa, thuật toán IDS_FW_DAR duy trì

và nâng cao độ chính xác phân lớp so với các thuật toán filter IDS_F_DAR và

NEW-R Tuy nhiên, thuật toán IDS_FW_DAR mất thêm chi phí thời gian tính toán các bộ phân lớp

Chương 3 CÁC THUẬT TOÁN GIA TĂNG FILTER-WRAPPER TÌM

TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH THAY ĐỔI

Trong chương này, trước hết luận án trình bày công thức gia tăng tính độ đo khoảng cách (được đề xuất ở chương 2) trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính Dựa trên công thức tính toán gia tăng khoảng cách được xây dựng, luận án trình bày 04 thuật toán gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper Kết quả thử nghiệm trên các bộ dữ liệu mẫu từ kho dữ liệu UCI cho thấy, các thuật toán gia tăng

IDS_IFW_AO, IDS_IFW_AA có số lượng tập rút gọn nhỏ hơn đáng kể so với các

thuật toán filter khác đã đề xuất Hơn nữa, tập rút gọn của các thuật toán gia tăng IDS_IFW_AO, IDS_IFW_AA cải thiện độ chính xác phân lớp so với các thuật toán filter khác

Kết quả nghiên cứu ở chương này được công bố ở công trình số 1, 3, 4, 5, phần

“Danh mục các công trình khoa học đã công bố”

3.1 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập

đối tượng

3.1.1 Công thức cập nhật khoảng cách khi bổ sung tập đối tượng

3.1.1.1 Công thức cập nhật khoảng cách khi bổ sung một đối tượng

Mệnh đề 3.1 Cho bảng quyết định không đầy đủ IDS U C,  d với

 1 , 2 , , n

1 1 ( )

Ngày đăng: 25/03/2021, 05:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w