Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

Bao gồm: - Nghiên cứu phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng, gồm các bước: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọ

Trang 1

ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi,

Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội Người đã tận tình hướng dẫn và giúp đỡ em hoàn thành luận văn này

Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ thông tin đã

dạy bảo, giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học và quá

trình em làm luận văn

Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công

nghệ thông tin và truyền thông Thái Nguyên đã tận tình dạy bảo, động viên, giúp đỡ và tạo điều kiện cho em trong suốt thời gian học tập và nghiên cứu

Cuối cùng xin chân thành cảm ơn bạn bè, người thân và gia đình luôn

là người đồng hành, động viên, chhia sẻ những khó khăn trong suốt thời

gian hoàn thành luận văn

Học viên

Trang 3

Tôi xin cam đoan đề tài "Nghiên cứu một số thuật toán gia tăng cho

việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ” là công

trình nghiên cứu được tôi thực hiện dưới sự hướng dẫn của giáo viên hướng dẫn khoa học

Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy

từ nguồn tài liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng Tôi xin chịu trách nhiệm về luận văn của mình

Học viên

Vũ Văn Tiệp

Trang 4

LỜI CẢM ƠN i

LỜI CAM ĐOAN iii

Danh mục các thuật ngữ vi

Danh sách bảng vii

MỞ ĐẦU 1

Chương 1 TỔNG QUAN 4

1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 4

1.1.1 Hệ thông tin đầy đủ 4

1.1.2 Bảng quyết định đầy đủ 7

1.1.3 Tập rút gọn và tập lõi 7

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 8

1.2.1 Hệ thông tin không đầy đủ 9

1.2.2 Bảng quyết định không đầy đủ 10

1.3 Rút gọn thuộc tính trong bảng quyết định không đầy đủ 11

1.3.1 Tổng quan về các phương pháp rút gọn thuộc tính 11

1.3.2 Phân nhóm các phương pháp rút gọn thuộc tính 14

1.4 Kết luận chương 1 17

Chương 2 CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 18 2.1 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 18

2.1.1 Ma trận phân biệt và hàm phân biệt mở rộng 19

2.1.2 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 21

2.2 Các thuật toán tiếp cận gia tăng tìm tập rút gọn khi bổ sung, loại bỏ tập thuộc tính 25 2.2.1 Thuật toán tìm tập rút gọn khi bổ sung tập thuộc tính 25

2.2.2 Thuật toán tìm tập rút gọn khi loại bỏ tập thuộc tính 29

2.3. Kết luận chương 2 Error! Bookmark not defined. Chương 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 34

3.1 Bài toán 34

3.2 Phân tích, lựa chọn công cụ 34

Trang 5

3.2.2 Các thuật toán tìm tập rút gọn khi bổ sung và loại bỏ tập thuộc tính 37

3.3 Đánh giá kết quả thử nghiệm 39

3.3.1 Kết quả thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng 39 3.3.2 Kết quả thử nghiệm thuật toán tìm tập rút gọn khi bổ sung tập thuộc tính 41

3.3.3 Kết quả thử nghiệm thuật toán tìm tập rút gọn khi loại bỏ tập thuộc tính 45

KẾT LUẬN 49

Tài liệu tham khảo 50

Phụ lục 52

Trang 6

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Hệ thông tin đầy đủ Complete Information System

Hệ thông tin không đầy đủ Incomplete Information System

Bảng quyết định đầy đủ Complete Decision Table

Bảng quyết định không đầy đủ Incomplete Decision Table

Quan hệ không phân biệt được Indiscernibility Relation

Rút gọn thuộc tính Attribute Reduction

Trang 7

Danh sách bảng

Bảng 1.1 Bảng thông tin về bệnh cúm 6

Bảng 1.2 Bảng quyết định không đầ đủ về các xe hơi 10

Bảng 1.3 Các phương pháp rút gọn thuộc tính trong công trình [3, 8] 13

Bảng 2.1 Bảng quyết định không đầy đủ mô tả về các tivi 19

Bảng 2.1 Bảng quyết định không đầy đủ mô tả về các tivi (tiếp theo) 24

Bảng 2.3 Bảng quyết định không đầy đủ về tivi khi bổ sung tập thuộc tính 26

Bảng 3.1 Kết quả thực hiện Thuật toán 2.1 và Thuật toán MBAR 39

Bảng 3.2 Tập rút gọn của Thuật toán 2.1 và Thuật toán MBAR 40

Bảng 3.3 Kết quả thực hiện Thuật toán 2.1 trên bộ số liệu ban đầu 42

Bảng 3.4 Kết quả thực hiện Thuật toán 2.1 sau khi lấy ngẫu nhiên 60% số thuộc tính điều kiện 42

Bảng 3.5 Kết quả thực hiện Thuật toán 2.2 tìm tập rút gọn khi bổ sung 40% số thuộc tính vào 43

Bảng 3.6 Kết quả thực hiện Thuật toán 2.1 trên bộ số liệu ban đầu 45

Bảng 3.7 Kết quả thực hiện Thuật toán 2.1 sau khi loại ngẫu nhiên 40% số thuộc tính điều kiện 46

Bảng 3.8 Kết quả thực hiện Thuật toán 2.3 tìm tập rút gọn khi loại bỏ 40% số thuộc tính điều kiện 47

Trang 8

MỞ ĐẦU

Lý thuyết tập thô - do Zdzislaw Pawlak [10] đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc chắn Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá dữ liệu và đánh giá kết quả thu được Rút gọn thuộc tính và trích lọc luật quyết định (luật phân lớp) là hai ứng dụng chính của lý thuyết tập thô trong khai phá dữ liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn trích lọc luật thuộc giai đoạn khai phá dữ liệu Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa nhằm tím tập con nhỏ nhất của tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp của bảng quyết định Dựa trên tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất

Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc tính, gọi là các bảng quyết định không đầy đủ Trên bảng quyết định không đầy đủ, Kryszkiewicz [5] đã mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa trên mô hình tập thô dung sai, một số công trình công bố trong mấy năm gần đây đã đề xuất một số độ đo không chắc chắn nhằm giải quyết bài toán rút gọn thuộc tính và trích lọc luật, đáng chú ý là các công bố được liệt kê trong công trình [8]

Luận văn đặt ra hai mục tiêu chính:

1) Tổng hợp các công bố về các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai, trên cơ

Trang 9

sở đó nghiên cứu phương pháp gia tăng rút gọn thuộc tính sử dụng hàm phân biệt mở rộng trong trường hợp bổ sung, loại bỏ tập thuộc tính Bao gồm:

- Nghiên cứu phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng, gồm các bước: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng

- Nghiên cứu hướng tiếp cận gia tăng rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong trường hợp bổ sung, loại bỏ tập thuộc tính

2) Cài đặt thuật toán rút gọn thuộc tính trong bảng quyết định không đầy

đủ sử dụng hàm phân biệt mở rộng và các thuật toán gia tăng trong trường hợp bổ sung, loại bỏ tập thuộc tính Thử nghiệm và đánh giá kết quả trên các

bộ số liệu từ kho dữ liệu UCI

Đối tượng nghiên cứu của luận văn là các bảng quyết định không đầy đủ

khi bổ sung, loại bỏ tập thuộc tính

Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc

tính ở bước tiền xử lý số liệu trong quá trình khai phá dữ liệu

Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên

cứu thực nghiệm Về nghiên cứu lý thuyết: tổng hợp và nắm bắt các kết quả nghiên cứu đã công bố Về nghiên cứu thực nghiệm: luận văn thực hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho

dữ liệu UCI [13], so sánh và đánh giá nghiên cứu thực nghiệm với nghiên cứu lý thuyết

Trang 10

Bố cục của luận văn gồm phần mở đầu và hai chương nội dung, phần

kết luận và danh mục các tài liệu tham khảo

Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô của Pawlak [10] và mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi tắt là mô hình tập thô dung sai [5] Trình bày tổng quan các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai

Chương 2 trình bày hai nội dung chính:

- Thứ nhất là phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn

và độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng

- Thứ hai là xây dựng thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong trường hợp bổ sung, loại bỏ tập thuộc tính [14]

Chương 3 trình bày kết quả thử nghiệm và đánh giá các thuật toán: bao gồm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng và thuật toán gia tăng tìm tập rút gọn sử dụng hàm phân biệt mở rộng trong trường hợp bổ sung và loại bỏ tập thuộc tính Thử nghiệm được thực hiện trên các

bộ số liệu mẫu từ kho dữ liệu UCI [13]

Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng phát triển tiếp theo

Trang 11

Chương 1 TỔNG QUAN

Chương này trình bày các khái niệm cơ bản về mô hình tập thô truyền thống trên các hệ thông tin đầy đủ do Pawlak [10] đề xuất và mô hình tập thô dung sai trên các hệ thông tin không đầy đủ do Kryszkiewicz [5] đề xuất Chương này cũng trình bày tổng quan các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai

1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống

1.1.1 Hệ thông tin đầy đủ

Hệ thông tin đầy đủ, gọi tắt là hệ thông tin, là một bảng dữ liệu gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách hình thức,

hệ thông tin được định nghĩa như sau

Định nghĩa 1.1 Hệ thông tin là một bộ tứ IS U A V f, , , trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính;

a

a A

V V với V a là tập giá trị của thuộc tính a A; f U: A V a là hàm thông tin, a A u U, f u a, V a

Với mọi u U a, A, ta ký hiệu giá trị thuộc tính a tại đối tượng u là

a u thay vì f u a, Nếu B b b1, 2, ,b k A là một tập con các thuộc tính thì

ta ký hiệu bộ các giá trị b u i bởi B u Như vậy, nếu u và v là hai đối tượng,

thì ta viết B u B v nếu b u i b v i với mọi i 1, ,k

Xét hệ thông tin IS U A V f, , , , mỗi tập con các thuộc tính P A xác

định một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi

quan hệ tương đương trên U Nếu u v, IND P thì hai đối tượng u và v không

Trang 12

phân biệt được bởi các thuộc tính trong P Quan hệ tương đương IND P xác định

một phân hoạch trên U, ký hiệu là U IND P/ hay U P/ Ký hiệu lớp tương đương

,

P

Cho hệ thông tin IS U A V f, , , , tập thuộc tính B A và tập đối tượng

X U Trong lý thuyết tập thô truyền thống của Pawlak [10], để biểu diễn tập

X thông qua các lớp tương đương của U B/ (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương

đương của U B/ Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính

B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là lượt là BX và

BX, được xác định như sau:

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn

tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

B

BN X BX BX : B-miền biên của X , U BX : B-miền ngoài của X

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc

X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể

viết lại

/

Trong trường hợp BN B X thì X được gọi là tập chính xác (exact

set), ngược lại X được gọi là tập thô (rough set)

Với B D, A , ta gọi B-miền dương của D là tập được xác định như sau

Trang 13

Rõ ràng POS B( )D là tập tất cả các đối tượng u sao cho với mọi v U mà

Trang 14

1 2 3 4 /

2) Tập X là B-không xác định trong nếu BX và BX U

3) Tập X là B-không xác định ngoài nếu BX và BX U

4) Tập X là B-không xác định hoàn toàn nếu BX và BX U

1.1.2 Bảng quyết định đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều

ứng dụng là bảng quyết định đầy đủ, gọi tắt là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc tính điều kiện và tập

thuộc tính quyết định Tức là DS U C, D V f, , với C D

Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào C, tức

là với mọi u v U C u, , C v kéo theo D u D v Ngược lại thì gọi là không nhất quán hay mâu thuẫn Theo định nghĩa miền dương, bảng quyết định là nhất quán khi và chỉ khi POS C D U Trong trường hợp bảng không nhất quán thì

C

POS D chính là tập con cực đại của U sao cho phụ thuộc hàm C D đúng

1.1.3 Tập rút gọn và tập lõi

Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba

nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute)

và thuộc tính dư thừa (redundant attribute) Thuộc tính lõi là thuộc tính

không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính lõi xuất

hiện trong tất cả các tập rút gọn của bảng quyết định Thuộc tính dư thừa là

những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút gọn nào

Trang 15

của bảng quyết định Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập

rút gọn nào đó của bảng quyết định

Với bảng quyết định DS U C, D V f, , Thuộc tính c C được gọi là

không cần thiết (dispensable) trong DS nếu POS C D POS(C c) D ; Ngược

lại, c được gọi là cần thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi và được ký hiệu là PCORE C Khi đó, thuộc tính cần thiết chính là thuộc tính lõi Như vậy, thuộc tính không cần thiết là

thuộc tính dư thừa hoặc thuộc tính rút gọn

Nếu tập thuộc tính R C thỏa mãn:

1) POS R( )D POS C( )D

2) r R POS, R r ( )D POS C( )D

thì R là một tập rút gọn của C Tập rút gọn định nghĩa như trên còn gọi là tập

rút gọn Pawlak

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai

Mô hình tập thô truyền thống do Pawlak đề xuất [10] là công cụ hiệu quả để giải quyết bài toán phân lớp trên các hệ thông tin đầy đủ dựa trên quan

hệ tương đương Tuy nhiên trong thực tế, các hệ thông tin thường thiếu giá trị trên miền giá trị của thuộc tính, gọi là các hệ thông tin không đầy đủ Trong

hệ thông tin không đầy đủ, Kryszkiewicz [5] được xem là người đầu tiên mở rộng quan hệ tương đương thành quan hệ dung sai và xây dựng mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi là mô hình tập thô dung sai Trong mục này, chúng tôi trình bày các khái niệm cơ bản về mô hình tập thô dung sai

Trang 16

1.2.1 Hệ thông tin không đầy đủ

Xét hệ thông tin IS U A V f, , , , nếu tồn tại u U và a A sao cho a u

thiếu giá trị thì IS được gọi là hệ thông tin không đầy đủ Ta biểu diễn giá trị thiếu là „*‟ và hệ thông tin không đầy đủ là IIS U A V f, , ,

Xét hệ thông tin không đầy đủ IIS U A V f, , , ), với tập thuộc tính P A

ta định nghĩa một quan hệ nhị phân trên U như sau

Quan hệ SIM P không phải là quan hệ tương đương vì chúng có tính

phản xạ, đối xứng nhưng không có tính bắc cầu SIM P là một quan hệ dung

sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên U Theo

[5], SIM P a P SIM a

Gọi S P u là tập v U u v, SIM P S P u là tập lớn nhất các đối

tượng không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là

một lớp dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai

sinh bởi quan hệ SIM(P) trên U là U SIM P/ , khi đó các lớp dung sai trong

/

vì chúng có thể giao nhau và u U S P u U Ký hiệu tập tất cả các phủ của U

sinh bởi các tập con thuộc tính P A là COVER U

Tương tự hệ thông tin đầy đủ, các tập P-xấp xỉ dưới và P-xấp xỉ trên của X

trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX, được xác định

Trang 17

Với các tập xấp xỉ được định nghĩa như trên, mô hình tập thô truyền thống được mở rộng thành mô hình tập thô dung sai, nghĩa là mô hình tập thô dựa trên quan hệ dung sai

1.2.2 Bảng quyết định không đầy đủ

Xét bảng quyết định DS U C, D V f, , , nếu tồn tại u U và c C sao cho c u thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ Ta

biểu diễn giá trị thiếu là „*‟ và bảng quyết định không đầy đủ là

thiết D chỉ gồm một thuộc tính quyết định duy nhất d

Cho bảng quyết định không đầy đủ IDS U C, d V f, , Với B C,

u U, B( )u f d v v S u B( ) gọi là hàm quyết định suy rộng, nếu | C( ) | 1u

với mọi u U thì IDS là nhất quán, trái lại IDS là không nhất quán [5]

Tương tự trong bảng quyết định đầy đủ, với B C, miền dương của d đối

với B, ký hiệu là POS B( d ), được định nghĩa POS B( d ) {BX X| U / { }}d ,

khi đó IDS là nhất quán khi và chỉ khi POS B( d ) U

Ví dụ 1.2 Xét bảng quyết định không đầy đủ IDS U C, d V f, , cho ở Bảng 1.2, với U { ,u u u u u u1 2 , 3 , 4 , 5 , 6 }, C { ,a a a a1 2 , 3 , 4 } với a 1 (Đơn giá), a 2 (Km

đã đi), a 3 (Kích thước), a 4 (Tốc độ tối đa), d (Gia tốc)

Bảng 1.2 Bảng quyết định không đầ đủ về các xe hơi

Trang 18

Ô tô Đơn giá Km đã

C u {Tốt, Tuyệt hảo}, C(u6) {Tốt, Tuyệt hảo}

Do đó, IDS là bảng quyết định không nhất quán

1.3 Rút gọn thuộc tính trong bảng quyết định không đầy đủ

1.3.1 Tổng quan về các phương pháp rút gọn thuộc tính

Rút gọn thuộc tính theo tiếp cận tập thô truyền thống của Pawlak [10] là chủ đề nghiên cứu sôi động trong nhiều năm qua [1] Tuy nhiên trong các bài toán thực tế, các hệ thông tin thường thiếu giá trị trên miền giá trị của thuộc tính, còn gọi là các hệ thông tin không đầy đủ Ví dụ, trong các kho dữ liệu thuộc lĩnh vực y khoa, các bác sỹ thường không thu thập đủ các triệu trứng của các bệnh nhân để chuẩn đoán bệnh Trên hệ thông tin không đầy đủ, các nhà nghiên cứu quan tâm đến việc xây dựng các mô hình hiệu quả nhằm giải quyết bài toán rút gọn thuộc tính và trích lọc luật Một trong những giải pháp hiệu quả

là việc mở rộng mô hình tập thô truyền thống thành mô hình tập thô dung sai dựa trên quan hệ dung sai do Kryszkiewicz [5] đề xuất Giống như cách tiếp cận mô hình tập thô truyền thống, các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai cũng thực hiện các bước sau đây:

Trang 19

1) Đưa ra khái niệm tập rút gọn dựa trên một độ đo được xây dựng 2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng

đóng góp của thuộc tính vào việc phân lớp tập đối tượng Thuộc tính có độ quan trọng càng lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại

3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo

tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc tính)

Cho bảng quyết định không đầy đủ IDS U A, d và tập thuộc tính điều kiện R A Theo tiếp cận mô hình tập thô dung sai, R được gọi là tập rút gọn của bảng quyết định DS nếu R bảo toàn “khả năng phân lớp” của DS, nghĩa là việc phân lớp đối tượng dựa trên tập thuộc tính R tương đương với tập thuộc tính A Khả năng phân lớp được “lượng hóa” bằng độ chắc chắn của tập luật

quyết định sẽ trình bày ở phần sau Mỗi phương pháp rút gọn thuộc tính đều đưa

ra một độ đo nhằm lượng hóa khả năng phân lớp và đưa ra định nghĩa tập rút gọn dựa trên độ đo được chọn

Kryszkiewicz [5] đưa ra khái niệm đầu tiên về tập rút gọn của bảng quyết định không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm quyết định suy rộng của tất cả các đối tượng

Định nghĩa 2.1 [5] Cho bảng quyết định không đầy đủ IDS U A, d Nếu

(2) '

R R, tồn tại u Usao cho R' u A u

thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng

Trang 20

Theo tiếp cận mô hình tập thô dung sai, cho đến nay đã có rất nhiều phương pháp rút gọn thuộc tính dựa trên các độ đo khác nhau đã được công bố [3, 7, 8, 14] Trong công trình [3, 8], các tác giả đã tổng kết khá đầy đủ các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và các tập rút gọn tương ứng

Bảng 1.3 Các phương pháp rút gọn thuộc tính trong công trình [3, 8]

R

3 Phương pháp sử dụng hàm ấn

định

Tập rút gọn dựa trên hàm ấn định

R

Trang 21

1.3.2 Phân nhóm các phương pháp rút gọn thuộc tính

Như đã trình bày ở trên, mỗi phương pháp rút gọn thuộc tính đều đưa ra định nghĩa về tập rút gọn và xây dựng thuật toán heuristic tìm tập rút gọn Do

đó, có thể nói rằng tập rút gọn là kết quả của phương pháp rút gọn thuộc tính

Vì vậy, việc phân nhóm các phương pháp rút gọn thuộc tính cũng dựa vào tập rút gọn và được thực hiện theo nguyên tắc: các phương pháp có tập rút gọn như nhau được phân thành một nhóm Trong công trình [3, 8], các tác giả đã công bố về mối liên hệ giữa các tập rút gọn và kết quả phân nhóm các phương pháp rút gọn thuộc tính như sau:

1) Nếu bảng quyết định nhất quán, các tập rút gọn R P, R , R , R M, R I ,

TM

R ,R D, R là tương đương nhau

2) Nếu bảng quyết định không nhất quán:

- Tập rút gọn dựa trên hàm quyết định suy rộng (R ) tương đương với tập rút gọn dựa trên hàm ấn định R

- Tập rút gọn dựa trên hàm quyết định suy rộng (R ) tương đương với tập rút gọn dựa trên ma trận phân biệt (R M)

- Tập rút gọn dựa trên lượng thông tin (R I ) tương đương với tập rút gọn dựa trên ma trận dung sai (R TM)

- Tập rút gọn dựa trên metric (R D) tương đương với tập rút gọn dựa trên

độ đo lượng thông tin (R I ) [7]

- Tập rút gọn dựa trên miền dương (R P) là tập con của tập rút gọn dựa

trên hàm quyết định suy rộng (R ), nghĩa là: nếu R là một tập rút gọn dựa trên hàm quyết định suy rộng thì tồn tại R P R với R P là một tập rút gọn dựa trên miền dương

Trang 22

- Tập rút gọn dựa trên hàm quyết định suy rộng (R ) là tập con của tập

rút gọn dựa trên lượng thông tin (R I ), nghĩa là: nếu R I là một tập rút gọn dựa trên lượng thông tin thì tồn tại R R I với R là một tập rút gọn dựa trên hàm quyết định suy rộng

- Tập rút gọn dựa trên hàm quyết định suy rộng (R ) là tập con của tập

rút gọn dựa trên hàm phân bố (R ), nghĩa là: nếu R là một tập rút gọn phân

bố thì tồn tại R R với R là một tập rút gọn dựa trên hàm quyết định suy rộng

Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ không nhất quán được biểu diễn bằng sơ đồ sau:

Hình 1.1 Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ

Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [3, 8] đã thực hiện phân nhóm các tập rút gọn và chỉ ra mối liên quan hệ giữa các tập rút gọn của các nhóm Cụ thể:

Các tập rút gọn trong bảng không nhất quán được chia thành bốn nhóm:

Trang 23

Nhóm 3: Bao gồm các tập rút gọn R I , R TM , R D

Nhóm 4: Bao gồm tập rút gọn R

Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:

Nếu R3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn

Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc

tính trong bảng quyết định không đầy đủ cũng được phân thành bốn nhóm

tương ứng

Trang 24

1.4 Kết luận chương 1

Chương 1 trình bày các khái niệm cơ bản nhất về bảng quyết định đầy

đủ, bảng quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai

Chương 2 tiếp theo, luận văn trình bày phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong công trình [14] Sử dụng hàm phân biệt mở rộng, chương 2 cũng trình bày các thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn trong trường hợp

bổ sung, loại bỏ tập thuộc tính

Trang 25

Chương 2 CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI

BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH

Chương này trình bày hai nội dung chính như sau:

1) Phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong công trình [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng

2) Dựa vào hàm phân biệt mở rộng, chương này trình bày hai thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn của bảng quyết định không đầy

đủ

2.1 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng

Trong lý thuyết tập thô truyền thống, Skowron đã đưa ra khái niệm ma trận phân biệt và hàm phân biệt để tìm tập rút gọn trong bảng quyết định đầy

đủ Dựa trên hướng tiếp cận này, luận văn trình khái niệm ma trận phân biệt

mở rộng (generalized discernibility function) và hàm phân biệt mở rộng (generalized discernibility matrix) để tìm tập rút gọn của bảng quyết định không đầy đủ Phương pháp heuristic cũng bao gồm các bước: xây dựng ma trận phân biệt và hàm phân biệt mở rộng, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụng hàm phân biệt mở rộng, xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng

Trang 26

2.1.1 Ma trận phân biệt và hàm phân biệt mở rộng

Định nghĩa 2.1 Cho bảng quyết định không đầy đủ IDS U A, d với

R A và U n Ma trận phân biệt mở rộng của IDStrên tập thuộc chính R,

ký hiệu M R m nxn , là ma trận vuông cấp n, mỗi phần tử có giá trị 0 hoặc 1,

được định nghĩa như sau:

U

IDS , với U u1 ,u2 ,u2 ,u3 ,u4 ,u5 ,u6 và A a a a a1, , ,2 3 4 với a 1 (Đơn

giá) a 2 (Màu sắc), a 3 (Kích thước), a 4 (Độ phân giải), d ={Chất lượng}

Bảng 2.1 Bảng quyết định không đầy đủ mô tả về các tivi

thước

Độ phân giải

Chất lượng

Trang 27

Khi đó, ma trận phân biệt mở rộng của IDS trên tập thuộc tính A là:

0 0 0 1 0 0

0 1 0 1 0 0

1 1 1 0 1 1

0 1 0 1 0 0

Định nghĩa 2.3 Cho bảng quyết định không đầy đủ IDS U A, d , với

R A và M R m,j nxn là ma trận phân biệt mở rộng của IDS trên tập thuộc

0 0 0 1 0 0

1 1 1 0 1 1

0 0 0 1 0 0

R

M

Trang 28

tính R Khi đó, hàm phân biệt mở rộng của IDS trên R, ký hiệu là DIS R , được định nghĩa như sau:

n i n j ij

m R

A DIS

DIS tương ứng là ma trận phân biệt mở rộng và hàm phân biệt mở rộng của

IDS trên tập thuộc tính A Khi đó, DIS R DIS ( A) khi và chỉ khi R u A u

với u U

2.1.2 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng

Trong mục này, luận văn trình bày phương pháp heuristic rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng Giống như các phương pháp heuristic khác, phương pháp trình bày cũng bao gồm các bước: định nghĩa tập rút gọn dựa trên hàm phân biệt mở rộng; định nghĩa độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng độ quan trọng của thuộc tính làm tiêu chuẩn lựa chọn thuộc tính

Định nghĩa 2.4 Cho bảng quyết định không đầy đủ IDS U A, d Nếu

(1) DIS R DIS ( A)

Trang 29

(2) '

thì R được gọi là một tập rút gọn của IDS dựa trên hàm phân biệt mở rộng

Mệnh đề 2.3 cho thấy rằng tập rút gọn sử dụng hàm phân biệt mở rộng tương đương với tập rút gọn sử dựa trên hàm quyết định suy rộng Do đó,

phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng thuộc Nhóm 2

(theo kết quả phân nhóm các phương pháp rút gọn thuộc tính trình bày ở Chương 1)

Định nghĩa 2.5 Cho bảng quyết định không đầy đủ IDS U A, d , R A và

R DIS a

SIG R in

Từ Mệnh đề 2.2 ta có SIG R out a 0 và SIG R in a 0 Do đó, SIG R out a và

a

SIG R in được tính bởi lượng thay đổi hàm phân biệt mở rộng khi thêm thuộc

tính a vào R hoặc loại bỏ a khỏi R và SIG R out a , SIG R in a càng lớn thì lượng

thay đổi này càng lớn, hay thuộc tính a càng quan trọng và ngược lại

Tiếp theo, chúng tôi đề xuất thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu chuẩn đánh giá độ quan trọng của thuộc tính Ý tưởng của thuật toán là xuất phát từ tập thuộc tính rỗng R: , lần lượt bổ sung vào tập R

các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm được tập rút gọn

Thuật toán đề xuất sử dụng chiến lược Thêm – Xóa [12]

Trang 30

Thuật toán 2.1 Thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng

hàm phân biệt mở rộng

Đầu vào: Bảng quyết định không đầy đủ IDS U A, d

Đầu ra: Một tập rút gọn R

// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất;

2 While DIS R DIS ( A) do

3 Begin

R

R A a m out

Định dạng
Số trang	60
Dung lượng	1,31 MB