Bao gồm: - Nghiên cứu phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng, gồm các bước: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọ
Trang 1ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 2Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi,
Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội Người đã tận tình hướng dẫn và giúp đỡ em hoàn thành luận văn này
Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ thông tin đã
dạy bảo, giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học và quá
trình em làm luận văn
Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công
nghệ thông tin và truyền thông Thái Nguyên đã tận tình dạy bảo, động viên, giúp đỡ và tạo điều kiện cho em trong suốt thời gian học tập và nghiên cứu
Cuối cùng xin chân thành cảm ơn bạn bè, người thân và gia đình luôn
là người đồng hành, động viên, chhia sẻ những khó khăn trong suốt thời
gian hoàn thành luận văn
Học viên
Trang 3
Tôi xin cam đoan đề tài "Nghiên cứu một số thuật toán gia tăng cho
việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ” là công
trình nghiên cứu được tôi thực hiện dưới sự hướng dẫn của giáo viên hướng dẫn khoa học
Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy
từ nguồn tài liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng Tôi xin chịu trách nhiệm về luận văn của mình
Học viên
Vũ Văn Tiệp
Trang 4LỜI CẢM ƠN i
LỜI CAM ĐOAN iii
Danh mục các thuật ngữ vi
Danh sách bảng vii
MỞ ĐẦU 1
Chương 1 TỔNG QUAN 4
1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 4
1.1.1 Hệ thông tin đầy đủ 4
1.1.2 Bảng quyết định đầy đủ 7
1.1.3 Tập rút gọn và tập lõi 7
1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 8
1.2.1 Hệ thông tin không đầy đủ 9
1.2.2 Bảng quyết định không đầy đủ 10
1.3 Rút gọn thuộc tính trong bảng quyết định không đầy đủ 11
1.3.1 Tổng quan về các phương pháp rút gọn thuộc tính 11
1.3.2 Phân nhóm các phương pháp rút gọn thuộc tính 14
1.4 Kết luận chương 1 17
Chương 2 CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 18 2.1 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 18
2.1.1 Ma trận phân biệt và hàm phân biệt mở rộng 19
2.1.2 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 21
2.2 Các thuật toán tiếp cận gia tăng tìm tập rút gọn khi bổ sung, loại bỏ tập thuộc tính 25 2.2.1 Thuật toán tìm tập rút gọn khi bổ sung tập thuộc tính 25
2.2.2 Thuật toán tìm tập rút gọn khi loại bỏ tập thuộc tính 29
2.3. Kết luận chương 2 Error! Bookmark not defined. Chương 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 34
3.1 Bài toán 34
3.2 Phân tích, lựa chọn công cụ 34
Trang 53.2.2 Các thuật toán tìm tập rút gọn khi bổ sung và loại bỏ tập thuộc tính 37
3.3 Đánh giá kết quả thử nghiệm 39
3.3.1 Kết quả thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng 39 3.3.2 Kết quả thử nghiệm thuật toán tìm tập rút gọn khi bổ sung tập thuộc tính 41
3.3.3 Kết quả thử nghiệm thuật toán tìm tập rút gọn khi loại bỏ tập thuộc tính 45
KẾT LUẬN 49
Tài liệu tham khảo 50
Phụ lục 52
Trang 6Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh
Hệ thông tin đầy đủ Complete Information System
Hệ thông tin không đầy đủ Incomplete Information System
Bảng quyết định đầy đủ Complete Decision Table
Bảng quyết định không đầy đủ Incomplete Decision Table
Quan hệ không phân biệt được Indiscernibility Relation
Rút gọn thuộc tính Attribute Reduction
Trang 7Danh sách bảng
Bảng 1.1 Bảng thông tin về bệnh cúm 6
Bảng 1.2 Bảng quyết định không đầ đủ về các xe hơi 10
Bảng 1.3 Các phương pháp rút gọn thuộc tính trong công trình [3, 8] 13
Bảng 2.1 Bảng quyết định không đầy đủ mô tả về các tivi 19
Bảng 2.1 Bảng quyết định không đầy đủ mô tả về các tivi (tiếp theo) 24
Bảng 2.3 Bảng quyết định không đầy đủ về tivi khi bổ sung tập thuộc tính 26
Bảng 3.1 Kết quả thực hiện Thuật toán 2.1 và Thuật toán MBAR 39
Bảng 3.2 Tập rút gọn của Thuật toán 2.1 và Thuật toán MBAR 40
Bảng 3.3 Kết quả thực hiện Thuật toán 2.1 trên bộ số liệu ban đầu 42
Bảng 3.4 Kết quả thực hiện Thuật toán 2.1 sau khi lấy ngẫu nhiên 60% số thuộc tính điều kiện 42
Bảng 3.5 Kết quả thực hiện Thuật toán 2.2 tìm tập rút gọn khi bổ sung 40% số thuộc tính vào 43
Bảng 3.6 Kết quả thực hiện Thuật toán 2.1 trên bộ số liệu ban đầu 45
Bảng 3.7 Kết quả thực hiện Thuật toán 2.1 sau khi loại ngẫu nhiên 40% số thuộc tính điều kiện 46
Bảng 3.8 Kết quả thực hiện Thuật toán 2.3 tìm tập rút gọn khi loại bỏ 40% số thuộc tính điều kiện 47
Trang 8MỞ ĐẦU
Lý thuyết tập thô - do Zdzislaw Pawlak [10] đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc chắn Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá dữ liệu và đánh giá kết quả thu được Rút gọn thuộc tính và trích lọc luật quyết định (luật phân lớp) là hai ứng dụng chính của lý thuyết tập thô trong khai phá dữ liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn trích lọc luật thuộc giai đoạn khai phá dữ liệu Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa nhằm tím tập con nhỏ nhất của tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp của bảng quyết định Dựa trên tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất
Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc tính, gọi là các bảng quyết định không đầy đủ Trên bảng quyết định không đầy đủ, Kryszkiewicz [5] đã mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa trên mô hình tập thô dung sai, một số công trình công bố trong mấy năm gần đây đã đề xuất một số độ đo không chắc chắn nhằm giải quyết bài toán rút gọn thuộc tính và trích lọc luật, đáng chú ý là các công bố được liệt kê trong công trình [8]
Luận văn đặt ra hai mục tiêu chính:
1) Tổng hợp các công bố về các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai, trên cơ
Trang 9sở đó nghiên cứu phương pháp gia tăng rút gọn thuộc tính sử dụng hàm phân biệt mở rộng trong trường hợp bổ sung, loại bỏ tập thuộc tính Bao gồm:
- Nghiên cứu phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng, gồm các bước: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng
- Nghiên cứu hướng tiếp cận gia tăng rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong trường hợp bổ sung, loại bỏ tập thuộc tính
2) Cài đặt thuật toán rút gọn thuộc tính trong bảng quyết định không đầy
đủ sử dụng hàm phân biệt mở rộng và các thuật toán gia tăng trong trường hợp bổ sung, loại bỏ tập thuộc tính Thử nghiệm và đánh giá kết quả trên các
bộ số liệu từ kho dữ liệu UCI
Đối tượng nghiên cứu của luận văn là các bảng quyết định không đầy đủ
khi bổ sung, loại bỏ tập thuộc tính
Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc
tính ở bước tiền xử lý số liệu trong quá trình khai phá dữ liệu
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên
cứu thực nghiệm Về nghiên cứu lý thuyết: tổng hợp và nắm bắt các kết quả nghiên cứu đã công bố Về nghiên cứu thực nghiệm: luận văn thực hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho
dữ liệu UCI [13], so sánh và đánh giá nghiên cứu thực nghiệm với nghiên cứu lý thuyết
Trang 10Bố cục của luận văn gồm phần mở đầu và hai chương nội dung, phần
kết luận và danh mục các tài liệu tham khảo
Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô của Pawlak [10] và mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi tắt là mô hình tập thô dung sai [5] Trình bày tổng quan các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai
Chương 2 trình bày hai nội dung chính:
- Thứ nhất là phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn
và độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng
- Thứ hai là xây dựng thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn của bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong trường hợp bổ sung, loại bỏ tập thuộc tính [14]
Chương 3 trình bày kết quả thử nghiệm và đánh giá các thuật toán: bao gồm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng và thuật toán gia tăng tìm tập rút gọn sử dụng hàm phân biệt mở rộng trong trường hợp bổ sung và loại bỏ tập thuộc tính Thử nghiệm được thực hiện trên các
bộ số liệu mẫu từ kho dữ liệu UCI [13]
Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng phát triển tiếp theo
Trang 11Chương 1 TỔNG QUAN
Chương này trình bày các khái niệm cơ bản về mô hình tập thô truyền thống trên các hệ thông tin đầy đủ do Pawlak [10] đề xuất và mô hình tập thô dung sai trên các hệ thông tin không đầy đủ do Kryszkiewicz [5] đề xuất Chương này cũng trình bày tổng quan các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai
1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống
1.1.1 Hệ thông tin đầy đủ
Hệ thông tin đầy đủ, gọi tắt là hệ thông tin, là một bảng dữ liệu gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách hình thức,
hệ thông tin được định nghĩa như sau
Định nghĩa 1.1 Hệ thông tin là một bộ tứ IS U A V f, , , trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính;
a
a A
V V với V a là tập giá trị của thuộc tính a A; f U: A V a là hàm thông tin, a A u U, f u a, V a
Với mọi u U a, A, ta ký hiệu giá trị thuộc tính a tại đối tượng u là
a u thay vì f u a, Nếu B b b1, 2, ,b k A là một tập con các thuộc tính thì
ta ký hiệu bộ các giá trị b u i bởi B u Như vậy, nếu u và v là hai đối tượng,
thì ta viết B u B v nếu b u i b v i với mọi i 1, ,k
Xét hệ thông tin IS U A V f, , , , mỗi tập con các thuộc tính P A xác
định một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi
quan hệ tương đương trên U Nếu u v, IND P thì hai đối tượng u và v không
Trang 12phân biệt được bởi các thuộc tính trong P Quan hệ tương đương IND P xác định
một phân hoạch trên U, ký hiệu là U IND P/ hay U P/ Ký hiệu lớp tương đương
,
P
Cho hệ thông tin IS U A V f, , , , tập thuộc tính B A và tập đối tượng
X U Trong lý thuyết tập thô truyền thống của Pawlak [10], để biểu diễn tập
X thông qua các lớp tương đương của U B/ (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương
đương của U B/ Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính
B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là lượt là BX và
BX, được xác định như sau:
Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn
tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
B
BN X BX BX : B-miền biên của X , U BX : B-miền ngoài của X
B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc
X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể
viết lại
/
Trong trường hợp BN B X thì X được gọi là tập chính xác (exact
set), ngược lại X được gọi là tập thô (rough set)
Với B D, A , ta gọi B-miền dương của D là tập được xác định như sau
Trang 13Rõ ràng POS B( )D là tập tất cả các đối tượng u sao cho với mọi v U mà
Trang 141 2 3 4 /
2) Tập X là B-không xác định trong nếu BX và BX U
3) Tập X là B-không xác định ngoài nếu BX và BX U
4) Tập X là B-không xác định hoàn toàn nếu BX và BX U
1.1.2 Bảng quyết định đầy đủ
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều
ứng dụng là bảng quyết định đầy đủ, gọi tắt là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc tính điều kiện và tập
thuộc tính quyết định Tức là DS U C, D V f, , với C D
Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào C, tức
là với mọi u v U C u, , C v kéo theo D u D v Ngược lại thì gọi là không nhất quán hay mâu thuẫn Theo định nghĩa miền dương, bảng quyết định là nhất quán khi và chỉ khi POS C D U Trong trường hợp bảng không nhất quán thì
C
POS D chính là tập con cực đại của U sao cho phụ thuộc hàm C D đúng
1.1.3 Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba
nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute)
và thuộc tính dư thừa (redundant attribute) Thuộc tính lõi là thuộc tính
không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính lõi xuất
hiện trong tất cả các tập rút gọn của bảng quyết định Thuộc tính dư thừa là
những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút gọn nào
Trang 15của bảng quyết định Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập
rút gọn nào đó của bảng quyết định
Với bảng quyết định DS U C, D V f, , Thuộc tính c C được gọi là
không cần thiết (dispensable) trong DS nếu POS C D POS(C c) D ; Ngược
lại, c được gọi là cần thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi và được ký hiệu là PCORE C Khi đó, thuộc tính cần thiết chính là thuộc tính lõi Như vậy, thuộc tính không cần thiết là
thuộc tính dư thừa hoặc thuộc tính rút gọn
Nếu tập thuộc tính R C thỏa mãn:
1) POS R( )D POS C( )D
2) r R POS, R r ( )D POS C( )D
thì R là một tập rút gọn của C Tập rút gọn định nghĩa như trên còn gọi là tập
rút gọn Pawlak
1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai
Mô hình tập thô truyền thống do Pawlak đề xuất [10] là công cụ hiệu quả để giải quyết bài toán phân lớp trên các hệ thông tin đầy đủ dựa trên quan
hệ tương đương Tuy nhiên trong thực tế, các hệ thông tin thường thiếu giá trị trên miền giá trị của thuộc tính, gọi là các hệ thông tin không đầy đủ Trong
hệ thông tin không đầy đủ, Kryszkiewicz [5] được xem là người đầu tiên mở rộng quan hệ tương đương thành quan hệ dung sai và xây dựng mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi là mô hình tập thô dung sai Trong mục này, chúng tôi trình bày các khái niệm cơ bản về mô hình tập thô dung sai
Trang 161.2.1 Hệ thông tin không đầy đủ
Xét hệ thông tin IS U A V f, , , , nếu tồn tại u U và a A sao cho a u
thiếu giá trị thì IS được gọi là hệ thông tin không đầy đủ Ta biểu diễn giá trị thiếu là „*‟ và hệ thông tin không đầy đủ là IIS U A V f, , ,
Xét hệ thông tin không đầy đủ IIS U A V f, , , ), với tập thuộc tính P A
ta định nghĩa một quan hệ nhị phân trên U như sau
Quan hệ SIM P không phải là quan hệ tương đương vì chúng có tính
phản xạ, đối xứng nhưng không có tính bắc cầu SIM P là một quan hệ dung
sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên U Theo
[5], SIM P a P SIM a
Gọi S P u là tập v U u v, SIM P S P u là tập lớn nhất các đối
tượng không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là
một lớp dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai
sinh bởi quan hệ SIM(P) trên U là U SIM P/ , khi đó các lớp dung sai trong
/
vì chúng có thể giao nhau và u U S P u U Ký hiệu tập tất cả các phủ của U
sinh bởi các tập con thuộc tính P A là COVER U
Tương tự hệ thông tin đầy đủ, các tập P-xấp xỉ dưới và P-xấp xỉ trên của X
trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX, được xác định
Trang 17Với các tập xấp xỉ được định nghĩa như trên, mô hình tập thô truyền thống được mở rộng thành mô hình tập thô dung sai, nghĩa là mô hình tập thô dựa trên quan hệ dung sai
1.2.2 Bảng quyết định không đầy đủ
Xét bảng quyết định DS U C, D V f, , , nếu tồn tại u U và c C sao cho c u thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ Ta
biểu diễn giá trị thiếu là „*‟ và bảng quyết định không đầy đủ là
thiết D chỉ gồm một thuộc tính quyết định duy nhất d
Cho bảng quyết định không đầy đủ IDS U C, d V f, , Với B C,
u U, B( )u f d v v S u B( ) gọi là hàm quyết định suy rộng, nếu | C( ) | 1u
với mọi u U thì IDS là nhất quán, trái lại IDS là không nhất quán [5]
Tương tự trong bảng quyết định đầy đủ, với B C, miền dương của d đối
với B, ký hiệu là POS B( d ), được định nghĩa POS B( d ) {BX X| U / { }}d ,
khi đó IDS là nhất quán khi và chỉ khi POS B( d ) U
Ví dụ 1.2 Xét bảng quyết định không đầy đủ IDS U C, d V f, , cho ở Bảng 1.2, với U { ,u u u u u u1 2 , 3 , 4 , 5 , 6 }, C { ,a a a a1 2 , 3 , 4 } với a 1 (Đơn giá), a 2 (Km
đã đi), a 3 (Kích thước), a 4 (Tốc độ tối đa), d (Gia tốc)
Bảng 1.2 Bảng quyết định không đầ đủ về các xe hơi
Trang 18Ô tô Đơn giá Km đã
C u {Tốt, Tuyệt hảo}, C(u6) {Tốt, Tuyệt hảo}
Do đó, IDS là bảng quyết định không nhất quán
1.3 Rút gọn thuộc tính trong bảng quyết định không đầy đủ
1.3.1 Tổng quan về các phương pháp rút gọn thuộc tính
Rút gọn thuộc tính theo tiếp cận tập thô truyền thống của Pawlak [10] là chủ đề nghiên cứu sôi động trong nhiều năm qua [1] Tuy nhiên trong các bài toán thực tế, các hệ thông tin thường thiếu giá trị trên miền giá trị của thuộc tính, còn gọi là các hệ thông tin không đầy đủ Ví dụ, trong các kho dữ liệu thuộc lĩnh vực y khoa, các bác sỹ thường không thu thập đủ các triệu trứng của các bệnh nhân để chuẩn đoán bệnh Trên hệ thông tin không đầy đủ, các nhà nghiên cứu quan tâm đến việc xây dựng các mô hình hiệu quả nhằm giải quyết bài toán rút gọn thuộc tính và trích lọc luật Một trong những giải pháp hiệu quả
là việc mở rộng mô hình tập thô truyền thống thành mô hình tập thô dung sai dựa trên quan hệ dung sai do Kryszkiewicz [5] đề xuất Giống như cách tiếp cận mô hình tập thô truyền thống, các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai cũng thực hiện các bước sau đây:
Trang 191) Đưa ra khái niệm tập rút gọn dựa trên một độ đo được xây dựng 2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng
đóng góp của thuộc tính vào việc phân lớp tập đối tượng Thuộc tính có độ quan trọng càng lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại
3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo
tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc tính)
Cho bảng quyết định không đầy đủ IDS U A, d và tập thuộc tính điều kiện R A Theo tiếp cận mô hình tập thô dung sai, R được gọi là tập rút gọn của bảng quyết định DS nếu R bảo toàn “khả năng phân lớp” của DS, nghĩa là việc phân lớp đối tượng dựa trên tập thuộc tính R tương đương với tập thuộc tính A Khả năng phân lớp được “lượng hóa” bằng độ chắc chắn của tập luật
quyết định sẽ trình bày ở phần sau Mỗi phương pháp rút gọn thuộc tính đều đưa
ra một độ đo nhằm lượng hóa khả năng phân lớp và đưa ra định nghĩa tập rút gọn dựa trên độ đo được chọn
Kryszkiewicz [5] đưa ra khái niệm đầu tiên về tập rút gọn của bảng quyết định không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm quyết định suy rộng của tất cả các đối tượng
Định nghĩa 2.1 [5] Cho bảng quyết định không đầy đủ IDS U A, d Nếu
(2) '
R R, tồn tại u Usao cho R' u A u
thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng
Trang 20Theo tiếp cận mô hình tập thô dung sai, cho đến nay đã có rất nhiều phương pháp rút gọn thuộc tính dựa trên các độ đo khác nhau đã được công bố [3, 7, 8, 14] Trong công trình [3, 8], các tác giả đã tổng kết khá đầy đủ các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và các tập rút gọn tương ứng
Bảng 1.3 Các phương pháp rút gọn thuộc tính trong công trình [3, 8]
R
3 Phương pháp sử dụng hàm ấn
định
Tập rút gọn dựa trên hàm ấn định
R
Trang 211.3.2 Phân nhóm các phương pháp rút gọn thuộc tính
Như đã trình bày ở trên, mỗi phương pháp rút gọn thuộc tính đều đưa ra định nghĩa về tập rút gọn và xây dựng thuật toán heuristic tìm tập rút gọn Do
đó, có thể nói rằng tập rút gọn là kết quả của phương pháp rút gọn thuộc tính
Vì vậy, việc phân nhóm các phương pháp rút gọn thuộc tính cũng dựa vào tập rút gọn và được thực hiện theo nguyên tắc: các phương pháp có tập rút gọn như nhau được phân thành một nhóm Trong công trình [3, 8], các tác giả đã công bố về mối liên hệ giữa các tập rút gọn và kết quả phân nhóm các phương pháp rút gọn thuộc tính như sau:
1) Nếu bảng quyết định nhất quán, các tập rút gọn R P, R , R , R M, R I ,
TM
R ,R D, R là tương đương nhau
2) Nếu bảng quyết định không nhất quán:
- Tập rút gọn dựa trên hàm quyết định suy rộng (R ) tương đương với tập rút gọn dựa trên hàm ấn định R
- Tập rút gọn dựa trên hàm quyết định suy rộng (R ) tương đương với tập rút gọn dựa trên ma trận phân biệt (R M)
- Tập rút gọn dựa trên lượng thông tin (R I ) tương đương với tập rút gọn dựa trên ma trận dung sai (R TM)
- Tập rút gọn dựa trên metric (R D) tương đương với tập rút gọn dựa trên
độ đo lượng thông tin (R I ) [7]
- Tập rút gọn dựa trên miền dương (R P) là tập con của tập rút gọn dựa
trên hàm quyết định suy rộng (R ), nghĩa là: nếu R là một tập rút gọn dựa trên hàm quyết định suy rộng thì tồn tại R P R với R P là một tập rút gọn dựa trên miền dương
Trang 22- Tập rút gọn dựa trên hàm quyết định suy rộng (R ) là tập con của tập
rút gọn dựa trên lượng thông tin (R I ), nghĩa là: nếu R I là một tập rút gọn dựa trên lượng thông tin thì tồn tại R R I với R là một tập rút gọn dựa trên hàm quyết định suy rộng
- Tập rút gọn dựa trên hàm quyết định suy rộng (R ) là tập con của tập
rút gọn dựa trên hàm phân bố (R ), nghĩa là: nếu R là một tập rút gọn phân
bố thì tồn tại R R với R là một tập rút gọn dựa trên hàm quyết định suy rộng
Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ không nhất quán được biểu diễn bằng sơ đồ sau:
Hình 1.1 Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ
Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [3, 8] đã thực hiện phân nhóm các tập rút gọn và chỉ ra mối liên quan hệ giữa các tập rút gọn của các nhóm Cụ thể:
Các tập rút gọn trong bảng không nhất quán được chia thành bốn nhóm:
Trang 23Nhóm 3: Bao gồm các tập rút gọn R I , R TM , R D
Nhóm 4: Bao gồm tập rút gọn R
Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:
Nếu R3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn
Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc
tính trong bảng quyết định không đầy đủ cũng được phân thành bốn nhóm
tương ứng
Trang 241.4 Kết luận chương 1
Chương 1 trình bày các khái niệm cơ bản nhất về bảng quyết định đầy
đủ, bảng quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai
Chương 2 tiếp theo, luận văn trình bày phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong công trình [14] Sử dụng hàm phân biệt mở rộng, chương 2 cũng trình bày các thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn trong trường hợp
bổ sung, loại bỏ tập thuộc tính
Trang 25Chương 2 CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI
BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH
Chương này trình bày hai nội dung chính như sau:
1) Phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong công trình [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng
2) Dựa vào hàm phân biệt mở rộng, chương này trình bày hai thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn của bảng quyết định không đầy
đủ
2.1 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng
Trong lý thuyết tập thô truyền thống, Skowron đã đưa ra khái niệm ma trận phân biệt và hàm phân biệt để tìm tập rút gọn trong bảng quyết định đầy
đủ Dựa trên hướng tiếp cận này, luận văn trình khái niệm ma trận phân biệt
mở rộng (generalized discernibility function) và hàm phân biệt mở rộng (generalized discernibility matrix) để tìm tập rút gọn của bảng quyết định không đầy đủ Phương pháp heuristic cũng bao gồm các bước: xây dựng ma trận phân biệt và hàm phân biệt mở rộng, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụng hàm phân biệt mở rộng, xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng
Trang 262.1.1 Ma trận phân biệt và hàm phân biệt mở rộng
Định nghĩa 2.1 Cho bảng quyết định không đầy đủ IDS U A, d với
R A và U n Ma trận phân biệt mở rộng của IDStrên tập thuộc chính R,
ký hiệu M R m nxn , là ma trận vuông cấp n, mỗi phần tử có giá trị 0 hoặc 1,
được định nghĩa như sau:
U
IDS , với U u1 ,u2 ,u2 ,u3 ,u4 ,u5 ,u6 và A a a a a1, , ,2 3 4 với a 1 (Đơn
giá) a 2 (Màu sắc), a 3 (Kích thước), a 4 (Độ phân giải), d ={Chất lượng}
Bảng 2.1 Bảng quyết định không đầy đủ mô tả về các tivi
thước
Độ phân giải
Chất lượng
Trang 27Khi đó, ma trận phân biệt mở rộng của IDS trên tập thuộc tính A là:
0 0 0 1 0 0
0 0 0 1 0 0
0 1 0 1 0 0
1 1 1 0 1 1
0 1 0 1 0 0
0 1 0 1 0 0
Định nghĩa 2.3 Cho bảng quyết định không đầy đủ IDS U A, d , với
R A và M R m,j nxn là ma trận phân biệt mở rộng của IDS trên tập thuộc
0 0 0 1 0 0
0 0 0 1 0 0
0 0 0 1 0 0
1 1 1 0 1 1
0 0 0 1 0 0
0 0 0 1 0 0
R
M
Trang 28tính R Khi đó, hàm phân biệt mở rộng của IDS trên R, ký hiệu là DIS R , được định nghĩa như sau:
n i n j ij
m R
A DIS
DIS tương ứng là ma trận phân biệt mở rộng và hàm phân biệt mở rộng của
IDS trên tập thuộc tính A Khi đó, DIS R DIS ( A) khi và chỉ khi R u A u
với u U
2.1.2 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng
Trong mục này, luận văn trình bày phương pháp heuristic rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng Giống như các phương pháp heuristic khác, phương pháp trình bày cũng bao gồm các bước: định nghĩa tập rút gọn dựa trên hàm phân biệt mở rộng; định nghĩa độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng độ quan trọng của thuộc tính làm tiêu chuẩn lựa chọn thuộc tính
Định nghĩa 2.4 Cho bảng quyết định không đầy đủ IDS U A, d Nếu
(1) DIS R DIS ( A)
Trang 29(2) '
thì R được gọi là một tập rút gọn của IDS dựa trên hàm phân biệt mở rộng
Mệnh đề 2.3 cho thấy rằng tập rút gọn sử dụng hàm phân biệt mở rộng tương đương với tập rút gọn sử dựa trên hàm quyết định suy rộng Do đó,
phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng thuộc Nhóm 2
(theo kết quả phân nhóm các phương pháp rút gọn thuộc tính trình bày ở Chương 1)
Định nghĩa 2.5 Cho bảng quyết định không đầy đủ IDS U A, d , R A và
R DIS a
SIG R in
Từ Mệnh đề 2.2 ta có SIG R out a 0 và SIG R in a 0 Do đó, SIG R out a và
a
SIG R in được tính bởi lượng thay đổi hàm phân biệt mở rộng khi thêm thuộc
tính a vào R hoặc loại bỏ a khỏi R và SIG R out a , SIG R in a càng lớn thì lượng
thay đổi này càng lớn, hay thuộc tính a càng quan trọng và ngược lại
Tiếp theo, chúng tôi đề xuất thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu chuẩn đánh giá độ quan trọng của thuộc tính Ý tưởng của thuật toán là xuất phát từ tập thuộc tính rỗng R: , lần lượt bổ sung vào tập R
các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm được tập rút gọn
Thuật toán đề xuất sử dụng chiến lược Thêm – Xóa [12]
Trang 30Thuật toán 2.1 Thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng
hàm phân biệt mở rộng
Đầu vào: Bảng quyết định không đầy đủ IDS U A, d
Đầu ra: Một tập rút gọn R
// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất;
2 While DIS R DIS ( A) do
3 Begin
R
R A a m out