DANH MỤC CÁC THUẬT NGỮ Hệ thông tin ñầy ñủ Complete Information System Bảng quyết ñịnh ñầy ñủ Comple Decision Table Bảng quyết ñịnh không nhất quán Inconsistent Decision Table Quan hệ kh
Trang 1ðẠI HỌC THÁI NGUYÊN TRƯỜNG ðẠI HỌC CNTT VÀ TRUYỀN THÔNG
Trang 2HOÀNG THỊ NGỌC MAI
MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH
TRONG BẢNG QUYẾT ðỊNH
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ ðức Thi
Thái Nguyên - Năm 2013
Trang 3LỜI CẢM ƠN I LỜI CAM ðOAN II DANH MỤC CÁC THUẬT NGỮ III BẢNG CÁC KÝ HIỆU IV DANH SÁCH BẢNG VI
LỜI MỞ ðẦU 1
Chương 1 KHÁI QUÁT VỀ TẬP THÔ VÀ RÚT GỌN THUỘC TÍNH 5
1.1 Hệ thông tin 5
1.2 Tập thô 7
1.3 Bảng quyết ñịnh 9
1.4 Tập rút gọn và lõi 9
1.5 Ma trận phân biệt và hàm phân biệt 10
1.6 Mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn thuộc tính 11
1.6.1 Entropy trong hệ thông tin và các tính chất 12
1.6.2 Tập rút gọn dựa trên entropy thông tin 14
1.6.3 Mối liên hệ của tập rút gọn dựa trên Shannon entropy 15
1.6.4 Mối liên hệ của tập rút gọn dựa trên ñộ khác biệt giữa các tri thức 19
1.7 Sự thay ñổi các ñộ ño ñánh giá hiệu năng bảng quyết ñịnh khi rút gọn thuộc tính 22
1.7.1 Luật quyết ñịnh và các ñộ ño cổ ñiển 23
1.7.2 ðộ ño hiệu năng cải tiến của bảng quyết ñịnh 24
1.7.3 ðề xuất ñộ ño hiệu năng mới của bảng quyết ñịnh 25
1.7.4 Sự thay ñổi các ñộ ño khi thực hiện các phương pháp rút gọn thuộc tính 29
1.8 Kết luận Chương 1 31
Chương 2 MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ðỊNH 32
2.1 Mở ñầu 32
Trang 42.2.2 Thuật toán tìm tập rút gọn sử dụng Liang entropy 43
2.3 Thuật toán tìm tập rút gọn sử dụng metric 48
2.3.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn 49
2.3.2 Metric trên hệ thông tin 50
2.3.3 Tập rút gọn dựa trên metric 51
2.3.4 Thuật toán tìm tập rút gọn sử dụng metric 54
2.3.5 Thuật toán tìm tập rút gọn theo ngưỡng chắc chắn của bảng quyết ñịnh 59
2.4 Kết luận Chương 2 61
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 62
3.1 Bài toán 62
3.2 Phương pháp 62
3.3 Xây dựng chương trình thử nghiệm 63
3.4 Kết quả thử nghiệm 64
3.5 Kết luận chương 3 65
KẾT LUẬN 66
TÀI LIỆU THAM KHẢO 67
Trang 5LỜI CẢM ƠN
Tơi xin chân thành cảm ơn đến:
- Trường ðại học Cơng nghệ thơng tin và Truyền thơng, ðại học Thái Nguyên
- Viện Cơng nghệ Thơng tin và các thầy cơ giáo đã trực tiếp giảng dạy, hướng dẫn tơi trong quá trình học tập và định hướng quan trọng trong việc hình thành ý tưởng nghiên cứu
Tơi xin chân thành cảm ơn Chi bộ, BGH, BCH Cơng đồn, Tổ Khoa học tự nhiên và cán bộ giáo viên, nhân viên Trường THPT Bình ðộ đã động viên, giúp đỡ, tạo điều kiện thuận lợi cho tơi trong quá trình học tập và nghiên cứu
ðặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc đến GS.TS Vũ ðức Thi, người thầy đã trực tiếp hướng dẫn và giúp đỡ tơi hồn thành luận văn tốt nghiệp
Cuối cùng xin chân thành cảm ơn những người thân và gia đình đã luơn chia sẻ mọi khĩ khăn và là chỗ dựa vững chắc về vật chất, tinh thần để tơi hồn thành chương trình khĩa học cũng như trong suốt thời gian hồn thành luận văn
Mặc dù đã cĩ nhiều cố gắng, nhưng do thời gian cĩ hạn và bản thân cịn những hạn chế nhất định nên luận văn khơng tránh khỏi thiếu sĩt Mong nhận được các ý kiến phê bình, gĩp ý của Hội đồng chấm luận văn, các thầy cơ giáo và đồng nghiệp để cơng trình nghiên cứu được hồn chỉnh hơn
Thái Nguyên, tháng 01 năm 2013
Tác giả
Hồng Thị Ngọc Mai
Trang 6LỜI CAM ðOAN
Tôi xin cam ñoan luận văn này là công trình do tôi tổng hợp và nghiên cứu Trong luận văn có sử dụng một số tài liệu tham khảo như ñã nêu trong phần tài liệu tham khảo
Tác giả Luận văn
Hoàng Thị Ngọc Mai
Trang 7DANH MỤC CÁC THUẬT NGỮ
Hệ thông tin ñầy ñủ Complete Information System
Bảng quyết ñịnh ñầy ñủ Comple Decision Table
Bảng quyết ñịnh không nhất quán Inconsistent Decision Table
Quan hệ không phân biệt ñược Indiscernibility Relation
Rút gọn thuộc tính Attribute Reduction
Liang entropy Entropy mới của Jiye Liang trong [28]
Trang 8u a Giá trị ñối tượng của ucủa thuộc tính a
[ ]u B Lớp tương ñương chứa u của quan hệ IND B( )
NERED C Tập tất cả các rút gọn dựa trên Liang entropy với phân
hoạch cải tiến
Trang 9d K P K Q Metric giữa hai tri thức K P( ) và K Q( ) trên hệ thông tin
ñầy ñủ sử dụng khoảng cách Jaccard giữa hai tập hợp ( ) ( )
( , )
DQP K P K Q Lượng tri thức khác nhau giữa K P( ) và K Q( )
Trang 10DANH SÁCH BẢNG
Bảng 1.1 Bảng thông tin về bệnh cúm 6
Bảng 1.3 Bảng quyết ñịnh minh họa Ví dụ 1.3 18
Bảng 1.4 Bảng quyết ñịnh minh họa Ví dụ 1.4 46
Bảng 2.1 Bảng quyết ñịnh minh họa Ví dụ 2.1 46
Bảng 2.2 Bảng quyết ñịnh về bệnh cảm cúm 53
Bảng 2.3 Bảng quyết ñịnh minh họa Ví dụ 2.5 57
Trang 11LỜI MỞ ðẦU
1 Tính cấp thiết của ñề tài
Hiện nay, trên thế giới có rất nhiều thuật toán khai phá tri thức bằng cách phân lớp và rời rạc dữ liệu như: Sử dụng cây quyết ñịnh, phương pháp thống kê, các mạng nơ ron, thuật toán di truyền, Trong một vài năm gần ñây,
lý thuyết tâp thô ñược nhiều nhóm nghiên cứu hoạt ñộng trong lĩnh vực tin học nói chung và khai phá tri thức nói riêng nghiên cứu và áp dụng trong thực
tế Lý thuyết tập thô ñược xây dựng trên nền tảng toán học vững chắc giúp cung cấp những công cụ hữu ích ñể giải quyết những bài toán phân lớp dữ liệu và khai phá luật, Lý thuyết tập thô do Zdzisaw Pawlak ñề xuất vào những năm ñầu thập niên tám mươi của thế kỉ hai mươi - ñược xem là công
cụ hữu hiệu ñể giải quyết các bài toán phân lớp, phát hiện luật… chứa dữ liệu
mơ hồ, không chắc chắn Từ khi xuất hiện, lý thuyết tập thô ñã ñược sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm rời rạc hóa dữ liệu, rút gọn thuộc tính, trích lọc các tri thức tiềm ẩn trong dữ liệu dưới dạng các mẫu, các luật quyết ñịnh
Trong lý thuyết tập thô, dữ liệu ñược biểu diễn thông qua một hệ thống thông tin IS=(U A, ) với U là tập các ñối tượng và A là tập các thuộc tính Mỗi tập thuộc tính B⊆ A xác ñịnh một quan hệ tương ñương IND B( ) trên U
còn gọi là quan hệ không phân biệt ñược
Rút gọn thuộc tính là bài toán quan trọng nhất trong lý thuyết tập thô Mục tiêu của bài toán rút gọn thuộc tính trong bảng quyết ñịnh là loại bỏ (tối ña) các thuộc tính dư thừa mà phần thuộc tính còn lại cũng chứa ñầy ñủ thông tin của bảng Dựa vào tập thuộc tính rút gọn thu ñược, việc sinh luật và phân lớp
Trang 12ñạt hiệu quả cao nhất ðối với một bảng quyết ñịnh có thể có nhiều tập rút gọn khác nhau Tuy nhiên, trong thực tế thường không ñòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm ñược một tập rút gọn “tốt nhất” theo một tiêu chuẩn ñánh giá nào ñó là ñủ Vì vậy, phần lớn các phương pháp rút gọn thuộc tính ñều ñề xuất các thuật toán heuristic tìm tập rút gọn theo một tiêu chuẩn tối ưu ñặt ra
Trong mấy năm gần ñây chứng kiến sự phát triển mạnh mẽ và sôi ñộng của các nghiên cứu về rút gọn thuộc tính Phần lớn các nghiên cứu này ñều tập trung vào ba phương pháp: phương pháp dựa trên miền dương; phương pháp sử dụng các ñộ ño không chắc chắn và phương pháp sử dụng ma trận phân biệt
Lĩnh vực nghiên cứu ñộ ño không chắc chắn của tri thức trong mấy năm gần ñây tập trung vào hai hướng tiếp cận chính là entropy thông tin và hạt tri thức
Một lớp ñặc biệt của các hệ thông tin ñóng vai trò quan trọng trong nhiều ứng dụng là bảng quyết ñịnh Bảng quyết ñịnh DS là một hệ thống thông tin với tập thuộc tính A ñược chia thành hai tập con khác rỗng rời nhau C và D Nói cách khác, DS=(U C, ∪D) với C∩D= ∅ Bảng quyết ñịnh là nhất quán khi phụ thuộc hàm C→D là ñúng ðối với bảng quyết ñịnh nhất quán, tập con các thuộc tính ñiều kiện R⊆C ñược gọi là một tập rút gọn của bảng quyết ñịnh nếu R là tập tối thiểu thỏa mãn phụ thuộc hàm R→D Nếu xem bảng quyết ñịnh là quan hệ r trên tập thuộc tính C∪D và D chỉ chứa một thuộc tính duy nhất { }d thì khái niệm tập rút gọn trong bảng quyết ñịnh tương ñương với khái niệm tập tối thiểu của thuộc tính { }d trên quan hệ Khi ñó, các bài toán liên quan ñến tập rút gọn trong bảng quyết ñịnh có thể giải quyết bằng các kết quả liên quan ñến tập tối thiểu của một thuộc tính trên quan hệ
Trang 13Xuất phát từ những lý do trên, tôi chọn và nghiên cứu ñề tài luận văn:
“Một số phương pháp rút gọn thuộc tính trong bảng quyết ñịnh”.
2 Mục tiêu của luận văn
Mục tiêu của luận văn là tìm hiểu một số vấn ñề liên quan ñến phương pháp rút gọn thuộc tính trong hệ thông tin và xây dựng chương trình thử nghiệm một số thuật toán liên quan ñến tập rút gọn trong bảng quyết ñịnh
3 Các ñóng góp của luận văn
Luận văn ñã có hai ñóng góp chính sau:
Thứ nhất là nghiên cứu mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn thuộc tính, tìm hiểu các ñộ ño cải tiến ñánh giá hiệu năng bảng quyết ñịnh và nghiên cứu sự thay ñổi của các ñộ ño này khi thực hiện các phương pháp rút gọn thuộc tính
Thứ hai là xây dựng toán heuristic tìm tập rút gọn của bảng quyết ñịnh ñầy ñủ sử dụng Liang entropy và metric
4 Bố cục luận văn
Luận văn ñược viết trong ba chương, gồm 66 trang Chương một khái quát về tập thô và rút gọn thuộc tính
Chương hai trình bày kết quả nghiên cứu về ba vấn ñề Thứ nhất nghiên
cứu mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn thuộc tính, bao gồm phương pháp dựa trên miền dương, phương pháp sử dụng các ñộ ño không chắc chắn (entropy thông tin, hạt tri thức) và phương pháp sử dụng ma
trận phân biệt Thứ hai là tìm hiểu các ñộ ño cải tiến ñánh gia hiệu năng của
bảng quyết ñịnh và nghiên cứu sự thay ñổi của các ñộ ño này khi thực hiện
các phương pháp rút gọn thuộc tính Thứ ba là ñề xây dựng chương trình thử
nghiệm thuật toán heuristic (Thuật toán 2.2, Thuật toán 2.4 và Thuật toán 2.5) Thuật toán 2.5 tìm tập rút gọn Pawlak sử dụng Liang entropy, Thuật toán 2.4 tìm tập rút gọn trong bảng quyết ñịnh sử dụng metric, Thuật toán 2.5 là
Trang 14cải tiến của Thuật toán 2.4 tìm tập rút gọn theo tham số là ngưỡng chắc chắn của bảng quyết ñịnh Các thuật toán trên ñều có ñộ phức tạp tính toán trong thời gian ña thức và hiệu quả hơn các thuật toán khác ñã công bố
Chương 3 Chương trình thử nghiệm xây dựng bảng quyết ñịnh dựa trên Thuật toán 2.4 tìm tập rút gọn sử dụng metric ñã trình bày trong Chương 2 Kết quả thử nghiệm của chương trình thực hiện trên công cụ mã nguồn mở NetBeans IDE 7.1.2
Cuối cùng, phần kết luận nêu những ñóng góp của luận văn, hướng phát triển và những vấn ñề quan tâm của tác giả
Trang 15Chương 1 KHÁI QUÁT VỀ TẬP THÔ VÀ RÚT GỌN THUỘC TÍNH
1.1 Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm Pcột ứng với P thuộc tính và n hàng ứng với n ñối tượng Một cách hình thức, nó ñược ñịnh nghĩa như sau:
ðịnh nghĩa 1.1 Hệ thống thông tin là một bộ tứ IS =(U A V f, , , )trong ñó U là tập hữu hạn, khác rỗng các ñối tượng; A là tập hữu hạn, khác rỗng các thuộc
Với mỗi u U∈ , a A∈ , ta kí hiệu giá trị của ñối tượng u tại thuộc tính a
là u a( ) thay vì f u a( , ) Nếu B={b b1, , ,2 b k}⊆A là một tập con các thuộc tính thì ta sẽ ký hiệu bộ các giá trị u b( )i bởi u B( ) Như vậy, nếu u và v là hai ñối tượng, thì ta sẽ viết u B( )=v B( ) nếu u b( )i =v b( )i với mọi i= 1, ,k
Cho hệ thông tin IS=(U A V f, , , ) Với mỗi tập con các thuộc tính p⊆A, tồn tại một quan hệ hai ngôi trên U, ký hiệu là IND P( ), xác ñịnh bởi
( ) { ( , ) | , ( , ) ( , ) }
IND P = u v ∈U U× ∀ ∈a P f u a = f v a ( )
IND P ñược gọi là quan hệ B - không phân biệt ñược Dễ thấy rằng ñây là một quan hệ tương ñương trên U Nếu (v u, )∈IND B( ) thì hai ñối tượng u và
v không phân biệt bởi các thuộc tính trong B Ký hiệu phân hoạch của U
sinh bởi quan hệ tương ñương IND P( ) là U IND P/ ( ), viết tắt là U P/ Mỗi phần tử trong U P/ là một lớp tương ñương hay một khối Ký hiệu lớp tương ñương U P/ chứa ñối tượng u là [ ]u P, khi ñó, [ ]u P ={v U u v∈ | ,( )∈IND P( ) }
Trang 16ðịnh nghĩa 1.2 [11, 12] Cho hệ thống thông tin IS =(U A V f, , , ) với P Q, ⊆A
Ta nói:
1) U P U Q/ = / khi và chỉ khi ∀ ∈u U u,[ ]P =[ ]u Q 2) U P U Q/ ≤ / khi và chỉ khi ∀ ∈u U u,[ ]P⊆[ ]u Q; 3) U P U Q/ < / khi và chỉ khi ∀ ∈u U u,[ ]P ⊆[ ]u Q và tồn tại v sao cho [ ]v P⊆[ ]v Q
Tính chất 1.1 [11, 12] Xét hệ thống thông tin S =(U A V f, , , ) và P Q, ⊆A Nếu P⊆Q thì U Q U P/ ≤ /
Tính chất 1.2 [11, 12] Xét hệ thông tin IS = (U, A, V, ƒ) và P Q, ⊆A Với mọi
u U∈ ta có [ ]u P Q∪ =[ ]u P∩[ ]u Q
Ví dụ 1.1 Xét hệ thông tin IS =(U A V f, , , ) biểu diễn các triệu chứng cúm của bệnh nhân cho ở Bảng 1.1 với U =(u u u u u u u u1, , , , , , ,2 3 4 5 6 7 8), C=(a a a1, ,2 3) với a1
(ðau ñầu), a2 (Thân nhiệt), a3 (Cảm cúm)
Trang 17Ta có U /{ }a1 ={ {u u u1 , , 2 3} {, u u u u u4 , , , , 5 6 7 8} },
{ }2 { { 1 4} { 2 5 7} { 3 6 8} }
U a = u u u u u u u u , { }3 { { 1 4 5 8} { 2 3 6 7} }
U a = u u u u u u u u , { 1 2} { { } { } { } { }{1 2 3 4 5 7} { 6 8} }
bởi hợp của một số hữu hạn các lớp tương ñương của U B/ Có hai cách xấp
xỉ tập ñối tượng X thông qua thuộc tính B, ñược gọi là B -xấp xỉ dưới và B
-xấp xỉ trên của X , ký hiệu lần lượt là BXvà BX ñược xác ñịnh như sau:
( )
B
BN X =BX BX− : B - miền biên của X
U BX− : B -miền ngoài của X
Dễ thấy B - miền biên của X là tập chứa các ñối tượng có thể thuộc X, còn miền B - miền ngoài của X chứa các ñối tượng chắc chắn không thuộc
Trang 18X Sử dụng các lớp của phân hoạch U B/ , các xấp xỉ dưới và trên của X có thể viết lại
BX = UY U B Y∈ ⊆X
BX = UY U B Y∈ ∩X = ∅ Trong trường hợp BN B( )X = ∅, X ñược gọi là tập rõ, ngược lại X ñược gọi là tập thô
Với B D, ⊆A , ta gọi B - miền dương của D là tập ñược xác ñịnh như sau
2) Tập X là B - không xác ñịnh trong nếu BX = ∅ và BX ≠U
3) Tập X là B - không xác ñịnh ngoài nếu BX ≠ ∅ và BX U=
4) Tập X là B - không xác ñịnh hoàn toàn nếu BX ≠ ∅ và BX U=
Trang 191.3 Bảng quyết ñịnh
Một lớp ñặc biệt của các hệ thống thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết ñịnh
Bảng quyết ñịnh là một dạng ñặc biệt của hệ thông tin, trong ñó tập các
thuộc tính A bao gồm hai tập con rời nhau: tập các thuộc tính ñiều kiện C và tập các thuộc tính quyết ñịnh D Như vậy, bảng quyết ñịnh là một hệ thống thông tin DS= ( ,U C∪D V f, , ) trong ñó C∩D= ∅
Bảng quyết ñịnh DS ñược gọi là nhất quán khi và chỉ khi phụ thuộc hàm C→D nghiệm ñúng, nghĩa là với mọi u v U u C, ∈ , ( ) =v C( ) kéo theo
( ) ( )
u D =v D Ngược lại, DS là không nhất quán Dễ thấy bảng quyết ñịnh DS
là nhất quán khi và chỉ khi POS D C( ) =U Trong trường hợp bảng không nhất quán thì POS D C( ) chính là tập con cực ñại của U sao cho phụ thuộc hàm
C→D ñúng
1.4 Tập rút gọn và lõi
Trong bảng quyết ñịnh, các thuộc tính ñiều kiện ñược chia thành ba nhóm: thuộc tính lõi, thuộc tính cơ bản (hay thuộc tính rút gọn) và thuộc tính
dư thừa (hay thuộc tính không cần thiết)
- Thuộc tính lõi là thuộc tính cần thiết và cốt yếu, không thể thiếu trong việc phân lớp chính xác tập dữ liệu
- Thuộc tính dư thừa là những thuộc tính không cần thiết, nghĩa là có thể loại bỏ các thuộc tính như vậy mà không ảnh hưởng ñến việc phân lớp dữ liệu
- Thuộc tính cơ bản là thuộc tính nằm trong một tập rút gọn nào ñó
Ta sẽ ñưa ra các ñịnh nghĩa chính xác như sau:
Trang 20ðịnh nghĩa 1.3 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ), thuộc tính a C∈
ñược gọi là cần thiết nếu POS D C( ) ≠POS(C−{ }a)( )D Tập tất cả các thuộc tính cần thiết trong DS ñược gọi là tập lõi và kí hiệu là CORE C P( )
ðịnh nghĩa 1.4 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ) Nếu R⊆Cthỏa mãn:
1) POS D R( ) =POS D C( )
Tập rút gọn ñịnh nghĩa như trên gọi là một tập rút gọn dựa trên miền dương theo Pawlak ðịnh nghĩa 1.4 cho thấy, R là tập rút gọn nếu nó là tập tối thiểu thỏa mãn POS D R( ) =POS D C( ) Có thể tồn tại nhiều tập rút gọn của C
Ta kí hiệu PRED C P( ) là tập tất cả các rút gọn theo Pawlak của C Khi ñó,
Từ ñịnh nghĩa về tập lõi và tập rút gọn, ta ñịnh nghĩa thuộc tính dư thừa
và thuộc tính cơ bản trong bảng quyết ñịnh như sau:
ðịnh nghĩa 1.5 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ) và a C∈ Ta nói rằng a là thuộc tính cơ bản của C nếu tồn tại một rút gọn R PRED C∈ ( )sao cho
1.5 Ma trận phân biệt và hàm phân biệt
Người ñầu tiên xây dựng phương pháp rút gọn thuộc tính trong bảng quyết ñịnh là Skowron Ông ñã ñưa ra khái niệm ma trận phân biệt và hàm phân biệt, từ ñó ñưa ra phương pháp tìm tập rút gọn sử dụng hàm phân biệt
Trang 21ðịnh nghĩa 1.7 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ), ma trận phân biệt của DS là ma trận M =( )m ij cấp n n× , trong ñó mỗi phần tử m ij là một tập con các thuộc tính ñiều kiện, xác ñịnh như sau:
, , ,
(B− b )∩mij ≠ ∅ với mọi m ≠ ∅ij thì b ñược gọi là thuộc tính dư thừa trong B, trái lại bñược gọi là không dư thừa (cần thiết) trong B Tập tất cả các thuộc tính không dư thừa (cần thiết) trong C ñược gọi là tập lõi và ký hiệu là
( )
S
ðịnh nghĩa 1.9 [7, 18] Cho bảng quyết ñịnh DS= ( ,U C∪{ }d V f, , ), M =( )m ij
là ma trận phân biệt của DS Nếu R⊆C thỏa mãn
1) B∩m ij ≠ ∅ với mọi m ≠ ∅ ij
2) Với mọi b B B∈ , −{ }b không thỏa mãn (1)
thì B ñược gọi là một rút gọn của C
Ký hiệu SRED C( ) là tập tất cả các rút gọn của C theo phương pháp ma
Phần này trình bày kết quả nghiên cứu về mối liên hệ giữa tập rút gọn
sử dụng các ñộ ño tính không chắc chắn (Shannon entropy và ñộ ño sự khác nhau giữa các tri thức) với tập rút gọn dựa trên miền dương và sử dụng ma trận phân biệt
Trang 221.6.1 Entropy trong hệ thông tin và các tính chất
Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ) và P Q, ⊆C Giả sử
1.6.1.1 Shannon entropy trong hệ thông tin và các tính chất
ðịnh nghĩa 1.10 Shannon entropy của tập thuộc tính P ñược ñịnh nghĩa bởi:
X
U
= biểu diễn lực lượng của tập
X và giả thiết 0.log 0 02 =
1, ,
i= U thì H P( ) ñạt giá trị lớn nhất log |2 U| Vì vậy ta có
2
0 ≤H P( ) log | ≤ U|
Mệnh ñề 1.1 [16, 17] (Tính ñơn ñiệu) Nếu P Q≤ thì H P( )≥H Q( )
ðịnh nghĩa 1.11 Shannon entropy có ñiều kiện của D khi ñã biết C ñược ñịnh nghĩa
không chắc chắn trong bảng quy ñịnh
Mệnh ñề 1.2 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ) Nếu Q⊆P⊆C thì
Trang 23Mệnh ñề 1.2 cho thấy tập thuộc tính ñiều kiện càng ít (phân hoạch sinh bởi tập thuộc tính càng thô) thì Entropy có ñiều kiện của D ñối lập với tập thuộc tính ñó càng lớn, nghĩa là các ñối tượng không nhất quán càng nhiều
1.6.1.2 Liang Entropy trong hệ thông tin và các tính chất
ðể cải tiến công thức tính toán Shannon entropy, Jiye Liang và các cộng sự [9] ñề xuất ñộ ño entropy mới, gọi là Liang entropy
ðịnh nghĩa 1.12 Liang Entropy của tập thuộc tính P ñược ñịnh nghĩa bởi:
ðịnh nghĩa 1.13 Liang Entropy có ñiều kiện của D khi ñã biết C ñược ñịnh nghĩa bởi:
Trang 241.6.2 Tập rút gọn dựa trên entropy thông tin
1.6.2.1 Tập rút gọn dựa trên Shannon entropy
ðịnh nghĩa 1.14 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ), thuộc tính a C∈
gọi là cần thiết nếu H D C( | )≠H D C( | −{ }a ), trái lại thuộc tính a gọi là không cần thiết (dư thừa) Tập tất cả các thuộc tính cần thiết trong DSñược gọi là tập lõi và ký hiệu là CORE C H( )
ðịnh nghĩa 1.15 Cho bảng quyết ñịnh DS = ( ,U C∪D V f, , ) Nếu R⊆Cthỏa mãn:
1) H D R( | )=H D C( | )
2) ∀ ∈r R H D R( ( | −{ }r ) ≠H D C( | ))thì R là một rút gọn của C dựa trên Shannon entropy
Ký hiệu HRED C( ) là tập tất cả các rút gọn của C dựa trên Shannon entropy ( )
1.6.2.2 Tập rút gọn dựa trên Liang entropy
ðịnh nghĩa 1.16 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ), thuộc tính a C∈
gọi là cần thiết nếu E D C( | )≠E D C( | −{ }a ), trái lại thuộc tính a gọi là không cần thiết (dư thừa) dựa trên Liang entropy Tập tất cả các thuộc tính cần thiết trong DS dựa trên Liang entropy ñược gọi là tập lõi và ký hiệu là CORE C E( )
ðịnh nghĩa 1.17 Cho bảng quyết ñịnh DS =(U C, ∪D V f, , ) Nếu R⊆Cthỏa mãn:
1) E D R( | )=E D C( | )
2) ∀ ∈r R E D R( ( | −{ }r ) ≠E D C( | ))thì R là một rút gọn của C dựa trên Liang entropy Ký hiệu ERED C( ) là tập tất cả các rút gọn của C dựa trên Liang entropy
Trang 251.6.3 Mối liên hệ của tập rút gọn dựa trên Shannon entropy
1.6.3.1 Mối liên hệ giữa tập rút gọn Shannon entropy và tập rút gọn của Pawlak
Cho bảng quyết ñịnh DS =(U C, ∪D V f, , ), trong ñó Wang và các cộng sự
ñã chứng minh rằng với B⊆C, nếu H D B( | ) =H D C( | ) thì POS D B( ) =POS D C( )
nhưng chiều ngược lại không ñúng nếu DS không nhất quán Hơn nữa, nếu thuộc tính a A∈ là dư thừa dựa trên Shannon entropy thì a cũng dư thừa dựa trên miền dương của Pawlak và chiều ngược lại không ñúng nếu DS không nhất quán, nghĩa là CORE C P( ) ⊆CORE C H( ) Dựa vào một số kết quả trong [15], trong [3] chứng minh ñịnh lý sau về mối liên hệ giữa tập rút gọn dựa trên Shannon entropy với tập rút gọn Pawlak
ðịnh lý 1.1 [3] Cho bảng quyết ñịnh DS =(U C, ∪D V f, , ), nếu R H là một tập rút gọn của C dựa trên Shannon entropy (R H∈HRED C( )) thì tồn tại một rút
gọn R P của C dựa trên miền dương (R P∈PRED C( )) sao cho R P⊆R H
Nếu bảng quyết ñịnh DS nhất quán, khái niệm tập rút gọn dựa trên miền dương và tập rút gọn dựa trên Shannon entropy là tương ñương nhau
Ví dụ 1.3 Xét bảng quyết ñịnh DS =(U C, ∪D V f, , ) với { 1 , , , , , , 2 3 4 5 6 7}
Trang 26Rõ ràng DS không nhất quán vì POS D C( ) ={u u6, 7}≠U Ta có
1.6.3.2 Mối liên hệ giữa tập rút gọn dựa trên Shannon entropy và tập rút gọn của phương pháp ma trận phân biệt
Mệnh ñề 1.4 Cho bảng quyết ñịnh DS = ( ,U C∪D V f, , ), M là ma trận phân biệt của DS và B⊆C Với mọi m ij∈M , m ≠ ∅ ij nếu B∩m ij≠ ∅ thì
nhất hai lớp C C i0 , j0 ∈U C C/ ,( i0 ∪C j0)⊆B k0 ∈U B/ sao cho
Trang 27không thỏa mãn với mọi D k∈U D/ , nghĩa là có một lớp D p∈U D/ sao cho
Chứng minh: Suy ra từ ðịnh nghĩa 1.14, ðịnh nghĩa 1.15 và Mệnh ñề 1.8 Nếu DS không nhất quán, chiều ngược lại của Hệ quả 1.1 là không ñúng
ðịnh lý 1.2 Cho bảng quyết ñịnh DS = ( ,U C∪D V f, , ), nếu R S là một tập rút gọn của C theo phương pháp ma trận phân biệt (R S∈SRED C( ) ) thì tồn tại một tập rút gọn R H của C dựa trên Shannon entropy (R H∈HRED C( ) ) sao cho
Trang 28Chứng minh
Nếu R S∈SRED C( ) thì R S∩m ij ≠ ∅ với ∀m ij∈M và m ≠ ∅ ij Theo Mệnh ñề 1.3
ta có H D R( | )=H D C( | ), nghĩa là tồn tại R H ⊆R S sao cho R H∈HRED C( )
Ví dụ 1.4 Cho bảng quyết ñịnh DS = ( ,U C∪D V f, , ) với U ={u u u u u u1, , , , ,2 3 4 5 6}, { 1 , , 2 3}
Bảng 1.4 Bảng quyết ñịnh minh họa Ví dụ 1.4
Rõ ràng DS không nhất quán vì POS D C( ) {= u u5 , 6}≠U Ta có
{ } ( 1 ) ( { }2 ) ( )
Trang 29Theo ðịnh nghĩa 1.15, tập rút gọn phải chứa { }a3 và { }a1 hoặc { }a2 Do ñó, ( ) { { 1 , 3} {, 2 , 3} }
SRED C = a a a a Kết quả này phù hợp với ðịnh lý 1.2
1.6.4 Mối liên hệ của tập rút gọn dựa trên ñộ khác biệt giữa các tri thức
1.6.4.1 ðộ ño sự khác biệt giữa các tri thức
Cho hệ thông tin IS=(U A V f, , , ), với mỗi tập thuộc tính P⊆A, ( ) { [ ]i P| i }
K P = u u ∈U ñược gọi là một tri thức (knowledge) của Ptrên U K P
gồm U phần tử, mỗi phần tử là một khối trong phân hoạch U P/ , còn ñược
gọi là một hạt tri thức ðộ ño lượng tri thức khác nhau của tất cả các hạt tri
thức, ñược ñịnh nghĩa như sau:
ðịnh nghĩa 1.17 [8] Cho hệ thông tin IS=(U A V f, , , ), U ={u u1, , ,2 u n} Với
,
P Q⊆ A, lượng tri thức khác nhau giữa K P( ) và K Q( ), ký hiệu
( ) ( ) ( , )
1.6.4.2 Tập rút gọn dựa trên lượng tri thức khác nhau
Mệnh ñề 1.5 Cho bảng quyết ñịnh DS = ( ,U C∪D V f, , ) Nếu Q⊆P⊆C thì
( ) ( ) ( , ) ( ( ), ( ) )
Trang 30Mệnh ñề 1.15 cho thấy, nếu tập thuộc tính càng nhỏ thì lượng tri thức khác nhau giữa tập thuộc tính ñó với tập thuộc tính C càng lớn và ngược lại
Mệnh ñề 1.6 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ) với P⊆C giả sử
Trang 31Mặt khác, xét lớp tương ñương bất kỳ P U P l∈ / với
Mệnh ñề 1.7 Cho bảng quyết ñịnh DS= ( ,U C∪D V f, , ), khi ñó ta có
kiện trong ðịnh nghĩa 1.8.
Mệnh ñề 1.8 Cho bảng quyết ñịnh DS = ( ,U C∪D V f, , ) Nếu R⊆C thỏa mãn:
2) ∀ ⊆r R DQP K R( ( ( −{ }r ),K R( −{ }r ∪D) )>DQP K C K C( ( ), ( ∪D) ) )
thì R là một rút gọn của C dựa trên lượng tri thức khác nhau
Theo kết quả nghiên cứu của Zu Zhangyan và các cộng sự, tập rút gọn dựa trên Liang entropy tương ñương với tập rút gọn dựa trên ma trận phân biệt Do ñó, từ Mệnh ñề 1.7 rút ra kết luận, tập rút gọn dựa trên lượng tri thức khác nhau tương ñương với tập rút gọn dựa trên ma trận phân biệt Ký hiệu ( )
Trang 32Trong nỗ lực tìm kiếm mối liên hệ giữa các phương pháp tìm tập rút gọn, Wang Xiongbin và các cộng sự ñề nghị phương pháp rút gọn thuộc tính dựa vào các phép toán ñại số và ñã chứng minh tập rút gọn dựa trên các phép toán ñại số và tập rút gọn dựa trên Shannon entropy là tương ñương nhau Tóm lại, nếu R s∈SRED C( ) là một tập rút gọn của phương pháp sử dụng
ma trận phân biệt thì tồn tại các tập rút gọn R R R R R E, F, P, K, H sao cho
1.7 Sự thay ñổi các ñộ ño ñánh giá hiệu năng bảng quyết ñịnh khi rút gọn thuộc tính
Rút trích và ñánh giá hiệu năng tập luật quyết ñịnh là bước tiếp theo của rút gọn thuộc tính trong quá trình khai phá dữ liệu và phát hiện tri thức Một trong những ñóng góp quan trọng về việc ñánh giá hiệu năng của tập luật quyết ñịnh là công trình nghiên cứu của Quian và các cộng sự, trong ñó các tác giả ñã ñề xuất ba ñộ ño mới nhằm khắc phục các nhược ñiểm của các ñộ
ño cổ ñiển, ñó là ñộ chắc chắn, ñộ nhất quán và ñộ hỗ trợ Gần ñây nhất, tác giả Nguyễn ðức Thuần [1] ñã ñề xuất ñộ ño nhất quán cải tiến nhằm khắc phục nhược ñiểm ñộ nhất quán của Quian Tuy nhiên, các tác giả nêu trên chưa ñánh giá ñược sự thay ñổi của các ñộ ño này khi thực hiện các phương pháp rút gọn thuộc tính Hơn nữa, tác giả Nguyễn ðức Thuần chưa ñánh giá
Trang 33ñược ñiều kiện bảo toàn ñộ nhất quán cải tiến trong bảng quyết ñịnh không nhất quán khi thực hiện bổ sung hay loại bỏ các thuộc tính ñiều kiện
Trong phần này, việc tìm hiểu các ñộ ño mới khắc phục ñược nhược ñiểm các ñộ ño của Quian và nghiên cứu sự thay ñổi của các ñộ ño này khi thực hiện các phương pháp rút gọn thuộc tính Cũng trong phần này, chỉ xem xét bảng quyết ñịnh DS = ( ,U C∪D V f, , ) trên các phân hoạch U C/ và U D/ ,
do ñó DS ñược biểu diễn vắn tắt là DS=(U C, ∪D)
1.7.1 Luật quyết ñịnh và các ñộ ño cổ ñiển
Cho bảng quyết ñịnh DS=(U C, ∪D), giả sử U C/ ={X X1, 2, ,X m} và
i
Y U D C
i
Y U D
CY F
CY
∈
=∑
∑ và ñộ nhất quán (hay ñộ phụ thuộc) γC( )D ñược
Pawlak ñịnh nghĩa như sau ( ) 1
n i i C
CY D
U
γ =∑=
Trang 34Trong một số trường hợp, αC( )F dùng ñể ño ñộ chắc chắn của bảng quyết ñịnh Tuy nhiên, nhược ñiểm của ñộ ño này ñược Yuhua Qian và các cộng sự phân tích trong [13] Hơn nữa, ñộ nhất quán γC( )D cũng không biểu diễn tốt tính nhất quán của bảng quyết ñịnh vì chỉ xem xét các giá trị xấp xỉ dưới
1.7.2 ðộ ño hiệu năng cải tiến của bảng quyết ñịnh
Nhằm khắc phục nhược ñiểm các ñộ ño cổ ñiển, Yuhua Qian và cộng
sự [13] ñã ñề xuất ba ñộ ño của bảng quyết ñịnh: ñộ ño chắc chắn (certainy measure), ñộ nhất quán (consistency measure) và ñộ hỗ trợ (support measure)
ðịnh nghĩa 1.18 Cho bảng quyết ñịnh DS = ( ,U C∪D) và
{ ij | ij: i j , i / , j / , 1 , 1 }
chắn α của DSñược ñịnh nghĩa
với N i là số luật quyết ñịnh sinh bởi lớp tương ñương X i
ðộ hỗ trợ γ của DS ñược ñịnh nghĩa
2 2
Nhận xét 1.1 Yuhua Qian và các cộng sự ñã công bố
- Cho DS1=(U C, 1∪D1) và DS2=(U C, 2∪D2) là hai bảng quyết ñịnh nhất quán ngược Nếu U C/ 1=U C/ 2 và U D/ 2≤U D/ 1 thì β(DS1)≤ β(DS2) khi
( )Z ij 12
µ
∀ ≤ , và β(DS1)≥ β(DS2) khi ∀ µ( )Z ij ≥12
Trang 35- Cho DS1=(U C, 1∪D1) và DS2 =(U C, 2∪D2) là hai bảng quyết ñịnh nhất quán ngược Nếu U D/ 1=U D/ 2 và U C/ 2 ≤U C/ 1 thì β(DS1)≥ β(DS2) khi
1.7.3 ðề xuất ñộ ño hiệu năng mới của bảng quyết ñịnh
Mệnh ñề 1.9 [13] (Cực trị cho α) Cho bảng quyết ñịnh DS=(U C, ∪D) và
Giả sử U D/ ={D D1, 2, ,D n} Từ giả thiết B⊆C ta có U C U B/ ≤ / , nghĩa
là mỗi khối U B/ sẽ là tập hợp của một số khối thuộc U C/ Không mất tính chất tổng quát, chỉ cần chứng minh mệnh ñề trong trường hợp các khối của
Trang 36quán cải tiến gβ của DS ñược ñịnh nghĩa:
Trang 38Từ ñiều kiện dấu ñẳng thức của Mệnh ñề 1.15 ta suy ra
ra khi cả hai bảng quyết ñịnh nhất quán (Bổ ñề 3.2) Tuy nhiên, với các
bảng quyết ñịnh không nhất quán, không ñánh giá ñược ñiều kiện bằng nhau của ñộ ño này Từ Mệnh ñề 1.12, ñiều kiện bằng nhau của ñộ nhất quán nghiên cứu thỏa mãn với cả bảng nhất quán và không nhất quán Hơn nữa, ñiều kiện tìm hiểu ở trên chặt hơn ñiều kiện của Nguyễn ðức Thuần
- Mệnh ñề 1.12 cho thấy ñộ nhất quán tỷ lệ thuận với ñộ chắc chắn của bảng quyết ñịnh Do ñó khắc phục ñược nhược ñiểm ñộ nhất quán Yuhua Qian và các cộng sự [13]
Mệnh ñề 1.13 Cho hai bảng quyết ñịnh DS=(U C, ∪D) và DS' =(U B, ∪D) Nếu B⊆C thì γ(DS')≥ γ(DS)
Chứng minh
Theo giả thiết B⊆C ta có U C U B/ p / , nghĩa là mỗi khối U B/ sẽ là hợp của một số khối thuộc U C/ Không mất tính chất tổng quát, chỉ cần chứng minh mệnh ñề trong trường hợp các khối của U B/ trùng với các khối của U C/ , ngoại trừ chỉ một khối của U B/ là hợp của hai khối trong U C/ , nghĩa là U C/ ={X X1, 2, ,X m} và