Nói cách khác, chỉ cần trên một tập thuộc tính rút gọn có thể có được thông tin của toàn hệ thống.. Đặc biệt, quan tâm đến các phương pháp heuristic, nhằm tăng tốc độ tính toán, để từ đó
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực Nội dung luận văn có tham khảo và sử dụng các tài liệu, thông tin được đăng tải trên các ấn phẩm, tạp chí
và các trang web trích dẫn theo danh mục tài liệu tham khảo của luận văn đã nêu
Huế, tháng 11 /2010 Tác giả: Nguyễn Thị Liệu
Trang 2LỜI CẢM ƠN
Đầu tiên em xin gửi lời cảm ơn chân thành tới các Thầy Cô trong khoa CNTT, các Thầy Cô trong trường Đại Học Khoa Học Huế Suốt thời gian học tập, nghiên cứu ở trường và cụ thể là tại khoa CNTT em rất cảm kích trước
sự nhiệt tình chỉ bảo, dạy dỗ, truyền đạt nhiều kiến thức cho em và các anh chị học viên Qua đây em xin bày tỏ lòng biết ơn sâu sắc và lời cảm ơn chân thành tới các Thầy Cô giáo
Em xin bày tỏ lòng biết ơn đến Cô Hoàng Thị Lan Giao, người đã tận tình hướng dẫn và giúp đỡ em trong thời gian thực hiện luận văn tốt nghiệp này Trong thời gian làm việc với Cô không những em học hỏi được nhiều kiến thức chuyên ngành bổ ích mà còn học được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc của Cô
Em xin cảm ơn những người thân trong gia đình, tất cả các bạn bè anh chị của em, các bạn, anh chị cùng lớp Cao học KHMT 2008 đã có những ý kiến đóng góp và những lời động viên giúp em hoàn thành đề tài này
Mặc dù đã cố gắng hoàn thiện luận văn nhưng chắc chắn không thể tránh khỏi những thiếu sót Một lần nữa, em xin chân thành cảm ơn và luôn mong nhận được sự đóng góp quý báu của các Thầy Cô và tất cả mọi người
Huế, tháng 11 /2010 Nguyễn Thị Liệu
Trang 3MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC BẢNG v
DANH MỤC CÁC HÌNH ẢNH vi
MỞ ĐẦU 1
Chương 1 - CÁC KHÁI NIỆM CƠ BẢN 3
1.1 Hệ thống thông tin 3
1.1.1 Hệ thống thông tin không đầy đủ 4
1.1.2 Bảng quyết định 5
1.2 Quan hệ không phân biệt được 6
1.3 Ma trận phân biệt được 7
1.4 Xấp xỉ của tập 9
1.5 Tập rút gọn và Core 13
Chương 2 - MỘT SỐ PHƯƠNG PHÁP TÍNH CORE DỰA VÀO LÝ THUYẾT TẬP THÔ 16
2.1 Core trong hệ thống thông tin nhất quán 16
2.1.1 Phương pháp tính Core dựa vào các toán tử hệ cơ sở dữ liệu 16
2.1.2 Phương pháp tính Core dựa vào thông tin entropy 19
2.2 Core trong hệ thống thông tin không nhất quán 31
2.2.1 Phương pháp tính Core dựa vào ma trận phân biệt được 31
2.2.2 Phương pháp tính Core dựa vào miền khẳng định 33
Trang 42.3 Core dựa vào entropy thô trong hệ thống thông tin không đầy đủ 44
2.3.1 Tri thức và Entropy của tập thô 44
2.3.2 Ý nghĩa của thuộc tính đánh giá theo entropy thô 47
2.3.3 Thuật toán tính Core dựa vào Entropy thô 48
Chương 3 - CÀI ĐẶT CÁC THUẬT TOÁN 51
3.1 Thu thập mẫu dữ liệu 51
3.2 Một số thủ tục, chương trình 52
3.3 So sánh các phương pháp tính Core 57
KẾT LUẬN 60
TÀI LIỆU THAM KHẢO 62
Trang 7MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong khai phá dữ liệu, việc rút gọn thuộc tính trong hệ thống thông tin nhằm loại đi những thuộc tính dư thừa, không cần thiết Nói cách khác, chỉ cần trên một tập thuộc tính rút gọn có thể có được thông tin của toàn hệ thống Tuy nhiên, đối với một hệ thống có thể có nhiều tập rút gọn khác nhau, trong thực tế đôi khi một ứng dụng cụ thể chỉ cần một tập rút gọn phù hợp là
có thể có đầy đủ thông tin mong muốn
Core được định nghĩa bằng giao của tất cả các tập rút gọn Core=
d R
R
Re
Điều này đòi hỏi phải biết được tất cả tập rút gọn thì mới tính được Core
Do tất cả các thuộc tính trong Core đều có mặt ở bất kỳ tập rút gọn nào
và Core có thể được sử dụng hiệu quả trong việc tạo cây quyết định nhiều biến Vì vậy, vấn đề được đặt ra liệu có thể phát hiện Core một cách độc lập trước khi tìm được tập rút gọn không? Nhiều nhà nghiên cứu đã nổ lực giải quyết vấn đề này và đã có những thành công nhất định
2 Mục đích của đề tài
Đề tài này được thực hiện với mục đích tìm hiểu, tổng hợp, so sánh một
số phương pháp tính Core khác nhau dựa vào lý thuyết tập thô Đặc biệt, quan tâm đến các phương pháp heuristic, nhằm tăng tốc độ tính toán, để từ đó có thể rút ra được những phương pháp tính Core phù hợp với dữ liệu trong các tình huống bài toán cụ thể trên thực tế
3 Đối tƣợng và phạm vi nghiên cứu
Nghiên cứu lý thuyết tập thô và lý thuyết thông tin
Trang 8 Một số phương pháp tính Core trên hệ thống thông tin đầy đủ và hệ thống thông tin không đầy đủ
4 Phương pháp nghiên cứu
Tìm hiểu, tổng hợp một số phương pháp tính Core dựa vào lý thuyết tập thô Cài đặt thử nghiệm một số phương pháp
5 Ý nghĩa thực tiễn của đề tài
Trên thực tế, đã có rất nhiều nghiên cứu về phương pháp tính Core khác nhau Ví dụ: Hu đã trình bày thuật toán tính Core dựa trên ma trận phân biệt được, Dongyi Ye đã đưa ra ma trận phân biệt được dựa trên miền khẳng định và đã chứng minh rằng Core đã tính toán với thuật toán được thiết kế bằng ma trận phân biệt được là nhất quán với Core đã được tính toán dựa trên miền khẳng định… Đề tài này nhằm tìm hiểu, tổng hợp một số phương pháp tính Core có đánh giá độ phức tạp của từng phương pháp
6 Cấu trúc của luận văn
Luận văn gồm 3 chương, được tổ chức như sau:
Chương 1: Nêu một số khái niệm cơ bản trong khai phá dữ liệu và lý
thuyết tập thô có liên quan đến nội dung chính của luận văn như: Hệ thống thông tin, quan hệ không phân biệt, ma trận phân biệt được, tập xấp xỉ, tập rút gọn và Core
Chương 2: Trình bày năm phương pháp tính Core dựa vào lý thuyết tập
thô: hai phương pháp tính Core trong hệ thống thông tin nhất quán, hai phương pháp tính Core trong hệ thống thông tin không đầy đủ và một phương pháp tính Core trong hệ thống thông tin không đầy đủ
Chương 3: Cài đặt một số thuật toán và so sánh kết quả của các thuật
toán
Trang 9Chương 1 CÁC KHÁI NIỆM CƠ BẢN
Lý thuyết tập thô được đề xuất bởi Pawlak vào năm 1982 Lý thuyết này có nhiều ứng dụng thành công trong học máy, khai phá dữ liệu, trí tuệ nhân tạo và các ứng dụng khác
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần có thông tin về mọi đối tượng trong tập vũ trụ Trong lý thuyết tập thô có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào đó
và tri thức được coi là khả năng phân loại giữa các đối tượng Ở đây, sự phân loại chủ yếu dựa vào quan hệ không phân biệt được với nhau Đây chính là quan hệ quan trọng và là điểm xuất phát của lý thuyết tập thô: biên của tập thô
là không rõ ràng và để xác định biên ta phải xấp xỉ bằng các tập hợp khác nhằm mục đích cuối cùng là trả lời được rằng mọi đối tượng nào đó có thuộc tập hợp hay không Lý thuyết tập thô với cách tiếp cận như vậy đã được ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội [3] Ngoài ra, lý thuyết tập thô phân loại tất cả các thuộc tính vào 3 loại: thuộc tính Core, thuộc tính rút gọn và thuộc tính không cần thiết [10]
1.1 Hệ thống thông tin
Hệ thống thông tin IS là một cặp (U,A) Trong đó, U là tập hữu hạn các đối tượng khác rỗng (được gọi là tập vũ trụ các đối tượng) và A là tập hữu hạn các thuộc tính khác rỗng.Với mọi aA, ta ký hiệu Va là tập giá trị của a Mặt khác, nếu uU và aA thì ta sẽ ký hiệu u(a)Va là giá trị thuộc tính a của đối tượng u [2]
Trang 10Âm u Mưa Mưa Mưa
Âm u
Nóng Nóng Nóng Trung bình Mát mẻ Mát mẻ Mát mẻ
Cao
Cao
Cao
Cao Trung bình Trung bình Trung bình
Không
Có Không Không Không
Có
Có Trong đó, U= {u1, u2, u3, u4, u5, u6, u7} là tập hợp các đối tượng
A = {Quang cảnh, Nhiệt độ, Độ ẩm, Gió} là tập hợp các thuộc tính
u1(Quang cảnh) = Nắng là giá trị của thuộc tính Quang cảnh của đối tượng u1
1.1.1 Hệ thống thông tin không đầy đủ
Hệ thống thông tin IS=(U,A) được gọi là không đầy đủ nếu tồn tại thuộc tính aA và đối tượng uU mà giá trị u(a) bị mất hay nói cách khác Va
chứa giá trị null [6]
Trên hệ thống thông tin không đầy đủ, giá trị thuộc tính được chia làm hai loại:
- Giá trị bị mất, giá trị này được ký hiệu là “?”: ban đầu, giá trị thuộc
tính đó của đối tượng đang xét có tồn tại và có ảnh hưởng đến việc
Trang 11phân lớp quyết định của đối tượng Tuy nhiên, vì lý do nào đó mà giá trị này bị xóa đi và hiện tại không thể xác định được
- Giá trị điều kiện không quan trọng, giá trị này được ký hiệu là “*”:
giá trị ban đầu của đối tượng trên thuộc tính đang xét không được lưu lại do không có ý nghĩa trong việc ra quyết định phân lớp đối tượng đó
Ví dụ 1.2
Bảng 1.2 Hệ thống thông tin không đầy đủ
U Giá Kích thước Động cơ Tốc độ tối đa
?
Nhỏ Lớn Lớn
* Lớn
* Diesel Diesel Diesel Gasoline
Thấp
Cao Trung bình Trung bình
Cao
1.1.2 Bảng quyết định
Bảng quyết định là một hệ thống thông tin có dạng T=(U,C,D), với A=CD, CD=, trong đó C là tập thuộc tính điều kiện còn D là tập thuộc tính quyết định
Cao Cao Cao Cao Trung bình
Không
Có Không Không Không
Không Không
Có
Có
Có
Trang 12Trong bảng 1.3, các thuộc tính điều kiện C là: Quang cảnh, Nhiệt độ,
Độ ẩm, Gió Thuộc tính quyết định D là: Chơi tennis
Trong bảng quyết định các đối tượng giống nhau hay không phân biệt được có thể được mô tả nhiều lần Bảng quyết định mà các đối tượng có các thuộc tính điều kiện giống nhau nhưng thuộc tính quyết định khác nhau thì gọi là bảng quyết định không nhất quán, ngược lại là bảng quyết định nhất quán
1.2 Quan hệ không phân biệt đƣợc [1], [3]
Cho IS=(U,A) là một hệ thống thông tin, R là một quan hệ hai ngôi trên
U, có nghĩa là R UU, khi đó R được gọi là một quan hệ tương đương nếu
R thỏa mãn các tính chất:
Phản xạ: uU, uRu
Đối xứng: u,vU, uRv vRu
Bắc cầu: u,v,tU, uRv và vRt uRt
Với bất kỳ BA, có một quan hệ tương đương định nghĩa trên U như sau:
IND(B) = {(u,v)U2| aB, u(a) = v(a)}
IND(B) được gọi là B–quan hệ không phân biệt được
Nếu (u,v)IND(B), thì các đối tượng u và v là không phân biệt được với nhau bởi các thuộc tính trong B
Lớp tương đương chứa u của B–quan hệ không phân biệt được ký hiệu [u]B
Ký hiệu U/B là tập hợp thương của quan hệ tương đương IND(B)
Ví dụ 1.4
Trang 13Âm u Mưa Mưa Mưa
Âm u
Không
Có Không Không Không
Có
Có
Không Không
Có
Có
Có Không
Có
Các tập con không rỗng của tập thuộc tính điều kiện là {Quang cảnh}, {Gió} và {Quang cảnh, Gió}
IND(Quang cảnh) = {{u1,u2}, {u3, u7}, {u4,u5,u6 }}
IND(Gió) = {{u1, u3, u4, u5},{u2, u6, u7}}
IND({Quang cảnh, Gió }) = {{u1}, {u2}, {u3}, {u4,u5}, {u7}, {u6}}
| DdnÕu
)d(u)d(u
| Dd nÕu )}
c(u)c(u :C{cm
j i
j i
j i
ij
λNhư vậy, mij là tập hợp gồm tất cả các thuộc tính điều kiện có thể xếp các đối tượng ui và uj vào các lớp tương đương khác nhau theo phân hoạch trên U đối với thuộc tính đó Giá trị hàm ý rằng cặp đối tượng ui và uj là không phân biệt trên tập thuộc tính quyết định D Nếu mij = thì bảng quyết định là không nhất quán [1], [5]
Ví dụ 1.5 Xét bảng quyết định sau
Trang 14u5 {a,b,c,d} {a,b,c} {a,b,c,d}
u6 {a,b,c,d} {a,b,c} {a,b,c,d}
Trang 151.4 Xấp xỉ của tập [1], [2], [3]
Cho hệ thống thông tin IS=(U,A) và BA, XU Xấp xỉ dưới và xấp xỉ trên của tập X tương ứng với B, ký hiệu theo thứ tự là B X và B X được định nghĩa như sau:
}[x]
|{x B
X
Với [x]B là lớp tương đương chứa phần tử x của quan hệ IND(B)
Rõ ràng, B X X B X Tập BNB(X) =B X –B X được gọi là B– miền biên của X, bao gồm tất cả những đối tượng mà ta không thể phân lớp một cách rõ ràng thuộc vào tập X dựa trên tập thuộc tính B
U - B X là B – miền ngoài của X, bao gồm tất cả những đối tượng có thể được phân lớp chắc chắn là không thuộc X
Yes
No
No Yes
No Yes
No
Cho W = {x | Walk(x) = Yes}
Trang 16Hình 1.1: Tập xấp xỉ
Trang 18|,
|{)(X Y x x P P U IND B P X Y
Trang 19Chứng minh tương tự hoặc có thể suy ra từ 8
Từ định nghĩa của tập xấp xỉ dưới:
( )}
| { )) ((
)}
| {xU x B X
Cụ thể, cho cC, ta có định nghĩa sau:
Định nghĩa 1.1 [9] Thuộc tính c là không cần thiết trong T nếu
) ( )
(D POS( {}) D
POS C Cc , ngược lại thuộc tính c là cần thiết trong T
C- miền khẳng định của D: POS D C X
D U X
/
) (
T= (C, D) là độc lập nếu tất cả cC là cần thiết trong T
Tập các thuộc tính RC được gọi là một rút gọn của C, nếu
T’=(U,RD) là độc lập và POS R(D) POS C(D).
Trang 20Tập tất cả các thuộc tính điều kiện cần thiết trong T được gọi là lõi của
C, ký hiệu Core(C) Lưu ý rằng lõi có thể là tập rỗng và khi đó mọi tập con của P với lực lượng bằng card(C)-1 đều giữ nguyên khả năng phân loại của C
Khi loại khỏi C các thuộc tính không cần thiết thì được một rút gọn của
C Nói cách khác, rút gọn của một tập thuộc tính C là tập thuộc tính BC giữ nguyên khả năng phân loại của C, hay IND(B)=IND(C) Vì lõi của C là tập các thuộc tính cần thiết của C nên tất cả các rút gọn của C đều chứa tập thuộc tính lõi
Tập thuộc tính lõi của C là giao của tất cả các rút gọn của C, tức là:
) ( )
Trang 22Chương 2 MỘT SỐ PHƯƠNG PHÁP TÍNH CORE DỰA VÀO
LÝ THUYẾT TẬP THÔ
2.1 Core trong hệ thống thông tin nhất quán
2.1.1 Phương pháp tính Core dựa vào các toán tử hệ cơ sở dữ liệu
Nhiều mô hình tập thô đã được phát triển bởi cộng đồng tập thô trong những thập kỷ cuối bao gồm mô hình VPRS (Varied Precise Rough Set) của Ziako, mô hình GRS (General Rough Set) của Hu… Các mô hình tập thô tập trung mở rộng hạn chế của tập thô ban đầu như trình bày xác suất phân phối hoặc dữ liệu nhiễu và nhiều sự chú ý được xem là tạo ra mô hình tập thô mới
để tìm tập Core, tập rút gọn hiệu quả trong cơ sở dữ liệu lớn Dựa vào kinh nghiệm về áp dụng các mô hình trong tập cơ sở dữ liệu lớn trong ứng dụng khai phá dữ liệu, ta tìm ra một trong những hạn chế nhất của tập thô là thuật toán tính Core, tập rút gọn và nhận dạng thuộc tính không cần thiết, điều này làm hạn chế sự thích hợp của nó trong các ứng dụng khai phá dữ liệu Mượn ý tưởng chính của lý thuyết tập thô và định nghĩa lại dựa trên tập toán tử cơ sở
dữ liệu như phép chiếu, phép đếm… để có những ưu điểm hiệu quả trong việc tính Core So sánh với cách tiếp cận tập thô truyền thống, phương pháp này rất hiệu quả và có thể phát triển
Dưới đây là một định nghĩa mới đầu tiên về Core, có thể không cần tập rút gọn dựa trên toán tử cơ sở dữ liệu
Định nghĩa 2.1 [10] Một thuộc tính cj là một thuộc tính Core nếu nó thỏa điều kiện Card ((C- {cj}+D)) Card ((C- {cj}))
Trang 23Định nghĩa 2.2 [10] Một thuộc tính cjC là một thuộc tính phân biệt được đối với D nếu kết quả phân loại của mỗi bộ là không sử dụng cj Trong toán tử cơ sở dữ liệu, nó có nghĩa là Card((C-{cj}+D)) = Card((C-{cj})) Định nghĩa này có nghĩa rằng một thuộc tính là không cần thiết nếu mỗi
bộ có thể được phân loại cùng một cách không ảnh hưởng tới thuộc tính đang xét Ta có thể kiểm tra thuộc tính cj là không cần thiết bằng cách sử dụng một vài toán tử SQL, chỉ cần lấy hai phép chiếu của bảng: một trên tập C-{cj}+D
và một trên C-{cj} Nếu lực lượng của hai phép chiếu trong bảng là như nhau, thì có nghĩa là không có thông tin bị mất khi bỏ thuộc tính cj, ngược lại thì cj
là một thuộc tính cần thiết Ví dụ, trong bảng 2.1 Card((Trọng lượng, Kích
vì vậy Số Cửa là một thuộc tính không cần thiết trong C với Độ dài là thuộc
Trang 24tj và tk mà với bất kỳ qC-{cj}, sao cho tj.q = tk.q, tj.cj tk.cj và tj.D= tk.D Trong trường hợp này một phép chiếu trên C-{cj} sẽ ít bản ghi hơn phép chiếu trên C–{cj}+D bởi vì tj và tk được đồng nhất trong C-{cj} và được so sánh trong phép chiếu này Tuy nhiên, trong phép chiếu C–{cj}+D, tj và tk vẫn phân biệt được Vì vậy, loại ra thuộc tính cj sẽ làm mất khả năng phân biệt bộ
tj và tk Bằng trực giác, điều này có nghĩa là một vài thông tin phân lớp bị mất sau khi loại bỏ thuộc tính cj
Ví dụ trong bảng 2.1, t5 và t6 có giá trị giống nhau trên tất cả tập điều
kiện ngoại trừ Trọng lượng, hai bộ phân biệt nhau bởi vì chúng có giá trị khác nhau trên Trọng lượng Nếu Trọng lượng được loại ra, thì t5 và t6 không phân
biệt được Vì vậy Trọng lượng là một thuộc tính Core của bảng
Ở đây, đưa ra một thuật toán mới dựa trên toán tử cơ sở dữ liệu để có thuộc tính Core của một bảng quyết định
Thuật toán tính Core dựa vào toán tử cơ sở dữ liệu [10]
Input: Một bảng quyết định T(C, D) Output: Core – {tập thuộc tính Core của bảng T}
Method:
Core = ; For cjC {
If Card((C-{cj}+D)) Card((C-{cj})) Then
Core = Core {cj};
} Với k là số thuộc tính điều kiện, một vòng lặp for thực hiện tối đa k lần, nên độ phức tạp của vòng lặp là O(k) Vậy, giải thuật có độ phức tạp là O(k)
Trang 25Âm u Mưa Mưa Mưa
Âm u
Nóng Nóng Nóng Trung bình Mát mẻ Mát mẻ Mát mẻ
Cao Cao Cao Cao Trung bình Trung bình Trung bình
Không
Có Không Không Không
Có
Có
Không Không
Có
Có
Có Không
Card((C- {Gió}+D)) =7 Card((C- {Gió}))=5;
Core = {Quang cảnh, Gió}
2.1.2 Phương pháp tính Core dựa vào thông tin entropy
Hiện tại nghiên cứu của lý thuyết tập thô có hai hướng chính: một là
mở rộng lý thuyết phân loại theo yêu cầu thực tế đạt được, như mở rộng quan
hệ phân biệt được tới quan hệ tương tự, quan hệ dung thứ, thêm nữa là sự kết hợp của lý thuyết tập thô và các lý thuyết khác như sự thống nhất của lý thuyết tập thô và phân tích khái niệm thông thường để nghiên cứu nó trong
Trang 26quan điểm của khái niệm Ở đây, xét trong quan điểm của thông tin entropy
và mô tả các khái niệm cơ bản trong tập thô bằng tri thức entropy [8]
2.1.2.1 Tri thức trong entropy [8]
Lý thuyết tập thô truyền thống được định nghĩa trong quan điểm của phương pháp đại số, vũ trụ là một tập hợp và tri thức là khả năng tạo phân đoạn của tập hợp Lý thuyết entropy là một khái niệm trong lý thuyết thông tin và nó có thể phân tích chất lượng thông tin
Cho U là tập vũ trụ, P và Q là tập thuộc tính, phân chia tập vũ trụ theo giá trị của P và Q gọi là tri thức trên vũ trụ Vì tri thức được cấu trúc bởi quan
hệ tương đương nên có thể nói rằng P và Q như là tập tri thức đơn giản Phân chia tập tri thức P và Q thành X và Y với X={X1,X2,…,Xm}, Y={Y1,Y2,…,Yn}, và xác suất phân phối của các tập con của tập vũ trụ như sau:
(
1 1
m
m
X p X p
X X
(
1 1
n
n
Y p Y p
Y Y
Định nghĩa 2.3 [8] Cho P={X1,X2, …,Xm}, thì tri thức entropy của P được định nghĩa:
1
2 ( )log
)(
Trang 27X i , i = 1, 2 m, |X| là ký hiệu cho lực lượng của X
Định nghĩa 2.4 [8] Cho P={X1,X2,…,Xm}, Q={Y1,Y2,…,Yn}, khi đó entropy có điều kiện của Q quan hệ với P là:
j
i j
X p
1
2 1
)
\(log)
\()(
1
2 1
),
(log),
(
Và ta chuyển thành khái niệm tri thức entropy tham gia ký hiệu là H(PQ) Tuy nhiên, khi P và Q là tri thức, PQ cũng là tri thức, lớp tương đương được kí hiệu là Z={Z1,Z2,….,Zl} và đối với bất kỳ Zk, có tồn tại
XiU/IND(P), YjU/IND(Q), thoả Xi Yj = Zk Theo lớp tương đương trong
1
2 ( )log
)(
Trang 28Cho U là tập vũ trụ, P và Q là tri thức entropy của tập U Lớp tương đương cho bởi tri thức là [U,P]={X1,X2,…,Xm}, [U,Q]={Y1,Y2,…,Yn}, và [U,PQ] tương ứng, đối với mỗi Zk, tồn tại XiU/IND(P), YjU/IND(Q), thoả XiYj=Zk Sau đây là các tính chất đại số của tri thức entropy:
1
2 ( )log
)(
1
2 ( )log
)(
j
i j
i p X Y p X Y Y
p
1
2 1
)
\ ( log )
\ ( )
Trong khi
) (
) (
)
\ (
i
i j i
j
Y p
Y X p Y X
j
i j
Y p
1
2 1
)
\ ( log )
\ ( ) ( - Q)
i j m
j i
Y p
Y X p Y
p
Y X p Y
log )
(
) (
) (
j m
j
i
X p
1
2 2
1
))(log)(
(log)(
j i n
i
i i
j m
j
i
X p
1
2 1
1
2 2
1
) ( log ) ( ))
( log ) (
(log ) (
Vì tất cả Zk U/(PQ), tồn tại i và j để Xi Yj = Zk Vì vậy, ta có:
Trang 29i
X p
1
2 1
) (
log ) (
1
) ( = p(Y i), có kết luận dưới đây:
H(PQ )=H(P\Q)+H(Q)
Theo tính chất trên, có thể tạo quan hệ giữa tri thức entropy tham gia và entropy có điều kiện, như vậy có thể lấy giá trị tri thức entropy tham gia từ entropy có điều kiện
a h
Y p X p
Trang 30aij = p(XiYj)-p(Xi)p(Yj) hoặc Z+h = p(XiYj), thì khi X phụ thuộc vào Y, aij= 0 và aij cũng thỏa mãn điều kiện sau:
j
m
i n
j
j i j
i m
(
011)()(1
i p Y X
p
Từ đó, ta có:
h Z
h Z
h Z
ij j
i
ij
j i
a Y p X p
a Y
p X p
ij j
i
ij
j i
a Y p X p
a Y
p X
m
i
i i
m
i
j i n
j
j
X p
1
2 1
2 1
2 1
) ( log ) ( )
( log ) ( )
( (log ) (
] )
( ) ( ) ( log ) ( [log ) (
1
2 2
ij m
i
j i
n
j
j i
a Y p X p
a Y
p X
p Y
()(
)1(1
[
)(log)()
(log)(
1 1
1
2 1
2
ij
j i
ij m
i
n
j j
n
j
j j
m
i
i i
a Y
p X p
a a
Y p Y
p X
p X
Trang 31a Y
p X p
a
1 1
2
) ( ) (
) 1 (
Trang 32định nghĩa về sự nhất quán, sau đó trình bày các khái niệm cơ bản trong cách nhìn của tri thức entropy từ bảng nhất quán và bảng không nhất quán
Định nghĩa 2.5 [8] Giả sử công thức là ký hiệu hệ quyết định, nếu
hệ thống không thể có , thì hệ thống là nhất quán, nói cách khác hệ thống nhất quán là không có nghĩa ngược nhau trong hệ thống Nếu điều kiện của một luật là như nhau và kết quả của chúng cũng bằng nhau với các thuộc tính khác nhau, thì ta nói hai luật là nhất quán, ngược lại là sự không nhất quán Nếu tất cả các luật trong hệ thống quyết định nhất quán thì hệ thống quyết định nhất quán, nếu tất cả các luật có dạng không nhất quán trong hệ quyết định thì hệ quyết định là không nhất quán hoàn toàn
Tiếp theo, mô tả thuộc tính không cần thiết dựa vào entropy trong lý thuyết tập thô từ bảng quyết định nhất quán và bảng không nhất quán
Định lý 2.1 [8] Giả sử T = (U,C,D) là bảng quyết định nhất quán, C là
tập thuộc tính điều kiện, D là tập thuộc tính quyết định thì với mỗi thuộc tính
aC, thuộc tính a là không cần thiết nếu và chỉ nếu:
j
Y p
2 ( \ ) 0log
)
\()(
Trang 33Vì a là thuộc tính không cần thiết nên không có luật quyết định nào xuất hiện sau khi xóa thuộc tính này, và bảng quyết định mới cũng nhất quán với tập thuộc tính điều kiện là C-{a} và tập thuộc tính quyết định D Vì vậy
j
Z p
2 ( \ ) 0log
)
\()(
Mệnh đề 2.1 [8] Cho hai bảng quyết định T=(U,C,D) và T’=(U,C1,D), nếu IND(C) = IND(C1) thì H(D\C) = H(D\C1)
Định lý 2.2 [8] Giả sử T=(U,C,D) là một bảng quyết định không nhất
quán hoàn toàn Nếu thuộc tính aC không cần thiết thì H(D\C)=H(D\C-{a})
Trang 34Định lý 2.3 [8] Giả sử T=(U,C,D) là một bảng quyết định, nếu một
thuộc tính aC không cần thiết, thì H(D\C) = H(D\C-{a})
Chứng minh:
Với bất kỳ bảng quyết định nào, ta cũng có thể tách thành 2 bảng quyết định, một bảng nhất quán T1=(U1,C,D) và một bảng không nhất quán
T2=(U2,C,D), tri thức entropy H(D\C) = H1(D\C)+ H2(D\C)
Trong bảng quyết định nhất quán, theo định lý 2.1 ta có H1(D\C)=
H1(D\C–{a})=0 Trong bảng quyết định không nhất quán hoàn toàn, theo định
lý 2.2 ta có H2(D\C)= H2(D\C–{a}) điều phải chứng minh
Định lý 2.4 [8] Giả sử U là tập vũ trụ, P là tập thuộc tính, RP là thuộc tính không cần thiết nếu và chỉ nếu H({R}\P-{R}) = 0
Chứng minh:
Giả sử IND(P) = IND(P-{R}) = {A1,A2,…,Am}
IND(R) = {B1,B2,…,Bm}