Bảng các ký hiệu, từ viết tắtKý hiệu, từ viết tắt Diễn giải IS = U, A, V, f Hệ thông tin, hệ thông tin đầy đủ IIS = U, A, V, f Hệ thông tin không đầy đủ DS = U, C∪D, V, f Bảng quyết định
Trang 1Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam Người đã tận tìnhdày công hướng dẫn và giúp đỡ em hoàn thành luận văn này.
Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ Thông tin đã dạy bảo,giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học, trong suốt cả quá trình
em làm luận văn
Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công nghệThông tin và Truyền thông Thái Nguyên đã động viên, giúp đỡ và tạo điều kiện cho
em trong suốt thời gian học tập và nghiên cứu
Cuối cùng xin chân thành cảm ơn bàn bè, người thân và gia đình luôn là ngườiđồng hành, động viên, chia sẻ những khó khăn trong suốt thời gian hoàn thành luận văn
Thái Nguyên, tháng 08 năm 2013
Nguyễn Quỳnh Lan
Trang 2Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy từ nguồn tàiliệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng Tôi xin chịu tráchnhiệm về luận văn của mình.
Tác Giả Nguyễn Quỳnh Lan
Trang 3MỤC LỤC
MỤC LỤC i
Danh mục các thuật ngữ iii
Bảng các ký hiệu, từ viết tắt iv
Danh sách bảng v
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 3
1.1 Bảng quyết định đầy đủ 3
1.2 Hệ thông tin 3
1.3 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 3
1.3.1 Hệ thông tin đầy đủ 3
1.3.2 Mô hình tập thô truyền thống 5
1.3.3 Tập rút gọn và tập lõi 7
1.4 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 9
1.4.1 Hệ thông tin không đầy đủ 9
1.4.2 Bảng quyết định không đầy đủ 11
1.4.3 Tập rút gọn của bảng quyết định không đầy đủ 11
1.5.Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric 12
1.5.1 Metric trên họ các tri thức và tính chất 12
1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn 12
1.5.1.2 Metric trên họ các tri thức 14
1.5.1.3 Một số tính chất của metric trên bảng quyết định 15
1.5.2 Rút gọn thuộc tính trong bảng quyết định sử dụng metric 18
1.5.2.1.Tập lõi và tập rút gọn của bảng quyết định dựa trên metric……….…… 18
1.5.2.2.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric 19
Trang 4Chương 2.RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ….28
2.1 Giới thiệu 28
2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất… …… 29
2.2.1 Entropy Liang mở rộng của tập thuộc tính 29
2.2.2 Entropy Liang mở rộng có điều kiện 30
2.2.3 Một số tính chất của entropy Liang mở rộng 32
2.3 Metric trên họ các phủ và các tính chất 37
2.3.1 Metric trên họ các phủ 37
2.3.2 Một số tính chất chất của metric 40
2.4 Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric……… … 43
2.4.1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric 43
2.4.2.Thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ 44
2.5 Kết luận chương 2 52
Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM 53
3.1 Mô tả dữ liệu 53
3.2 Xây dựng chương trình 57
3.3 Kết quả thực nghiệm 59
3.4 Nhận xét 60
KẾT LUẬN 61
TÀI LIỆU THAMKHẢO……….62
PHỤ LỤC……… 64
Trang 5Danh mục các thuật ngữ
Thuật ngữ tiếng việt Thuật ngữ tiếng anh
Hệ thông tin đầy đủ Complete Information system
Hệ thông tin không đầy đủ Incomplete Information system
Bảng quyết định đầy đủ Complete Decision TableBảng quyết định không đầy đủ Incomplete Decision TableQuan hệ không phân biệt được Indiscernibility Relation
Ma trận phân biệt Indiscernibility Matrix
Trang 6Bảng các ký hiệu, từ viết tắt
Ký hiệu, từ viết tắt Diễn giải
IS = (U, A, V, f) Hệ thông tin, hệ thông tin đầy đủ
IIS = (U, A, V, f) Hệ thông tin không đầy đủ
DS = (U, C∪D, V, f) Bảng quyết định, bảng quyết định đầy đủ
IDS = (U, C∪D, V, f) Bảng quyết định không đầy đủ
u(a) Giá trị của đối tượng u tại thuộc tính a
SB(u) Lớp dung sai của đối tượng u trên quan hệ SIM(B)
U/SIM(B) Phủ của U sinh bởi tập thuộc tính B
B(u) Hàm quyết định suy rộng của đối tượng u đối với B
Trang 7SRED(C) Họ tất cả các tập rút gọn sử dụng ma trận phân biệtMRED(C) Họ tất cả các tập rút gọn dựa trên metric
SCORE(C) Tập lõi sử dụng ma trận phân biệt
H(Q/P) Entropy Shannon có điều kiện của Q khi đã biết P
hệ thông tin không đầy đủ
biết P trong hệ thông tin không đầy đủ
thuộc tính P Trong hệ thông tin không đầy đủ làphủ sinh bởi tâp thuộc tính P
dj(K(P), K(Q)) Khoảng cánh giữa K(P) và K(Q) trong hệ thông tin
đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp
dE(K(P), K(Q)) Khoảng cánh giữa K(P) và K(Q) trong hệ thông tin
không đầy đủ dựa trên entropy Liang mở rộngSIGB(b) Độ quan trọng của thuộc tính b đối với B
Trang 8Bảng 2.3 Bảng quyết định không đầy đủ minh họa ví dụ 2.3 49
Bảng 2.4 Bảng quyết định không đầy đủ về các xe
Trang 9MỞ ĐẦU
Mười năm trở lại đây chúng ta đã chứng kiến sự phát triển mạnh mẽ và sôiđộng của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô.Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu cácphương pháp rút gọn thuộc tính trong bảng quyết định Các phương pháp chính là:Phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong đại
số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng entropythông tin, phương pháp sử dụng các độ đo trong tính toán hạt
Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra cácthuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định không đầy
đủ rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo đảmthông tin phân lớp của bảng quyết định đó Đối với một bảng quyết định không đầy
đủ có thể có nhiều tập rút gọn khác nhau Tuy nhiên, trong thực hành thường khôngđòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn theo một tiêuchuẩn đánh giá nào đó là đủ
Các kết quả nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu đáng kểkhối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối lượng dữliệu lớn Thuật toán khá đơn giản về mặt thực thi Nên em quyết định lựa chọn đề
tài luận văn: “Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ”.
Mục tiêu của luận văn: Tập trung nghiên cứu rút gọn thuộc tính trong bảng
quyết định đầy đủ từ đó làm cơ sở nghiên cứu tiếp phương pháp rút gọn thuộc tínhtrong bảng quyết định không đầy đủ
Đối tượng và phạm vi nghiên cứu: Các bảng quyết định đầy đủ, các bảng
quyết định không đầy đủ với kích thước trung bình và lớn
Trang 10Phương pháp nghiên cứu
- Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã được chứng minh dựavào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố
- Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật toán
Ý nghĩa khoa học của đề tài
-Đây là phương pháp được nhiều nhà khoa học nghiên cứu và đã có đóng góptrong thực tiễn
-Có thể coi luận văn là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiếnthức cơ bản trong bảng quyết định không đầy đủ
Bố cục của luận văn: Gồm phần mở đầu và 3 chương nội dung, phần kết
luận, danh mục tài liệu tham khảo và phụ lục
Chương 1: Trình bày các khái niệm cơ bản về bảng quyết định đầy đủ, bảng
quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai,trình bày phương pháp xây dựng 1 metric trên họ các tri thức trong hệ thông tin đầy
đủ dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn, trình bày phương pháp
rút gọn thuộc tính trong bảng quyết định đầy đủ
Chương 2: Trình bày phương pháp xây dựng một metric trên họ các phủ trong
hệ thông tin không đầy đủ dựa trên entropy Liang mở rộng, trình bày phương pháp
rút gọn thuộc tính trong bảng quyết định không đầy đủ
Chương 3: Chương trình thử nghiệm trình bày các nội dung: mô tả dữ liệu,
xây dựng chương trình, và kết quả thực nghiệm của thuật toán
Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng phát
Trang 11triển của luận văn.
Trang 12Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG
QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ
1.1 Bảng quyết định đầy đủ
Một lớp đặc biệt của hệ thông tin có vai trò quan trọng trong nhiều ứng dụng
là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính Ađược chia thành hai tập khác rỗng rời nhau C và D, lần lượt được gọi là tập thuộctính điều kiện và tập thuộc tính quyết định Tức là DS = (U, C∪D, V, f) với C∩D=
Xét bảng quyết định DS = (U, C∪D, V, f) với giả thiết mọi u∈U, mọi d∈D,d(u) đầy đủ giá trị, nếu tồn tại u∈U và c∈C sao cho c(u) thiếu giá trị thì DS đượcgọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy
đủ Trong luận văn này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định
1.2 Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng 1 bảng dữ liệu gồm p cộttương ứng với p thuộc tính và n hàng ứng với n đối tượng
1.3 Hệ thông tin đầy đủ và mô hình tập thô truyền thống.
1.3.1 Hệ thông tin đầy đủ
Một cách hình thức, hệ thông tin được định nghĩa như sau:
Định nghĩa 1.1 Hệ thông tin là một bộ tứ IS= (U, A, V, f) trong đó U là một tập
hữu hạn, khác rỗng các đối tượng, A là một tập hữu hạn, khác rỗng các thuộc tính,
Trang 13Với mọi u∈U, a∈A ta ký hiệu giá trị thuộc tính a tại đối tượng u là a(u) thay
vì f(u,a) Nếu B= {b1, b2, ,bk}⊆A là một tập con các thuộc tính thì ta ký hiệu bộcác giá trị bi(u) bởi B(u) Như vậy, nếu u và v là hai đối tượng, thì ta viếtB(u)=B(v), nếu bi(u)=bi(v) với mọi i= 1, ,k
Cho hệ thông tin IS = (U, A, V, f), nếu tồn tại u∈U và a∈A sao cho a(u)thiếu giá trị (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái lại ISđược gọi là hệ thông tin đầy đủ Chúng ta tự hiểu hệ thông tin đầy đủ được gọi tắt
là hệ thông tin
Xét hệ thông tin IS = (U, A, V, f) Mỗi tập con các thuộc tính P⊆A xác địnhmột quan hệ hai ngôi trên U, ta ký hiệu IND(P), xác định bởi:
IND(P)={(u,v) ∈U x U/ a ∈P, a(u)=a(v)}
IND(P) là quan hệ P – không phân biệt được Dễ thấy rằng IND (P) là mộtquan hệ tương đương trên U Nếu (u,v)∈IND(P) thì hai đối tượng u và v khôngphân biệt được bởi các thuộc tính trong P Quan hệ tương đương IND(P) xác địnhmột phân hoạch U/P chứa đối tượng u là [u]p khi đó [u]p= {v∈U/(u,v)∈IND(P)}
Định nghĩa 1.2.[12] Cho hệ thông tin IS=(U, A, V, f), và P, Q⊆A
1) Phân hoạch U/P và phân hoạch U/Q là như nhau (viết U/P=U/Q), khi vàchỉ khi u ∈U, [u]P=[u]Q
2) Phân hoạch U/P mịn hơn phân hoạch U/Q (viết U/P≼U/Q), khi và chỉ khi
u ∈U, [u]P ⊆[u] Q.
Tính chất 1.1 [12] Xét hệ thông tin IS= ( U,A,V, f ) và P, Q⊆A
1) Nếu P⊆Q thì U/Q≼U/P, mỗi lớp của U/P là một lớp hoặc hợp của một sốlớp thuộc U/Q
2) Với mọi u ∈U ta có [u]P∪Q=[u]p ∩[u]Q
1.3.2 Mô hình tập thô truyền thống
Trang 14Cho hệ thông tin IS=(U, A, V, f), và tập đối tượng X⊆U Với một tập thuộc tínhB⊆A cho trước chúng ta có các lớp tương đương của phân hoạch U/B, thế thì một tậpđối tượng X có thể biểu diễn thông qua các lớp tương đương này như thế nào?
Để biểu diễn X thông qua các lớp tương đương của U/B (còn gọi là biểu diễn
X bằng tri thức có sẵn trong B), người ta xấp xỉ X bởi hợp của một số hữu hạn cáclớp tương đương của U/B Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộctính B, được gọi là B xấp xỉ dưới và B xấp xỉ trên của X, ký hiệu lần lượt là BX và
BX được xác định như sau:
BX={u ∈U /[u]B ⊆X }
BX={u ∈U /[u]B ∩X ≠}
Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B Từhai tập xấp xỉ nêu trên, ta định nghĩa các tập
BNB(X) = BX - BX: B miền biên của X, U- BX: B miền ngoài của X
B miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc
X, còn B miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụngcác lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại
BX= ∪{Y ∈U / B / Y ⊆X }, BX= ∪{Y ∈U / B / Y ∩X ≠}
BNB(X) = thì X được gọi là tập chính xác (exact set ), ngược lại X đượcgọi là tập thô (rough set)
Với B,D ⊆A, ta gọi B miền dương của D là tập được xác định như sau:
Trang 15Ta có: U/{Đau đầu}={ {u1, u2, u3}, {u4, u5, u6, u7, u8}}
U/{Thân nhiệt}={{u1, u4}, {u2, u5, u7}, {u3, u6, u8}}
U/{Cảm cúm}={ {u1, u4, u5, u8}, {u2, u3, u6, u7, }}
U/{Đau đầu, Cảm cúm}={ {u1}, {u2, u3}, {u4, u5, u8}, {u6, u7}}
Như vậy, các bệnh nhân u2, u3 không phân biệt được về đau đầu và cảm cúm,nhưng phân biệt được về thân nhiệt
Các lớp không phân biệt được bởi B={Đau đầu, Thân nhiệt} là:
{u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}
Đặt X={u/u (Cảm cúm)=Có}={ u2, u3, u6, u7} Khi đó:
BX={ u2, u3}
BX={ u2, u3, u5, u6, u7, u8} Như vậy, B miền biên của X là tập hợpBNB(X)={u5, u6, u7, u8} Nếu đặt D={Cảm cúm} thì:
Trang 16U/D ={X1= { u1, u4, u5, u8}; X2={ u2, u3, u6, u7}},
Định nghĩa 1.3 (Tập lõi dựa trên miền dương) Cho bảng quyết định DS = (U,
C∪D, V,f) Thuộc tính c∈C được gọi là không cần thiết (dispensable) trong DSdựa trên miền dương nếu POSC(D)=POS(C-{c})(D) Ngược lại, c được gọi là cần thiết(indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựatrên miền dương và được ký hiệu là PCORE (C) Khi đó, thuộc tính cần thiết chính
Trang 17Thì R là một tập rút gọn của C dựa trên miền dương.
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu
PRED(C) là họ tất cả các tập rút gọn Pawlak của C Khi đó PCORE (C) =R PRED C ( )
R
Định nghĩa 1.5 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng
a là thuộc tính rút gọn của DS nếu tồn tại 1 tập rút gọn R∈PRED(C) sao cho a∈R
Định nghĩa 1.6 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng
a là thuộc tính dư thừa của DS nếu a∈C-R PRED D( )
Bảng này có hai tập rút gọn là R1={Đau cơ, Thân nhiệt}, R2={Đâu đầu, thânnhiệt} Như vậy tập lõi là PCORE (C)={Thân nhiệt} và Thân nhiệt là thuộc lõi duynhất Các thuộc tính không cần thiết bao gồm:
Trang 18+Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn nào
+Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặttrong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa là, từ bảng
dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh.Tức là:
POS{Đau cơ, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})
1.4 Hệ thông tin không đầy đủ và mô hình tập thô dung sai
Trong phần này, em xin trình bày các khái niệm cơ bản về mô hình tập thô mởrộng trong hệ thông tin không đầy đủ dựa trên quan hệ dung sai do MarzenaKryszkiewicz [6] đề xuất
1.4.1 Hệ thông tin không đầy đủ
Như đã trình bày ở trên hệ thông tin IS=(U, A, V, f), nếu tồn tại u∈U và a∈Asao cho a(u) thiếu giá trị IS được gọi là hệ thông tin không đầy đủ Ta biểu diễn giátrị thiếu là ‘*’ và hệ thông tin không đầy đủ là IIS= (U, A, V, f )
Xét hệ thông tin không đầy đủ IIS = (U, A, V, f ) Với tập thuộc tính P⊆A tađịnh nghĩa một quan hệ nhị phân trên U như sau:
SIM(P)={(u,v)∈U x U/a∈P, a(u)= a(v) ∨a(u)=’*’∨a(v)=’*’}
Quan hệ SIM(P) không phải là quan hệ tương đương vì chúng có tính phản xạ,đối xứng nhưng không có tính bắc cầu SIM (P) là một quan hệ dung sai (tolerancerelation), hay quan hệ tương tự (similarity relation) trên U Theo [6], SIM(P)=∩a∈PSIM({a})
Trang 19Gọi SP(u) là tập {v∈U/(u,v)∈SIM (P) } SP(u) là tập lớn nhất các đối tượngkhông có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là một lớpdung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệSIM (P) trên U là U/ SIM (P), khi đó các lớp dung sai trong U/ SIM (P) không phải
là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau
và ∪u∈U SP(u)= U Ký hiệu tập tất các phủ của U sinh bởi các tập con thuộc tínhP⊆A là COVER(U)
Trên COVER(U) ta định nghĩa một quan hệ thứ tự bộ phận (COVER(U),⋞)như sau:
Định nghĩa 1.7.[9]Cho hệ thông tin không đầy đủ IIS=(U,A,V,f) với P, Q⊆A Ta nói:
1) Phủ U/SIM(P) và phủ U/SIM(Q) là như nhau (viết U/SIM(P) = U/SIM(Q))khi và chỉ khi u∈U, SP(u)=SQ(u)
2) U/SIM(P) mịn hơn U/SIM(Q) (viết U/SIM(P)≼U/SIM(Q)) khi và chỉ khi
u∈U, SP(u)⊆SQ(u)
Trên (COVER(U),≼), phần tử nhỏ nhất gọi là phủ rời rạc ω={SA(u)/ SA(u )={u}, u∈U} và phần tử lớn nhất gọi là phủ một khối δ={SA(u)/ SA(u )= U, u∈U}.
Tính chất 1.2 [7] Cho hệ thông tin không đầy đủ IIS =(U, A, V, f)
1) Nếu P⊆Q⊆A thì SQ(u)⊆SP(u) với mọi u∈U
2) Nếu P⊆Q⊆A thì U/SIM(Q)≼U/SIM(P)
3) Nếu P, Q ⊆A thì SP∪Q(u)= SP(u)∩SQ(u) với mọi u∈U
Tương tự hệ thông tin đầy đủ, các tập P- xấp xỉ dưới và P- xấp xỉ trên của X trong
hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX được xác định như sau:
PX = {u∈U/ SP(u) ⊆X}={u∈X/ SP(u) ⊆X}
Trang 20PX= {u∈U/ SP(u) ∩X≠}=∪{ SP(u)/u ∈U}
Với các tập xấp xỉ nêu trên, ta gọi P- miền biên của X là tập: BNP(X)= PX
-PX và P- Miền ngoài của X là tập: U-PX.
Ví dụ 1.3 Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ
IIS = {U, A, V, f}với U={u1, u2, u3, u4, u5, u6}, A={a1, a2, a3, a4} với a1 (Đơn giá), a2(KM đã đi), a3 (Kích thước), a4 (Tốc độ tối đa)
Bảng 1.3 Bảng thông tin về các xe hơi
Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa
U/SIM(A)= {SA(u1), SA(u2), SA(u3), SA(u4), SA(u5), SA(u6)}, với
SA(u1)={u1}, SA(u2)={u2,u6}, SA(u3)={u3},SA(u4)={u4,u5},SA(u5)={u4, u5,u6},
SA(u6)={u2, u5,u6}
Với P={a3,a4} ta có:
U/SIM(P)={SP(u1), SP(u2), SP(u3), SP(u4), SP(u5), SP(u6)}, với
SP(u1)=SP(u2)={u1,u2, u6}, SP(u3)={u3}, SP(u4)=SP(u5)={u4, u5,u6},
SP(u6)={u1, u2,u4, u5,u6}
Trang 211.4.2 Bảng quyết định không đầy đủ
Như đã trình bày ở trên với bảng quyết định DS = (U, C∪D,V,f), nếu tồn tại
u∈U và c∈C sao cho c(u) thiếu gái trị thì DS được gọi là bảng quyết định không
đầy đủ Ta biểu diễn giá trị thiếu là ‘*’ và bảng quyết định không đầy đủ là IDS=(U,
C∪D,V, f) với mọi d∈D, ‘*’Vd Không mất tính chất tổng quát, giả thiết D chỉ
gồm một thuộc tính quyết định duy nhất {d} [6]
1.4.3 Tập rút gọn của bảng quyết định không đầy đủ
Trong [6], Marzena Kryszkiewic định nghĩa tập rút gọn của bảng quyết định
không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm
quyết định suy rộng của tất cả các đối tượng
Định nghĩa 1.8 [6] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảng
quyết định không đầy đủ IDS=(U C∪D, V, f) và tập thuộc tính R⊆C Nếu:
1) R(u)= C(u) với mọi u∈U.
2) Với mọi R’ R, tồn tại u∈U sao cho R’(u)≠ C(u)
Thì R được gọi là một tập rút gọn của C.Tập rút gọn định nghĩa như trên còn
gọi là tập rút gọn Kryszkiewic
1.5 Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric
Các kết quả trong phần này được tìm hiểu trong tài liệu [3]
1.5.1 Metric trên họ các tri thức và các tính chất.
1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn.
Định nghĩa 1.9 Cho tập U là tập hữu hạn các đối tượng và X, YU Biểu thức:
Trang 22D(X,Y) = 1 - X XY Y
được gọi là khoảng cách Jaccard ( Jaccacrd distance)
giữa X và Y và biểu thức: J (X,Y) = X X Y Y
được gọi là hệ số Jaccard Hệ Số Jaccard
đo độ tương tự giữa hai tập hợp X và Y Hiển nhiên D(X, Y)+J(X,Y)=1.
Định lý 1.1 Cho U là tập hữu hạn các đối tượng và P(U) là tập các tập con của U.
Khoảng cách Jaccard là một metric trên P(U), nghĩa là mọi X,Y,ZP(U) thoả mãncác điều kiện sau:
(P1) D(X,Y) 0, điều kiện D(X,Y) = 0 khi và chỉ khi X=Y.
v =0 trong trường hợp ngược lại.
Đặt V XY = V X V Y , khi đó J(X,Y) được biểu diễn: J(X,Y) = XX V XY YY XY
V V V (1.2)
Nếu J(X,Y) J(X,Z) hoặc J(Y,Z) J(X,Z) thì hiển nhiên (3.1) thoả mãn Do
đó, ta cần chứng minh (3.1) đối với trường hợp đồng thời J(X,Y) > J(X,Z) và J(Y,Z)
> J(X,Z) Từ (1.2) ta có:
XY
V = 1 J X Y J X Y( , ) , (V XX V YY)
(1.3)
Trang 23Dễ thấy (V Y V X ) và (V Y V Z)0 hoặc V YY V YZ V XY V XY 0 thoả mãn
Trang 24Nếu V YY=0 thì hiển nhiên (3.1) thỏa mãn Giả sử V YY 0 Khi đó, (1.8) tươngđương với:
1.5.1.2 Metric trên họ các tri thức
Cho hệ thông tin IS=(U,A,V,f), mỗi tập thuộc tính P A xác định một tri thức(knowledge) K(P)={[ui]p u i U} trên U Ký hiệu họ tất cả các tri thức trên U là
(U) Dựa vào khoảng cách Jaccard giữa hai tập, định lý sau xây dựng một metrictrên (U)
Định lý 1.2 Ánh xạ d: (U) x (U) [0,) xác định bởi:
Trang 25(P2) Theo định nghĩa d K P K Q J( ( ), ( ))d K Q K P J( ( ), ( )) với mọi
(P3) Từ Định lý 1.1, d K P K Q J( ( ), ( ))d K Q K R J( ( ), ( ))d K P K R J( ( ), ( )) Từ(P1), (P2), (P3) kết luận d K P K Q J( ( ), ( )) là một metric trên( ).U
1.5.1.3 Một số tính chất của metric trên bảng quyết định
Với bảng quyết định DS=(U,CD V f, , ), Mệnh đề 1.1 sau đây xây dựng công
thức tính khoảng cách giữa hai tri thức K(C) và K(CD) dựa vào các phân hoạchU/C và U/D
Mệnh đề 1.1 Cho bảng quyết định DS=(U,CD V f, , ), giả sử U/C ={C C1, 2, ,C m}
Trang 26Mệnh đề 1.2 Cho bảng quyết định DS=(U, CD, V, f) Giả sử d j(K(C), K(C, D)
là khoảng cách giữa hai tri thức K(C) và K(CD), (DS) là độ chắc chắn của DS
Mệnh đề 1.3 (Tính phản đơn điệu) Cho bảng quyết định DS=(U, CD, V, f) vàhai tập thuộc tính P, QC Nếu QPC thì d j(K(Q),K(QD)) d j(K(P), K(P
Trang 27D)) Dấu đẳng thức d K Q K Q j( ( ), ( D))d K P K P j( ( ), ( D)) xảy ra khi và chỉ khi
*Trình bày chứng minh:
Xét hai bảng quyết định DS 1 =(U,Q D) và DS 2 = (U, PD) Từ giả thiết
QP theo Mệnh đề (tính đơn điệu của ) ta có (DS 1 ) (DS 2 ) 1-
(DS 1 ) 1- (DS 2 ) Do đó theo Mệnh đề 1.2 ta có d j (K(Q), K(QD)) d j (K(P),
Dấu đẳng thức sảy ra khi và chỉ khi (DS 1 ) = (DS 2 ) Từ nhận xét Mệnh đề
(tính đơn điệu của ) ta kết luận d j (K(Q), K(QD)) = d j (K(P), K(PD)) Khi và
với U = {u 1 ,u 2 ,u 3 ,u 4 ,u 5 ,u 6 }, C ={a 1 , a 2 , a 3 } với a 1 (Đau đầu), a 2 (Đau cơ), a 3 (Thân
Trang 28u5 Không Không Cao Không
Với P ={a1,a2}, Q = {a1}, hiển nhiên QP Ta có
U/ P = {{ u1, u2, u3}, {u4,u6}, {u5}} = {P1,P2,P3}
U/ Q = {{u1, u2, u3}, {u4, u5, u6}} = {Q1,Q2}
U /{d} = {{u1, u4, u5 },{u2, u3, u6}} = {D1,D2}
1.5.2 Rút gọn thuộc tính trong bảng quyết định sử dụng metric
1.5.2.1 Tập lõi và tập rút gọn của bảng quyết định dựa trên metric
Định nghĩa 1.10 (Tập lõi dựa trên metric) Cho bảng quyết định DS = (U,CD,V, f), thuộc tính c C gọi là không cần thiết (dispensable) trong DS dựa trên metric
nếu d J (K(C-{c}),K((C-{c})D))=d J (K(C),K(CD)) Ngược lại, c được gọi là cần
thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõidựa trên metric và ký hiệu là MCORE (C)
Định nghĩa 1.11 (Tập rút gọn dựa trên metric ) Cho bảng quyết định DS=(U,C
D,V.f) và tập thuộc tính RC Nếu:
Trang 291) d J (K (R), K (RD)) = d J (K(C),K(CD))
2)r R, d J (K (R-{r}),K((R-{r})D)) d J (K(C),K(CD))
Thì R là một tập rút gọn của C dựa trên mertic Ký hiệu MRED(C) là họ tất cảcác tập rút gọn của C dựa trên metric
1.5.2.2 Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric.
Định nghĩa 1.12 (Độ quan trọng của thuộc tính dựa trên metric) Cho bảng quyết
định DS = (U, C D,V, f), BC và bC-B Độ quan trọng của thuộc tính b đốivới B được định nghĩa bởi:
SIGB (b) = dj (K(B),K(BD))-dj (K(B{b}),K(B{b}D)) với giả thiết
nên SIGB (b)0 Do đó, SIGB (b) Được tính bởi lượng thay đổi khoảng cách giữa B
và BD khi thêm thuộc tính b vào B, SIGB (b) càng lớn thì lượng thay đổi khoảngcách càng lớn, hay thuộc tính b càng quan trọng và ngược lai Độ quan trọng củathuộc tính b đặc trưng cho chất lượng phân lớp của thuộc tính b, và được sử dụnglàm tiêu chuẩn lựa chọn thuộc tính trong thuật toán heuristic tìm tập rút gọn củabảng quyết định
Để xây dựng thuật toán heuristic tìm tập rút gọn, ta có thể sử dụng hai hướngtiếp cận: hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống(top-down) Trong phần này, luận văn trình bày thuật toán heuristic tìn tập rút gọntính lõi theo hướng tiếp cận bottom-up Ý tưởng của thuật toán là xuất phát từ tậplõi, lần lượt bổ xung vào tập lõi các thuộc tính có độ quan trọng lớn nhất cho đếnkhi tìm được tập rút gọn Thuật toán sử dụng chiến lược Thêm-Xóa[13]
Trang 30Thuật toán 1.1.[2] Thuật toán tìm lõi sử dụng metric.
Đầu vào: Bảng quyết định DS = (U,C D,V, f)
Đầu ra: Tập lõi MCORE (C).
*Phân tích độ phức tạp thời gian của thuật toán 1.1
Sử dụng thuật toán trong [10] để tính U/C , độ phức tạp thời gian là O(|C||U|)
Do đó, độ phức tap thời gian để tính dj (K(C),K(C D)) là O(|C||U|) Vì vậy, độphức tạp thời gian của vòng lặp For từ dòng lệnh thứ 3 đến dòng lệnh thứ 7 là O(|C|
Trang 31Ta có U ={u1, u2, u3, u4, u5, u6, u7}, |U| = 7, C ={a1, a2, a3}.
U/{d} = {{ u1, u3},{ u2, u4, u5, u6, u7}},U/C = {{ u1, u2},{ u3, u4, u5},{ u6},{ u7}}.Thực hiện các bước Thuật toán 1.1 tìm tập lõi:
1 MCORE(C) =;
2 dj(K(C), K(C {d}) = 1- U1
1
n i
1
m i
2
i j i
3 Xét lần lượt các thuộc tính a1, a2, a3 ta có:
U/C - {a1) = U/{a2, a3}= {{u1, u2},{u3, u4, u5}, {u6},{u7}} = U /C do đó
dj(K(C-{a1}),((K(C-{a1}){d})=dj(K({a2,a3}),K({a2,a3,d}))=dj(K(C), K(C
{d}))
U/C - { a2} =U/{ a1, a3}={{ u1, u2},{ u3, u4, u5},{ u6},{u7}}=U/C do đó
dj(K(C -a2}), K(C - a2}){d}))=dj(K{a1, a3}),K({a1, a3, d}))=d j(K(C), K(C
{d}))
U/C-{a3}=U/{a1,a2}={{u1, u2, u3,u4,u5},{u6, u7}}
Trang 32dj(K(C –a3}), K(C – a3}){d}))=dj(K{a1, a2}),K({a1, a2, d}))
1
n j
2 '
1 ' 1
1 ' 1
Thuật toán 1.2.[2] Tính phân hoạch U/R{a}
Đầu vào : Phân hoạch U/R={R1,R2, ,RK}, thuộc tính aR
Đầu ra: Phân hoạch U/R{a}
Trang 337 Return (TMP);
* Trình bày chứng minh tính đúng đắn của thuật toán 1.2
Tại bước 4, phân hoạch Ri / {a} chứa các lớp tương đương X = [ui] a với ui
Ri, [ui]R=Ri, nghĩa là X=[ui] a =[ui] a [ui]R Theo tính chất 1.1 của Pawlak
Z, [ui] a [ui]R = [ui]R a nên X= [ui]R a Như vậy tập TMP thu được tạibước 7 bao gồm các tập X với X= [ui]R a Theo phân hoạch U/R{a}
* Độ phức tạp thời gian của thuật toán 1.2
Sử dụng thuật toán [10] để tính phân hoạch Ri/ a với độ phức tạp thời gian o
R i thì độ phức tạp thời gian của Thuật toán 1.2 là
1
k i
O R i =O U
Nếu sử dụng tính chất 1.1 để tính U/R{a} khi đã biết U/R, trước phải tínhphân hoạch u/{a}={A1, A2} với độ phức tạp thời gian O(U ) Tiếp theo, ta phảitính các phép giao Ri Aj , i=1 k, j=1 l với độ phức tạp thời gian là O( U 2) Do
đó, độ phức tạp thời gian nếu sử dụng Tính chất 1.1 là O(U 2) Độ phức tạp nàylớn hơn độ phức tạp của Thuật toán 1.2 Sở dĩ độ phức tạp thời gian của Thuật toán1.2 nhỏ hơn là vì Thuật toán 1.2 không phải tính các phép giao Ri Ajtrongtrường hợp Ri Aj=
R={a3} và phân hoạch U/R=U/{a3}={{u1,u2,u7},{u3,u4,u5,u6}}, áp dụng Thuậttoán 1.2 tính phân hoạch U/{a2,a3} (với a={a2}) ta có:
1.TMP =
Trang 342.Xét R1={u1,u2,u7}, tính R1/{a2}={{u1,u2},{u7}} và TMP= {{u1,u2},{u7
}} Xét R2={u3,u4,u5,u6}, tính R2/{a2}={{u3,u4,u5},{u6}} và TMP = {{u1,u2
}, {u3,u4,u5}, {u6},{u7}} Vậy U/{a2,a3} = TMP = {{u1,u2}, {u3,u4,u5}, {u6},{u7}}
Thuật toán 1.3.[2] Thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng metric Đầu vào: Bảng quyết định DS=(U,CD,V,f)
Đầu ra: R là một tập rút gọn tốt nhất của C.
1 Tìm tập lõi MCORE (C) theo Thuật toán 1.1;
Trang 35//Loại bỏ các thuộc tính dư thừa trong R nếu có
* Trình bày chứng minh tính đúng đắn của thuật toán 1.3
Với bước thêm dần vào R các thuộc tính có độ quan trọng lớn nhất, tập thuộc
tính R thu được từ câu lệnh từ 3 đến 13 thoả mãn điều kiện bảo toàn khoảng cách d
J K R K R( ), ( D) d K C K C J ( ), ( D)
Với bước loại bỏ các thuộc tính dư thừa, câu lệnh từ 14 đến 19 đảm bảo tập R
là tối thiểu, nghĩa là.rR, d J K R( { }) ,r K R( { })r D)d K C K C J ( ), ( D)
.
Theo Định nhĩa 1.3, R là tập rút gọn dựa trên metric.
* Độ phức tạp thời gian của Thuật toán 1.3
Xét vòng lặp While từ dòng lệnh số 3 đến dòng lệnh số 13, theo công thức
(1.9) để tính SIGR(a) ta chỉ cần tính hoạch U R / {a} vì phân hoạch U R/ đã đượctính ở bước trước Từ Thuật toán 1.2, độ phức tạp thời gian để tính U R / {a} khibiết U R/ là O U nên độ phức tạp thời gian để tính tất cả các SIGR a là:
Trang 36Độ phức tạp thời gian để chọn thuộc tính có độ quan trọng lớn nhất là
Vòng lặp For tại dòng lệnh 15 thựchiện R* lần, mỗi lần ta phải tính d K R K R J ( ), ( D)
với độ phức tạp thời gian
O R U
Do đó, độ phức tạp thời gian của dòng lệnh 15 là O ( R R U* ) Vì vậy,
độ phức tạp thời gian của thuật toán là O(
2
C U
) Khi biết U/R là O (U ) nên độ
phức tạp thời gian để tính tất cả các SIG a là:
(C ) + (C )+ +1)*=U =(C *(C -1)/2)*U =O(C U2 )
Độ phức tạp thời gian để chọn thuộc tính có độ quan trọng lớn nhất là:
C +(C -1)+ +1=C *( C -1)/2=O( C2 ) Vòng lặp For tại dòng lệnh 15 thực
hiện R* lần, mỗi lần ta phải tính dj (K(R,(RD)) với độ phức tạp thời gian O ( R
U ) Do đó, độ phức tạp thời gian cúa dòng lệnh 15 là O ( R R U* ) Vì vậy, độ
phức tạp thời gian của thuật toán là O(
2
C U
)
* Đánh giá Thuật toán 1.3 dựa trên lý thuyết
Với phương pháp rút gọn thuộc tính sử dụng entropy Shannon (trong nhómphương pháp Entropy Shannon), thuật toán MIBARK trong [11] có độ phức tạpthời gian là O(C
Độ phức tạp thời gian của các thuật toán tìm tập rút gọn phụ thuộc vào độphức tạp của việc tính phân hoạch U/C Nếu cùng sử dụng thuật toán tính U/Ctrong [10]:
Trang 371) Độ phức tạp thời gian của Thuật toán 1.3 nhỏ hơn độ phức tạp các thuậttoán sử dụng entropy Shannon vì Thuật toán 1.3 sử dụng kết quả đã được tính ởbước trước U/ R để tính U/ R {a}.
2) Thuật toán 1.3 không phải tính toán các biểu thức logarit nên khối lượngtính toán nhỏ hơn các thuật toán sử dụng entropy Shannon
Do đó, Thuật toán 1.3 hiệu quả hơn các thuật toán sử dụng entropy Shannon
dụ 1.5 ta đã tính tập lõi MCORE(C) = {a3} và dj ( K(C), K(C{d})) =1
3 Thực hiện các bước Thuật toán 1.3 tìm một tập tút gọn tốt nhất ,ta có:
Xét thuộc tính a1C a3 Theo tính toán ở Ví dụ 1.5:
Do a1và a2 có độ quan trọng như nhau nên chọn bất kì a1 hoặc a2, giả sử
chọn a1, khi đó và Ra a1, 3 và theo tính toán ở Ví dụ 1.5:
Trang 38Thực hiện vòng lặp For Xét R* R MCORE C a1 và R a1 a3 Theotính toán ở trênd K a J 3 ,K a d 3, d K C K C J , d .Do đóRa a1, 3 làmột tập rút gọn tốt nhất của C dựa trên metric.
1.6 Kết luận chương 1
Trình bày về bảng quyết định đầy đủ, bảng quyết định không đầy đủ,
mô hình tập thô truyền thống, mô hình tập thô dung sai và cuối cùng là thuật toán rút gọn thuộc tính trong bảng quyết định đầy đủ.
Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT
ĐỊNH KHÔNG ĐẦY ĐỦ2.1 Giới thiệu
Dữ liệu trong thực tế thường không đầy đủ, dư thừa hoặc không chính xác,gây ảnh hưởng không tốt trong quá trình phát hiện tri thức từ dữ liệu Ý tưởng “rútgọn” được sử dụng cho phép loại bỏ những thông tin dư thừa mà vẫn giữ được đầy
đủ ý nghĩa của tập dữ liệu đang xét.[1] Vì vậy, việc tìm tập rút gọn của bảng quyếtđịnh không đầy đủ được đặt ra là hoàn toàn tự nhiên và cần thiết Cũng đã thu đượcmột số kết quả khi nghiên cứu về vấn đề này trên bảng quyết định đầy đủ Tiếp nốicho những kết quả trước đây, em mở rộng nghiên cứu, tìm hiểu tập rút gọn trênbảng quyết định thiếu thông tin Cụ thể, trong luận văn này em sẽ trình bày mộtthuật toán heuristic tìm tập rút gọn tốt nhất của bảng quyết định không đầy đủ
Trong chương 1 đã trình bày, hệ thông tin không đầy đủ là hệ thông tin có giátrị thiếu trên miền giá trị thuộc tính Từ mô hình tập thô dung sai trên hệ thông tinkhông đầy đủ do Marzena Kryszkiewicz [6] đề xuất, nhiều nhóm nhà khoa học trênthế giới đã quan tâm nghiên cứu các độ đo không chắc chắn và đề xuất các phươngpháp tìm tập rút gọn Trong hệ thông tin không đầy đủ: Jiye Liang và các cộng sự[8] đề xuất thuật toán tìm tập rút sử dụng entropy thô với độ phức tạp O(|A|2|U|).Trên bảng quyết định không đầy đủ: Huang Bing và các cộng sự đề xuất thuật toán
Trang 39tìm tập rút gọn sử dụng độ đo lượng thông tin của tri thức với độ phức tạp O(|C|3|U|
2); Huang Bing, Zhou Xian Zhong và các cộng sự đề xuất thuật toán tìm tập rút gọn
sử dụng ma trận dung sai với độ phức tạp O(|C|3|U|2)
Như đã trình bày ở trên, kỹ thuật sử dụng metric đã được sử dụng hiệu quả vàoviệc giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ Trongbảng quyết định không đầy đủ, Yuhua Qian và các cộng sự đã đề xuất một số kháiniệm về khoảng cách tri thức giữa các lớp dung sai và chứng minh một số tính chấtcủa chúng Tuy nhiên, các kết quả nghiên cứu về việc sử dụng metric để giải quyếtbài toán rút gọn thuộc tính trong bảng quyết định không đầy đủ còn hạn chế
Chương này tìm hiểu Entropy Liang mở rộng trong hệ thông tin không đầy đủdựa trên entropy Liang trong hệ thông tin đầy đủ và tìm hiểu một metric trên họ cácphủ dựa trên entropy Liang mở rộng Sử dụng metric được xây dựng, chương nàytrình bày một phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ Nội dung được trình bày trong chương 2 chủ yếu được nghiên cứu, tìm hiểu ởtài liệu [4]
2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất
Xuất phát từ entropy Liang trên hệ thông tin đầy đủ, phần này tìm hiểu entropyLiang mở rộng trên hệ thông tin không đầy đủ và chứng minh một số tính chất
2.2.1 Entropy Liang mở rộng của tập thuộc tính
Định nghĩa 2.1 Cho hệ thông tin không đầy đủ IIS = ( U, A, V, f ), P ⊆ A vàU/SIM(P) = { SP (u1), SP (u2), , SP (u|U|)} Entropy Liang mở rộng của P được địnhnghĩa bởi:
1
( )1
U
P i i
Trang 40Như vậy 0 ≤ IE(P) ≤ 1-1/|U|.
Mệnh đề 2.1 sau đây cho thấy entropy Liang E(P) trường hợp riêng củaentropy Liang mở rộng
Mệnh đề 2.1 Cho hệ thông tin đầy đủ IS = ( U, A, V, f ), P ⊆ A và U/P
={X1,X2, ,Xm}.Ta có:
1
( )1
U
P i i
Định nghĩa 2.2 Cho hệ thông tin không đầy đủ IIS = ( U, A, V, f ), P, Q ⊆ A giả
sử U/SIM(P) = { SP (u1), SP (u2), , SP (u|U|)} và U/SIM(Q) = { SQ (u1), SQ (u2), , SQ(u|U|)} Entropy Liang mở rộng của P ∪ Q được định nghĩa bởi