1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ

81 315 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 2,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bảng các ký hiệu, từ viết tắtKý hiệu, từ viết tắt Diễn giải IS = U, A, V, f Hệ thông tin, hệ thông tin đầy đủ IIS = U, A, V, f Hệ thông tin không đầy đủ DS = U, C∪D, V, f Bảng quyết định

Trang 1

Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam Người đã tận tìnhdày công hướng dẫn và giúp đỡ em hoàn thành luận văn này.

Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ Thông tin đã dạy bảo,giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học, trong suốt cả quá trình

em làm luận văn

Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công nghệThông tin và Truyền thông Thái Nguyên đã động viên, giúp đỡ và tạo điều kiện cho

em trong suốt thời gian học tập và nghiên cứu

Cuối cùng xin chân thành cảm ơn bàn bè, người thân và gia đình luôn là ngườiđồng hành, động viên, chia sẻ những khó khăn trong suốt thời gian hoàn thành luận văn

Thái Nguyên, tháng 08 năm 2013

Nguyễn Quỳnh Lan

Trang 2

Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy từ nguồn tàiliệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng Tôi xin chịu tráchnhiệm về luận văn của mình.

Tác Giả Nguyễn Quỳnh Lan

Trang 3

MỤC LỤC

MỤC LỤC i

Danh mục các thuật ngữ iii

Bảng các ký hiệu, từ viết tắt iv

Danh sách bảng v

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 3

1.1 Bảng quyết định đầy đủ 3

1.2 Hệ thông tin 3

1.3 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 3

1.3.1 Hệ thông tin đầy đủ 3

1.3.2 Mô hình tập thô truyền thống 5

1.3.3 Tập rút gọn và tập lõi 7

1.4 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 9

1.4.1 Hệ thông tin không đầy đủ 9

1.4.2 Bảng quyết định không đầy đủ 11

1.4.3 Tập rút gọn của bảng quyết định không đầy đủ 11

1.5.Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric 12

1.5.1 Metric trên họ các tri thức và tính chất 12

1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn 12

1.5.1.2 Metric trên họ các tri thức 14

1.5.1.3 Một số tính chất của metric trên bảng quyết định 15

1.5.2 Rút gọn thuộc tính trong bảng quyết định sử dụng metric 18

1.5.2.1.Tập lõi và tập rút gọn của bảng quyết định dựa trên metric……….…… 18

1.5.2.2.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric 19

Trang 4

Chương 2.RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ….28

2.1 Giới thiệu 28

2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất… …… 29

2.2.1 Entropy Liang mở rộng của tập thuộc tính 29

2.2.2 Entropy Liang mở rộng có điều kiện 30

2.2.3 Một số tính chất của entropy Liang mở rộng 32

2.3 Metric trên họ các phủ và các tính chất 37

2.3.1 Metric trên họ các phủ 37

2.3.2 Một số tính chất chất của metric 40

2.4 Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric……… … 43

2.4.1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric 43

2.4.2.Thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ 44

2.5 Kết luận chương 2 52

Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM 53

3.1 Mô tả dữ liệu 53

3.2 Xây dựng chương trình 57

3.3 Kết quả thực nghiệm 59

3.4 Nhận xét 60

KẾT LUẬN 61

TÀI LIỆU THAMKHẢO……….62

PHỤ LỤC……… 64

Trang 5

Danh mục các thuật ngữ

Thuật ngữ tiếng việt Thuật ngữ tiếng anh

Hệ thông tin đầy đủ Complete Information system

Hệ thông tin không đầy đủ Incomplete Information system

Bảng quyết định đầy đủ Complete Decision TableBảng quyết định không đầy đủ Incomplete Decision TableQuan hệ không phân biệt được Indiscernibility Relation

Ma trận phân biệt Indiscernibility Matrix

Trang 6

Bảng các ký hiệu, từ viết tắt

Ký hiệu, từ viết tắt Diễn giải

IS = (U, A, V, f) Hệ thông tin, hệ thông tin đầy đủ

IIS = (U, A, V, f) Hệ thông tin không đầy đủ

DS = (U, C∪D, V, f) Bảng quyết định, bảng quyết định đầy đủ

IDS = (U, C∪D, V, f) Bảng quyết định không đầy đủ

u(a) Giá trị của đối tượng u tại thuộc tính a

SB(u) Lớp dung sai của đối tượng u trên quan hệ SIM(B)

U/SIM(B) Phủ của U sinh bởi tập thuộc tính B

B(u) Hàm quyết định suy rộng của đối tượng u đối với B

Trang 7

SRED(C) Họ tất cả các tập rút gọn sử dụng ma trận phân biệtMRED(C) Họ tất cả các tập rút gọn dựa trên metric

SCORE(C) Tập lõi sử dụng ma trận phân biệt

H(Q/P) Entropy Shannon có điều kiện của Q khi đã biết P

hệ thông tin không đầy đủ

biết P trong hệ thông tin không đầy đủ

thuộc tính P Trong hệ thông tin không đầy đủ làphủ sinh bởi tâp thuộc tính P

dj(K(P), K(Q)) Khoảng cánh giữa K(P) và K(Q) trong hệ thông tin

đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp

dE(K(P), K(Q)) Khoảng cánh giữa K(P) và K(Q) trong hệ thông tin

không đầy đủ dựa trên entropy Liang mở rộngSIGB(b) Độ quan trọng của thuộc tính b đối với B

Trang 8

Bảng 2.3 Bảng quyết định không đầy đủ minh họa ví dụ 2.3 49

Bảng 2.4 Bảng quyết định không đầy đủ về các xe

Trang 9

MỞ ĐẦU

Mười năm trở lại đây chúng ta đã chứng kiến sự phát triển mạnh mẽ và sôiđộng của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô.Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu cácphương pháp rút gọn thuộc tính trong bảng quyết định Các phương pháp chính là:Phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong đại

số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng entropythông tin, phương pháp sử dụng các độ đo trong tính toán hạt

Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra cácthuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định không đầy

đủ rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo đảmthông tin phân lớp của bảng quyết định đó Đối với một bảng quyết định không đầy

đủ có thể có nhiều tập rút gọn khác nhau Tuy nhiên, trong thực hành thường khôngđòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn theo một tiêuchuẩn đánh giá nào đó là đủ

Các kết quả nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu đáng kểkhối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối lượng dữliệu lớn Thuật toán khá đơn giản về mặt thực thi Nên em quyết định lựa chọn đề

tài luận văn: “Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ”.

Mục tiêu của luận văn: Tập trung nghiên cứu rút gọn thuộc tính trong bảng

quyết định đầy đủ từ đó làm cơ sở nghiên cứu tiếp phương pháp rút gọn thuộc tínhtrong bảng quyết định không đầy đủ

Đối tượng và phạm vi nghiên cứu: Các bảng quyết định đầy đủ, các bảng

quyết định không đầy đủ với kích thước trung bình và lớn

Trang 10

Phương pháp nghiên cứu

- Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã được chứng minh dựavào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố

- Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật toán

Ý nghĩa khoa học của đề tài

-Đây là phương pháp được nhiều nhà khoa học nghiên cứu và đã có đóng góptrong thực tiễn

-Có thể coi luận văn là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiếnthức cơ bản trong bảng quyết định không đầy đủ

Bố cục của luận văn: Gồm phần mở đầu và 3 chương nội dung, phần kết

luận, danh mục tài liệu tham khảo và phụ lục

Chương 1: Trình bày các khái niệm cơ bản về bảng quyết định đầy đủ, bảng

quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai,trình bày phương pháp xây dựng 1 metric trên họ các tri thức trong hệ thông tin đầy

đủ dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn, trình bày phương pháp

rút gọn thuộc tính trong bảng quyết định đầy đủ

Chương 2: Trình bày phương pháp xây dựng một metric trên họ các phủ trong

hệ thông tin không đầy đủ dựa trên entropy Liang mở rộng, trình bày phương pháp

rút gọn thuộc tính trong bảng quyết định không đầy đủ

Chương 3: Chương trình thử nghiệm trình bày các nội dung: mô tả dữ liệu,

xây dựng chương trình, và kết quả thực nghiệm của thuật toán

Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng phát

Trang 11

triển của luận văn.

Trang 12

Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG

QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

1.1 Bảng quyết định đầy đủ

Một lớp đặc biệt của hệ thông tin có vai trò quan trọng trong nhiều ứng dụng

là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính Ađược chia thành hai tập khác rỗng rời nhau C và D, lần lượt được gọi là tập thuộctính điều kiện và tập thuộc tính quyết định Tức là DS = (U, C∪D, V, f) với C∩D=

Xét bảng quyết định DS = (U, C∪D, V, f) với giả thiết mọi u∈U, mọi d∈D,d(u) đầy đủ giá trị, nếu tồn tại u∈U và c∈C sao cho c(u) thiếu giá trị thì DS đượcgọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy

đủ Trong luận văn này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định

1.2 Hệ thông tin

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng 1 bảng dữ liệu gồm p cộttương ứng với p thuộc tính và n hàng ứng với n đối tượng

1.3 Hệ thông tin đầy đủ và mô hình tập thô truyền thống.

1.3.1 Hệ thông tin đầy đủ

Một cách hình thức, hệ thông tin được định nghĩa như sau:

Định nghĩa 1.1 Hệ thông tin là một bộ tứ IS= (U, A, V, f) trong đó U là một tập

hữu hạn, khác rỗng các đối tượng, A là một tập hữu hạn, khác rỗng các thuộc tính,

Trang 13

Với mọi u∈U, a∈A ta ký hiệu giá trị thuộc tính a tại đối tượng u là a(u) thay

vì f(u,a) Nếu B= {b1, b2, ,bk}⊆A là một tập con các thuộc tính thì ta ký hiệu bộcác giá trị bi(u) bởi B(u) Như vậy, nếu u và v là hai đối tượng, thì ta viếtB(u)=B(v), nếu bi(u)=bi(v) với mọi i= 1, ,k

Cho hệ thông tin IS = (U, A, V, f), nếu tồn tại u∈U và a∈A sao cho a(u)thiếu giá trị (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái lại ISđược gọi là hệ thông tin đầy đủ Chúng ta tự hiểu hệ thông tin đầy đủ được gọi tắt

là hệ thông tin

Xét hệ thông tin IS = (U, A, V, f) Mỗi tập con các thuộc tính P⊆A xác địnhmột quan hệ hai ngôi trên U, ta ký hiệu IND(P), xác định bởi:

IND(P)={(u,v) ∈U x U/ a ∈P, a(u)=a(v)}

IND(P) là quan hệ P – không phân biệt được Dễ thấy rằng IND (P) là mộtquan hệ tương đương trên U Nếu (u,v)∈IND(P) thì hai đối tượng u và v khôngphân biệt được bởi các thuộc tính trong P Quan hệ tương đương IND(P) xác địnhmột phân hoạch U/P chứa đối tượng u là [u]p khi đó [u]p= {v∈U/(u,v)∈IND(P)}

Định nghĩa 1.2.[12] Cho hệ thông tin IS=(U, A, V, f), và P, Q⊆A

1) Phân hoạch U/P và phân hoạch U/Q là như nhau (viết U/P=U/Q), khi vàchỉ khi u ∈U, [u]P=[u]Q

2) Phân hoạch U/P mịn hơn phân hoạch U/Q (viết U/P≼U/Q), khi và chỉ khi

u ∈U, [u]P ⊆[u] Q.

Tính chất 1.1 [12] Xét hệ thông tin IS= ( U,A,V, f ) và P, Q⊆A

1) Nếu P⊆Q thì U/Q≼U/P, mỗi lớp của U/P là một lớp hoặc hợp của một sốlớp thuộc U/Q

2) Với mọi u ∈U ta có [u]P∪Q=[u]p ∩[u]Q

1.3.2 Mô hình tập thô truyền thống

Trang 14

Cho hệ thông tin IS=(U, A, V, f), và tập đối tượng X⊆U Với một tập thuộc tínhB⊆A cho trước chúng ta có các lớp tương đương của phân hoạch U/B, thế thì một tậpđối tượng X có thể biểu diễn thông qua các lớp tương đương này như thế nào?

Để biểu diễn X thông qua các lớp tương đương của U/B (còn gọi là biểu diễn

X bằng tri thức có sẵn trong B), người ta xấp xỉ X bởi hợp của một số hữu hạn cáclớp tương đương của U/B Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộctính B, được gọi là B xấp xỉ dưới và B xấp xỉ trên của X, ký hiệu lần lượt là BX

BX được xác định như sau:

BX={u ∈U /[u]B ⊆X }

BX={u ∈U /[u]B ∩X ≠}

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập

BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B Từhai tập xấp xỉ nêu trên, ta định nghĩa các tập

BNB(X) = BX - BX: B miền biên của X, U- BX: B miền ngoài của X

B miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc

X, còn B miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụngcác lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại

BX= ∪{Y ∈U / B / Y ⊆X }, BX= ∪{Y ∈U / B / Y ∩X ≠}

BNB(X) =  thì X được gọi là tập chính xác (exact set ), ngược lại X đượcgọi là tập thô (rough set)

Với B,D ⊆A, ta gọi B miền dương của D là tập được xác định như sau:

Trang 15

Ta có: U/{Đau đầu}={ {u1, u2, u3}, {u4, u5, u6, u7, u8}}

U/{Thân nhiệt}={{u1, u4}, {u2, u5, u7}, {u3, u6, u8}}

U/{Cảm cúm}={ {u1, u4, u5, u8}, {u2, u3, u6, u7, }}

U/{Đau đầu, Cảm cúm}={ {u1}, {u2, u3}, {u4, u5, u8}, {u6, u7}}

Như vậy, các bệnh nhân u2, u3 không phân biệt được về đau đầu và cảm cúm,nhưng phân biệt được về thân nhiệt

Các lớp không phân biệt được bởi B={Đau đầu, Thân nhiệt} là:

{u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}

Đặt X={u/u (Cảm cúm)=Có}={ u2, u3, u6, u7} Khi đó:

BX={ u2, u3}

BX={ u2, u3, u5, u6, u7, u8} Như vậy, B miền biên của X là tập hợpBNB(X)={u5, u6, u7, u8} Nếu đặt D={Cảm cúm} thì:

Trang 16

U/D ={X1= { u1, u4, u5, u8}; X2={ u2, u3, u6, u7}},

Định nghĩa 1.3 (Tập lõi dựa trên miền dương) Cho bảng quyết định DS = (U,

C∪D, V,f) Thuộc tính c∈C được gọi là không cần thiết (dispensable) trong DSdựa trên miền dương nếu POSC(D)=POS(C-{c})(D) Ngược lại, c được gọi là cần thiết(indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựatrên miền dương và được ký hiệu là PCORE (C) Khi đó, thuộc tính cần thiết chính

Trang 17

Thì R là một tập rút gọn của C dựa trên miền dương.

Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu

PRED(C) là họ tất cả các tập rút gọn Pawlak của C Khi đó PCORE (C) =R PRED C ( )

R

Định nghĩa 1.5 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng

a là thuộc tính rút gọn của DS nếu tồn tại 1 tập rút gọn R∈PRED(C) sao cho a∈R

Định nghĩa 1.6 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng

a là thuộc tính dư thừa của DS nếu a∈C-R PRED D( )

Bảng này có hai tập rút gọn là R1={Đau cơ, Thân nhiệt}, R2={Đâu đầu, thânnhiệt} Như vậy tập lõi là PCORE (C)={Thân nhiệt} và Thân nhiệt là thuộc lõi duynhất Các thuộc tính không cần thiết bao gồm:

Trang 18

+Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn nào

+Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặttrong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa là, từ bảng

dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh.Tức là:

POS{Đau cơ, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})

POS{Đau đầu, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})

1.4 Hệ thông tin không đầy đủ và mô hình tập thô dung sai

Trong phần này, em xin trình bày các khái niệm cơ bản về mô hình tập thô mởrộng trong hệ thông tin không đầy đủ dựa trên quan hệ dung sai do MarzenaKryszkiewicz [6] đề xuất

1.4.1 Hệ thông tin không đầy đủ

Như đã trình bày ở trên hệ thông tin IS=(U, A, V, f), nếu tồn tại u∈U và a∈Asao cho a(u) thiếu giá trị IS được gọi là hệ thông tin không đầy đủ Ta biểu diễn giátrị thiếu là ‘*’ và hệ thông tin không đầy đủ là IIS= (U, A, V, f )

Xét hệ thông tin không đầy đủ IIS = (U, A, V, f ) Với tập thuộc tính P⊆A tađịnh nghĩa một quan hệ nhị phân trên U như sau:

SIM(P)={(u,v)∈U x U/a∈P, a(u)= a(v) ∨a(u)=’*’∨a(v)=’*’}

Quan hệ SIM(P) không phải là quan hệ tương đương vì chúng có tính phản xạ,đối xứng nhưng không có tính bắc cầu SIM (P) là một quan hệ dung sai (tolerancerelation), hay quan hệ tương tự (similarity relation) trên U Theo [6], SIM(P)=∩a∈PSIM({a})

Trang 19

Gọi SP(u) là tập {v∈U/(u,v)∈SIM (P) } SP(u) là tập lớn nhất các đối tượngkhông có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là một lớpdung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệSIM (P) trên U là U/ SIM (P), khi đó các lớp dung sai trong U/ SIM (P) không phải

là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau

và ∪u∈U SP(u)= U Ký hiệu tập tất các phủ của U sinh bởi các tập con thuộc tínhP⊆A là COVER(U)

Trên COVER(U) ta định nghĩa một quan hệ thứ tự bộ phận (COVER(U),⋞)như sau:

Định nghĩa 1.7.[9]Cho hệ thông tin không đầy đủ IIS=(U,A,V,f) với P, Q⊆A Ta nói:

1) Phủ U/SIM(P) và phủ U/SIM(Q) là như nhau (viết U/SIM(P) = U/SIM(Q))khi và chỉ khi u∈U, SP(u)=SQ(u)

2) U/SIM(P) mịn hơn U/SIM(Q) (viết U/SIM(P)≼U/SIM(Q)) khi và chỉ khi 

u∈U, SP(u)⊆SQ(u)

Trên (COVER(U),≼), phần tử nhỏ nhất gọi là phủ rời rạc ω={SA(u)/ SA(u )={u}, u∈U} và phần tử lớn nhất gọi là phủ một khối δ={SA(u)/ SA(u )= U, u∈U}.

Tính chất 1.2 [7] Cho hệ thông tin không đầy đủ IIS =(U, A, V, f)

1) Nếu P⊆Q⊆A thì SQ(u)⊆SP(u) với mọi u∈U

2) Nếu P⊆Q⊆A thì U/SIM(Q)≼U/SIM(P)

3) Nếu P, Q ⊆A thì SP∪Q(u)= SP(u)∩SQ(u) với mọi u∈U

Tương tự hệ thông tin đầy đủ, các tập P- xấp xỉ dưới và P- xấp xỉ trên của X trong

hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX được xác định như sau:

PX = {u∈U/ SP(u) ⊆X}={u∈X/ SP(u) ⊆X}

Trang 20

PX= {u∈U/ SP(u) ∩X≠}=∪{ SP(u)/u ∈U}

Với các tập xấp xỉ nêu trên, ta gọi P- miền biên của X là tập: BNP(X)= PX

-PX và P- Miền ngoài của X là tập: U-PX.

Ví dụ 1.3 Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ

IIS = {U, A, V, f}với U={u1, u2, u3, u4, u5, u6}, A={a1, a2, a3, a4} với a1 (Đơn giá), a2(KM đã đi), a3 (Kích thước), a4 (Tốc độ tối đa)

Bảng 1.3 Bảng thông tin về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa

U/SIM(A)= {SA(u1), SA(u2), SA(u3), SA(u4), SA(u5), SA(u6)}, với

SA(u1)={u1}, SA(u2)={u2,u6}, SA(u3)={u3},SA(u4)={u4,u5},SA(u5)={u4, u5,u6},

SA(u6)={u2, u5,u6}

Với P={a3,a4} ta có:

U/SIM(P)={SP(u1), SP(u2), SP(u3), SP(u4), SP(u5), SP(u6)}, với

SP(u1)=SP(u2)={u1,u2, u6}, SP(u3)={u3}, SP(u4)=SP(u5)={u4, u5,u6},

SP(u6)={u1, u2,u4, u5,u6}

Trang 21

1.4.2 Bảng quyết định không đầy đủ

Như đã trình bày ở trên với bảng quyết định DS = (U, C∪D,V,f), nếu tồn tại

u∈U và c∈C sao cho c(u) thiếu gái trị thì DS được gọi là bảng quyết định không

đầy đủ Ta biểu diễn giá trị thiếu là ‘*’ và bảng quyết định không đầy đủ là IDS=(U,

C∪D,V, f) với mọi d∈D, ‘*’Vd Không mất tính chất tổng quát, giả thiết D chỉ

gồm một thuộc tính quyết định duy nhất {d} [6]

1.4.3 Tập rút gọn của bảng quyết định không đầy đủ

Trong [6], Marzena Kryszkiewic định nghĩa tập rút gọn của bảng quyết định

không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm

quyết định suy rộng của tất cả các đối tượng

Định nghĩa 1.8 [6] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảng

quyết định không đầy đủ IDS=(U C∪D, V, f) và tập thuộc tính R⊆C Nếu:

1)  R(u)=  C(u) với mọi u∈U.

2) Với mọi R’ R, tồn tại u∈U sao cho  R’(u)≠  C(u)

Thì R được gọi là một tập rút gọn của C.Tập rút gọn định nghĩa như trên còn

gọi là tập rút gọn Kryszkiewic

1.5 Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric

Các kết quả trong phần này được tìm hiểu trong tài liệu [3]

1.5.1 Metric trên họ các tri thức và các tính chất.

1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn.

Định nghĩa 1.9 Cho tập U là tập hữu hạn các đối tượng và X, YU Biểu thức:

Trang 22

D(X,Y) = 1 - X XY Y

 được gọi là khoảng cách Jaccard ( Jaccacrd distance)

giữa X và Y và biểu thức: J (X,Y) = X XY Y

 được gọi là hệ số Jaccard Hệ Số Jaccard

đo độ tương tự giữa hai tập hợp X và Y Hiển nhiên D(X, Y)+J(X,Y)=1.

Định lý 1.1 Cho U là tập hữu hạn các đối tượng và P(U) là tập các tập con của U.

Khoảng cách Jaccard là một metric trên P(U), nghĩa là mọi X,Y,ZP(U) thoả mãncác điều kiện sau:

(P1) D(X,Y) 0, điều kiện D(X,Y) = 0 khi và chỉ khi X=Y.

v =0 trong trường hợp ngược lại.

Đặt V XY = V X V Y , khi đó J(X,Y) được biểu diễn: J(X,Y) = XX V XY YY XY

VVV (1.2)

Nếu J(X,Y) J(X,Z) hoặc J(Y,Z) J(X,Z) thì hiển nhiên (3.1) thoả mãn Do

đó, ta cần chứng minh (3.1) đối với trường hợp đồng thời J(X,Y) > J(X,Z) và J(Y,Z)

> J(X,Z) Từ (1.2) ta có:

XY

V = 1 J X Y J X Y( , ) ,  (V XXV YY)

 (1.3)

Trang 23

Dễ thấy (V YV X ) và (V YV Z)0 hoặc V YYV YZV XYV XY  0 thoả mãn

Trang 24

Nếu V YY=0 thì hiển nhiên (3.1) thỏa mãn Giả sử V YY 0 Khi đó, (1.8) tươngđương với:

1.5.1.2 Metric trên họ các tri thức

Cho hệ thông tin IS=(U,A,V,f), mỗi tập thuộc tính P  A xác định một tri thức(knowledge) K(P)={[ui]p u i U} trên U Ký hiệu họ tất cả các tri thức trên U là 

(U) Dựa vào khoảng cách Jaccard giữa hai tập, định lý sau xây dựng một metrictrên (U)

Định lý 1.2 Ánh xạ d:  (U) x (U) [0,) xác định bởi:

Trang 25

(P2) Theo định nghĩa d K P K Q J( ( ), ( ))d K Q K P J( ( ), ( )) với mọi

(P3) Từ Định lý 1.1, d K P K Q J( ( ), ( ))d K Q K R J( ( ), ( ))d K P K R J( ( ), ( )) Từ(P1), (P2), (P3) kết luận d K P K Q J( ( ), ( )) là một metric trên( ).U

1.5.1.3 Một số tính chất của metric trên bảng quyết định

Với bảng quyết định DS=(U,CD V f, , ), Mệnh đề 1.1 sau đây xây dựng công

thức tính khoảng cách giữa hai tri thức K(C) và K(CD) dựa vào các phân hoạchU/C và U/D

Mệnh đề 1.1 Cho bảng quyết định DS=(U,CD V f, , ), giả sử U/C ={C C1, 2, ,C m}

Trang 26

Mệnh đề 1.2 Cho bảng quyết định DS=(U, CD, V, f) Giả sử d j(K(C), K(C, D)

là khoảng cách giữa hai tri thức K(C) và K(CD),  (DS) là độ chắc chắn của DS

Mệnh đề 1.3 (Tính phản đơn điệu) Cho bảng quyết định DS=(U, CD, V, f) vàhai tập thuộc tính P, QC Nếu QPC thì d j(K(Q),K(QD))  d j(K(P), K(P

Trang 27

D)) Dấu đẳng thức d K Q K Q j( ( ), ( D))d K P K P j( ( ), ( D)) xảy ra khi và chỉ khi

*Trình bày chứng minh:

Xét hai bảng quyết định DS 1 =(U,Q D) và DS 2 = (U, PD) Từ giả thiết

QP theo Mệnh đề (tính đơn điệu của  ) ta có  (DS 1 )   (DS 2 ) 1-

(DS 1 ) 1- (DS 2 ) Do đó theo Mệnh đề 1.2 ta có d j (K(Q), K(QD)) d j (K(P),

Dấu đẳng thức sảy ra khi và chỉ khi  (DS 1 ) = (DS 2 ) Từ nhận xét Mệnh đề

(tính đơn điệu của  ) ta kết luận d j (K(Q), K(QD)) = d j (K(P), K(PD)) Khi và

với U = {u 1 ,u 2 ,u 3 ,u 4 ,u 5 ,u 6 }, C ={a 1 , a 2 , a 3 } với a 1 (Đau đầu), a 2 (Đau cơ), a 3 (Thân

Trang 28

u5 Không Không Cao Không

Với P ={a1,a2}, Q = {a1}, hiển nhiên QP Ta có

U/ P = {{ u1, u2, u3}, {u4,u6}, {u5}} = {P1,P2,P3}

U/ Q = {{u1, u2, u3}, {u4, u5, u6}} = {Q1,Q2}

U /{d} = {{u1, u4, u5 },{u2, u3, u6}} = {D1,D2}

1.5.2 Rút gọn thuộc tính trong bảng quyết định sử dụng metric

1.5.2.1 Tập lõi và tập rút gọn của bảng quyết định dựa trên metric

Định nghĩa 1.10 (Tập lõi dựa trên metric) Cho bảng quyết định DS = (U,CD,V, f), thuộc tính c  C gọi là không cần thiết (dispensable) trong DS dựa trên metric

nếu d J (K(C-{c}),K((C-{c})D))=d J (K(C),K(CD)) Ngược lại, c được gọi là cần

thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõidựa trên metric và ký hiệu là MCORE (C)

Định nghĩa 1.11 (Tập rút gọn dựa trên metric ) Cho bảng quyết định DS=(U,C

D,V.f) và tập thuộc tính RC Nếu:

Trang 29

1) d J (K (R), K (RD)) = d J (K(C),K(CD))

2)r R, d J (K (R-{r}),K((R-{r})D)) d J (K(C),K(CD))

Thì R là một tập rút gọn của C dựa trên mertic Ký hiệu MRED(C) là họ tất cảcác tập rút gọn của C dựa trên metric

1.5.2.2 Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric.

Định nghĩa 1.12 (Độ quan trọng của thuộc tính dựa trên metric) Cho bảng quyết

định DS = (U, C D,V, f), BC và bC-B Độ quan trọng của thuộc tính b đốivới B được định nghĩa bởi:

SIGB (b) = dj (K(B),K(BD))-dj (K(B{b}),K(B{b}D)) với giả thiết

nên SIGB (b)0 Do đó, SIGB (b) Được tính bởi lượng thay đổi khoảng cách giữa B

và BD khi thêm thuộc tính b vào B, SIGB (b) càng lớn thì lượng thay đổi khoảngcách càng lớn, hay thuộc tính b càng quan trọng và ngược lai Độ quan trọng củathuộc tính b đặc trưng cho chất lượng phân lớp của thuộc tính b, và được sử dụnglàm tiêu chuẩn lựa chọn thuộc tính trong thuật toán heuristic tìm tập rút gọn củabảng quyết định

Để xây dựng thuật toán heuristic tìm tập rút gọn, ta có thể sử dụng hai hướngtiếp cận: hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống(top-down) Trong phần này, luận văn trình bày thuật toán heuristic tìn tập rút gọntính lõi theo hướng tiếp cận bottom-up Ý tưởng của thuật toán là xuất phát từ tậplõi, lần lượt bổ xung vào tập lõi các thuộc tính có độ quan trọng lớn nhất cho đếnkhi tìm được tập rút gọn Thuật toán sử dụng chiến lược Thêm-Xóa[13]

Trang 30

Thuật toán 1.1.[2] Thuật toán tìm lõi sử dụng metric.

Đầu vào: Bảng quyết định DS = (U,C D,V, f)

Đầu ra: Tập lõi MCORE (C).

*Phân tích độ phức tạp thời gian của thuật toán 1.1

Sử dụng thuật toán trong [10] để tính U/C , độ phức tạp thời gian là O(|C||U|)

Do đó, độ phức tap thời gian để tính dj (K(C),K(C  D)) là O(|C||U|) Vì vậy, độphức tạp thời gian của vòng lặp For từ dòng lệnh thứ 3 đến dòng lệnh thứ 7 là O(|C|

Trang 31

Ta có U ={u1, u2, u3, u4, u5, u6, u7}, |U| = 7, C ={a1, a2, a3}.

U/{d} = {{ u1, u3},{ u2, u4, u5, u6, u7}},U/C = {{ u1, u2},{ u3, u4, u5},{ u6},{ u7}}.Thực hiện các bước Thuật toán 1.1 tìm tập lõi:

1 MCORE(C) =;

2 dj(K(C), K(C  {d}) = 1- U1

1

n i

1

m i

2

i j i

3 Xét lần lượt các thuộc tính a1, a2, a3 ta có:

U/C - {a1) = U/{a2, a3}= {{u1, u2},{u3, u4, u5}, {u6},{u7}} = U /C do đó

dj(K(C-{a1}),((K(C-{a1}){d})=dj(K({a2,a3}),K({a2,a3,d}))=dj(K(C), K(C

{d}))

U/C - { a2} =U/{ a1, a3}={{ u1, u2},{ u3, u4, u5},{ u6},{u7}}=U/C do đó

dj(K(C -a2}), K(C - a2}){d}))=dj(K{a1, a3}),K({a1, a3, d}))=d j(K(C), K(C

{d}))

U/C-{a3}=U/{a1,a2}={{u1, u2, u3,u4,u5},{u6, u7}}

Trang 32

dj(K(C –a3}), K(C – a3}){d}))=dj(K{a1, a2}),K({a1, a2, d}))

1

n j

2 '

1 ' 1

1 ' 1

Thuật toán 1.2.[2] Tính phân hoạch U/R{a}

Đầu vào : Phân hoạch U/R={R1,R2, ,RK}, thuộc tính aR

Đầu ra: Phân hoạch U/R{a}

Trang 33

7 Return (TMP);

* Trình bày chứng minh tính đúng đắn của thuật toán 1.2

Tại bước 4, phân hoạch Ri / {a} chứa các lớp tương đương X = [ui] a với ui

 Ri, [ui]R=Ri, nghĩa là X=[ui] a =[ui] a [ui]R Theo tính chất 1.1 của Pawlak

Z, [ui] a [ui]R = [ui]R   a nên X= [ui]R   a Như vậy tập TMP thu được tạibước 7 bao gồm các tập X với X= [ui]R   a Theo phân hoạch U/R{a}

* Độ phức tạp thời gian của thuật toán 1.2

Sử dụng thuật toán [10] để tính phân hoạch Ri/ a với độ phức tạp thời gian o

R i thì độ phức tạp thời gian của Thuật toán 1.2 là

1

k i

OR i=O U

Nếu sử dụng tính chất 1.1 để tính U/R{a} khi đã biết U/R, trước phải tínhphân hoạch u/{a}={A1, A2} với độ phức tạp thời gian O(U ) Tiếp theo, ta phảitính các phép giao Ri Aj , i=1 k, j=1 l với độ phức tạp thời gian là O( U 2) Do

đó, độ phức tạp thời gian nếu sử dụng Tính chất 1.1 là O(U 2) Độ phức tạp nàylớn hơn độ phức tạp của Thuật toán 1.2 Sở dĩ độ phức tạp thời gian của Thuật toán1.2 nhỏ hơn là vì Thuật toán 1.2 không phải tính các phép giao Ri Ajtrongtrường hợp Ri Aj=

R={a3} và phân hoạch U/R=U/{a3}={{u1,u2,u7},{u3,u4,u5,u6}}, áp dụng Thuậttoán 1.2 tính phân hoạch U/{a2,a3} (với a={a2}) ta có:

1.TMP =

Trang 34

2.Xét R1={u1,u2,u7}, tính R1/{a2}={{u1,u2},{u7}} và TMP= {{u1,u2},{u7

}} Xét R2={u3,u4,u5,u6}, tính R2/{a2}={{u3,u4,u5},{u6}} và TMP = {{u1,u2

}, {u3,u4,u5}, {u6},{u7}} Vậy U/{a2,a3} = TMP = {{u1,u2}, {u3,u4,u5}, {u6},{u7}}

Thuật toán 1.3.[2] Thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng metric Đầu vào: Bảng quyết định DS=(U,CD,V,f)

Đầu ra: R là một tập rút gọn tốt nhất của C.

1 Tìm tập lõi MCORE (C) theo Thuật toán 1.1;

Trang 35

//Loại bỏ các thuộc tính dư thừa trong R nếu có

* Trình bày chứng minh tính đúng đắn của thuật toán 1.3

Với bước thêm dần vào R các thuộc tính có độ quan trọng lớn nhất, tập thuộc

tính R thu được từ câu lệnh từ 3 đến 13 thoả mãn điều kiện bảo toàn khoảng cách d

JK R K R( ), ( D) d K C K C J ( ), ( D) 

Với bước loại bỏ các thuộc tính dư thừa, câu lệnh từ 14 đến 19 đảm bảo tập R

là tối thiểu, nghĩa là.rR, d JK R( { }) ,rK R( { })rD)d K C K C J ( ), ( D)

.

Theo Định nhĩa 1.3, R là tập rút gọn dựa trên metric.

* Độ phức tạp thời gian của Thuật toán 1.3

Xét vòng lặp While từ dòng lệnh số 3 đến dòng lệnh số 13, theo công thức

(1.9) để tính SIGR(a) ta chỉ cần tính hoạch U R / {a} vì phân hoạch U R/ đã đượctính ở bước trước Từ Thuật toán 1.2, độ phức tạp thời gian để tính U R / {a} khibiết U R/ là O U  nên độ phức tạp thời gian để tính tất cả các SIGR  a là:

Trang 36

Độ phức tạp thời gian để chọn thuộc tính có độ quan trọng lớn nhất là

Vòng lặp For tại dòng lệnh 15 thựchiện R* lần, mỗi lần ta phải tính d K R K R J ( ), ( D)

với độ phức tạp thời gian

O R U

Do đó, độ phức tạp thời gian của dòng lệnh 15 là O ( R R U* ) Vì vậy,

độ phức tạp thời gian của thuật toán là O(

2

C U

) Khi biết U/R là O (U ) nên độ

phức tạp thời gian để tính tất cả các SIG  a là:

(C ) + (C )+ +1)*=U =(C *(C -1)/2)*U =O(C U2 )

Độ phức tạp thời gian để chọn thuộc tính có độ quan trọng lớn nhất là:

C +(C -1)+ +1=C *( C -1)/2=O( C2 ) Vòng lặp For tại dòng lệnh 15 thực

hiện R* lần, mỗi lần ta phải tính dj (K(R,(RD)) với độ phức tạp thời gian O ( R

U ) Do đó, độ phức tạp thời gian cúa dòng lệnh 15 là O ( R R U* ) Vì vậy, độ

phức tạp thời gian của thuật toán là O(

2

C U

)

* Đánh giá Thuật toán 1.3 dựa trên lý thuyết

Với phương pháp rút gọn thuộc tính sử dụng entropy Shannon (trong nhómphương pháp Entropy Shannon), thuật toán MIBARK trong [11] có độ phức tạpthời gian là O(C

Độ phức tạp thời gian của các thuật toán tìm tập rút gọn phụ thuộc vào độphức tạp của việc tính phân hoạch U/C Nếu cùng sử dụng thuật toán tính U/Ctrong [10]:

Trang 37

1) Độ phức tạp thời gian của Thuật toán 1.3 nhỏ hơn độ phức tạp các thuậttoán sử dụng entropy Shannon vì Thuật toán 1.3 sử dụng kết quả đã được tính ởbước trước U/ R để tính U/ R {a}.

2) Thuật toán 1.3 không phải tính toán các biểu thức logarit nên khối lượngtính toán nhỏ hơn các thuật toán sử dụng entropy Shannon

Do đó, Thuật toán 1.3 hiệu quả hơn các thuật toán sử dụng entropy Shannon

dụ 1.5 ta đã tính tập lõi MCORE(C) = {a3} và dj ( K(C), K(C{d})) =1

3 Thực hiện các bước Thuật toán 1.3 tìm một tập tút gọn tốt nhất ,ta có:

Xét thuộc tính a1C  a3 Theo tính toán ở Ví dụ 1.5:

Do a1và a2 có độ quan trọng như nhau nên chọn bất kì a1 hoặc a2, giả sử

chọn a1, khi đó và Ra a1, 3 và theo tính toán ở Ví dụ 1.5:

Trang 38

Thực hiện vòng lặp For Xét R* R MCORE C    a1 và R    a1  a3 Theotính toán ở trênd K a J   3 ,K a d  3,    d K C K C J  ,   d  .Do đóRa a1, 3 làmột tập rút gọn tốt nhất của C dựa trên metric.

1.6 Kết luận chương 1

Trình bày về bảng quyết định đầy đủ, bảng quyết định không đầy đủ,

mô hình tập thô truyền thống, mô hình tập thô dung sai và cuối cùng là thuật toán rút gọn thuộc tính trong bảng quyết định đầy đủ.

Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT

ĐỊNH KHÔNG ĐẦY ĐỦ2.1 Giới thiệu

Dữ liệu trong thực tế thường không đầy đủ, dư thừa hoặc không chính xác,gây ảnh hưởng không tốt trong quá trình phát hiện tri thức từ dữ liệu Ý tưởng “rútgọn” được sử dụng cho phép loại bỏ những thông tin dư thừa mà vẫn giữ được đầy

đủ ý nghĩa của tập dữ liệu đang xét.[1] Vì vậy, việc tìm tập rút gọn của bảng quyếtđịnh không đầy đủ được đặt ra là hoàn toàn tự nhiên và cần thiết Cũng đã thu đượcmột số kết quả khi nghiên cứu về vấn đề này trên bảng quyết định đầy đủ Tiếp nốicho những kết quả trước đây, em mở rộng nghiên cứu, tìm hiểu tập rút gọn trênbảng quyết định thiếu thông tin Cụ thể, trong luận văn này em sẽ trình bày mộtthuật toán heuristic tìm tập rút gọn tốt nhất của bảng quyết định không đầy đủ

Trong chương 1 đã trình bày, hệ thông tin không đầy đủ là hệ thông tin có giátrị thiếu trên miền giá trị thuộc tính Từ mô hình tập thô dung sai trên hệ thông tinkhông đầy đủ do Marzena Kryszkiewicz [6] đề xuất, nhiều nhóm nhà khoa học trênthế giới đã quan tâm nghiên cứu các độ đo không chắc chắn và đề xuất các phươngpháp tìm tập rút gọn Trong hệ thông tin không đầy đủ: Jiye Liang và các cộng sự[8] đề xuất thuật toán tìm tập rút sử dụng entropy thô với độ phức tạp O(|A|2|U|).Trên bảng quyết định không đầy đủ: Huang Bing và các cộng sự đề xuất thuật toán

Trang 39

tìm tập rút gọn sử dụng độ đo lượng thông tin của tri thức với độ phức tạp O(|C|3|U|

2); Huang Bing, Zhou Xian Zhong và các cộng sự đề xuất thuật toán tìm tập rút gọn

sử dụng ma trận dung sai với độ phức tạp O(|C|3|U|2)

Như đã trình bày ở trên, kỹ thuật sử dụng metric đã được sử dụng hiệu quả vàoviệc giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ Trongbảng quyết định không đầy đủ, Yuhua Qian và các cộng sự đã đề xuất một số kháiniệm về khoảng cách tri thức giữa các lớp dung sai và chứng minh một số tính chấtcủa chúng Tuy nhiên, các kết quả nghiên cứu về việc sử dụng metric để giải quyếtbài toán rút gọn thuộc tính trong bảng quyết định không đầy đủ còn hạn chế

Chương này tìm hiểu Entropy Liang mở rộng trong hệ thông tin không đầy đủdựa trên entropy Liang trong hệ thông tin đầy đủ và tìm hiểu một metric trên họ cácphủ dựa trên entropy Liang mở rộng Sử dụng metric được xây dựng, chương nàytrình bày một phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ Nội dung được trình bày trong chương 2 chủ yếu được nghiên cứu, tìm hiểu ởtài liệu [4]

2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất

Xuất phát từ entropy Liang trên hệ thông tin đầy đủ, phần này tìm hiểu entropyLiang mở rộng trên hệ thông tin không đầy đủ và chứng minh một số tính chất

2.2.1 Entropy Liang mở rộng của tập thuộc tính

Định nghĩa 2.1 Cho hệ thông tin không đầy đủ IIS = ( U, A, V, f ), P ⊆ A vàU/SIM(P) = { SP (u1), SP (u2), , SP (u|U|)} Entropy Liang mở rộng của P được địnhnghĩa bởi:

1

( )1

U

P i i

Trang 40

Như vậy 0 ≤ IE(P) ≤ 1-1/|U|.

Mệnh đề 2.1 sau đây cho thấy entropy Liang E(P) trường hợp riêng củaentropy Liang mở rộng

Mệnh đề 2.1 Cho hệ thông tin đầy đủ IS = ( U, A, V, f ), P ⊆ A và U/P

={X1,X2, ,Xm}.Ta có:

1

( )1

U

P i i

Định nghĩa 2.2 Cho hệ thông tin không đầy đủ IIS = ( U, A, V, f ), P, Q ⊆ A giả

sử U/SIM(P) = { SP (u1), SP (u2), , SP (u|U|)} và U/SIM(Q) = { SQ (u1), SQ (u2), , SQ(u|U|)} Entropy Liang mở rộng của P ∪ Q được định nghĩa bởi

Ngày đăng: 16/04/2017, 17:04

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hoàng Thị Lan Giao (2007) “Khía cạnh đại số và logic phát hiện luật theo tiếp cận tập thô”, Luận án Tiến sỹ Toán học, Viện Công Nghệ Thông Tin Sách, tạp chí
Tiêu đề: Khía cạnh đại số và logic phát hiện luật theo tiếp cận tập thô
Tác giả: Hoàng Thị Lan Giao
Nhà XB: Viện Công Nghệ Thông Tin
Năm: 2007
[2] Nguyễn Long Giang (2012), “Nghiên cứu một số phương pháp khai phá dữ liệu theo tiếp cận lý thuyết tập thô”, Luận án tiến sỹ toán học, Viện Công Nghệ Thông Tin Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp khai phá dữliệu theo tiếp cận lý thuyết tập thô"”, Luận án tiến sỹ toán học
Tác giả: Nguyễn Long Giang
Năm: 2012
[3] Nguyễn Long Giang, Nguyễn Thanh Tùng (2012), “Một phương pháp mới rút gọn thuộc tính trong bảng quyết định sử dụng Metric”, Kỷ yếu Hội thảo Một số vấn đề chọn lọc về CNTT và TT, Cần Thơ, 10/2011, tr. 249-266 Sách, tạp chí
Tiêu đề: Một phương pháp mới rút gọn thuộc tính trong bảng quyết định sử dụng Metric
Tác giả: Nguyễn Long Giang, Nguyễn Thanh Tùng
Nhà XB: Kỷ yếu Hội thảo Một số vấn đề chọn lọc về CNTT và TT
Năm: 2012
[4] Nguyễn Long Giang, Nguyễn Thanh Tùng, Vũ Đức Thi, “Một phương pháp mới rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric”.Tạp trí Tin học và Điều khiển học Sách, tạp chí
Tiêu đề: Một phương pháp mới rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric
Tác giả: Nguyễn Long Giang, Nguyễn Thanh Tùng, Vũ Đức Thi
Nhà XB: Tạp trí Tin học và Điều khiển học
[5] Nguyễn Thanh Tùng (2010), “Về một metric trên họ các phân hoạch của một tập hữu hạn”, Tạp trí Tin học và Điều khiển học, T. 26, S.1, tr. 73-85.Tiếng Anh Sách, tạp chí
Tiêu đề: Về một metric trên họ các phân hoạch của một tập hữu hạn
Tác giả: Nguyễn Thanh Tùng
Nhà XB: Tạp trí Tin học và Điều khiển học
Năm: 2010
[7] Liang J.Y, Chin K.S, Dang C.Y.and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough in rough set theory”, International Journal of General Systems 31, pp.331-342 Sách, tạp chí
Tiêu đề: New method formeasuring uncertainty and fuzziness in rough in rough set theory”, "InternationalJournal of General Systems
[8] Liang J.Y. and Xu Z.B (2002), “The algorithm on knowledge reduction in incomplete information system”, International Journal of Uncertainty, Fuzziness and Knowledge – Based systems 10 (1), pp. 95-103 Sách, tạp chí
Tiêu đề: The algorithm on knowledge reduction in incomplete information system
Tác giả: Liang J.Y., Xu Z.B
Nhà XB: International Journal of Uncertainty, Fuzziness and Knowledge – Based systems
Năm: 2002
[10] Lv Y.J. and Li J.H (2007), “A Quick Algorithmfor Reduction of Attribute in Information Systems”, The First International Symposium on Data, Privacy, and E- Commerce (ISDPE 2007), pp. 98-100 Sách, tạp chí
Tiêu đề: A Quick Algorithm for Reduction of Attribute in Information Systems
Tác giả: Lv Y.J., Li J.H
Nhà XB: The First International Symposium on Data, Privacy, and E- Commerce (ISDPE 2007)
Năm: 2007
[11] Miao D.Q. and Hu G.R (1999), “A heuristic algorithm for knowledge reduction”, Computer Research and Development, Vol.36, No.6, pp. 681-684 Sách, tạp chí
Tiêu đề: A heuristic algorithm for knowledge reduction
Tác giả: Miao D.Q., Hu G.R
Nhà XB: Computer Research and Development
Năm: 1999
[12] Pawlak Z. (1998), “Rough set theory and its applications to data analysis”, Cybernetics and systems 29, pp.661-688 Sách, tạp chí
Tiêu đề: Rough set theory and its applications to data analysis
Tác giả: Pawlak Z
Nhà XB: Cybernetics and systems
Năm: 1998
[13] R.López de Manstaras (1991), “A distance- based attribute selection measure for decision tree induction”, Machine Learning Vol. 6, pp81-92 Sách, tạp chí
Tiêu đề: A distance- based attribute selection measure for decision tree induction
Tác giả: R.López de Manstaras
Nhà XB: Machine Learning
Năm: 1991

HÌNH ẢNH LIÊN QUAN

Bảng quyết định đầy đủ Complete  Decision Table Bảng quyết định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt được Indiscernibility Relation - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng quy ết định đầy đủ Complete Decision Table Bảng quyết định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt được Indiscernibility Relation (Trang 5)
Bảng các ký hiệu, từ viết tắt - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng c ác ký hiệu, từ viết tắt (Trang 6)
Bảng 1.1. Bảng thông tin về bệnh cúm - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 1.1. Bảng thông tin về bệnh cúm (Trang 15)
Bảng 1.2. Bảng quyết định về bệnh cúm - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 1.2. Bảng quyết định về bệnh cúm (Trang 17)
Ví dụ 1.3. Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
d ụ 1.3. Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ (Trang 20)
Bảng 1.4. Bảng quyết định về bệnh cảm cúm - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 1.4. Bảng quyết định về bệnh cảm cúm (Trang 27)
Bảng 1.5. Bảng quyết định minh họa Ví dụ 1.5 - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 1.5. Bảng quyết định minh họa Ví dụ 1.5 (Trang 30)
Bảng 2.3. Bảng quyết định không đầy đủ minh họa ví dụ 2.3 - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 2.3. Bảng quyết định không đầy đủ minh họa ví dụ 2.3 (Trang 56)
Bảng 2.4. Bảng quyết định không đầy đủ về các xe hơi - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 2.4. Bảng quyết định không đầy đủ về các xe hơi (Trang 59)
Bảng 2.4 là bảng quyết định không đầy đủ IDS= (U, C∪{d}, V, f) với U={u 1 , - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 2.4 là bảng quyết định không đầy đủ IDS= (U, C∪{d}, V, f) với U={u 1 , (Trang 60)
Bảng 3.1. Bảng quyết định không đầy đủ về các xe hơi - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 3.1. Bảng quyết định không đầy đủ về các xe hơi (Trang 63)
Bảng 3.2. Kết quả thực hiện thuật toán Thuật toán 2.2 - Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đ
Bảng 3.2. Kết quả thực hiện thuật toán Thuật toán 2.2 (Trang 71)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w