Một số phương pháp tính CORE dựa vào lý thuyết tập phô

Nói cách khác, chỉ cần trên một tập thuộc tính rút gọn có thể có được thông tin của toàn hệ thống.. Đặc biệt, quan tâm đến các phương pháp heuristic, nhằm tăng tốc độ tính toán, để từ đó

Trang 1

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực Nội dung luận văn có tham khảo và sử dụng các tài liệu, thông tin được đăng tải trên các ấn phẩm, tạp chí

và các trang web trích dẫn theo danh mục tài liệu tham khảo của luận văn đã nêu

Huế, tháng 11 /2010 Tác giả: Nguyễn Thị Liệu

Trang 2

LỜI CẢM ƠN

Đầu tiên em xin gửi lời cảm ơn chân thành tới các Thầy Cô trong khoa CNTT, các Thầy Cô trong trường Đại Học Khoa Học Huế Suốt thời gian học tập, nghiên cứu ở trường và cụ thể là tại khoa CNTT em rất cảm kích trước

sự nhiệt tình chỉ bảo, dạy dỗ, truyền đạt nhiều kiến thức cho em và các anh chị học viên Qua đây em xin bày tỏ lòng biết ơn sâu sắc và lời cảm ơn chân thành tới các Thầy Cô giáo

Em xin bày tỏ lòng biết ơn đến Cô Hoàng Thị Lan Giao, người đã tận tình hướng dẫn và giúp đỡ em trong thời gian thực hiện luận văn tốt nghiệp này Trong thời gian làm việc với Cô không những em học hỏi được nhiều kiến thức chuyên ngành bổ ích mà còn học được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc của Cô

Em xin cảm ơn những người thân trong gia đình, tất cả các bạn bè anh chị của em, các bạn, anh chị cùng lớp Cao học KHMT 2008 đã có những ý kiến đóng góp và những lời động viên giúp em hoàn thành đề tài này

Mặc dù đã cố gắng hoàn thiện luận văn nhưng chắc chắn không thể tránh khỏi những thiếu sót Một lần nữa, em xin chân thành cảm ơn và luôn mong nhận được sự đóng góp quý báu của các Thầy Cô và tất cả mọi người

Huế, tháng 11 /2010 Nguyễn Thị Liệu

Trang 3

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC BẢNG v

DANH MỤC CÁC HÌNH ẢNH vi

MỞ ĐẦU 1

Chương 1 - CÁC KHÁI NIỆM CƠ BẢN 3

1.1 Hệ thống thông tin 3

1.1.1 Hệ thống thông tin không đầy đủ 4

1.1.2 Bảng quyết định 5

1.2 Quan hệ không phân biệt được 6

1.3 Ma trận phân biệt được 7

1.4 Xấp xỉ của tập 9

1.5 Tập rút gọn và Core 13

Chương 2 - MỘT SỐ PHƯƠNG PHÁP TÍNH CORE DỰA VÀO LÝ THUYẾT TẬP THÔ 16

2.1 Core trong hệ thống thông tin nhất quán 16

2.1.1 Phương pháp tính Core dựa vào các toán tử hệ cơ sở dữ liệu 16

2.1.2 Phương pháp tính Core dựa vào thông tin entropy 19

2.2 Core trong hệ thống thông tin không nhất quán 31

2.2.1 Phương pháp tính Core dựa vào ma trận phân biệt được 31

2.2.2 Phương pháp tính Core dựa vào miền khẳng định 33

Trang 4

2.3 Core dựa vào entropy thô trong hệ thống thông tin không đầy đủ 44

2.3.1 Tri thức và Entropy của tập thô 44

2.3.2 Ý nghĩa của thuộc tính đánh giá theo entropy thô 47

2.3.3 Thuật toán tính Core dựa vào Entropy thô 48

Chương 3 - CÀI ĐẶT CÁC THUẬT TOÁN 51

3.1 Thu thập mẫu dữ liệu 51

3.2 Một số thủ tục, chương trình 52

3.3 So sánh các phương pháp tính Core 57

KẾT LUẬN 60

TÀI LIỆU THAM KHẢO 62

Trang 7

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Trong khai phá dữ liệu, việc rút gọn thuộc tính trong hệ thống thông tin nhằm loại đi những thuộc tính dư thừa, không cần thiết Nói cách khác, chỉ cần trên một tập thuộc tính rút gọn có thể có được thông tin của toàn hệ thống Tuy nhiên, đối với một hệ thống có thể có nhiều tập rút gọn khác nhau, trong thực tế đôi khi một ứng dụng cụ thể chỉ cần một tập rút gọn phù hợp là

có thể có đầy đủ thông tin mong muốn

Core được định nghĩa bằng giao của tất cả các tập rút gọn Core= 

d R

R

Re



Điều này đòi hỏi phải biết được tất cả tập rút gọn thì mới tính được Core

Do tất cả các thuộc tính trong Core đều có mặt ở bất kỳ tập rút gọn nào

và Core có thể được sử dụng hiệu quả trong việc tạo cây quyết định nhiều biến Vì vậy, vấn đề được đặt ra liệu có thể phát hiện Core một cách độc lập trước khi tìm được tập rút gọn không? Nhiều nhà nghiên cứu đã nổ lực giải quyết vấn đề này và đã có những thành công nhất định

2 Mục đích của đề tài

Đề tài này được thực hiện với mục đích tìm hiểu, tổng hợp, so sánh một

số phương pháp tính Core khác nhau dựa vào lý thuyết tập thô Đặc biệt, quan tâm đến các phương pháp heuristic, nhằm tăng tốc độ tính toán, để từ đó có thể rút ra được những phương pháp tính Core phù hợp với dữ liệu trong các tình huống bài toán cụ thể trên thực tế

3 Đối tƣợng và phạm vi nghiên cứu

 Nghiên cứu lý thuyết tập thô và lý thuyết thông tin

Trang 8

 Một số phương pháp tính Core trên hệ thống thông tin đầy đủ và hệ thống thông tin không đầy đủ

4 Phương pháp nghiên cứu

Tìm hiểu, tổng hợp một số phương pháp tính Core dựa vào lý thuyết tập thô Cài đặt thử nghiệm một số phương pháp

5 Ý nghĩa thực tiễn của đề tài

Trên thực tế, đã có rất nhiều nghiên cứu về phương pháp tính Core khác nhau Ví dụ: Hu đã trình bày thuật toán tính Core dựa trên ma trận phân biệt được, Dongyi Ye đã đưa ra ma trận phân biệt được dựa trên miền khẳng định và đã chứng minh rằng Core đã tính toán với thuật toán được thiết kế bằng ma trận phân biệt được là nhất quán với Core đã được tính toán dựa trên miền khẳng định… Đề tài này nhằm tìm hiểu, tổng hợp một số phương pháp tính Core có đánh giá độ phức tạp của từng phương pháp

6 Cấu trúc của luận văn

Luận văn gồm 3 chương, được tổ chức như sau:

Chương 1: Nêu một số khái niệm cơ bản trong khai phá dữ liệu và lý

thuyết tập thô có liên quan đến nội dung chính của luận văn như: Hệ thống thông tin, quan hệ không phân biệt, ma trận phân biệt được, tập xấp xỉ, tập rút gọn và Core

Chương 2: Trình bày năm phương pháp tính Core dựa vào lý thuyết tập

thô: hai phương pháp tính Core trong hệ thống thông tin nhất quán, hai phương pháp tính Core trong hệ thống thông tin không đầy đủ và một phương pháp tính Core trong hệ thống thông tin không đầy đủ

Chương 3: Cài đặt một số thuật toán và so sánh kết quả của các thuật

toán

Trang 9

Chương 1 CÁC KHÁI NIỆM CƠ BẢN

Lý thuyết tập thô được đề xuất bởi Pawlak vào năm 1982 Lý thuyết này có nhiều ứng dụng thành công trong học máy, khai phá dữ liệu, trí tuệ nhân tạo và các ứng dụng khác

Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần có thông tin về mọi đối tượng trong tập vũ trụ Trong lý thuyết tập thô có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào đó

và tri thức được coi là khả năng phân loại giữa các đối tượng Ở đây, sự phân loại chủ yếu dựa vào quan hệ không phân biệt được với nhau Đây chính là quan hệ quan trọng và là điểm xuất phát của lý thuyết tập thô: biên của tập thô

là không rõ ràng và để xác định biên ta phải xấp xỉ bằng các tập hợp khác nhằm mục đích cuối cùng là trả lời được rằng mọi đối tượng nào đó có thuộc tập hợp hay không Lý thuyết tập thô với cách tiếp cận như vậy đã được ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội [3] Ngoài ra, lý thuyết tập thô phân loại tất cả các thuộc tính vào 3 loại: thuộc tính Core, thuộc tính rút gọn và thuộc tính không cần thiết [10]

1.1 Hệ thống thông tin

Hệ thống thông tin IS là một cặp (U,A) Trong đó, U là tập hữu hạn các đối tượng khác rỗng (được gọi là tập vũ trụ các đối tượng) và A là tập hữu hạn các thuộc tính khác rỗng.Với mọi aA, ta ký hiệu Va là tập giá trị của a Mặt khác, nếu uU và aA thì ta sẽ ký hiệu u(a)Va là giá trị thuộc tính a của đối tượng u [2]

Trang 10

Âm u Mưa Mưa Mưa

Âm u

Nóng Nóng Nóng Trung bình Mát mẻ Mát mẻ Mát mẻ

Cao

Cao Trung bình Trung bình Trung bình

Không

Có Không Không Không

Có

Có Trong đó, U= {u1, u2, u3, u4, u5, u6, u7} là tập hợp các đối tượng

A = {Quang cảnh, Nhiệt độ, Độ ẩm, Gió} là tập hợp các thuộc tính

u1(Quang cảnh) = Nắng là giá trị của thuộc tính Quang cảnh của đối tượng u1

1.1.1 Hệ thống thông tin không đầy đủ

Hệ thống thông tin IS=(U,A) được gọi là không đầy đủ nếu tồn tại thuộc tính aA và đối tượng uU mà giá trị u(a) bị mất hay nói cách khác Va

chứa giá trị null [6]

Trên hệ thống thông tin không đầy đủ, giá trị thuộc tính được chia làm hai loại:

- Giá trị bị mất, giá trị này được ký hiệu là “?”: ban đầu, giá trị thuộc

tính đó của đối tượng đang xét có tồn tại và có ảnh hưởng đến việc

Trang 11

phân lớp quyết định của đối tượng Tuy nhiên, vì lý do nào đó mà giá trị này bị xóa đi và hiện tại không thể xác định được

- Giá trị điều kiện không quan trọng, giá trị này được ký hiệu là “*”:

giá trị ban đầu của đối tượng trên thuộc tính đang xét không được lưu lại do không có ý nghĩa trong việc ra quyết định phân lớp đối tượng đó

Ví dụ 1.2

Bảng 1.2 Hệ thống thông tin không đầy đủ

U Giá Kích thước Động cơ Tốc độ tối đa

?

Nhỏ Lớn Lớn

* Lớn

* Diesel Diesel Diesel Gasoline

Thấp

Cao Trung bình Trung bình

Cao

1.1.2 Bảng quyết định

Bảng quyết định là một hệ thống thông tin có dạng T=(U,C,D), với A=CD, CD=, trong đó C là tập thuộc tính điều kiện còn D là tập thuộc tính quyết định

Cao Cao Cao Cao Trung bình

Không

Không Không

Có

Trang 12

Trong bảng 1.3, các thuộc tính điều kiện C là: Quang cảnh, Nhiệt độ,

Độ ẩm, Gió Thuộc tính quyết định D là: Chơi tennis

Trong bảng quyết định các đối tượng giống nhau hay không phân biệt được có thể được mô tả nhiều lần Bảng quyết định mà các đối tượng có các thuộc tính điều kiện giống nhau nhưng thuộc tính quyết định khác nhau thì gọi là bảng quyết định không nhất quán, ngược lại là bảng quyết định nhất quán

1.2 Quan hệ không phân biệt đƣợc [1], [3]

Cho IS=(U,A) là một hệ thống thông tin, R là một quan hệ hai ngôi trên

U, có nghĩa là R  UU, khi đó R được gọi là một quan hệ tương đương nếu

R thỏa mãn các tính chất:

Phản xạ: uU, uRu

Đối xứng: u,vU, uRv vRu

Bắc cầu: u,v,tU, uRv và vRt  uRt

Với bất kỳ BA, có một quan hệ tương đương định nghĩa trên U như sau:

IND(B) = {(u,v)U2| aB, u(a) = v(a)}

IND(B) được gọi là B–quan hệ không phân biệt được

Nếu (u,v)IND(B), thì các đối tượng u và v là không phân biệt được với nhau bởi các thuộc tính trong B

Lớp tương đương chứa u của B–quan hệ không phân biệt được ký hiệu [u]B

Ký hiệu U/B là tập hợp thương của quan hệ tương đương IND(B)

Ví dụ 1.4

Trang 13

Âm u

Không

Có

Không Không

Có

Có Không

Có

Các tập con không rỗng của tập thuộc tính điều kiện là {Quang cảnh}, {Gió} và {Quang cảnh, Gió}

IND(Quang cảnh) = {{u1,u2}, {u3, u7}, {u4,u5,u6 }}

IND(Gió) = {{u1, u3, u4, u5},{u2, u6, u7}}

IND({Quang cảnh, Gió }) = {{u1}, {u2}, {u3}, {u4,u5}, {u7}, {u6}}

| DdnÕu

)d(u)d(u

| Dd nÕu )}

c(u)c(u :C{cm

j i

ij

λNhư vậy, mij là tập hợp gồm tất cả các thuộc tính điều kiện có thể xếp các đối tượng ui và uj vào các lớp tương đương khác nhau theo phân hoạch trên U đối với thuộc tính đó Giá trị  hàm ý rằng cặp đối tượng ui và uj là không phân biệt trên tập thuộc tính quyết định D Nếu mij =  thì bảng quyết định là không nhất quán [1], [5]

Ví dụ 1.5 Xét bảng quyết định sau

Trang 14

u5 {a,b,c,d} {a,b,c}  {a,b,c,d} 

u6 {a,b,c,d} {a,b,c}  {a,b,c,d}  

Trang 15

1.4 Xấp xỉ của tập [1], [2], [3]

Cho hệ thống thông tin IS=(U,A) và BA, XU Xấp xỉ dưới và xấp xỉ trên của tập X tương ứng với B, ký hiệu theo thứ tự là B X và B X được định nghĩa như sau:

}[x]

|{x B  

X

Với [x]B là lớp tương đương chứa phần tử x của quan hệ IND(B)

Rõ ràng, B X  X B X Tập BNB(X) =B X –B X được gọi là B– miền biên của X, bao gồm tất cả những đối tượng mà ta không thể phân lớp một cách rõ ràng thuộc vào tập X dựa trên tập thuộc tính B

U - B X là B – miền ngoài của X, bao gồm tất cả những đối tượng có thể được phân lớp chắc chắn là không thuộc X

Yes

No

No Yes

No

Cho W = {x | Walk(x) = Yes}

Trang 16

Hình 1.1: Tập xấp xỉ

Trang 18

|,

|{)(X Y x x P P U IND B P X Y

Trang 19

Chứng minh tương tự hoặc có thể suy ra từ 8

Từ định nghĩa của tập xấp xỉ dưới:

  ( )}

| { )) ((

  )}

| {xU x B X

Cụ thể, cho cC, ta có định nghĩa sau:

Định nghĩa 1.1 [9] Thuộc tính c là không cần thiết trong T nếu

) ( )

(D POS( {}) D

POS C  Cc , ngược lại thuộc tính c là cần thiết trong T

C- miền khẳng định của D: POS D C X

D U X

/

) (





T= (C, D) là độc lập nếu tất cả cC là cần thiết trong T

Tập các thuộc tính RC được gọi là một rút gọn của C, nếu

T’=(U,RD) là độc lập và POS R(D) POS C(D).

Trang 20

Tập tất cả các thuộc tính điều kiện cần thiết trong T được gọi là lõi của

C, ký hiệu Core(C) Lưu ý rằng lõi có thể là tập rỗng và khi đó mọi tập con của P với lực lượng bằng card(C)-1 đều giữ nguyên khả năng phân loại của C

Khi loại khỏi C các thuộc tính không cần thiết thì được một rút gọn của

C Nói cách khác, rút gọn của một tập thuộc tính C là tập thuộc tính BC giữ nguyên khả năng phân loại của C, hay IND(B)=IND(C) Vì lõi của C là tập các thuộc tính cần thiết của C nên tất cả các rút gọn của C đều chứa tập thuộc tính lõi

Tập thuộc tính lõi của C là giao của tất cả các rút gọn của C, tức là:

) ( )

Trang 22

Chương 2 MỘT SỐ PHƯƠNG PHÁP TÍNH CORE DỰA VÀO

LÝ THUYẾT TẬP THÔ

2.1 Core trong hệ thống thông tin nhất quán

2.1.1 Phương pháp tính Core dựa vào các toán tử hệ cơ sở dữ liệu

Nhiều mô hình tập thô đã được phát triển bởi cộng đồng tập thô trong những thập kỷ cuối bao gồm mô hình VPRS (Varied Precise Rough Set) của Ziako, mô hình GRS (General Rough Set) của Hu… Các mô hình tập thô tập trung mở rộng hạn chế của tập thô ban đầu như trình bày xác suất phân phối hoặc dữ liệu nhiễu và nhiều sự chú ý được xem là tạo ra mô hình tập thô mới

để tìm tập Core, tập rút gọn hiệu quả trong cơ sở dữ liệu lớn Dựa vào kinh nghiệm về áp dụng các mô hình trong tập cơ sở dữ liệu lớn trong ứng dụng khai phá dữ liệu, ta tìm ra một trong những hạn chế nhất của tập thô là thuật toán tính Core, tập rút gọn và nhận dạng thuộc tính không cần thiết, điều này làm hạn chế sự thích hợp của nó trong các ứng dụng khai phá dữ liệu Mượn ý tưởng chính của lý thuyết tập thô và định nghĩa lại dựa trên tập toán tử cơ sở

dữ liệu như phép chiếu, phép đếm… để có những ưu điểm hiệu quả trong việc tính Core So sánh với cách tiếp cận tập thô truyền thống, phương pháp này rất hiệu quả và có thể phát triển

Dưới đây là một định nghĩa mới đầu tiên về Core, có thể không cần tập rút gọn dựa trên toán tử cơ sở dữ liệu

Định nghĩa 2.1 [10] Một thuộc tính cj là một thuộc tính Core nếu nó thỏa điều kiện Card ((C- {cj}+D))  Card ((C- {cj}))

Trang 23

Định nghĩa 2.2 [10] Một thuộc tính cjC là một thuộc tính phân biệt được đối với D nếu kết quả phân loại của mỗi bộ là không sử dụng cj Trong toán tử cơ sở dữ liệu, nó có nghĩa là Card((C-{cj}+D)) = Card((C-{cj})) Định nghĩa này có nghĩa rằng một thuộc tính là không cần thiết nếu mỗi

bộ có thể được phân loại cùng một cách không ảnh hưởng tới thuộc tính đang xét Ta có thể kiểm tra thuộc tính cj là không cần thiết bằng cách sử dụng một vài toán tử SQL, chỉ cần lấy hai phép chiếu của bảng: một trên tập C-{cj}+D

và một trên C-{cj} Nếu lực lượng của hai phép chiếu trong bảng là như nhau, thì có nghĩa là không có thông tin bị mất khi bỏ thuộc tính cj, ngược lại thì cj

là một thuộc tính cần thiết Ví dụ, trong bảng 2.1 Card((Trọng lượng, Kích

vì vậy Số Cửa là một thuộc tính không cần thiết trong C với Độ dài là thuộc

Trang 24

tj và tk mà với bất kỳ qC-{cj}, sao cho tj.q = tk.q, tj.cj  tk.cj và tj.D= tk.D Trong trường hợp này một phép chiếu trên C-{cj} sẽ ít bản ghi hơn phép chiếu trên C–{cj}+D bởi vì tj và tk được đồng nhất trong C-{cj} và được so sánh trong phép chiếu này Tuy nhiên, trong phép chiếu C–{cj}+D, tj và tk vẫn phân biệt được Vì vậy, loại ra thuộc tính cj sẽ làm mất khả năng phân biệt bộ

tj và tk Bằng trực giác, điều này có nghĩa là một vài thông tin phân lớp bị mất sau khi loại bỏ thuộc tính cj

Ví dụ trong bảng 2.1, t5 và t6 có giá trị giống nhau trên tất cả tập điều

kiện ngoại trừ Trọng lượng, hai bộ phân biệt nhau bởi vì chúng có giá trị khác nhau trên Trọng lượng Nếu Trọng lượng được loại ra, thì t5 và t6 không phân

biệt được Vì vậy Trọng lượng là một thuộc tính Core của bảng

Ở đây, đưa ra một thuật toán mới dựa trên toán tử cơ sở dữ liệu để có thuộc tính Core của một bảng quyết định

Thuật toán tính Core dựa vào toán tử cơ sở dữ liệu [10]

Input: Một bảng quyết định T(C, D) Output: Core – {tập thuộc tính Core của bảng T}

Method:

Core = ; For cjC {

If Card((C-{cj}+D))  Card((C-{cj})) Then

Core = Core {cj};

} Với k là số thuộc tính điều kiện, một vòng lặp for thực hiện tối đa k lần, nên độ phức tạp của vòng lặp là O(k) Vậy, giải thuật có độ phức tạp là O(k)

Trang 25

Âm u

Nóng Nóng Nóng Trung bình Mát mẻ Mát mẻ Mát mẻ

Cao Cao Cao Cao Trung bình Trung bình Trung bình

Không

Có

Không Không

Có

Có Không

Card((C- {Gió}+D)) =7  Card((C- {Gió}))=5;

 Core = {Quang cảnh, Gió}

2.1.2 Phương pháp tính Core dựa vào thông tin entropy

Hiện tại nghiên cứu của lý thuyết tập thô có hai hướng chính: một là

mở rộng lý thuyết phân loại theo yêu cầu thực tế đạt được, như mở rộng quan

hệ phân biệt được tới quan hệ tương tự, quan hệ dung thứ, thêm nữa là sự kết hợp của lý thuyết tập thô và các lý thuyết khác như sự thống nhất của lý thuyết tập thô và phân tích khái niệm thông thường để nghiên cứu nó trong

Trang 26

quan điểm của khái niệm Ở đây, xét trong quan điểm của thông tin entropy

và mô tả các khái niệm cơ bản trong tập thô bằng tri thức entropy [8]

2.1.2.1 Tri thức trong entropy [8]

Lý thuyết tập thô truyền thống được định nghĩa trong quan điểm của phương pháp đại số, vũ trụ là một tập hợp và tri thức là khả năng tạo phân đoạn của tập hợp Lý thuyết entropy là một khái niệm trong lý thuyết thông tin và nó có thể phân tích chất lượng thông tin

Cho U là tập vũ trụ, P và Q là tập thuộc tính, phân chia tập vũ trụ theo giá trị của P và Q gọi là tri thức trên vũ trụ Vì tri thức được cấu trúc bởi quan

hệ tương đương nên có thể nói rằng P và Q như là tập tri thức đơn giản Phân chia tập tri thức P và Q thành X và Y với X={X1,X2,…,Xm}, Y={Y1,Y2,…,Yn}, và xác suất phân phối của các tập con của tập vũ trụ như sau:

(

1 1

m

X p X p

X X

(

1 1

n

Y p Y p

Y Y

Định nghĩa 2.3 [8] Cho P={X1,X2, …,Xm}, thì tri thức entropy của P được định nghĩa:

1

2 ( )log

)(

Trang 27

X i , i = 1, 2 m, |X| là ký hiệu cho lực lượng của X

Định nghĩa 2.4 [8] Cho P={X1,X2,…,Xm}, Q={Y1,Y2,…,Yn}, khi đó entropy có điều kiện của Q quan hệ với P là:

j

i j

X p

1

2 1

)

\(log)

\()(

1

2 1

),

(log),

(

Và ta chuyển thành khái niệm tri thức entropy tham gia ký hiệu là H(PQ) Tuy nhiên, khi P và Q là tri thức, PQ cũng là tri thức, lớp tương đương được kí hiệu là Z={Z1,Z2,….,Zl} và đối với bất kỳ Zk, có tồn tại

XiU/IND(P), YjU/IND(Q), thoả Xi Yj = Zk Theo lớp tương đương trong

1

2 ( )log

)(

Trang 28

Cho U là tập vũ trụ, P và Q là tri thức entropy của tập U Lớp tương đương cho bởi tri thức là [U,P]={X1,X2,…,Xm}, [U,Q]={Y1,Y2,…,Yn}, và [U,PQ] tương ứng, đối với mỗi Zk, tồn tại XiU/IND(P), YjU/IND(Q), thoả XiYj=Zk Sau đây là các tính chất đại số của tri thức entropy:

1

2 ( )log

)(

1

2 ( )log

)(

j

i j

i p X Y p X Y Y

p

1

2 1

)

\ ( log )

\ ( )

Trong khi

) (

)

\ (

i

i j i

j

Y p

Y X p Y X

j

i j

Y p

1

2 1

)

\ ( log )

\ ( ) ( - Q)

i j m

j i

Y p

Y X p Y

p

Y X p Y

log )

(

) (

j m

j

i

X p

1

2 2

1

))(log)(

(log)(

j i n

i

i i

j m

j

i

X p

1

2 1

1

2 2

1

) ( log ) ( ))

( log ) (

(log ) (

Vì tất cả Zk U/(PQ), tồn tại i và j để Xi Yj = Zk Vì vậy, ta có:

Trang 29

i

X p

1

2 1

) (

log ) (

1

) ( = p(Y i), có kết luận dưới đây:

H(PQ )=H(P\Q)+H(Q)

Theo tính chất trên, có thể tạo quan hệ giữa tri thức entropy tham gia và entropy có điều kiện, như vậy có thể lấy giá trị tri thức entropy tham gia từ entropy có điều kiện

a h

Y p X p

Trang 30

aij = p(XiYj)-p(Xi)p(Yj) hoặc Z+h = p(XiYj), thì khi X phụ thuộc vào Y, aij= 0 và aij cũng thỏa mãn điều kiện sau:

j

m

i n

j

j i j

i m

(

011)()(1

i p Y X

p

Từ đó, ta có:

h Z

ij j

i

ij

j i

a Y p X p

a Y

p X p

ij j

i

ij

j i

a Y p X p

a Y

p X

m

i

i i

m

i

j i n

j

X p

1

2 1

) ( log ) ( )

( log ) ( )

( (log ) (

] )

( ) ( ) ( log ) ( [log ) (

1

2 2

ij m

i

j i

n

j

j i

a Y p X p

a Y

p X

p Y

()(

)1(1

[

)(log)()

(log)(

1 1

1

2 1

2

ij

j i

ij m

i

n

j j

n

j

j j

m

i

i i

a Y

p X p

a a

Y p Y

p X

Trang 31

a Y

p X p

a

1 1

2

) ( ) (

) 1 (

Trang 32

định nghĩa về sự nhất quán, sau đó trình bày các khái niệm cơ bản trong cách nhìn của tri thức entropy từ bảng nhất quán và bảng không nhất quán

Định nghĩa 2.5 [8] Giả sử công thức  là ký hiệu hệ quyết định, nếu

hệ thống không thể có , thì hệ thống là nhất quán, nói cách khác hệ thống nhất quán là không có nghĩa ngược nhau trong hệ thống Nếu điều kiện của một luật là như nhau và kết quả của chúng cũng bằng nhau với các thuộc tính khác nhau, thì ta nói hai luật là nhất quán, ngược lại là sự không nhất quán Nếu tất cả các luật trong hệ thống quyết định nhất quán thì hệ thống quyết định nhất quán, nếu tất cả các luật có dạng không nhất quán trong hệ quyết định thì hệ quyết định là không nhất quán hoàn toàn

Tiếp theo, mô tả thuộc tính không cần thiết dựa vào entropy trong lý thuyết tập thô từ bảng quyết định nhất quán và bảng không nhất quán

Định lý 2.1 [8] Giả sử T = (U,C,D) là bảng quyết định nhất quán, C là

tập thuộc tính điều kiện, D là tập thuộc tính quyết định thì với mỗi thuộc tính

aC, thuộc tính a là không cần thiết nếu và chỉ nếu:

j

Y p

2 ( \ ) 0log

)

\()(

Trang 33

Vì a là thuộc tính không cần thiết nên không có luật quyết định nào xuất hiện sau khi xóa thuộc tính này, và bảng quyết định mới cũng nhất quán với tập thuộc tính điều kiện là C-{a} và tập thuộc tính quyết định D Vì vậy

j

Z p

2 ( \ ) 0log

)

\()(

Mệnh đề 2.1 [8] Cho hai bảng quyết định T=(U,C,D) và T’=(U,C1,D), nếu IND(C) = IND(C1) thì H(D\C) = H(D\C1)

Định lý 2.2 [8] Giả sử T=(U,C,D) là một bảng quyết định không nhất

quán hoàn toàn Nếu thuộc tính aC không cần thiết thì H(D\C)=H(D\C-{a})

Trang 34

Định lý 2.3 [8] Giả sử T=(U,C,D) là một bảng quyết định, nếu một

thuộc tính aC không cần thiết, thì H(D\C) = H(D\C-{a})

Chứng minh:

Với bất kỳ bảng quyết định nào, ta cũng có thể tách thành 2 bảng quyết định, một bảng nhất quán T1=(U1,C,D) và một bảng không nhất quán

T2=(U2,C,D), tri thức entropy H(D\C) = H1(D\C)+ H2(D\C)

Trong bảng quyết định nhất quán, theo định lý 2.1 ta có H1(D\C)=

H1(D\C–{a})=0 Trong bảng quyết định không nhất quán hoàn toàn, theo định

lý 2.2 ta có H2(D\C)= H2(D\C–{a})  điều phải chứng minh

Định lý 2.4 [8] Giả sử U là tập vũ trụ, P là tập thuộc tính, RP là thuộc tính không cần thiết nếu và chỉ nếu H({R}\P-{R}) = 0

Chứng minh:

Giả sử IND(P) = IND(P-{R}) = {A1,A2,…,Am}

IND(R) = {B1,B2,…,Bm}

Định dạng
Số trang	69
Dung lượng	1,1 MB