Nghiên cứu một số thuật toán trên bảng quyết định nhất quán

THUậT TOÁN TÌM TậP TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN ..... Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ

Trang 1

CHƯƠNG 1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ VÀ LÝ

THUYẾT VỀ CƠ SỞ DỮ LIỆU - 3 -

1.1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ - 4 -

1.1.1 Hệ thông tin đầy đủ - 4 -

1.1.2 Mô hình tập thô truyền thống - 5 -

1.1.3 Bảng quyết định đầy đủ - 7 -

1.1.4 Tập rút gọn và tập lõi - 8 -

1.1.5 Ma trận phân biệt và hàm phân biệt - 10 -

1.2 LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU - 11 -

1.2.1 Quan hệ - 11 -

1.2.2 Phụ thuộc hàm - 11 -

1.2.3 Hệ tiên đề Armstrong - 12 -

1.2.4 Sơ đồ quan hệ - 12 -

1.2.5 Khoá và phản khoá - 12 -

1.2.6 Hệ bằng nhau và hệ bằng nhau cực đại - 13 -

1.3 MỘT SỐ THUẬT TOÁN CƠ BẢN - 14 -

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP TÌM MỘT TẬP RÚT GỌN VÀ TÌM CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH - 19 -

2.1.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric - 19 -

2.1.1.Khoảng cách Jaccard giữa hai tập hợp hữu hạn - 19 -

2.1.2 Một số tính chất của metric trên bảng quyết định - 21 -

2.2 THUậT TOÁN TÌM TậP TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN - 33 -

2.2.1 Đặt vấn đề - 33 -

2.2.2 Thuật toán - 34 -

Trang 2

2.4 THUậT TOÁN XÂY DựNG CÁC PHụ THUộC HÀM Từ BảNG QUYếT ĐịNH NHấT QUÁN

- 40 -

2.5 THUậT TOÁN XÂY DựNG BảNG QUYếT ĐịNH Từ TậP PHụ THUộC HÀM - 41 -

CHƯƠNG 3: THỰC NGHIỆM THUẬT TOÁN TÌM MỘT TẬP RÚT GỌN - 46 -

3.1 THử NGHIệM CÁC THUậT TOÁN HEURISTIC TÌM MộT TậP RÚT GọN TốT NHấT - 46 - 3.1.1.Mô tả thuật toán CEBARKCC - 47 -

3.1.2.Thử nghiệm và đánh giá các thuật toán trên các bộ số liệu mẫu trong UCI - 48 -

3.2 THử NGHIệM THUậT TOÁN TÌM TậP RÚT GọN THEO THAM Số Độ CHắC CHắN - 51 - 3.3 THử NGHIệM THUậT TOÁN TÌM TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN - 52 -

3.4 MộT Số GIAO DIệN CHƯƠNG TRÌNH THử NGHIệM - 53 -

3.4.1 Giao diện chính của chương trình - 53 -

3.4.2.Nạp các tệp dữ liệu mẫu lấy từ kho dữ liệu UCI - 53 -

3.4.3 Thực hiện thuật toán CEBARKCC - 54 -

3.4.4 Thực hiện thuật toán sử dụng khoảng cách - 55 -

3.4.5.Thực hiện thuật toán sinh luật quyết định từ tập rút gọn - 55 -

3.4.6.Thực hiện thuật toán tìm tất cả thuộc tính rút gọn - 56 -

KẾT LUẬN - 57 -

Trang 3

MỞ ĐẦU

Khai phá dữ liệu là một trong những vấn đề rất sôi động hiện nay và được ứng dụng rộng rãi Có rất nhiều phương pháp khai phá dữ liệu, một trong những phương pháp đó là sử dụng lý thuyết tập thô - một trong những công cụ quan trọng trong khai phá dữ liệu Từ khi xuất hiện, lý thuyết tập thô

đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm rút gọn dữ liệu, trích lọc các tri thức tiềm ẩn trong

dữ liệu dưới dạng mẫu và các luật quyết định, bảng quyết định

Trong thực tế, dữ liệu trong bảng quyết định thường đa dạng và không đầy đủ, thiếu chính xác mà lại dư thừa nên bài toán rút gọn thuộc tính được đặt ra nhằm mục tiêu tạo ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu (bảng) Hay nói cách khác, Rút gọn là bài toán quan trọng nhất trong lý thuyết tập thô Mục tiêu của bài toán rút gọn thuộc tính trong bảng quyết định

là loại bỏ (tối đa) các thuộc tính dư thừa mà phần còn lại cũng chứa đầy đủ thông tin của bảng, dựa vào tập thuộc tính rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất

Trong những năm gần đây đã chứng kiến sự phát triển mạnh mẽ và sôi động của các hướng nghiên cứu về rút gọn thuộc tính trong lý thuyết tập thô Trong xu thế đó nhiều nhóm nhà khoa học trên thế giới đã nghiên cứu các phương pháp rút gọn thuộc tính theo các phương pháp khác nhau, đáng chú ý

là phương pháp dựa trên miền dương, phương pháp sử dụng lý thuyết thông tin, phương pháp sử dụng ma trận phân biệt được, phương pháp dựa trên tính toán hạt, phương pháp dựa trên metric… Mỗi phương pháp đều phù hợp với một lớp bài toán trong thực tế

Đối với một bảng quyết định nhất quán có thể có nhiều thuật toán khác nhau Tuy nhiên, trong thực hành thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá nào đó là đủ Vì vậy, mỗi phương pháp rút gọn thuộc tính đều đề xuất một

Trang 4

thuật toán heuristic tìm tập rút gọn Các thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối

lượng dữ liệu lớn Chính vì vậy, mà Tôi đã chọn đề tài: “Nghiên cứu một số

thuật toán trong bảng quyết định nhất quán” làm luận văn tốt nghiệp

Trong luận văn này, chúng tôi nghiên cứu các vấn đề chính sau:

- Tìm hiểu một số lý thuyết về hệ thống thông tin, bảng quyết định, tập rút gọn

- Tìm hiểu một số lý thuyết về cơ sở dữ liệu

- Tìm hiểu một số thuật toán tìm một tập rút gọn và tất cả các tập rút gọn trong bảng quyết định

- Cài đặt thử nghiệm một thuật toán tìm tập rút gọn trong bảng quyết định

Bố cục luận văn gồm:

Mở đầu: Đặt vấn đề về ý nghĩa, tính cấp thiết của đề tài

Chương 1: Các khái niệm cơ bản

Trong chương này, sẽ đi tìm hiểu về các khái niệm hệ thống thông tin, bảng quyết định, tập rút gọn, quan hệ, phụ thuộc hàm, tiên đề Armstrong, khoá, phản khoá và một số thuật toán cơ bản trong cơ sở dữ liệu quan hệ được sử dụng để xây dựng các thuật toán rút gọn trong bảng quyết định Đây là những phần lý thuyết cơ sở để triển khai, nghiên cứu trong các chương tiếp theo

Chương 2: Tìm hiểu về một số thuật toán tìm một tập rút gọn và thuật

toán tìm tất cả các tập rút gọn trong bảng quyết định

Trong chương này, chúng tôi đề xuất một số thuật toán trên bảng quyết định liên quan đến tập rút gọn: xác định một tập rút gọn và tất cả các tập rút gọn trong bảng quyết định (dựa trên lý thuyết cơ sở dữ liệu quan hệ)

Chương 3: Triển khai cài đặt thử nghiệm một thuật toán tìm một tập rút

gọn trong bảng quyết định, từ đó rút ra một số kết luận

Kết luận

Trang 5

Chương 1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ VÀ LÝ

THUYẾT VỀ CƠ SỞ DỮ LIỆU

Lý thuyết tập thô - do Zdzislaw Pawlak [12] đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu mơ hồ không chắc chắn Công cụ này cho phép biểu diễn một mô hình toán học về tri thức, nhờ đó tri thức được định nghĩa một cách rõ ràng dưới dạng toán học và có thể được phân tích và xử lý bằng các công cụ mạnh mẽ và hiệu quả của toán học Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, trích lọc các tri thức tiềm ẩn trong dữ liệu và đánh giá kết quả thu được

Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua một hệ thông tin ISU A,  với U là tập các đối tượng và A là tập các thuộc tính Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ không phân biệt được để đưa ra các tập xấp xỉ biểu diễn tập đối tượng cần quan sát Khi đó,

mọi tập đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc tập đó, còn xấp

xỉ trên chứa tất cả các đối tượng có khả năng thuộc về tập đó Nếu tập xấp xỉ

dưới bằng tập xấp xỉ trên thì tập đối tượng cần quan sát là tập rõ, ngược lại là tập thô Các tập xấp xỉ là cơ sở để đưa ra các kết luận từ dữ liệu Bảng quyết định là một hệ thông tin IS với tập thuộc tính A được chia thành hai tập con khác rỗng rời nhau C và D, lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Nói cách khác, DSU C, D với C  D Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính quyết định Bảng quyết định là nhất quán khi phụ thuộc hàm CD là đúng, trái lại là không nhất quán

Trang 6

1.1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ

1.1.1 Hệ thông tin đầy đủ

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu

gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách hình

thức, hệ thông tin được định nghĩa như sau

Định nghĩa 1.1 Hệ thông tin là một bộ tứ ISU A V f, , , trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc

Với mọi u U a , A , ta ký hiệu giá trị của đối tượng u tại thuộc tính a

là u a  thay vì f u a , Nếu Bb b1 , , , 2 b kA là một tập con các thuộc tính thì ta ký hiệu bộ các giá trị u b i bởi u B  Như vậy, nếu u và v là hai đối

tượng, thì ta viết u B   v B nếu u b   i v b i với mọi i 1, ,k

Nếu với mọi u U và aA, u a  đều chứa giá trị khác rỗng thì hệ

thông tin được gọi là hệ thông tin đầy đủ Trong luận văn này, hệ thông tin đầy

đủ được gọi tắt là hệ thông tin và được ký hiệu là ISU A V f, , , 

Xét hệ thông tin ISU A V f, , ,  Với mỗi tập con các thuộc tính PA,

tồn tại một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi

xác định một phân hoạch trên U, ký hiệu là U IND P/   hay U P/ Ký hiệu lớp

Trang 7

tương đương trong phân hoạch U P/ chứa đối tượng u là  u P, khi đó

    ,   

P

u  v U u v IND P

Định nghĩa 1.2 [9] Cho hệ thông tin ISU A V f, , ,  và P Q, A Ta nói:

1) Phân hoạch U P/ và phân hoạch U Q/ là như nhau (viết

1.1.2 Mô hình tập thô truyền thống

Cho hệ thông tin ISU A V f, , ,  và tập đối tượng X U Với một tập thuộc tính B A cho trước, chúng ta có các lớp tương đương của phân hoạch

/

U B , thế thì một tập đối tượng X có thể biểu diễn thông qua các lớp tương

đương này như thế nào?

Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp

tương đương của U B/ (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của U B/ Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là lượt là BX và BX, được xác định như sau:

 

BX  u U u  X BX u U u  B  X .

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn

tập BX bao gồm các phần tử của U có khả năng được phân loại vào X dựa

Trang 8

vào tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

 

B

BN X BXBX : B-miền biên của X , UBX : B-miền ngoài của X

Dễ thấy B-miền biên của X là tập chứa các đối tượng có thể thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại

Trang 9

2) Tập X là B-không xác định trong nếu BX  và BX U

3) Tập X là B-không xác định ngoài nếu BX   và BX U

4) Tập X là B-không xác định hoàn toàn nếu BX   và BX U

1.1.3 Bảng quyết định đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định

Bảng quyết định đầy đủ là một dạng đặc biệt của hệ thông tin đầy đủ,

trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: tập các thuộc tính điều kiện C và tập các thuộc tính quyết định D Trong luận văn

Trang 10

này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định và được ký hiệu

là DSU C, D V f, ,  với C  D

Bảng quyết định DS được gọi là nhất quán khi và chỉ khi phụ thuộc hàm

CD nghiệm đúng, nghĩa là với mọi u v U u C,  ,    v C kéo theo u D   v D Ngược lại DS là không nhất quán Dễ thấy bảng quyết định DS là nhất quán khi

và chỉ khi POS C D U Trong trường hợp bảng không nhất quán thì POS C D chính là tập con cực đại của U sao cho phụ thuộc hàm CD đúng

1.1.4 Tập rút gọn và tập lõi

Trong bảng quyết định, các thuộc tính điều kiện được phân thành thuộc

tính lõi và thuộc tính không cần thiết Thuộc tính lõi là thuộc tính cốt yếu,

không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính không cần thiết là thuộc tính dư thừa mà việc loại bỏ thuộc tính này không ảnh hưởng đến việc phân lớp dữ liệu Các thuộc tính không cần thiết được phân

thành hai nhóm: Thuộc tính dư thừa thực sự và thuộc tính rút gọn Thuộc tính

dư thừa thực sự là những thuộc tính dư thừa mà việc loại bỏ tất cả các thuộc tính như vậy không ảnh hưởng đến việc phân lớp dữ liệu Thuộc tính rút gọn,

với một tổ hợp thuộc tính nào đó, nó là thuộc tính dư thừa và với một tổ hợp các thuộc tính khác nó có thể là cốt yếu

Định nghĩa 1.3 [8] (Tập lõi dựa trên miền dương) Cho bảng quyết định

 , , , 

DS U CD V f Thuộc tính cC được gọi là không cần thiết (dư thừa)

trong DS dựa trên miền dương nếu POS C D POS(C c) D ; Ngược lại, c được gọi là cần thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập

lõi dựa trên miền dương và được ký hiệu là PCORE C  Lúc đó, thuộc tính cần thiết còn được gọi là thuộc tính lõi

Định nghĩa 1.4 [8] (Tập rút gọn dựa trên miền dương) Cho bảng quyết định DSU C, D V f, ,  và tập thuộc tính RC Nếu

Trang 11

1) POS R( )D POS C( )D

2)  r R POS, R r ( )D POS D C( )

thì R là một tập rút gọn của C dựa trên miền dương

Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu

Định nghĩa 1.5 Cho bảng quyết định DSU C, D V f, ,  và aC Ta

nói rằng a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn

 

RPRED C sao cho aR

Định nghĩa 1.6 Cho bảng quyết định DSU C, D V f, ,  và aC Ta

nói rằng a là thuộc tính dư thừa thực sự của DS nếu

là thuộc tính cần thiết duy nhất Các thuộc tính không cần thiết bao gồm:

 Thuộc tính Mệt mỏi là thuộc tính dư thừa thực sự vì không tham gia vào rút

gọn nào

Trang 12

 Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có

mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa

là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh Tức là

POS {Đau cơ, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm})

POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})

1.1.5 Ma trận phân biệt và hàm phân biệt

Ma trận phân biệt do Andrzej Skowron và các cộng sự [2] đề xuất là

công cụ sử dụng để tìm tập rút của bảng quyết định Xét bảng quyết định

Định nghĩa 1.8 [2, 7] (Tập lõi dựa trên ma trận phân biệt) Cho bảng quyết định DSU C, D V f, , , M  m i j n n



 là ma trận phân biệt của DS

Thuộc tính cC đƣợc gọi là không cần thiết (dƣ thừa) trong DS dựa trên ma

trận phân biệt nếu C c m i j   với mọi m i j   Ngƣợc lại, c đƣợc gọi là

Trang 13

cần thiết Tập tất cả các thuộc tính cần thiết trong DS đƣợc gọi là tập lõi dựa

trên ma trận phân biệt và đƣợc ký hiệu là SCORE C  Theo [7],

1.2 LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU

Một số khái niệm cơ bản

Mục này trình bày các khái niệm cơ bản nhất về mô hình dữ liệu quan hệ của E.F Codd Những khái niệm này bao gồm quan hệ, phụ thuộc hàm, hệ tiên

đề Armstrong, sơ đồ quan hệ, khoá, phản khoá Các khái niệm này có thể xem trong [3,4,5,13]

r h h là một quan hệ trên tập thuộc tính Ra1 , ,a n Phụ thuộc hàm

(PTH) trên R là một dãy ký tự có dạng A B với A, B  R PTH A B thỏa mãn quan hệ r trên R nếu h h i, jr   a A h a    i h a j     b B h b    i h b j   

Đặt F r  A B, : ,A BR A, B là họ đầy đủ các PTH thỏa mãn quan hệ

r Khi đó tất cả các PTH đúng trong r

Trang 14

1.2.3 Hệ tiên đề Armstrong

Giả sử R là tập các thuộc tính, ký hiệu P R  là tập các tập con của R

Cho FP R   P R Ta nói rằng F là một họ f trên R nếu với mọi

1.2.4 Sơ đồ quan hệ

Sơ đồ quan hệ (SĐQH) s là một cặp R F,  với R là tập thuộc tính và F

là tập các phụ thuộc hàm trên R Ký hiệu A a A:  a F, A được gọi là

bao đóng của A trên s Dễ thấy A B F khi và chỉ khi B A Tương tự ký

hiệu A r a A:  a F, A r được gọi là bao đóng của A trên quan hệ r Nếu

,

s R F là một sơ đồ quan hệ r trên R sao cho Fr =F+, quan hệ r như vậy gọi là Armstrong của s Trong trường hợp này hiển nhiên các PTH của s đúng trong r

1.2.5 Khoá và phản khoá

Cho r là một quan hệ, s R F,  là một SĐQH và AR Khi đó A là một khóa của r (tương ứng của s) nếu AR A R F Ta gọi A là một khóa tối thiểu của r (tương ứng của s) nếu:

- A là một khóa của r (tương ứng của s)

Trang 15

- Bất kỳ một tập con thực sự của A không là khóa của r (tương ứng của

s) Ký hiệu K r và K s tương ứng là tập tất cả các khóa tối thiểu của r và s

Cho s R F,  là SĐQH trên R, aR Đặt K a s A R A:  a , B B:  a  BA  Khi đó, s

a

K được gọi là họ các tập tối thiểu của thuộc tính a trên s Tương tự, cho r là một quan hệ trên R và aR Đặt K a r A R A:  a , B B:  a  BA  Khi đó, r

a

K được gọi là họ các tập tối thiểu của thuộc tính a trên r

Gọi K P R  là một hệ Sperner trên R nếu với mọi A B, K kéo theo

AB Dễ thấy K r,K K s, a r,K a s là các hệ Sperner trên R Với tập K là một hệ

Sperner trên R, Giả sử K là một hệ Sperner trên R Ta định nghĩa tập các

phải khóa lớn nhất của r (hoặc của s), gọi là tập các phản khóa Nếu K là một

hệ Sperner trên R đóng vai trò là họ các tập tối thiểu của thuộc tính a trên r (hoặc trên s), hay r

1.2.6 Hệ bằng nhau và hệ bằng nhau cực đại

Cho r một quan hệ trên R Đặt E rEij :1   i j rvới E ij a R h a: i   h a j 

r

E được gọi là hệ bằng nhau của r Đặt M r AP R : E ij A, E pq:AE pq

M được gọi là hệ bằng nhau cực đại của r

Trang 16

1.3 Một số thuật toán cơ bản

Thuật toán 2.1 [3] Tính bao đóng của tập thuộc tính trên quan hệ Đầu vào: rh1 , ,h mlà một quan hệ trên R, AR

1  B1 

Bước q 1 (q<m): Giả thiết rằng K qF qX1 , ,X tq, ở đây X1 , ,X tq

chứa B q1 và F q AK q:B q1A Đối với mỗi i i  1, ,t q ta tìm tập   1

K xác định duy nhất lẫn nhau và thuật toán không phụ

thuộc vào thứ tự của dãy B 1 ,…,B m Đặt  1 , , 

Trang 17

- Trong mỗi bước của thuật toán, K q là hệ Sperner trên R Theo [5],

kích thước của hệ Sperner bất kỳ trên R không vượt quá

O R K K  , khi đó độ phức tạp Thuật toán 2.2 là đa thức

theo R K, và K 1 Nếu số lượng các phần tử của K là nhỏ thì Thuật toán 2.2 rất hiệu quả, đòi hỏi thời gian đa thức theo R

Đầu vào: Cho  1

K là hệ Sperner trên R và Cb1 , ,b mR sao cho 1

Trang 18

Thuật toán 2.4 [5] Tìm tập K từ tập  1

K Đầu vào: Cho tập 1  

 K K K  với I t u q, ,q q như trong Thuật toán 2.2

- Tương tự Thuật toán 2.2, độ phức tạp thời gian của Thuật toán 2.4

K là hệ Sperner trên R đóng vai trò là tập phản khóa của quan

hệ r (hoặc SĐQH s) thì Thuật toán 2.4 thực hiện tìm tập khóa tối thiểu K

Thuật toán 2.5 Tìm một tập tối thiểu của thuộc tính a trên s

Đầu vào: Cho sRa1 , ,a n,Flà SĐQH, a a1

Trang 19

Thuật toán 2.6 [4]Tìm họ các tập tối thiểu của thuộc tính a trên s

Đầu vào: Cho s R F, là SĐQH và aR

Đầu ra: s

a

K

Bước 1: Đặt L 1 E1  a

Bước i+1: Nếu có C và AB mà C L i A  ,    B F, E L i  E A C B

thì bởi Thuật toán 2.5 ta xây dựng E i1, ở đây E i1  A CB,E i1 K a s Đặt

Trang 20

Bảng 2.1 là bảng quyết định không đầy đủ IDS U C,  d V f, ,  với

 1 , 2 , 3 , 4 , 5 , 6

U u u u u u u , U  6 và Ca a a a1 , 2 , 3 , 4với a1 (đơn giá), a2 (Km đã

đi), a3 (Kích thước), a4 (Tốc độ tối đa)

Các lớp dung sai của phủ U SIM C/   là

Trang 21

Chương 2: MỘT SỐ PHƯƠNG PHÁP TÌM MỘT TẬP RÚT GỌN VÀ TÌM CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH

Rút gọn thuộc tính là ứng dụng quan trọng nhất trong lý thuyết tập thô Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định, rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp của bảng quyết định

Đối với một bảng quyết định có thể có nhiều tập rút gọn khác nhau Số lượng các tập rút gọn trong trường hợp xấu nhất có thể là 2k

- 1, với k là các thuộc tính điều kiện Tuy nhiên, trong thực tế thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn theo tiêu chí đánh giá nào

2.1 Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric

2.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn

Định nghĩa 2.1 [7] Cho U là tập hữu hạn các đối tượng và X Y, U Biểu thức

Trang 22

Định lý 2.1 Cho U là tập hữu hạn các đối tượng và P  U là tập các tập con của U Khoảng cách Jaccard là một metric trênP U , nghĩa là mọi

 

X Y ZP thỏa mãn các điều kiện sau:

(P1) D X Y ,  0, điều kiện D X Y ,  0 khi và chỉ khi X = Y

Giả sử U N và Uu u1 , 2 , ,u N Ta biểu diễn tập X U bởi một véc tơ

N chiều V X v1X,v2X, ,v N X với v k X  1 nếu u kX và v k X  0 trong trường hợp

Trang 23

2.1.2 Một số tính chất của metric trên bảng quyết định

Với bảng quyết định DSU C, D V f, , , Mệnh đề 3.1 sau đây xây

dựng công thức tính khoảng cách giữa hai tri thức K C  và K C D dựa vào các phân hoạch U C/ và U D/

Trang 24

Mệnh đề 3.1 Cho bảng quyết định DSU C, D V f, , , giả sử

Trang 25

Mệnh đề 3.2 Cho bảng quyết định DSU C, D V f, ,  Giả sử

Suy ra từ Mệnh đề 3.1 và công thức tính  DS theoYuhua Qian và cộng

sự [15]

Mệnh đề 3.2 chứng minh một tính chất quan trọng của metric được xây

dựng trên bảng quyết định: metric được xây dựng là đại lượng đối ngẫu với

độ chắc chắn của tập luật quyết định

Mệnh đề 3.3 (Tính phản đơn điệu) Cho bảng quyết định

H D Q H D P

Mệnh đề 3.3 cho thấy tập thuộc tính P càng lớn thì khoảng cách giữa

hai tri thức K P  và K P Dcàng nhỏ, hay K P  càng gần (càng tương tự)

Trang 26

 

K PD , nghĩa là khả năng phân lớp dựa trên P vào các lớp quyết định sinh bởi D càng lớn, và ngƣợc lại

Ví dụ 3.1 Xét bảng quyết định về bệnh cúm DS U C,  d V f, ,  cho

ở Bảng 3.1 với U  { ,u u u u u u1 2, 3, 4, 5, 6}, C  { ,a a a1 2, 3}với a1 (Đau đầu), a2

(Đau cơ), a3 (Thân nhiệt) và d (Cảm cúm)

Trang 27

Định nghĩa 3.1 (Độ quan trọng của thuộc tính dựa trên metric) Cho

bảng quyết định DSU C, D V f, , , BC và b C B Độ quan trọng của thuộc tính b đối với B được định nghĩa bởi

nên SIG b B  0 Do đó, SIG B b được tính bởi lượng thay đổi khoảng cách

giữa B và BD khi thêm thuộc tính b vào B , SIG b B càng lớn thì lượng thay

đổi khoảng cách càng lớn, hay thuộc tính b càng quan trọng và ngược lại Độ quan trọng của thuộc tính b đặc trưng cho chất lượng phân lớp của thuộc tính

b, và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính trong thuật toán

heuristic tìm tập rút gọn của bảng quyết định

Để xây dựng thuật toán heuristic tìm tập rút gọn, ta có thể sử dụng hai

hướng tiếp cận: hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down) Trong phần này, luận văn đề xuất thuật toán heuristic tìm tập rút gọn tính toán lõi theo hướng tiếp cận bottom-up Ý tưởng của thuật toán

là xuất phát từ tập lõi, lần lượt bổ sung vào tập lõi các thuộc tính có độ quan

trọng lớn nhất cho đến khi tìm được tập rút gọn Thuật toán đề xuất sử dụng

chiến lược Thêm - Xóa [20]

Thuật toán 3.1 Thuật toán tìm tập lõi sử dụng metric

Đầu vào: Bảng quyết định DSU C, D V f, , 

Đầu ra: Tập lõi MCORE C 

1 MCORE C  ;

2 Tính d JK C K C  , D ;

3 For each cC

Trang 28

Phân tích độ phức tạp thời gian của Thuật toán 3.1

Sử dụng thuật toán trong [9] để tính U C/ , độ phức tạp thời gian là

Trang 30

Thuật toán 3.2 Tính phân hoạch U R/  a

Đầu vào: Phân hoạch U R/ R R1 , 2 , ,R k, thuộc tính aR

Đầu ra: Phân hoạch U R/  a

Chứng minh tính đúng đắn của Thuật toán 3.2

Tại Bước 4, phân hoạch R i/ a chứa các lớp tương đương X  u i  a với

 

,

u R u R, nghĩa là X  u i  a  u i  a  u i R Theo Tính chất 1.1 (Pawlak,

[13]),  u i  a    u i R  u i R a nên X  u i R a Như vậy, tập TMP thu được tại Bước 7 bao gồm các tập X với X  u i R a , theo định nghĩa, tập TMP thu được

chính là phân hoạch U R/  a

Độ phức tạp thời gian của Thuật toán 3.2

Sử dụng thuật toán trong [9] để tính phân hoạch R i / a với độ phức tạp thời gian O R i thì độ phức tạp thời gian của Thuật toán 3.2 là

Nếu sử dụng Tính chất 1.1 để tính U R/  a khi đã biết U R/ , trước hết

ta phải tính phân hoạch U/  a  A1 , ,A l với độ phức tạp thời gian O U  Tiếp theo, ta phải tính các phép giao R iA j, i 1 ,k j 1 l với độ phức tạp

Trang 31

Ví dụ 3.2 Xét bảng quyết định DSU C,  d V f, ,  cho ở Ví dụ 3.1 Giả sử R a3 và phân hoạch U R U/  /  a3  u u u1 , 2 , 7 , u u u u3 , 4 , 5 , 6 , áp dụng Thuật toán 3.2 tính phân hoạch U/a a2 , 3 (với a a2 ) ta có:

1 TMP ;

2 Xét R1 u u u1 , 2 , 7, tính R1 /  a2  u u1 , 2  , u7  và TMP u u1 , 2  , u7  Xét R2 u u u u3 , , , 4 5 6, tính R2 /  a2 u u u3 , , 4 5  , u6  và TMP   u u1 , 2 , u u u3 , , 4 5    , u6 , u7 

Vậy U/a a2 , 3TMP u u1 , 2 , u u u3 , 4 , 5    , u6 , u7 

Thuật toán 3.3 Thuật toán heuristic tìm một tập rút gọn tốt nhất sử

dụng metric

Đầu vào: Bảng quyết định DSU C, D V f, , 

Đầu ra: R là một tập rút gọn tốt nhất của C

1 Tìm tập lõi MCORE C  theo Thuật toán 3.1;

Định dạng
Số trang	62
Dung lượng	1,51 MB