THUậT TOÁN TÌM TậP TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN ..... Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ
Trang 1CHƯƠNG 1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ VÀ LÝ
THUYẾT VỀ CƠ SỞ DỮ LIỆU - 3 -
1.1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ - 4 -
1.1.1 Hệ thông tin đầy đủ - 4 -
1.1.2 Mô hình tập thô truyền thống - 5 -
1.1.3 Bảng quyết định đầy đủ - 7 -
1.1.4 Tập rút gọn và tập lõi - 8 -
1.1.5 Ma trận phân biệt và hàm phân biệt - 10 -
1.2 LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU - 11 -
1.2.1 Quan hệ - 11 -
1.2.2 Phụ thuộc hàm - 11 -
1.2.3 Hệ tiên đề Armstrong - 12 -
1.2.4 Sơ đồ quan hệ - 12 -
1.2.5 Khoá và phản khoá - 12 -
1.2.6 Hệ bằng nhau và hệ bằng nhau cực đại - 13 -
1.3 MỘT SỐ THUẬT TOÁN CƠ BẢN - 14 -
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP TÌM MỘT TẬP RÚT GỌN VÀ TÌM CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH - 19 -
2.1.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric - 19 -
2.1.1.Khoảng cách Jaccard giữa hai tập hợp hữu hạn - 19 -
2.1.2 Một số tính chất của metric trên bảng quyết định - 21 -
2.2 THUậT TOÁN TÌM TậP TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN - 33 -
2.2.1 Đặt vấn đề - 33 -
2.2.2 Thuật toán - 34 -
Trang 22.4 THUậT TOÁN XÂY DựNG CÁC PHụ THUộC HÀM Từ BảNG QUYếT ĐịNH NHấT QUÁN
- 40 -
2.5 THUậT TOÁN XÂY DựNG BảNG QUYếT ĐịNH Từ TậP PHụ THUộC HÀM - 41 -
CHƯƠNG 3: THỰC NGHIỆM THUẬT TOÁN TÌM MỘT TẬP RÚT GỌN - 46 -
3.1 THử NGHIệM CÁC THUậT TOÁN HEURISTIC TÌM MộT TậP RÚT GọN TốT NHấT - 46 - 3.1.1.Mô tả thuật toán CEBARKCC - 47 -
3.1.2.Thử nghiệm và đánh giá các thuật toán trên các bộ số liệu mẫu trong UCI - 48 -
3.2 THử NGHIệM THUậT TOÁN TÌM TậP RÚT GọN THEO THAM Số Độ CHắC CHắN - 51 - 3.3 THử NGHIệM THUậT TOÁN TÌM TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN - 52 -
3.4 MộT Số GIAO DIệN CHƯƠNG TRÌNH THử NGHIệM - 53 -
3.4.1 Giao diện chính của chương trình - 53 -
3.4.2.Nạp các tệp dữ liệu mẫu lấy từ kho dữ liệu UCI - 53 -
3.4.3 Thực hiện thuật toán CEBARKCC - 54 -
3.4.4 Thực hiện thuật toán sử dụng khoảng cách - 55 -
3.4.5.Thực hiện thuật toán sinh luật quyết định từ tập rút gọn - 55 -
3.4.6.Thực hiện thuật toán tìm tất cả thuộc tính rút gọn - 56 -
KẾT LUẬN - 57 -
Trang 3MỞ ĐẦU
Khai phá dữ liệu là một trong những vấn đề rất sôi động hiện nay và được ứng dụng rộng rãi Có rất nhiều phương pháp khai phá dữ liệu, một trong những phương pháp đó là sử dụng lý thuyết tập thô - một trong những công cụ quan trọng trong khai phá dữ liệu Từ khi xuất hiện, lý thuyết tập thô
đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm rút gọn dữ liệu, trích lọc các tri thức tiềm ẩn trong
dữ liệu dưới dạng mẫu và các luật quyết định, bảng quyết định
Trong thực tế, dữ liệu trong bảng quyết định thường đa dạng và không đầy đủ, thiếu chính xác mà lại dư thừa nên bài toán rút gọn thuộc tính được đặt ra nhằm mục tiêu tạo ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu (bảng) Hay nói cách khác, Rút gọn là bài toán quan trọng nhất trong lý thuyết tập thô Mục tiêu của bài toán rút gọn thuộc tính trong bảng quyết định
là loại bỏ (tối đa) các thuộc tính dư thừa mà phần còn lại cũng chứa đầy đủ thông tin của bảng, dựa vào tập thuộc tính rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất
Trong những năm gần đây đã chứng kiến sự phát triển mạnh mẽ và sôi động của các hướng nghiên cứu về rút gọn thuộc tính trong lý thuyết tập thô Trong xu thế đó nhiều nhóm nhà khoa học trên thế giới đã nghiên cứu các phương pháp rút gọn thuộc tính theo các phương pháp khác nhau, đáng chú ý
là phương pháp dựa trên miền dương, phương pháp sử dụng lý thuyết thông tin, phương pháp sử dụng ma trận phân biệt được, phương pháp dựa trên tính toán hạt, phương pháp dựa trên metric… Mỗi phương pháp đều phù hợp với một lớp bài toán trong thực tế
Đối với một bảng quyết định nhất quán có thể có nhiều thuật toán khác nhau Tuy nhiên, trong thực hành thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá nào đó là đủ Vì vậy, mỗi phương pháp rút gọn thuộc tính đều đề xuất một
Trang 4thuật toán heuristic tìm tập rút gọn Các thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối
lượng dữ liệu lớn Chính vì vậy, mà Tôi đã chọn đề tài: “Nghiên cứu một số
thuật toán trong bảng quyết định nhất quán” làm luận văn tốt nghiệp
Trong luận văn này, chúng tôi nghiên cứu các vấn đề chính sau:
- Tìm hiểu một số lý thuyết về hệ thống thông tin, bảng quyết định, tập rút gọn
- Tìm hiểu một số lý thuyết về cơ sở dữ liệu
- Tìm hiểu một số thuật toán tìm một tập rút gọn và tất cả các tập rút gọn trong bảng quyết định
- Cài đặt thử nghiệm một thuật toán tìm tập rút gọn trong bảng quyết định
Bố cục luận văn gồm:
Mở đầu: Đặt vấn đề về ý nghĩa, tính cấp thiết của đề tài
Chương 1: Các khái niệm cơ bản
Trong chương này, sẽ đi tìm hiểu về các khái niệm hệ thống thông tin, bảng quyết định, tập rút gọn, quan hệ, phụ thuộc hàm, tiên đề Armstrong, khoá, phản khoá và một số thuật toán cơ bản trong cơ sở dữ liệu quan hệ được sử dụng để xây dựng các thuật toán rút gọn trong bảng quyết định Đây là những phần lý thuyết cơ sở để triển khai, nghiên cứu trong các chương tiếp theo
Chương 2: Tìm hiểu về một số thuật toán tìm một tập rút gọn và thuật
toán tìm tất cả các tập rút gọn trong bảng quyết định
Trong chương này, chúng tôi đề xuất một số thuật toán trên bảng quyết định liên quan đến tập rút gọn: xác định một tập rút gọn và tất cả các tập rút gọn trong bảng quyết định (dựa trên lý thuyết cơ sở dữ liệu quan hệ)
Chương 3: Triển khai cài đặt thử nghiệm một thuật toán tìm một tập rút
gọn trong bảng quyết định, từ đó rút ra một số kết luận
Kết luận
Trang 5Chương 1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ VÀ LÝ
THUYẾT VỀ CƠ SỞ DỮ LIỆU
Lý thuyết tập thô - do Zdzislaw Pawlak [12] đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu mơ hồ không chắc chắn Công cụ này cho phép biểu diễn một mô hình toán học về tri thức, nhờ đó tri thức được định nghĩa một cách rõ ràng dưới dạng toán học và có thể được phân tích và xử lý bằng các công cụ mạnh mẽ và hiệu quả của toán học Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, trích lọc các tri thức tiềm ẩn trong dữ liệu và đánh giá kết quả thu được
Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua một hệ thông tin ISU A, với U là tập các đối tượng và A là tập các thuộc tính Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ không phân biệt được để đưa ra các tập xấp xỉ biểu diễn tập đối tượng cần quan sát Khi đó,
mọi tập đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc tập đó, còn xấp
xỉ trên chứa tất cả các đối tượng có khả năng thuộc về tập đó Nếu tập xấp xỉ
dưới bằng tập xấp xỉ trên thì tập đối tượng cần quan sát là tập rõ, ngược lại là tập thô Các tập xấp xỉ là cơ sở để đưa ra các kết luận từ dữ liệu Bảng quyết định là một hệ thông tin IS với tập thuộc tính A được chia thành hai tập con khác rỗng rời nhau C và D, lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Nói cách khác, DSU C, D với C D Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính quyết định Bảng quyết định là nhất quán khi phụ thuộc hàm CD là đúng, trái lại là không nhất quán
Trang 61.1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ
1.1.1 Hệ thông tin đầy đủ
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu
gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách hình
thức, hệ thông tin được định nghĩa như sau
Định nghĩa 1.1 Hệ thông tin là một bộ tứ ISU A V f, , , trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc
Với mọi u U a , A , ta ký hiệu giá trị của đối tượng u tại thuộc tính a
là u a thay vì f u a , Nếu Bb b1 , , , 2 b kA là một tập con các thuộc tính thì ta ký hiệu bộ các giá trị u b i bởi u B Như vậy, nếu u và v là hai đối
tượng, thì ta viết u B v B nếu u b i v b i với mọi i 1, ,k
Nếu với mọi u U và aA, u a đều chứa giá trị khác rỗng thì hệ
thông tin được gọi là hệ thông tin đầy đủ Trong luận văn này, hệ thông tin đầy
đủ được gọi tắt là hệ thông tin và được ký hiệu là ISU A V f, , ,
Xét hệ thông tin ISU A V f, , , Với mỗi tập con các thuộc tính PA,
tồn tại một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi
xác định một phân hoạch trên U, ký hiệu là U IND P/ hay U P/ Ký hiệu lớp
Trang 7tương đương trong phân hoạch U P/ chứa đối tượng u là u P, khi đó
,
P
u v U u v IND P
Định nghĩa 1.2 [9] Cho hệ thông tin ISU A V f, , , và P Q, A Ta nói:
1) Phân hoạch U P/ và phân hoạch U Q/ là như nhau (viết
1.1.2 Mô hình tập thô truyền thống
Cho hệ thông tin ISU A V f, , , và tập đối tượng X U Với một tập thuộc tính B A cho trước, chúng ta có các lớp tương đương của phân hoạch
/
U B , thế thì một tập đối tượng X có thể biểu diễn thông qua các lớp tương
đương này như thế nào?
Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp
tương đương của U B/ (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của U B/ Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là lượt là BX và BX, được xác định như sau:
BX u U u X BX u U u B X .
Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn
tập BX bao gồm các phần tử của U có khả năng được phân loại vào X dựa
Trang 8vào tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
B
BN X BXBX : B-miền biên của X , UBX : B-miền ngoài của X
Dễ thấy B-miền biên của X là tập chứa các đối tượng có thể thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại
Trang 92) Tập X là B-không xác định trong nếu BX và BX U
3) Tập X là B-không xác định ngoài nếu BX và BX U
4) Tập X là B-không xác định hoàn toàn nếu BX và BX U
1.1.3 Bảng quyết định đầy đủ
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định
Bảng quyết định đầy đủ là một dạng đặc biệt của hệ thông tin đầy đủ,
trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: tập các thuộc tính điều kiện C và tập các thuộc tính quyết định D Trong luận văn
Trang 10này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định và được ký hiệu
là DSU C, D V f, , với C D
Bảng quyết định DS được gọi là nhất quán khi và chỉ khi phụ thuộc hàm
CD nghiệm đúng, nghĩa là với mọi u v U u C, , v C kéo theo u D v D Ngược lại DS là không nhất quán Dễ thấy bảng quyết định DS là nhất quán khi
và chỉ khi POS C D U Trong trường hợp bảng không nhất quán thì POS C D chính là tập con cực đại của U sao cho phụ thuộc hàm CD đúng
1.1.4 Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện được phân thành thuộc
tính lõi và thuộc tính không cần thiết Thuộc tính lõi là thuộc tính cốt yếu,
không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính không cần thiết là thuộc tính dư thừa mà việc loại bỏ thuộc tính này không ảnh hưởng đến việc phân lớp dữ liệu Các thuộc tính không cần thiết được phân
thành hai nhóm: Thuộc tính dư thừa thực sự và thuộc tính rút gọn Thuộc tính
dư thừa thực sự là những thuộc tính dư thừa mà việc loại bỏ tất cả các thuộc tính như vậy không ảnh hưởng đến việc phân lớp dữ liệu Thuộc tính rút gọn,
với một tổ hợp thuộc tính nào đó, nó là thuộc tính dư thừa và với một tổ hợp các thuộc tính khác nó có thể là cốt yếu
Định nghĩa 1.3 [8] (Tập lõi dựa trên miền dương) Cho bảng quyết định
, , ,
DS U CD V f Thuộc tính cC được gọi là không cần thiết (dư thừa)
trong DS dựa trên miền dương nếu POS C D POS(C c) D ; Ngược lại, c được gọi là cần thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập
lõi dựa trên miền dương và được ký hiệu là PCORE C Lúc đó, thuộc tính cần thiết còn được gọi là thuộc tính lõi
Định nghĩa 1.4 [8] (Tập rút gọn dựa trên miền dương) Cho bảng quyết định DSU C, D V f, , và tập thuộc tính RC Nếu
Trang 111) POS R( )D POS C( )D
2) r R POS, R r ( )D POS D C( )
thì R là một tập rút gọn của C dựa trên miền dương
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu
Định nghĩa 1.5 Cho bảng quyết định DSU C, D V f, , và aC Ta
nói rằng a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn
RPRED C sao cho aR
Định nghĩa 1.6 Cho bảng quyết định DSU C, D V f, , và aC Ta
nói rằng a là thuộc tính dư thừa thực sự của DS nếu
là thuộc tính cần thiết duy nhất Các thuộc tính không cần thiết bao gồm:
Thuộc tính Mệt mỏi là thuộc tính dư thừa thực sự vì không tham gia vào rút
gọn nào
Trang 12 Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có
mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa
là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh Tức là
POS {Đau cơ, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})
1.1.5 Ma trận phân biệt và hàm phân biệt
Ma trận phân biệt do Andrzej Skowron và các cộng sự [2] đề xuất là
công cụ sử dụng để tìm tập rút của bảng quyết định Xét bảng quyết định
Định nghĩa 1.8 [2, 7] (Tập lõi dựa trên ma trận phân biệt) Cho bảng quyết định DSU C, D V f, , , M m i j n n
là ma trận phân biệt của DS
Thuộc tính cC đƣợc gọi là không cần thiết (dƣ thừa) trong DS dựa trên ma
trận phân biệt nếu C c m i j với mọi m i j Ngƣợc lại, c đƣợc gọi là
Trang 13cần thiết Tập tất cả các thuộc tính cần thiết trong DS đƣợc gọi là tập lõi dựa
trên ma trận phân biệt và đƣợc ký hiệu là SCORE C Theo [7],
1.2 LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU
Một số khái niệm cơ bản
Mục này trình bày các khái niệm cơ bản nhất về mô hình dữ liệu quan hệ của E.F Codd Những khái niệm này bao gồm quan hệ, phụ thuộc hàm, hệ tiên
đề Armstrong, sơ đồ quan hệ, khoá, phản khoá Các khái niệm này có thể xem trong [3,4,5,13]
r h h là một quan hệ trên tập thuộc tính Ra1 , ,a n Phụ thuộc hàm
(PTH) trên R là một dãy ký tự có dạng A B với A, B R PTH A B thỏa mãn quan hệ r trên R nếu h h i, jr a A h a i h a j b B h b i h b j
Đặt F r A B, : ,A BR A, B là họ đầy đủ các PTH thỏa mãn quan hệ
r Khi đó tất cả các PTH đúng trong r
Trang 141.2.3 Hệ tiên đề Armstrong
Giả sử R là tập các thuộc tính, ký hiệu P R là tập các tập con của R
Cho FP R P R Ta nói rằng F là một họ f trên R nếu với mọi
1.2.4 Sơ đồ quan hệ
Sơ đồ quan hệ (SĐQH) s là một cặp R F, với R là tập thuộc tính và F
là tập các phụ thuộc hàm trên R Ký hiệu A a A: a F, A được gọi là
bao đóng của A trên s Dễ thấy A B F khi và chỉ khi B A Tương tự ký
hiệu A r a A: a F, A r được gọi là bao đóng của A trên quan hệ r Nếu
,
s R F là một sơ đồ quan hệ r trên R sao cho Fr =F+, quan hệ r như vậy gọi là Armstrong của s Trong trường hợp này hiển nhiên các PTH của s đúng trong r
1.2.5 Khoá và phản khoá
Cho r là một quan hệ, s R F, là một SĐQH và AR Khi đó A là một khóa của r (tương ứng của s) nếu AR A R F Ta gọi A là một khóa tối thiểu của r (tương ứng của s) nếu:
- A là một khóa của r (tương ứng của s)
Trang 15- Bất kỳ một tập con thực sự của A không là khóa của r (tương ứng của
s) Ký hiệu K r và K s tương ứng là tập tất cả các khóa tối thiểu của r và s
Cho s R F, là SĐQH trên R, aR Đặt K a s A R A: a , B B: a BA Khi đó, s
a
K được gọi là họ các tập tối thiểu của thuộc tính a trên s Tương tự, cho r là một quan hệ trên R và aR Đặt K a r A R A: a , B B: a BA Khi đó, r
a
K được gọi là họ các tập tối thiểu của thuộc tính a trên r
Gọi K P R là một hệ Sperner trên R nếu với mọi A B, K kéo theo
AB Dễ thấy K r,K K s, a r,K a s là các hệ Sperner trên R Với tập K là một hệ
Sperner trên R, Giả sử K là một hệ Sperner trên R Ta định nghĩa tập các
phải khóa lớn nhất của r (hoặc của s), gọi là tập các phản khóa Nếu K là một
hệ Sperner trên R đóng vai trò là họ các tập tối thiểu của thuộc tính a trên r (hoặc trên s), hay r
1.2.6 Hệ bằng nhau và hệ bằng nhau cực đại
Cho r một quan hệ trên R Đặt E rEij :1 i j rvới E ij a R h a: i h a j
r
E được gọi là hệ bằng nhau của r Đặt M r AP R : E ij A, E pq:AE pq
M được gọi là hệ bằng nhau cực đại của r
Trang 161.3 Một số thuật toán cơ bản
Thuật toán 2.1 [3] Tính bao đóng của tập thuộc tính trên quan hệ Đầu vào: rh1 , ,h mlà một quan hệ trên R, AR
1 B1
Bước q 1 (q<m): Giả thiết rằng K qF qX1 , ,X tq, ở đây X1 , ,X tq
chứa B q1 và F q AK q:B q1A Đối với mỗi i i 1, ,t q ta tìm tập 1
K xác định duy nhất lẫn nhau và thuật toán không phụ
thuộc vào thứ tự của dãy B 1 ,…,B m Đặt 1 , ,
Trang 17- Trong mỗi bước của thuật toán, K q là hệ Sperner trên R Theo [5],
kích thước của hệ Sperner bất kỳ trên R không vượt quá
O R K K , khi đó độ phức tạp Thuật toán 2.2 là đa thức
theo R K, và K 1 Nếu số lượng các phần tử của K là nhỏ thì Thuật toán 2.2 rất hiệu quả, đòi hỏi thời gian đa thức theo R
Đầu vào: Cho 1
K là hệ Sperner trên R và Cb1 , ,b mR sao cho 1
Trang 18Thuật toán 2.4 [5] Tìm tập K từ tập 1
K Đầu vào: Cho tập 1
K K K với I t u q, ,q q như trong Thuật toán 2.2
- Tương tự Thuật toán 2.2, độ phức tạp thời gian của Thuật toán 2.4
K là hệ Sperner trên R đóng vai trò là tập phản khóa của quan
hệ r (hoặc SĐQH s) thì Thuật toán 2.4 thực hiện tìm tập khóa tối thiểu K
Thuật toán 2.5 Tìm một tập tối thiểu của thuộc tính a trên s
Đầu vào: Cho sRa1 , ,a n,Flà SĐQH, a a1
Trang 19Thuật toán 2.6 [4]Tìm họ các tập tối thiểu của thuộc tính a trên s
Đầu vào: Cho s R F, là SĐQH và aR
Đầu ra: s
a
K
Bước 1: Đặt L 1 E1 a
Bước i+1: Nếu có C và AB mà C L i A , B F, E L i E A C B
thì bởi Thuật toán 2.5 ta xây dựng E i1, ở đây E i1 A CB,E i1 K a s Đặt
Trang 20Bảng 2.1 là bảng quyết định không đầy đủ IDS U C, d V f, , với
1 , 2 , 3 , 4 , 5 , 6
U u u u u u u , U 6 và Ca a a a1 , 2 , 3 , 4với a1 (đơn giá), a2 (Km đã
đi), a3 (Kích thước), a4 (Tốc độ tối đa)
Các lớp dung sai của phủ U SIM C/ là
Trang 21Chương 2: MỘT SỐ PHƯƠNG PHÁP TÌM MỘT TẬP RÚT GỌN VÀ TÌM CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH
Rút gọn thuộc tính là ứng dụng quan trọng nhất trong lý thuyết tập thô Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định, rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp của bảng quyết định
Đối với một bảng quyết định có thể có nhiều tập rút gọn khác nhau Số lượng các tập rút gọn trong trường hợp xấu nhất có thể là 2k
- 1, với k là các thuộc tính điều kiện Tuy nhiên, trong thực tế thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn theo tiêu chí đánh giá nào
2.1 Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric
2.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn
Định nghĩa 2.1 [7] Cho U là tập hữu hạn các đối tượng và X Y, U Biểu thức
Trang 22Định lý 2.1 Cho U là tập hữu hạn các đối tượng và P U là tập các tập con của U Khoảng cách Jaccard là một metric trênP U , nghĩa là mọi
X Y ZP thỏa mãn các điều kiện sau:
(P1) D X Y , 0, điều kiện D X Y , 0 khi và chỉ khi X = Y
Giả sử U N và Uu u1 , 2 , ,u N Ta biểu diễn tập X U bởi một véc tơ
N chiều V X v1X,v2X, ,v N X với v k X 1 nếu u kX và v k X 0 trong trường hợp
Trang 232.1.2 Một số tính chất của metric trên bảng quyết định
Với bảng quyết định DSU C, D V f, , , Mệnh đề 3.1 sau đây xây
dựng công thức tính khoảng cách giữa hai tri thức K C và K C D dựa vào các phân hoạch U C/ và U D/
Trang 24Mệnh đề 3.1 Cho bảng quyết định DSU C, D V f, , , giả sử
Trang 25Mệnh đề 3.2 Cho bảng quyết định DSU C, D V f, , Giả sử
Suy ra từ Mệnh đề 3.1 và công thức tính DS theoYuhua Qian và cộng
sự [15]
Mệnh đề 3.2 chứng minh một tính chất quan trọng của metric được xây
dựng trên bảng quyết định: metric được xây dựng là đại lượng đối ngẫu với
độ chắc chắn của tập luật quyết định
Mệnh đề 3.3 (Tính phản đơn điệu) Cho bảng quyết định
H D Q H D P
Mệnh đề 3.3 cho thấy tập thuộc tính P càng lớn thì khoảng cách giữa
hai tri thức K P và K P Dcàng nhỏ, hay K P càng gần (càng tương tự)
Trang 26
K PD , nghĩa là khả năng phân lớp dựa trên P vào các lớp quyết định sinh bởi D càng lớn, và ngƣợc lại
Ví dụ 3.1 Xét bảng quyết định về bệnh cúm DS U C, d V f, , cho
ở Bảng 3.1 với U { ,u u u u u u1 2, 3, 4, 5, 6}, C { ,a a a1 2, 3}với a1 (Đau đầu), a2
(Đau cơ), a3 (Thân nhiệt) và d (Cảm cúm)
Trang 27Định nghĩa 3.1 (Độ quan trọng của thuộc tính dựa trên metric) Cho
bảng quyết định DSU C, D V f, , , BC và b C B Độ quan trọng của thuộc tính b đối với B được định nghĩa bởi
nên SIG b B 0 Do đó, SIG B b được tính bởi lượng thay đổi khoảng cách
giữa B và BD khi thêm thuộc tính b vào B , SIG b B càng lớn thì lượng thay
đổi khoảng cách càng lớn, hay thuộc tính b càng quan trọng và ngược lại Độ quan trọng của thuộc tính b đặc trưng cho chất lượng phân lớp của thuộc tính
b, và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính trong thuật toán
heuristic tìm tập rút gọn của bảng quyết định
Để xây dựng thuật toán heuristic tìm tập rút gọn, ta có thể sử dụng hai
hướng tiếp cận: hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down) Trong phần này, luận văn đề xuất thuật toán heuristic tìm tập rút gọn tính toán lõi theo hướng tiếp cận bottom-up Ý tưởng của thuật toán
là xuất phát từ tập lõi, lần lượt bổ sung vào tập lõi các thuộc tính có độ quan
trọng lớn nhất cho đến khi tìm được tập rút gọn Thuật toán đề xuất sử dụng
chiến lược Thêm - Xóa [20]
Thuật toán 3.1 Thuật toán tìm tập lõi sử dụng metric
Đầu vào: Bảng quyết định DSU C, D V f, ,
Đầu ra: Tập lõi MCORE C
1 MCORE C ;
2 Tính d JK C K C , D ;
3 For each cC
Trang 28Phân tích độ phức tạp thời gian của Thuật toán 3.1
Sử dụng thuật toán trong [9] để tính U C/ , độ phức tạp thời gian là
Trang 30Thuật toán 3.2 Tính phân hoạch U R/ a
Đầu vào: Phân hoạch U R/ R R1 , 2 , ,R k, thuộc tính aR
Đầu ra: Phân hoạch U R/ a
Chứng minh tính đúng đắn của Thuật toán 3.2
Tại Bước 4, phân hoạch R i/ a chứa các lớp tương đương X u i a với
,
u R u R, nghĩa là X u i a u i a u i R Theo Tính chất 1.1 (Pawlak,
[13]), u i a u i R u i R a nên X u i R a Như vậy, tập TMP thu được tại Bước 7 bao gồm các tập X với X u i R a , theo định nghĩa, tập TMP thu được
chính là phân hoạch U R/ a
Độ phức tạp thời gian của Thuật toán 3.2
Sử dụng thuật toán trong [9] để tính phân hoạch R i / a với độ phức tạp thời gian O R i thì độ phức tạp thời gian của Thuật toán 3.2 là
Nếu sử dụng Tính chất 1.1 để tính U R/ a khi đã biết U R/ , trước hết
ta phải tính phân hoạch U/ a A1 , ,A l với độ phức tạp thời gian O U Tiếp theo, ta phải tính các phép giao R iA j, i 1 ,k j 1 l với độ phức tạp
Trang 31Ví dụ 3.2 Xét bảng quyết định DSU C, d V f, , cho ở Ví dụ 3.1 Giả sử R a3 và phân hoạch U R U/ / a3 u u u1 , 2 , 7 , u u u u3 , 4 , 5 , 6 , áp dụng Thuật toán 3.2 tính phân hoạch U/a a2 , 3 (với a a2 ) ta có:
1 TMP ;
2 Xét R1 u u u1 , 2 , 7, tính R1 / a2 u u1 , 2 , u7 và TMP u u1 , 2 , u7 Xét R2 u u u u3 , , , 4 5 6, tính R2 / a2 u u u3 , , 4 5 , u6 và TMP u u1 , 2 , u u u3 , , 4 5 , u6 , u7
Vậy U/a a2 , 3TMP u u1 , 2 , u u u3 , 4 , 5 , u6 , u7
Thuật toán 3.3 Thuật toán heuristic tìm một tập rút gọn tốt nhất sử
dụng metric
Đầu vào: Bảng quyết định DSU C, D V f, ,
Đầu ra: R là một tập rút gọn tốt nhất của C
1 Tìm tập lõi MCORE C theo Thuật toán 3.1;