Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và ứng dụng

Tập thô dung sai Tolerance Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin không đầy đủ Incomplete Information System Bảng quyết đị

Trang 1

LUẬN VĂN THẠC sĩ MÁY TÍNH

Trang 2

TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2

LUẬN VĂN THẠC sĩ MÁY TÍNH

Người hướng dẫn khoa học: TS Nguyễn Long Giang

Trang 3

Trong thời gian qua để hoàn thành luận văn này tôi đã nhận đuợc sự giúp đỡ tậntình của thầy hướng dẫn khoa học, của các thầy cô trường Đại học Su phạm Hà Nội 2.Tôi xin chân thành cảm ơn các thầy cô trường Đại học Su phạm Hà Nội 2 đã tạo điềukiện học tập, nghiên cứu và giúp đỡ tôi rất nhiều trong quá trình làm luận văn Đặcbiệt tôi xin cảm ơn thầy TS.Nguyễn long Giang đã tận tình hướng dẫn, chỉ bảo tôitrong suốt quá trình học tập, nghiên cứu đề tài và giúp đỡ tôi hoàn thành bản luận vănnày.

Vĩnh Phúc, ngày 21 tháng 11 năm 2015

Học viên

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là kết quả nghiên cứu của tôi dưới sự hướng dẫn khoa học

của TS Nguyễn Long Giang.

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Học viên

Trần Thị Phương Liền

Trang 5

MỤC LỤC

LỜI CẢM ƠN LỜI

CAM ĐOAN

MỤC LỤC i

DANH MỤC CÁC THUẬT NGỮ iii

DANH MỤC CÁC BẢNG iv

DANH MỤC CÁC HÌNH VẼ V MỞ ĐẦU 1

Chương 1 CÁC KHÁI NIỆM cơ BẢN 4

1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 4

1.1.1 Hệ thông tin đầy đủ 4

1.1.2 Bảng quyết định đầy đủ 7

1.1.3 Tập rút gọn và tập lõi 7

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 8

1.2.1 Hệ thông tin không đầy đủ 8

1.1.2 Bảng quyết định không đầy đủ 9

Chương 2 RỦT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 11

2.1 Rút gọn thuộc tính và trích lọc luật trong bảngquyết định không đầy đủ 11

2.1.1 Tổngrkết, phân nhóm các phương pháp rút gọnthuộc tính 11

2.1.2 Luật quyết định và các độ đo đánh giá hiệu năng 16

2.1.3 Lựa chọn, so sánh, đánh giá các phương pháp rút gọn thuộc tính 20

2.2 Xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách 22

2.2.1 Xây dựng khoảng cách giữa hai tập thuộc tính 23

2.2.2 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 27

2.2.3

Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách 32

Chương 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 33

Trang 6

3.1 Bài toán 33

3.2 Phân tích, lựa chọn công cụ 33

3.2.1 Phương pháp rút gọn thuộc tính sử dụng độ đo lượng thông tin 34

3.2.2 Lựa chọn công cụ và cài đặt 35

3.3 Một số kết quả thử nghiệm 35

3.3.1 Kết quả thử nghiệm về rút gọn thuộc tính sử dụng khoảng cách 35

3.3.2 Kết quả thử nghiệm về trích lọc luật trong mô hình tập thô dung sai 37

3.4 ứng dụng trong bài toán chuẩn đoán bệnh viêm gan B 39

3.4.1 Bài toán chuẩn đoán bệnh viêm gan B 39

3.4.2 Mô tả dữ liệu 39

3.4.3 Kết quả thực hiện 40

KẾT LUẬN 44

TÀI LIỆU THAM KHẢO 45 PHỤ LỤC

Trang 7

DANH MỤC CÁC THUẬT NGỮ

Trang 8

Tập thô dung sai Tolerance Rough Set

Hệ thông tin Information System

Hệ thông tin đầy đủ Complete Information System

Hệ thông tin không đầy đủ Incomplete Information System Bảng quyết định Decision Table

Bảng quyết định đầy đủ Complete Decision Table Bảng quyết định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt được Indiscernibility Relation Quan hệ dung sai Tolerance Relation

Rút gọn thuộc tính Attribute Reduction

Luật quyết định Decision Rule

Trang 9

Bảng 1.1 Bảng thông tin về bệnh cúm 6

Bảng 1.2 Bảng quyết định không đầ đủ về các xe hơi 10

Bảng 2.1 Các phương pháp rút gọn thuộc tính trong công trình [3, 8, 14] 13

Bảng 2.2 Bảng quyết định không đầy đủ về các xe hơi 17

Bảng 2.3 Bảng quyết định không đầy đủ về các xe hơi 30

Bảng 3.1 Ket quả thực hiện Thuật toán DBAR và Thuật toán IQBAR 36

Bảng 3.2 Tập rút gọn của Thuật toán DBAR và Thuật toán IQBAR 36

Bảng 3.3 Ket quả thực hiện Thuật toán DBAK và Thuật toán IQBAK trên các bộ số liệu lớn 37

Bảng 3.4 Tập rút gọn tốt nhất của bộ so liệu Soybean-small 38

Bảng 3.5 Các luật phân lớp trên bảng quyết định rút gọn 38

Trang 10

DANH MỤC CÁC HÌNH VẼ

Hình 2.1 Móỉ' liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ 15 Hình 3.1 Ket quả rút gọn thuộc tính 42 Hình 3.2 Ket quả sinh luật quyết định 43

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Rút gọn thuộc tính là bài toán quan trọng nhất trong bước tiền xử lý dữ liệu của quátrình khai phá dữ liệu và khám phá tri thức Mục tiêu của rút gọn thuộc tính là loại bỏ cácthuộc tính dư thừa của dữ liệu nhằm tìm ra các thuộc tính cốt lõi Dựa vào tập thuộc tínhcốt lõi tìm được, các thuật toán khai phá dữ liệu đạt hiệu quả cao nhất Với lớp bài toántrích lọc luật trên bảng quyết định, rút gọn thuộc tính là quá trình tìm tập rút gọn (reduct)của tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp của bảng quyết định Dựa vàotập rút gọn, việc sinh luật quyết định đạt hiệu quả cao nhất

Lý thuyết tập thô truyền thống của Pawlak [11] được xem là một trong những công

cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính và sinh luật trên các bảng quyết địnhđầy đủ Tuy nhiên với các bài toán thực tế, miền giá trị thuộc tính trong bảng quyết địnhthường không đầy đủ giá trị Ví dụ trong lĩnh vực y tế, bác sỳ không thể thu thập đầy đủcác triệu trứng của một bệnh nhân để phục vụ chuẩn đoán bệnh Các bảng quyết định nhưvậy gọi là các bảng quyết định không đầy đủ (Incomplete Decision Table) Để giải quyếtbài toán rút gọn thuộc tính và trích lọc luật trên bảng quyết định không đầy đủ, công trìnhnghiên cứu của Kryszkiewicz [5] đã thực hiện mở rộng quan hệ tương đương trong lýthuyết tập thô truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sainhằm rút gọn thuộc tính và trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựatrên mô hình tập thô dung sai, một số công trình công bố trong mấy năm gần đây đã đềxuất một số độ đo không chắc chắn nhằm giải quyết bài toán rút gọn thuộc tính và trích lọcluật, đáng chú ý là các công trình [2], [3], [4], [6], [7], [8], [9], [10],

Như đã trình bày ở trên, rút gọn thuộc tính là bài toán quan trọng của bước tiền xử

lý dữ liệu trong quá trìĩứrìđiai phá dữ liệu và khám phá tri thức Do đó, việc nghiên cứucác phương pháp rút gọn thuộc tính có ý nghĩa thực tiễn cao Hơn nữa, mô hình tập thôdung sai được chứng minh là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính,việc tiếp tục nghiên cứu nhằm tìm ra các phương pháp mới, hiệu quả có ý nghĩa khoa học

Do đó, tôi chọn đề tài “Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết

định không đầy đủ và ứng dụng”

Trang 12

2 Mục đích nghiên cứu (Các kết quả cần đạt được)

Mục đích của luận văn trước hết là tổng kết các kết quả nghiên cứu về lĩnh vực rútgọn thuộc tính và trích lọc luật trong bảng quyết định không đầy đủ theo tiếp cận mô hìnhtập thô dung sai Trên cơ sở đó, luận văn đề xuất phương pháp rút gọn thuộc tính dựa trên

độ đo khoảng cách phân hoạch và ứng dụng phương pháp vào bài toán chuẩn đoán bệnhdựa vào các triệu chứng thu thập được từ bệnh nhân

3 Nhiệm vụ nghiên cứu

- Nắm bắt được các khái niệm cơ bản về lý thuyết tập thô truyền thống trên hệthông tin đầy đủ và mô hình tập thô dung sai trên hệ thông tin không đầy đủ

- Tổng hợp các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính và tríchlọc luật quyết định trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dungsai, bao gồm phân nhóm các phương pháp, so sánh, đánh giá các phương pháp dựa vào tậprút gọn

- Xây dựng phương pháp rút gọn thuộc tính dựa vào khoảng cách phân hoạch,đánh giá phương pháp đề xuất với các phương pháp đã có

- ứng dụng phương pháp vào việc giải quyết một bài toán cụ thể trong lĩnh vựcchuẩn đoán bệnh, bao gồm: phát biểu bài toán, cài đặt chương trình, thử nghiệm chươngtrình, đánh giá kết quả thu được

4 Đối tượng và phạm vi nghiên cửu

- Đối tượng nghiên cứu: Các bảng quyết định không đầy đủ (thiếu giá trị) với kích

thước trung bình và kích thước lớn trong lĩnh vực nghiên cứu và bảng quyết định đầy đủ

- Phạm vi nghiên cứu: Nghiên cứu bài toán rút gọn thuộc tính trong bước tiền xử

lý dữ liệu của quá trìnhTchai phá dữ liệu và khám phá tri thức

5 Phương pháp nghiên cửu

- Nghiên cứu lý thuyết: Nghiên cứu cátrTcết quả đã công bố trong lĩnh vực liên

quan Trên cơ sở đó phân tích, tổng hợp, đánh giá các kết quả đã công bố

- Nghiên cứu thực nghiệm: Áp dụng kết quả nghiên cứu lý thuyết vào việc giải

quyết một bài toán trong thực tiễn, bao gồm cài đặt chương trình, thử nghiệm, đánh giá kếtquả thu được

Trang 13

6 Cấu trúc của luận văn

Bổ cục của luận vãn gồm: phần mở đầu và hai chương nội dung, phần kết luận và

danh mục các tài liệu tham khảo

Chương 1: trình bày các khái niệm cơ bản về hệ thông tin đầy đủ và mô hình tập thô

truyền thống, hệ thông tin không đầy đủ và mô hình tập thô dung sai

Chương 2: trình bày hai nội dung chính, thứ nhất là: tổng kết, phân nhóm các

phương pháp rút gọn thuộc tính Luật quyết định và các độ đo đánh giá hiệu năng Lựachọn, so sánh đánh giá các các phương pháp rút gọn thuộc tính Nội dung thứ hai là xâydựng phương pháp rút gọn thuộc tính sử dụng khoảng cách, bao gồm xây dựng độ đokhoảng cách, định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên khoảng cách,xây dựng thuật toán heuristic tìm một tập rút gọn dựa trên khoảng cách Phân nhóm vàđánh giá phương pháp sử dụng khoảng cách với các phương pháp đã có

Chương 3 trình bày kết quả thử nghiệm và đánh giá phương pháp đề xuất trên các bộ

số liệu mẫu từ kho dữ liệu UCI [13] nhằm sáng tỏ các kết quả nghiên cứu về lý thuyết.Chương 3 cũng trình bày ứng dụng phương pháp rút gọn thuộc tính và trích lọc luật trên bộ

số liệu thử nghiệm của bệnh viêm gan B

Cuối cùng, phần diết luận nêu những đóng góp của luận văn, hướng phát triển tiếptheo

Chương 1 CÁC KHÁI NIỆM cơ BẢN

Chương này trình bày các khái niệm cơ bản về mô hình tập thô truyền thống trên các

hệ thông tin đầy đủ do Pawlak [10] đề xuất và mô hình tập thô dung sai trên các hệ thôngtin không đầy đủ do Kryszkiewicz [5] đề xuất Các khái niệm cơ bản này là kiến thức nềntảng để sử dụng cho các chương sau

1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống

1.1.1 Hệ thông tin đầy đủ

Hệ thông tin đầy đủ, gọi tắt là hệ thông tin, là một bảng dữ liệu gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách hình thức, hệ thông tin được định

nghĩa như sau

Định nghĩa 1.1 Hệ thông tin là một bộ tứ IS ={U,A,V,f) trong đó u là tập hữu hạn, khác

Trang 14

rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính; V = (J với

V a là tập giá trị của thuộc tính a e A ; f :UxA—» Va là hàm thông tin, VÔẼẠMẼƠ f(u,a)zV a

Với mọi u E u , aeA, ta ký hiệu giá trị thuộc tính a tại đối tượng u là aịu) thay vì

f{u,à) Nếu B = {b 1 ,b 2 , ,b t }çzA là một tập con các thuộc tính thì ta ký hiệu bộ các giá trị b¡

( M ) bởi Bịu) Như vậy, nếu Uvà V là hai đối tượng, thì ta viết ß(«) = ß(v) nếu b {u) = b (v) với mọi i = l, ,k.

Xét hệ thông tin IS =(U,A,V,f), mỗi tập con các thuộc tính Pçz A xác định một quan

hệ hai ngôi trên u, ký hiệu là IND( P ) , xác định bởi IND( P ) = Ị(w,v)e[/x[/|vae.p, a(w) =

a(v)j

IND(P) là quan hệ P-không phân biệt được Dễ thấy rằng IND{P) là một quan hệ

tương đương trên u Nếu ( M , V ) e IND( P ) thì hai đối tượng H và V không phân biệt được

bởi các thuộc tính trong p Quan hệ tương đương IND( P ) xác định

một phân hoạch trên u, ký hiệu là u / IND( P ) hay u / p Ký hiệu lớp tương đương trong

phân hoạch u / p chứa đối tượng u là [«] , khi đó [u] p = {vsU|(w,v)eIND(p)!.

Cho hệ thông tin IS ={U,A,V,f) , tập thuộc tính BcA và tập đối tượng Xcí/, Trong lý thuyết tập thô truyền thống của Pawlak [10], để biểu diễn tập X thông qua các lớp tương

đương của u / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp

của một số hữu hạn các lớp tương đương của u / B Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xẩp xỉ dưới và B-xẩp xỉ trên của X, ký hiệu là lượt là BX và BX , được xác định như sau:

BX = ỊM e u\[u] B c xỊ, BX = ịu e u |[w]B n X * 0Ị

Tập BX bao gồm tất cả các phần tử của u chắc chắn thuộc vào X, còn tập

BX bao gồm các phần tử của u có thể thuộc vào X dựa trên tập thuộc tính B Từ hai tập

xấp xỉ nêu trên, ta định nghĩa các tập

BNg (x) = BX -BX : B-miền biên của X, u -BX : B-miền ngoài của X.

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X, còn

Trang 15

B-miền ngoài của X chứa các đối tượng chắc chan không thuộc X Sử dụng các lớp của

phân hoạch U/B, cấc xấp xỉ dưới và trên của X có thể viết lại

BX= u B \ Y ^ X }, BX =\J fl|ynX*0Ị.

Trong trường hợp BN B ( X ) = 0 thì X được gọi là tập chính xác ịexact set),

ngược lại X được gọi là tập thô ịrough set).

Với B,ũcẨ,ta gọi B-miền dương của D là tập được xác định như sau

POS B (D)= u

X

Rõ ràng POS B (D) là tập tất cả các đối tượng u sao cho với mọi VẼÍ/ mà M(B) = V(B)

ta đều có W(D) = V(D) Nói cácỉrkhác, POSg(D) = Ịw eơ| [w] c[w] j.

Trang 16

%}-Đặt X ={uI u(Cảm cúm) = Có} = ịu 2 ,u 3 ,u 6 ,u 7 } Khi đó:

BX =ịu 2 ,u 3 ) và BX = |«2,«3,«5,«6,«7,«g| Như vậy, B-miền biên của X là tập hợp BN B ( X )

U ậ Không Bình thường Không

U 6 Không Rất cao Có

U g Không Rất cao Không

Ta có: u I {Đau đầu} = {{«!,M2,M3},{M4,M5,M6,M7,Mg}j

Trang 17

Với các khái niệm của tập xấp xỉ đối với phân hoạch u / B, mô hình tập thô truyền

thống phân chia các tập hợp thành bốn lớp cơ bản:

1) Tập X là B-xác định thô nếu BX / 0 và BX * u

2) Tập X là B-không xác định trong nếu BX - 0 và BX * u

3) Tập X là B-không xác định ngoài nếu BX / 0 và BX - u

4) Tập X là B-không xác định hoàn toàn nếu BX - 0 và BX - u .

1.1.2 Bảng quyết định đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là

bảng quyết định đầy đủ, gọi tắt là bảng quyết định Bảng quyết định là một hệ thông tin

DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau c và D , lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là DS =(U,CuD,V,f) với

Cnơ = 0

Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào c, tức là vớimọi M,VEƠ, c(w) = c(v) kéo theo D(W) = D(V) Ngược lại thì gọi là không nhất quán haymâu thuẫn Theo định nghĩa miền dương, bảng quyết định là nhất quán khi và chỉ khi

POS c (D) = u Trong trường hợp bảng không nhất quán thì POS c (D) chính là tập

con cực đại của u sao cho phụ thuộc hàm c —>D đúng.

1.1.3 Tập rút gọn và tập lõi

Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhóm: thuộc

tính ỉõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính dư thừa

(redundant attribute) Thuộc tính ỉõi là thuộc tính không thế thiếu trong việc phân lớp

chính xác tập dữ liệu Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết

định Thuộc tính dư thừa là những thuộc tính mà việc loại bỏ chúng rkhông ảnh hưởng đến

việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút gọn nào

của bảng quyết định Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập rút gọn nào

đó của bảng quyết định

Với bảng quyết định DS = (í/,CuD,V,/) Thuộc tính ceC được gọi là không cần thiết (dispensable) trong DS nếu /,ỠSc(D) = /,OS(C_jc|)(D); Ngược lại, c

Trang 18

được gọi là cần thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi

là tập lõi và được ký hiệu là PCOREịC) Khi đó, thuộc tính cần thiết chính là thuộc tính lõi Như vậy, thuộc tính không cần thiết là thuộc tính dư thừa hoặc thuộc tính rút gọn.

Nếu tập thuộc tính ícC thỏa mãn:

1) POS R (D) = POS c (D)

2) Vr*R,POS R _ { ẠD)*POS c (D)

thì R là một tập rút gọn của c Tập rút gọn định nghĩa như trên còn gọi là tập rút gọnPawlak

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai

Mô hình tập thô truyền thống do Pawlak đề xuất [10] là công cụ hiệu quả để giảiquyết bài toán phân lớp trên các hệ thông tin đầy đủ dựa trên quan hệ tương đương Tuynhiên trong thực tế, các hệ thông tin thường thiếu giá trị trên miền giá trị của thuộc tính,gọi là các hệ thông tin không đầy đủ Trong hệ thông tin không đầy đủ, Kryszkiewicz [5]được xem là người đầu tiên mở rộng quan hệ tương đương thành quan hệ dung sai và xâydựng mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi là mô hình tập thô dung sai.Trong mục này, tôi trình bày các khái niệm cơ bản về mô hình tập thô dung sai

1.2.1 Hệ thông tin không đầy đủ

Xét hệ thông tin IS =(U,A,V,f), nếu tồn tại liỄỈ/ và aeA sao cho a(w) thiếu giá trị thì

IS được gọi là hệ thông tin không đầy đủ Ta biểu diễn giá trị thiếu là và hệ thông tin không đầy đủ là IIS = (U,A,V,f).

Xét hệ thông tin không đầy đủ IIS = (U,A,V,f)), với tập thuộc tính PczA ta định

nghĩa một quan hệ nhị phân trên u như sau

S/M(.P) = Ị(w,v)e[/x[/| Vaeí, a(w) = a(v)v a(w) ='*'V a(v) ='*'j

Quan hệ SIM (p) không phải là quan hệ tương đương vì chúng có tính phản xạ, đối

xứng nhưng không có tính bắc cầu SIM (p) là một quan hệ dung sai (tolerance relation),

hay quan hệ tương tự (similarity relation) trên u Theo [5], SIM(P) = f] ({«})

Gọi Sp(u) là tập Ịveơ|(«,v)eS/M(/J)j Spịu) là tập lớn nhất các đối tượng

không có khả năng phân biệt được với u trên tập thuộc tính p, còn gọi là một lớp dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ SIM(P) trên u là

u khi đó các lớp dung sai trong u /5/M(P) không phải

Trang 19

là một phân hoạch của u mà hình thành một phủ của u vì chúng có thể giao nhau và u

) = u Ký hiệu tập tất cả các phủ của u sinh bởi các tập con thuộc tính

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập BNp (x) = PX - P X , và

P-miền ngoài của X là tập u -PX

Với các tập xấp xỉ được định nghĩa như trên, mô hình tập thô truyền thống được mởrộng thành mô hình tập thô dung sai, nghĩa là mô hình tập thô dựa trên quan hệ dung sai

1.1.2 Bảng quyết định không đầy đủ

Xét bảng quyết địnhDS = {u ,c uD,V,/), nếu tồn tại u e u và ceC sao cho c(w) thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ Ta biểu diễn giá trị thiếu là và bảng quyết định không đầy đủ là IDS = (ơ,Cuỡ,V,/) với Vú! ^D,'*' £V d Không mất tính

chất tổng quát, giả thiết D chỉ gồm một thuộc tính quyết định duy nhất {d|.

Cho bảng quyết định không đầy đủ IDS =ịu,Cuịd},V,fỴ Với flcC, u^U , dg(u) = ịf d (v)|v e

5B(M)Ị gọi là hàm quyết định suy rộng, nếu lổc(«)l=l với

mọi «eí/ thì IDS là nhất quán, trái lại IDS là không nhất quán [5] Tương tự trong bảng

quyết định đầy đủ, với ficC, miền dương của [d) đối với B, ký hiệu là

POS B {[d}), được định nghĩa POS B {[d}) = u{BX I X s ư / { d } } , khi đó IDS là nhất quán

khi và chỉ khi POSgiịd}) = u

Ví dụ 1.2 Xét bảng quyết định không đầy đủ IDS =Ịơ,Cu{í/Ị,V,/j cho ở Bảng 1.2,

với u ={M 1,M 2,M 3,M 4,M 5,M 6} , c = {a v a 2 ,a3,a4} với ữ; (Đơn giá), a 2 (Km đã đi), a 3 (Kích

thước), a 4 (Tốc độ tối đa), d (Gia tốc).

Trang 20

Các tập xấp xỉ dưới đối với c là cxJ = {«J,M 2Ị, CX 2 = ịu 3 ],CX 3 = {0}.

Do đó, POS c ([d)) = {u 1 ,u 2 ,u 3 }.

Hàm quyết định suy rộng của các đối tượng trên tập thuộc tính c là Ô C(M 1) = {Tốt},

ẽ c {ụ 2 ) = {Tốt}, ôc(w3) = {Xẩu}, Ổ C(M 4)= {Tốt, Tuyệt hảo}, Ỡ C ( M 5 ) = {Tốt, Tuyệt hảo}, õ c (u 6 ) = {Tốt, Tuyệt hảo}.

Do đó, IDS là bảng quyết định không nhất quán.

Chương 2 RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT

TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

Chương này trình bày hai nội dung chính như sau:

1) Tổng hợp các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính và tríchlọc luật trong bảng quyết định không đầy đủ, bao gồm: tổng hợp và phân nhổm cácphương pháp rút gọn thuộc tính dựa vào tập rút gọn; tổng hợp các kết quả nghiên cứu vềluật quyết định và các độ đo đánh giá hiệu năng; tổng hợp các kết quả nghiên cứu về sosánh, đánh giá các phương pháp rút gọn thuộc tính Các kết quả này được công bố trongcác công trình [3, 8]

2) Xây dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm:xây dựng độ đo khoảng cách; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựatrên khoảng cách; xây dựng thuật toán heuristic tìm tập rút gọn; phân nhóm, đánh giáphương pháp với các phương pháp đã công bố

Bảng 1.2 Bảng quyết định không đầ đủ về các xe hơi

u J Cao Cao Đầy đủ Thấp Tốt

Ta co Lĩ ỉ ị^dI {Xj,X2,X3} VƠI Xj {U Ị , U 2 ,w4,Wg}, X2 }, X3 }

Trang 21

2.1 Rút gọn thuộc tính và trích lọc luật trong bảng quyết định không đầy đủ

2.1.1 Tổng kết, phân nhóm các phương pháp rút gọn thuộc tính

Rút gọn thuộc tính theo tiếp cận tập thô truyền thống của Pawlak [10] là chủ đềnghiên cứu sôi động trong nhiều năm qua [1] Tuy nhiên trong các bài toán thực tế, các hệthông tin thường thiếu giá trị trên miền giá trị của thuộc tính, còn gọi là các hệ thông tinkhông đầy đủ Ví dụ, trong cátHcho dữ liệu thuộc lĩnh vực y khoa, các bác sỹ thườngkhông thu thập đủ các triệu trứng của các bệnh nhân để chuẩn đoán bệnh Trên hệ thôngtin không đầy đủ, các nhà nghiên cứu quan tâm đến việc xây dựng các mô hình hiệu quảnhằm giải quyết bài toán rút gọn thuộc tính và trích lọc luật Một trong những giải pháphiệu quả là việc mở rộng mô hình tập thô truyền thống thành mô hình tập thô dung sai dựatrên quan hệ dung sai do Kryszkiewicz [5] đề xuất Giống như cách tiếp cận mô hình tậpthô truyền thống[10], các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy

đủ theo tiếp cận mô hình tập thô dung sai[5] cũng thực hiện các bước sau đây:

1) Đưa ra khái niệm tập rút gọn dựa trên một độ đo được xây dựng.

2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng đóng góp

của thuộc tính vào việc phân lớp tập đối tượng Thuộc tính có độ quan trọng càng lớn thìkhả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại

3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu chuẩn

đánh giá là độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc tính)

Cho bảng quyết định không đầy đủ ỈDS = (ơ,Au|djj và tập thuộc tính điều kiện

R c= A Theo tiếp cận mô hình tập thô dung sai[5], R được gọi là tập rút gọn của bảng

quyết định DS nếu R bảo toàn “khả năng phân lớp” của DS, nghĩa là việc phân lớp đối tượng dựa trên tập thuộc tính R tương đương với tập thuộc tính A Khả năng phân lớp

được “lượng hóa” bằng độ chắc chắn của tập luật quyết định sẽ trình bày ở phần sau Mỗiphương pháp rút gọn thuộc tính đều đưa ra một độ đo nhằm lượng hóa khả năng phân lớp

và đưa ra định nghĩa tập rút gọn dựa trên độ đo được chọn

Kryszkiewicz [5] đưa ra khái niệm đầu tiên về tập rút gọn của bảng quyết địnhkhông đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm quyết địnhsuy rộng của tất cả các đối tượng

Định nghĩa 2.1 [5] Cho bảng quyết định không đầy đủ IDS = ịu,Au{d}} Nếu R c= A thỏa

Trang 22

mãn:

(1) Õ R (M) = Õ A (M) với mọi u G u

(2) V/? d R, tồn tại MẼƠ sao cho ÔR (w) ^ Õ A (w)

thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng, a)

Các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ

Theo tiếp cận mô hình tập thô dung sai, cho đến nay đã có rất nhiều phương pháp rútgọn thuộc tính dựa trên các độ đo khác nhau đã được công bố [3, 7, 8, 14] Trong côngtrình [7, 8, 14], các tác giả đã tổngrkết khá đầy đủ các phương pháp rút gọn thuộc tínhtrong bảng quyết định không đầy đủ và các tập rút gọn tương ứng

Trang 23

Như đã trình bày ở trên, mỗi phương pháp rút gọn thuộc tính đều đưa ra định nghĩa

về tập rút gọn và xây dựng thuật toán heuristic tìm tập rút gọn Do đó, có thể nói rằng tậprút gọn lỀnkết quả của phương pháp rút gọn thuộc tính Vì vậy, việc phân nhóm cácphương pháp rút gọn thuộc tính cũng dựa vào tập rút gọn và được thực hiện theo nguyêntắc: các phương pháp có tập rút gọn như nhau được phân thành một nhóm Trong côngtrình [7, 8, 14], các tác giả đã công bố về mối liên hệ giữa các tập rút gọn và kết quả phânnhóm các phương pháp rút gọn thuộc tính như sau:

Bảng 2.1 Các phương pháp rút gọn thuộc tính trong công trình [3, 8, 14]

STT Phương pháp Tập rút gọn Ký hiệu tập

rút gọn1

Phương pháp sử dụng miền

dương[10].

Tập rút gọn dựa trên miền dương

R.

b) Phân nhóm các phương pháp rút gọn thuộc tính

Trang 24

1) Nếu bảng quyết định nhất quán, các tập rút gọn Rp, Rg, Rg, R M , Rj,

R m ,R d , R F , R p là tương đương nhau.

2) Nếu bảng quyết định không nhất quán:

- Tập rút gọn dựa trên hàm quyết định suy rộng (R õ) tương đương với tập rút gọn

dựa trên hàm ấn định Rg.

- Tập rút gọn dựa trên hàm quyết định suy rộng (R õ) tương đương với tập rút gọn

dựa trên ma trận phân biệt (RM)

- Tập rút gọn dựa trên lượng thông tin (/?,) tương đương với tập rút gọn dựa trên ma

- Tập rút gọn dựa trên hàm quyết định suy rộng ( R d ) là tập con của tập rút gọn dựa

trên lượng thông tin ( R j ) , nghĩa là: nếu R j là một tập rút gọn dựa trên lượng thông tin

thì tồn tại Rg cz R í với R d là một tập rút gọn dựa trên hàm quyết định suy rộng.

- Tập rút gọn dựa trên hàm quyết định suy rộng ( R d ) là tập con của tập rút gọn dựa

trên hàm phân bố (R ), nghĩa là: nếu R là một tập rút gọn phân bo thì tồn tại R õ cz R M với

R d là một tập rút gọn dựa trên hàm quyết định suy rộng.

Trang 25

Hình 2.1 Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ

Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [7, 8, 14] đã thực hiệnphân nhóm các tập rút gọn và chỉ ra mối liên quan hệ giữa các tập rút gọn của các nhóm

Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:

• Nếu R 3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn R 2 thuộc nhóm

2 và một tập rút gọn R l thuộc nhóm 1 sao cho /?J (Z (Z /?3

• Neu R 4 là một tập rút gọn thuộc nhóm 4 thì tồn tại một tập rút gọn R2 thuộc nhóm

2 và một tập rút gọn R 1 thuộc nhóm 1 sao cho Cl R2 CI R4

Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc tính trong bảng

quyết định không đầy đủ cũng được phân thành bon nhóm tương ứng.

Đe đánh giá tính hiệu quả của một phương pháp rút gọn thuộc tính, cộng đồng

nghiên cứu về tập thô sử dụng hai tiêu chuẩn: 1) độ phức tạp về thời gian thực hiện thuật

toán heuristic tìm một tập rút gọn tốt nhất và 2) chất lượng phân lớp của tập rút gọn Các

công bố về rút gọn thuộc tính đều tính toán độ phức tạp thời gian thuật toán tìm tập rútgọn Do đó, hoàn toàn có thể so sánh được tính hiệu quả của các phương pháp về tiêuMối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ không

Trang 26

đo mang tính định lượng để đánh giá chất lượng phân lớp của tập rút gọn Trong lý thuyếttập thô, các nhà nghiên cứu sử dụng ba độ đo để đánh giá tính đúng đắn và tính hiệu quả

của một phương pháp rút gọn thuộc tính: độ chắc chắn (certainty measure), độ nhất quán (consistency measure) và độ hỗ trợ (support measure), cụ thể là: tập rút gọn của phương

pháp rút gọn thuộc tính phải bảo toàn độ chính xác, độ nhất quán của tập luật quyết định

Độ hỗ trợ sử dụng để đánh giá chất lượng phân lớp của tập rút gọn Độ hỗ trợ của tập luậtquyết định dựa trên tập rút gọn càng cao thì chất lượng phân lớp của tập rút gọn đó càngcao

Phần tiếp theo, tôi tổng kết các kết quả nghiên cứu liên quan đến luật quyết định vàcác độ đo đánh giá hiệu năng trong bảng quyết định đầy đủ và không đầy đủ tôi cũng tổnghợp kết quả nghiên cứu về sự thay đổi các độ đo trên các tập rút gọn của các nhóm phươngpháp, từ đó trình bày kết quả so sánh, đánh giá các phương pháp rút gọn thuộc tính dựatrên tiêu chuẩn chất lượng phân lớp của tập rút gọn

2.1.2 Luật quyết định và các độ đo đánh giá hiệu năng a)

Luật quyết định và các độ đo đánh giá hiệu năng

Khái niệm về luật quyết định trong bảng quyết định không đầy đủ trong công trình[3] cũng được mở rộng từ luật quyết định trong lý thuyết tập thô của Pawlak [10] Cho

bảng quyết định không đầy đủ IDS = (t/,Au{dj) với u = {u l , ,u n ), giả sử ta

có hai phủ ơ/5/M(Ẩ) = {5A(Ml), ,5A(Mn)} và u / { d } = {Y V Y 2 , ,YJ.

Với SA(«;)eơ/S/Aí(A), F ỄƠ/Ịd} và S A ị u í ) n Y Ị ± 0 , ký hiệu («,.))

và desịỵ Ị lần lượt là các mô tả của lớp dung sai S A (w;) và lớp tương đương

Chú ý rằng nếu giá trị a(«,.) = * thì bỏ giá trị này ra khỏi des[S A(«,)) vì quy ước giá trị *

bằng tất cả các giá trị khác Một luật quyết định đơn có dạng: Z lj :des(S A (u l ))^des(Y j )

Trang 27

Độ chắc chắn, độ hỗ trợ và độ bao phủ của luật quyết định đơn Zy tương ứng là:

Ví dụ 2.1 Xét bảng quyết định không đầy đủ IDS = (ơ,Aujdj) mô tả về các ô tô cho ở

Bảng 2.2 với u = {u v u 2 ,u 3 ,u 4 ,u 5 ,u 6 }, A = {oj,a2,a3} với a 3 (Đơn giá), fl2(Km đã đi), a 3 (Kíchthước), fl4 (Tốc độ tối đa)

5) — ÍHị} Wg} , — {W 2 ,W 5 ,Wg} • ^ ^ w } = {^1’^2 ’ ^3 }

VƠI Y-ị {Wj,W 2 ,W 4 ,Wg} , Y 2 {w 3 } , Y 3 (w 3 |

Các luật quyết định là:

Z31: (a It Cao) vịa 2 , Thấp) vịa 3 , Đầy đủ) vịa 4 , Thấp) —>ịd, Tốt)

Z 21 : (a¡, Thấp) v(a3 , Đầy đủ) v(a 4 , Thấp) —yịd, Tốt)

Z 32 ịa 3 , Gọn nhẹ) v(a 4 , Thấp) —yịd, xẩu)

(a¡, Cao) vịa 3 , Đầy đủ) v(a 4 , Cao) —yịd, Tốt)

Z 43 : (a¡, Cao) vịa3 , Đầy đủ) v(a 4 , Cao) —yịd, Tuyệt hảo) z51 :

ịa 3 , Đầy đủ) v(a 4 , Cao) —yịd, Tốt)

Z 53 : ịa3 , Đầy đủ) v(a 4 , Cao) —yịd, Tuyệt hảo)

Bảng 2.2 Bảng quyết định không đầy đủ về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa d

Ta có u / SIM(A) = {SA(Wj),S A (u z ),S A (u 3 ),S A (u 4 XSA(w5),SA(w6)}, với SA(«!) =

{«!), S A (u 2 ) = {u 2 ,u 6 }, S A (u 3 ) = {u 3 }, S A (u 4 ) = {u 4 ,u 5 },

Trang 28

Z 61 : (a¡, Thấp) v(a2 , Cao) vịa 3 , Đầy đủ) —yịd, Tốt)

Z 63 : (a¡, Thấp) v(a2 , Cao) v(ũ 3 , Đầy đủ) —yịd, Tuyệt hảo)

Các độ đo của các luật quyết định đơn là:

độ đo đánh giá hiệu năng của bảng quyết định, như sau: Cho bảng quyết định không đầy

đủ IDS ={u,Ẩu|úíỊ)với u = {u 1 , ,u ) và tập

luật RULE = ịz ii Z.: d e s ( S A («,))->d e sI với S ^ U ^ E Ü I S I M ( A ) , Y j E Ü I [ d } , i = l n, j = l m.

Trang 29

Độ chắc chắn acủa IDS được định nghĩa Độ nhất quán p của IDS được định nghĩa

b) Kết quả nghiên cứu về sự thay đổi các độ đo đánh giá hiệu năng trên các tập rút gọn.

Trong công trình [3], các tác giả đã nghiên cứu sự thay đổi độ chắc chắn a, độ nhất quán /?, độ hỗ trợ Y của bảng quyết định không đầy đủ IDS = (ơ,Au{d}) trên các tập rút gọn /?!, R 2 , /?3, R A của các nhóm phương pháp 1, phương pháp 2, phương pháp 3, phươngpháp 4 tương ứng

1) Tập rút gọn Rị (tập rút gọn của phương pháp miền dương) làm giảm độ độ chắc

chắn, giảm độ nhất quán và tăng độ hỗ trợ của tập luật đối với bảng quyết định không đầy

đủ không nhất quán

2) Tập rút gọn R 2 (tập rút gọn của các phương pháp sử dụng hàm quyết định suyrộng, phương pháp sử dụng hàm ấn định, phương pháp sử dụng ma trận phân biệt) bảotoàn độ chắc chắn, bảo toàn độ nhất quán và tăng độ hỗ trợ của tập luật quyết định

3) Tập rút gọn R 3 (tập rút gọn của các phương pháp sử dụng lượng thông tin,phương pháp sử dụng ma trận dung sai, phương pháp sử dụng metric [7], phương pháp sửdụng hàm phân biệt suy rộng [14]) bảo toàn độ chắc chắn, bảo toàn độ nhất quán và tăng

độ hỗ trợ của tập luật quyết định

Định dạng
Số trang	59
Dung lượng	226,25 KB