Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định sử dụng độ đo khoảng cách

tính sử dụng độ đo khoảng cách được định nghĩa qua các khái niệm trong lýthuyết tập thô, trong [1, 7] tác giả đã sử dụng độ đo khoảng cách Jaccard đểgiải quyết bài toán rút gọn thuộc tín

Trang 1

Em xin trân trọng cảm ơn Ban giám hiệu và các thầy cô Trường

Đại học Công nghệ Thông tin và Truyền thông, Đại học Thái nguyên đã tạo

các điều kiện cho chúng tôi được học tập và làm khóa luận một cách thuậnlợi

Lời cảm ơn sâu sắc muốn được gửi tới các thầy giáo Viện Công nghệ

Thông tin - Viện hàn lâm khoa học và Công nghệ Việt Nam, những người

thầy đã dạy dỗ và mở ra cho chúng tôi thấy chân trời tri thức mới, hướng dẫnchúng tôi cách khám phá và làm chủ công nghệ mới

Xin được cảm ơn Trung tâm Quản lý Chất lượng – Trường Đại họcCông nghiệp Hà Nội đã tạo mọi điều kiện để tôi được đi học và hoàn thànhtốt khoá học

Mặc dù đã cố gắng rất nhiều, nhưng chắc chắn trong quá trình học tập cũng như luận văn không khỏi những thiếu sót Em rất mong được sự thông cảm và chỉ bảo tận tình của các thầy cô và các bạn.

Thái Nguyên, tháng …… năm 2014

Lê Trường Giang

Trang 2

MỤC LỤC

MỤC LỤC 2

Danh mục các thuật ngữ 4

Bảng các ký hiệu, từ viết tắt 5

Danh sách bảng 6

MỞ ĐẦU 7

Chương 1 RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ .10 1.1 Các khái niệm cơ bản trong lý thuyết tập thô 10

1.1.1 Hệ thông tin và tập thô 10

1.1.2 Bảng quyết định 13

1.2 Rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý thuyết tập thô 15

1.2.1 Tổng kết về các phương pháp rút gọn thuộc tính trong bảng quyết định 15 1.2.2 Kết quả phân nhóm các phương pháp rút gọn thuộc tính dựa vào tập rút gọn 19

1.2.3 Kết quả lựa chọn, so sánh, đánh giá các phương pháp 20

Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 23

2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 23

2.1.1 Khoảng cách giữa hai tập hợp hữu hạn 23

2.1.2 Khoảng cách giữa hai tri thức và các tính chất 24

2.1.3 Tập rút gọn của bảng quyết định dựa trên khoảng cách 27

2.1.4 Thuật toán tìm tập rút gọn sử dụng khoảng cách 28

2.2 Thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách khi bổ sung đối tượng 32

2.2.1 Công thức gia tăng tính khoảng cách khi bổ sung đối tượng 32

2.2.2 Thuật toán gia tăng tìm tập rút gọn khi bổ sung đối tượng 34

Trang 3

2.3 Thuật toán tìm tập rút gọn sử dụng khoảng cách khi loại bỏ đối tượng 36

2.3.1 Công thức tính khoảng cách khi loại bỏ đối tượng 37

2.3.2 Thuật toán tìm tập rút gọn khi loại bỏ đối tượng 38

Chương 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 40

3.1 Bài toán 40

3.2 Phân tích, lựa chọn công cụ 41

3.2.1 Thuật toán rút gọn thuộc tính sử dụng entropy Liang 41

3.2.2 Mô tả thuật toán gia tăng tìm tập rút gọn khi bổ sung tập đối tượng 42

3.2.3 Lựa chọn công cụ cài đặt 43

3.3 Một số kết quả thử nghiệm 43

3.3.1 Kết quả thử nghiệm thuật toán tìm tập rút gọn sử dụng khoảng cách .43

3.3.2 Kết quả thử nghiệm thuật toán gia tăng rút gọn thuộc tính sử dụng khoảng cách 46

KẾT LUẬN 50

Tài liệu tham khảo 51

Danh mục các công trình của tác giả 53

Phụ lục 54

Trang 4

Danh mục các thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Hệ thông tin Information System

Bảng quyết định Decision Table

Bảng quyết định nhất quán Consistent Decision Table Bảng quyết định không nhất quán Inconsistent Decision Table Quan hệ không phân biệt được Indiscernibility Relation Xấp xỉ dưới Lower Approximation Xấp xỉ trên Upper Approximation Rút gọn thuộc tính Attribute Reduction

Ma trận phân biệt Indiscernibility Matrix Hàm phân biệt Indiscernibility Function Luật quyết định Decision Rule

Trang 5

C Số thuộc tính điều kiện trong bảng quyết định

A Số thuộc tính trong hệ thông tin

 

u a Giá trị của đối tượng u tại thuộc tính a

 

 u B Lớp tương đương chứa u của quan hệ IND B 

Trang 6

Danh sách bảng

Bảng 1.1 Bảng thông tin về bệnh cúm 12

Bảng 1.2: Bảng quyết định về bệnh cúm 14

Bảng 1.3 Bảng quyết định về bệnh cúm 17

Bảng 1.4 Ký hiệu các tập rút gọn của bảng quyết định 19

Bảng 2.1 Bảng quyết định minh họa thuật toán tìm tập rút gọn 30

Bảng 3.1 Kết quả thực hiện Thuật toán NEBAR và Thuật toán DBAR 44

Bảng 3.2 Tập rút gọn của Thuật toán NEBAR và Thuật toán DBAR 44

Bảng 3.3 Kết quả thực hiện Thuật toán NEBAK và Thuật toán DBAK 45

trên các bộ số liệu lớn 45

Bảng 3.4 04 bộ số liệu thử nghiệm 46

Bảng 3.5 Kết quả thực hiện thuật toán DBAR trên bộ số liệu ban đầu 47

Bảng 3.6 Kết quả thực hiện thuật toán DBAR và thuật toán gia tăng OSIDBAR 48

Trang 7

đã được đề xuất sử dụng các độ đo khác nhau như miền dương, ma trận phânbiệt, các độ đo entropy trong lý thuyết thông tin, các độ đo trong tính toán hạt,

độ đo khoảng cách Tuy nhiên, hầu hết các nghiên cứu về rút gọn thuộc tínhđều được thực hiện trên các bảng quyết định với tập đối tượng và tập thuộctính cố định, không thay đổi Trong thực tế, các bảng quyết định luôn bị cậpnhật và thay đổi với các trường hợp: bổ sung hoặc loại bỏ tập đối tượng, bổsung hoặc loại bỏ tập thuộc tính, cập nhật tập đối tượng đã tồn tại Mỗi khithay đổi như vậy, chúng ta lại phải thực hiện lại các thuật toán tìm tập rút gọntrên toàn bộ tập đối tượng, do đó chi phí về thời gian thực hiện thuật toán tìmtập rút gọn sẽ rất lớn

Trong mấy năm gần đây, một số công trình nghiên cứu đã xây dựng cácphương pháp gia tăng rút gọn thuộc tính trên bảng quyết định thay đổi dựatrên các độ đo khác nhau [3, 4, 6, 10, 11, 12] Trong [3, 4, 12], các tác giả đãxây dựng phương pháp gia tăng tìm tập rút gọn dựa trên miền dương và matrận phân biệt khi bổ sung tập đối tượng mới Trong [10], các tác giả đã xâydựng các công thức tính các độ đo entropy (entropy Shannon, entropy Liang,entropy kết hợp) khi bổ sung, loại bỏ các thuộc tính Tuy nhiên, các công thứctính toán entropy trong [10] còn phức tạp Về hướng tiếp cận rút gọn thuộc

Trang 8

tính sử dụng độ đo khoảng cách được định nghĩa qua các khái niệm trong lýthuyết tập thô, trong [1, 7] tác giả đã sử dụng độ đo khoảng cách Jaccard đểgiải quyết bài toán rút gọn thuộc tính trong bảng quyết đinh Tuy nhiên, tácgiả trong [1, 7] mới giải quyết bài toán rút gọn thuộc tính trong trường hợpbảng quyết định cố định, không thay đổi.

Mục tiêu của luận văn là xây dựng phương pháp rút gọn thuộc tính

trong bảng quyết định thay đổi dựa vào độ đo khoảng cách trong hai trườnghợp: bổ sung đối tượng mới và loại bỏ đối tượng đã có

Đối tượng nghiên cứu của luận văn là các bảng quyết định với dữ liệu

thay đổi khi bổ sung và loại bỏ các đối tượng

Phạm vi nghiên cứu: Với công cụ là lý thuyết tập thô, đề tài tập trung

nghiên cứu phương pháp gia tăng tìm tập rút gọn của bảng quyết định khi bổsung và loại bỏ tập đối tượng

Phương pháp nghiên cứu của đề tài là nghiên cứu lý thuyết và nghiên

cứu thực nghiệm

Về nghiên cứu lý thuyết: Nghiên cứu các kết quả đã công bố và xâydựng các công thức tính toán gia tăng khi bổ sung và loại bỏ đối tượng, trên

cơ sở đó đề xuất các thuật toán hiệu quả

Về nghiên cứu thực nghiệm: Cài đặt và thử nghiệm các thuật toán, cácthuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách trên các bộ số liệumẫu lấy từ kho dữ liệu UCI [14] nhằm đánh giá tính hiệu quả của phươngpháp gia tăng so với phương pháp truyền thống

Bố cục của luận văn gồm phần mở đầu, ba chương nội dung, phần kết

luận và các mục tài liệu tham khảo

Chương 1: Trình bày một số khái niệm cơ bản trong lý thuyết tập thô và

các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính trong bảng

Trang 9

quyết định theo tiếp cận heuristic, các kết quả nghiên cứu về phân nhóm, sosánh và đánh giá các phương pháp.

Chương 2: Trình bày các bước xây dựng phương pháp rút gọn thuộc tính

sử dụng độ đo khoảng cách, bao gồm định nghĩa độ đo khoảng cách, địnhnghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên khoảng cách vàthuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng khoảng cách Trên cơ

sở đó, chương 2 trình bày nội dung chính là xây dựng thuật toán tìm tập rútgọn của bảng quyết định thay đổi trong trường hợp bổ sung và loại bỏ đốitượng theo hướng tiếp cận tính toán gia tăng

Chương 3: Trình bày kết quả thử nghiệm và đánh giá các thuật toán tìm

tập rút gọn theo hướng tiếp cận gia tăng trong trường hợp bổ sung và loại bỏđối tượng So sánh kết quả thực hiện so với các phương pháp truyền thống làtính toán lại tập rút gọn trên toàn bộ tập đối tượng để thấy rõ tính hiệu quả củaphương pháp gia tăng

Phần kết luận: Tóm tắt kết quả đạt được của luận văn và hướng phát

triển tiếp theo của tác giả luận văn

Trang 10

Chương 1 RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT

TẬP THÔ

Chương này trình bày một số khái niệm cơ bản trong lý thuyết tập thô vàcác kết quả nghiên cứu đã công bố về các phương pháp rút gọn thuộc tínhtrong bảng quyết định theo tiếp cận lý thuyết tập thô, bao gồm: Tổng quan vềcác phương pháp, phân nhóm các phương pháp và so sánh, đánh giá cácphương pháp Chương này là kiến thức nền tảng để nghiên cứu phương pháprút gọn thuộc tính trong bảng quyết định thay đổi được trình bày ở chương 2

1.1 Các khái niệm cơ bản trong lý thuyết tập thô

1.1.1 Hệ thông tin và tập thô

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu

gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách hình

thức, hệ thông tin được định nghĩa là một bộ tứ ISU A V f, , , trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc

a u thay vì f u a ,  Nếu Bb b1 , , , 2 b k A là một tập con các thuộc tính thì

ta ký hiệu bộ các giá trị b u i  bởi B u  Như vậy, nếu u và v là hai đối tượng,

thì ta viết B u  B v  nếu b u i b v i  với mọi i 1, ,k

Xét hệ thông tin ISU A V f, , ,  Mỗi tập con các thuộc tính PA xác

định một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi

Trang 11

 

quan hệ tương đương trên U Nếu u v, IND P  thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P Quan hệ tương đương IND P  xác định

một phân hoạch trên U, ký hiệu là U IND P/   hay U P/ Ký hiệu lớp tương đươngtrong phân hoạch U P/ chứa đối tượng u là  u P, khi đó

 u P v U u v  , IND P  

Cho hệ thông tin IS U A V f, , ,  và tập đối tượng X U Với một tậpthuộc tính BA cho trước, chúng ta có các lớp tương đương của phân hoạch

/

U B , thế thì một tập đối tượng X có thể biểu diễn thông qua các lớp tương

đương này như thế nào?

Trong lý thuyết tập thô, để biểu diễn X thông qua các lớp tương đương

của U B/ (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X

bởi hợp của một số hữu hạn các lớp tương đương của U B/ Có hai cách xấp

xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và

B-xấp xỉ trên của X, ký hiệu là lượt là BX và BX, được xác định như sau:

 

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn

tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

 

B

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc

X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể

viết lại

Trang 12

 / 

Trong trường hợp BN B X  thì X được gọi là tập chính xác (exact

set), ngược lại X được gọi là tập thô (rough set).

Với B D, A , ta gọi B-miền dương của D là tập được xác định như sau

Trang 13

2) Tập X là B-không xác định trong nếu BX và BX U

3) Tập X là B-không xác định ngoài nếu BX  và BX U

4) Tập X là B-không xác định hoàn toàn nếu BX  và BX U

1.1.2 Bảng quyết định

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều

ứng dụng là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt

được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là

A= {Đau đầu, Đau cơ, Nhiệt độ, Cúm}

Tập thuộc tính điều kiện C= {Đau đầu, Đau cơ, Nhiệt độ} Tập thuộc tính quyết định D={Cúm}

Trang 14

Một bảng quyết định DSU C, D là nhất quán nếu mọi lớp X U C i /

là nhất quán, ngược lại DS U C, Dđược gọi là không nhất quán Dễ thấynếu U C/ U D/ thi DSU C, D là nhất quán

Tương tự, nếu U D/ U C/ thì DS U C, D là nhất quán ngược

Có thể thấy bảng quyết định là nhất quán khi và chỉ khi POS D C( ) U Trongtrường hợp không nhất quán thì POS D C( ) U chỉ là tập con cực đại của Usaocho phụ thuộc hàm C  Dlà đúng

Trang 15

1.2 Rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý thuyết

- Đưa ra khái niệm tập rút gọn của phương pháp dựa trên một độ đođược chọn Các phương pháp khác nhau có độ đo khác nhau, điển hình là các

độ đo trong tính toán hạt (granunal computing), độ đo entropy, độ đo khoảngcách, sử dụng ma trận…

- Đưa ra khái niệm độ quan trọng của thuộc tính đặc trưng cho chấtlượng phân lớp của thuộc tính dựa trên độ đo được chọn

- Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theotiêu chuẩn đánh giá độ quan trọng của thuộc tính (chất lượng phân lớp củathuộc tính) Thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó

có thể áp dụng đối với các bài toán có dữ liệu lớn Các thuật toán heuristicnày thường được xây dựng theo hai hướng tiếp cận khác nhau: hướng tiếpcận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down) Ýtưởng chung của hướng tiếp cận từ dưới lên (bottom-up) là xuất phát từ tập

Trang 16

tập lõi, bổ sung dần dần các thuộc tính có độ quan trọng lớn nhất vào tập lõicho đến khi thu được tập rút gọn Ý tưởng chung của hướng tiếp cận từ trênxuống (top-down) xuất phát từ tập thuộc tính điều kiện ban đầu, loại bỏ dầncác thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được tập rút gọn.

Cả hai hướng tiếp cận này đều đòi hỏi phải sắp xếp danh sách các thuộc tínhtheo thứ tự giảm dần hoặc tăng dần của độ quan trọng tại mỗi bước lặp

1) Phương pháp rút gọn thuộc tính dựa trên miền dương

Trong lý thuyết tập thô truyền thống, Pawlak [9] đã đưa ra khái niệm tậprút gọn của bảng quyết định dựa trên miền dương và xây dựng thuật toán tìmtập rút gọn dựa trên miền dương Trong bảng quyết định, các thuộc tính điều

kiện được phân thành ba nhóm: thuộc tính lõi (core attribute), thuộc tính rút

gọn (reductive attribute) và thuộc tính dư thừa (redundant attribute) Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân lớp chính xác tập dữ

liệu Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết định

Thuộc tính dư thừa là những thuộc tính mà việc loại bỏ chúng không ảnh

hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện

trong bất kỳ tập rút gọn nào của bảng quyết định Thuộc tính rút gọn là thuộc

tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định

Cho bảng quyết định DSU C, D V f, ,  Thuộc tính c C được gọi là

không cần thiết (dispensable) trong DS dựa trên miền dương nếu

  (  ) 

Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên miền

dương và được ký hiệu là CORE C  Khi đó, thuộc tính cần thiết chính là

thuộc tính lõi và thuộc tính không cần thiết là thuộc tính dư thừa hoặc thuộc

tính rút gọn.

Cho bảng quyết định DSU C D V f,  , ,  và tập thuộc tính RC Nếu

Trang 17

1) POS D R( ) POS D C( )

2)  r R POS, R r  ( )D POS D C( )

thì R là một tập rút gọn của C dựa trên miền dương.

Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu

Khi đó, a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn R RED C  

sao cho a R và a là thuộc tính dư thừa của DS nếu

Bảng này có hai tập rút gọn là R 1 = {Đau cơ, Thân nhiệt} và R 2 = {Đau đầu, Thân nhiệt} Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân nhiệt là thuộc lõi duy nhất Các thuộc tính không cần thiết bao gồm:

 Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn nào

 Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có

mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa

là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩnđoán đúng bệnh Tức là

POS {Đau cơ, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm})

Trang 18

POS {Đau đầu, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm}).

Với khái niệm tập rút gọn dựa trên miền dương, Pawlak cũng đưa rakhai niệm độ quan trọng của thuộc tính dựa trên miền dương và xây dựngthuật toán heuristic tìm một tập rút gọn tốt nhất dựa trên miền dương

2) Các phương pháp rút gọn thuộc tính khác

Rút gọn thuộc tính trong lý thuyết tập thô là chủ đề nghiên cứu khá sôiđộng trong mấy năm gần đây Các kết quả nghiên cứu về rút gọn thuộc tínhtrong lý thuyết tập thô được trình bày khá đầy đủ và cập nhật trong [1] Cácphương pháp rút gọn thuộc tính điển hình được tổng kết và công bố trong [1]

Trang 19

1.2.2 Kết quả phân nhóm các phương pháp rút gọn thuộc tính dựa vào

tập rút gọn

Trong [1], tác giả đã tổng kết và công bố mối liên hệ giữa các tập rút gọncủa các phương pháp rút gọn thuộc tính, trên cơ sở đó phân nhóm các phươngpháp rút gọn thuộc tính dựa vào tập rút gọn Để thuận tiện cho việc trình bày,luận văn ký hiệu các tập rút gọn theo Bảng 1.3 dưới đây:

Bảng 1.4 Ký hiệu các tập rút gọn của bảng quyết định

R Tập rút gọn dựa trên ma trận phân biệt

Trong [1], tác giả đã tổng kết và công bố mối liên hệ giữa các tập rút gọnnhư sau:

1) Với bảng quyết định nhất quán, các tập rút gọn nêu trên là như nhau,nghĩa là R P R F R H R K R E R S R M

2) Với bảng quyết định không nhất quán, ta có R F R H R M và

Mối liên hệ giữa các tập rút gọn của các nhóm như sau:

Nếu R là một tập rút gọn thuộc Nhóm 3 thì tồn tại III R là một tập rút II

gọn thuộc Nhóm 2 và R là một tập rút gọn thuộc Nhóm 1 ( I R ) sao cho P

Trang 20

I II III

R R R Mối liên hệ này cho thấy tập rút gọn R ít thuộc tính nhất, P

các tập rút gọn R , F R , H R nhiều thuộc tính hơn và các tập rút gọn M R , K R , E

S

R nhiều thuộc tính nhất.

Từ mối liên hệ giữa các tập rút gọn, các phương pháp rút gọn thuộc tínhcũng được phân thành 3 nhóm tương ứng:

Nhóm 1: Bao gồm phương pháp tìm tập rút gọn Pawlak.

Nhóm 2: Bao gồm phương pháp sử dụng entropy Shannon, phương pháp

sử dụng các phép toán trong đại số quan hệ và phương pháp sử dụng metric

Nhóm 3: Bao gồm phương pháp sử dụng entropy Liang, phương pháp sử

dụng ma trận phân biệt, phương pháp sử dụng độ khác biệt của tri thức

1.2.3 Kết quả lựa chọn, so sánh, đánh giá các phương pháp

Như đã trình bày trong mục 1.2.1, rút gọn thuộc tính trong bảng quyếtđịnh là tìm tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn khảnăng phân lớp của bảng quyết định Theo tiêu chuẩn định lượng, rút gọnthuộc tính trong bảng quyết định là tìm tập con nhỏ nhất của tập thuộc tínhđiều kiện mà bảo toàn độ chắc chắn của tất cả các luật phân lớp vào các lớpquyết định Do đó, các phương pháp rút gọn thuộc tính được gọi là phù hợpnếu tập rút gọn tìm được phải bảo toàn độ chắc chắn của tập luật quyết địnhhay độ chắc chắn của bảng quyết định

Để đánh giá các phương pháp rút gọn thuộc tính, các nhà nghiên cứu vềtập thô thường sử dụng hai tiêu chuẩn: độ phức tạp thời gian của thuật toántìm tập rút gọn và chất lượng phân lớp của tập rút gọn tốt nhất tìm được Theokết quả thống kê, phần lớn độ phức tạp thời gian của các thuật toán tìm tập rútgọn là như nhau (chỉ khác nhau về khối lượng tính toán) nên các nghiên cứu

về tập thô tập trung đánh giá chất lượng phân lớp của tập rút gọn tìm được.Chất lượng phân lớp được đặc trưng bởi độ hỗ trợ của tập luật (độ hỗ trợ củabảng quyết định) dựa trên tập rút gọn [9] Tập rút gọn có chất lượng phân lớp

Trang 21

càng tốt thì độ hỗ trợ của tập luật dựa trên tập rút gọn càng cao (một luật phânlớp trên tập rút gọn sẽ hỗ trợ cho nhiều đối tượng).

Trong [1], tác giả đã đề xuất độ chắc chắn  (certainty measure), độnhất quán g (consistency measure), độ hỗ trợ  (support measure) của bảngquyết định và nghiên cứu sự thay đổi giá trị ba độ đo này trên các tập rút gọnthu được của ba nhóm phương pháp đã trình bày ở trên Luận văn mô tả vắntắt các kết quả như sau:

Nếu bảng quyết định nhất quán, các tập rút gọn bảo toàn độ chắc chắn,

độ nhất quán bằng 1 và tăng độ hỗ trợ của tập luật quyết định

Nếu bảng quyết định không nhất quán:

1) Tập rút gọn của các phương pháp thuộc Nhóm 1 (tập rút gọn miềndương) làm giảm độ chắc chắn, độ nhất quán và tăng độ hỗ trợ của tập luậtquyết định

2) Tập rút gọn của các phương pháp thuộc Nhóm 2 bảo toàn độ chắcchắn, độ nhất quán và tăng độ hỗ trợ của tập luật quyết định

3) Tập rút gọn của các phương pháp thuộc Nhóm 3 bảo toàn độ chắcchắn, độ nhất quán và tăng độ hỗ trợ của tập luật quyết định

Từ kết quả nghiên cứu về sự thay đổi giá trị độ chắc chắn, độ nhất quán,

độ hỗ trợ trên ba tập rút gọn của ba nhóm phương pháp nêu trên, tác giả [1] đãđưa ra kết quả về sự lựa chọn các phương pháp phù hợp như sau:

1) Tất cả các phương pháp đều phù hợp với bảng quyết định nhất quán vìđều bảo toàn độ chắc chắn của tập luật quyết định bằng 1

2) Với bảng quyết định không nhất quán, tập rút gọn Pawlak làm giảm

độ chắc chắc của tập luật, do đó các phương pháp thuộc Nhóm 1 (tìm tập rútgọn Pawlak) không phù hợp Các phương pháp thuộc Nhóm 2 và Nhóm 3 phùhợp vì tập rút gọn bảo toàn độ chắc chắn của tập luật

Trang 22

Với các phương pháp phù hợp, từ kết quả nghiên cứu về sự thay đổi giátrị các độ đo đánh giá hiệu năng tập luật quyết định và kết quả nghiên cứu vềmối liên hệ giữa các tập rút gọn, tác giả [1] đã chứng minh tập rút gọn tốt nhấttìm được bởi các phương pháp thuộc Nhóm 2 có chất lượng phân lớp tốt hơntập rút gọn tốt nhất tìm được bởi các phương pháp thuộc Nhóm 3 Điều nàycũng có nghĩa độ hỗ trợ  của tập luật trên tập rút gọn thuộc Nhóm 2 cao hơn

độ hỗ trợ  của tập luật trên tập rút gọn thuộc Nhóm 3, nghĩa là các phươngpháp thuộc Nhóm 2 hiệu quả hơn các phương pháp thuộc Nhóm 3 theo tiêuchuẩn chất lượng phân lớp của tập rút gọn

Từ các kết quả nghiên cứu đã công bố về các phương pháp rút gọn thuộctính trong bảng quyết định nêu trên, chương 2 của luận văn đề xuất phươngpháp rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách Khoảngcách trong luận văn sử dụng là cải tiến của khoảng cách Jaccard trong [1, 7].Trên cơ sở đó, luận văn xây dựng các công thức tính khoảng cách khi bổsung, loại bỏ đối tượng và xây dựng phương pháp rút gọn sử dụng khoảngcách trong hai trường hợp này

Trang 23

Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH

THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách

2.1.1 Khoảng cách giữa hai tập hợp hữu hạn

Một khoảng cách trên tập hợp U là một ánh xạ d U U:   0,  thỏamãn các điều kiện sau với mọi x y z U, ,  [2]

Định lý 2.1 Cho U là tập hữu hạn các đối tượng và P U là họ các tập con

của U Với mọi X Y , P U , biểu thức: d X Y ,  X Y  X Y

là một khoảng cách giữa tập X và tập Y.

Chứng minh Hiển nhiên, d X Y , thỏa mãn điều kiện (P1) và (P2) Do

đó, ta cần chứng minh điều kiện (P3) (bất đẳng thức tam giác), nghĩa là với

Trang 24

Dễ thấy V Y V X V Y V Z  0 hoặc V YY V YZ V XY V XZ  0thỏa mãn vì

phần tử thứ k của V Y V X và V YV Z là 0 và 1 Từ công thức 3.2 ta có:

2.1.2 Khoảng cách giữa hai tri thức và các tính chất

Từ khoảng cách giữa hai tập hợp hữu hạn được định nghĩa ở phần 2.1.1,luận văn xây dựng khoảng cách giữa hai tri thức sinh bởi hai tập thuộc tínhtrên bảng quyết định

Cho bảng quyết định DSU C, D V f, , , mỗi tập thuộc tính PC,

    i P i 

K P  u u U được gọi là một tri thức (knowledge) của P trên U [1].

 

K P gồm U phần tử, mỗi phần tử là một khối trong phân hoạch U P/ , còn

được gọi là một hạt tri thức (knowledge granule) Ký hiệu họ tất cả các tri thức trên U là K U

Trang 25

(P2) Theo định nghĩa d K P K Q  ,    d K Q K P  ,    với mọi

Trang 26

nghĩa là  u i P U ,  u i Q  u i hoặc  u i P  u i ,  u i Q U Giá trị lớn nhất là :

Trang 27

2.1.3 Tập rút gọn của bảng quyết định dựa trên khoảng cách

Định nghĩa 2.1 Cho bảng quyết định DS U C, D V f, , , thuộc tính

c C gọi là không cần thiết trong DS nếu

 

thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi, ký hiệu

là CORE C 

Định nghĩa 2.2 Cho bảng quyết định DS U C, D V f, ,  và tập thuộc tính

RC Nếu

1) d K R K R D  ,     d K C K C  ,  D 

Trang 28

2)  r R d K R, (    r ,K R  r D) d K C K C(  ,  D)

thì R là một rút gọn của C dựa trên khoảng cách

Từ Mệnh đề 2.2 ta thấy tập rút gọn dựa trên khoảng cách và tập rút gọndựa trên entropy Liang là như nhau Do đó, phương pháp rút gọn sử dụng

khoảng cách thuộc Nhóm phương pháp entropy Liang.

Định nghĩa 2.3 Cho bảng quyết định DS U C, D V f, , , BC và b C B 

Độ quan trọng của thuộc tính b được định nghĩa bởi

giữa B và BD khi thêm thuộc tính b vào B và SIG b B càng lớn thì lượng

thay đổi khoảng cách càng lớn, hay thuộc tính b càng quan trọng và ngược

lại Độ quan trọng của thuộc tính này là tiêu chuẩn lựa chọn thuộc tính trongthuật toán heuristic tìm tập rút gọn của bảng quyết định

2.1.4 Thuật toán tìm tập rút gọn sử dụng khoảng cách

Thuật toán DBAR (Distance Based Attribute Reduction) Thuật toán

Trang 29

Xét bảng quyết định DS U C, D V f, ,  (giả sử tập thuộc tính quyết

định D chỉ có một thuộc tính D d ), theo [13], độ phức tạp thời gian (gọitắt là độ phức tạp) để tính phân hoạch U C/ là O U C , do đó độ phức tạp để

Định dạng
Số trang	59
Dung lượng	2,76 MB