Báo cáo nghiên cứu khoa học: "Xây dựng cây quyết định đa trị dựa trên tập thô." pdf

Bài báo này giới thiệu một cách tiếp cận để xây dựng cây quyết định đa trị có khả năng chịu lỗi dựa trên mô hình tập thô có độ chính xác thay đổi.. Một khái niệm mới về quan hệ tương đươ

Trang 1

Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007

XÂY DựNG CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ

Nguyễn Thị Minh Tâm (a)

Tóm tắt Bài báo này giới thiệu một cách tiếp cận để xây dựng cây quyết định đa trị có khả năng chịu lỗi dựa trên mô hình tập thô có độ chính xác thay đổi Một khái niệm mới về quan hệ tương đương với độ chính xác β được đưa ra trong lý thuyết tập thô có độ chính xác thay đổi và được áp dụng để xây dựng cây quyết định đa trị

I GIớI THIệU

Hiện nay, các phương pháp phân lớp đang được quan tâm nghiên cứu trong nhiều lĩnh vực: khai phá dữ liệu, thống kê, học máy, Mục đích phân lớp là phân loại các đối tượng dựa trên giá trị của các thuộc tính ban đầu và thuộc tính nhãn Trong bài báo này chúng tôi đưa ra một trong những cách tiếp cận mới để lựa chọn thuộc tính là xây dựng cây quyết định dựa trên lý thuyết tập thô

Lý thuyết tập thô được Pawlak đề xuất, đã trở thành một công cụ toán học để giải quyết với những thông tin mờ, không chắc chắn Lý thuyết tập thô tổ hợp các quan hệ không phân biệt (quan hệ tương đương) thành các tập xấp xỉ của các đối tượng dựa trên tập xấp xỉ trên và xấp xỉ dưới ([8])

Một trong những vấn đề của lý thuyết tập thô là phân lớp, nhưng các lớp trong lý thuyết tập thô phải là chính xác và chắc chắn Trong thực tế, hai điểm lân cận có thể không giống nhau về cơ bản do thiếu các đặc trưng dẫn đến việc phân lớp không chắc chắn Bằng cách tổ hợp xác suất các luật quyết định, mô hình tập thô có

độ chính xác thay đổi cho phép phân lớp từng phần Khi một đối tượng được phân lớp bằng lý thuyết tập thô, nếu thông tin về đối tượng đầy đủ và chắc chắn thì đó là phân lớp đúng, còn mô hình tập thô có độ chính xác thay đổi phân lớp đối tượng với một độ chính xác β nào đó ([11])

II Lý THUYếT TậP THÔ

ở đây ta chỉ xét mô hình tập thô gồm tập các đối tượng U của hệ thông tin, các kết quả thu được từ mô hình này chỉ có thể áp dụng được cho tập đối tượng thuộc mô hình đó

Giả sử ta có tập đối tượng có các nhãn lớp để chỉ ra lớp mà mỗi đối tượng thuộc vào lớp đó Ta gọi nhãn lớp là thuộc tính quyết định và các thuộc tính còn lại

là thuộc tính điều kiện

Định nghĩa 1 Nếu S = (U, A ∪ {d}) là bảng quyết định, trong đó A là tập thuộc tính điều kiện, d là tập thuộc tính quyết định, ta xác định hàm:

δA(u) = {i: tồn tại u’ IND(A)u và d(u) = i}

(u’ IND(A)u tức là u’ không phân biệt được với u theo tập thuộc tính A)

Bảng quyết định S là nhất quán nếu card(δA(u)=1 với mọi u∈U, ngược lại thì S là không nhất quán

Nhận bài ngày 14/9/2007 Sửa chữa xong 27/11/2007.

Trang 2

Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr 57-64 Tương tự ta định nghĩa:

γA(u,i) = {u’∈ U}: u’ IND(A)u & d(u’) = i trong đó u∈ U & i ∈ δA(u)

( )

∑

∈

=

u j

A

A A

A

i u card

i u card i

u

δ

γ

γ λ

,

σA(u) = {i: λA(u,i) ≥ β} u∈ U

Bảng quyết định S là nhất quán với độ chính xác β nếu card(σA(u) = 1 ∀u ∈ U, ngược lại thì S là không nhất quán với độ chính xác β

Định nghĩa 2 Nếu Y⊇β X ⇔ X⊆β Y ⇔ Pr(Y|X)≥β, thì ta nói X được chứa với độ chính xác β trong Y hay Y chứa X với độ chính xác β (0≤β≤1)

Định nghĩa 3 Cho (U, R) là một không gian xấp xỉ, trong đó U là tập đối tượng khác rỗng, R là họ quan hệ tương đương trên U U/R = {E1, E2, , En} là các lớp tương đương của R, với mọi X ⊆ U, các xấp xỉ trên và xấp xỉ dưới với độ chính xác

β được định nghĩa như sau:

i) Tập xấp xỉ trên của X theo quan hệ R với độ chính xác β:

(Υ)

Υ

β

β β

β

≥

∈

=













⊇

∈

=

i

E X

POS X

R

| Pr

i

E

| / )

ii) Tập xấp xỉ dưới theo quan hệ R của X với độ chính xác β:

( Υ)

Υ

β

β β

β

ư

≥

ư

∈

=













⊇

∈

=

1

| Pr

i

1

E

| / )

(

i

E X

NONNEG X

Tập RβX là tập các phần tử của U được phân lớp là phần tử của X với xác suất β Tri thức cho trước được biểu diễn bằng các thuộc tính từ R; RβX là tập các phần tử của U được phân lớp thuộc X hoặc -X với xác suất 1-β, 0≤β≤1

iii) BN Rβ( ) α =RβX ưRβX được gọi là miền biên của X có độ chính xác β Nó bao gồm tất cả đối tượng không thể phân lớp rõ ràng thuộc vào tập X Một tập được gọi là thô nếu miền biên của nó khác rỗng, ngược lại tập đó được gọi là tập chính xác

Hình 1 Xấp xỉ trên và xấp xỉ dưới của một tập

Tập hiện tại Xấp xỉ trên Xấp xỉ dưới

Trang 3

Định nghĩa 4 Nếu B là tập con của tập thuộc tính A của bảng quyết định nhất quán có độ chính xác β: S = (U,A∪{d}), thì B được gọi là quan hệ rút gọn của S

có độ chính xác β khi và chỉ khi β là tập tối thiểu có tính chất: σA(u) = σB(u) với mọi u∈U

- Đặt tập các quan hệ rút gọn của S có độ chính xác β là REDβ(S, A∪{d})

- Đặt tập các thuộc tính cần thiết thuộc A có độ chính xác β là COREβ(S, A∪{d}) thì COREβ(S, A∪{d}) = ∩REDβ(S, A∪{d})

Định nghĩa 5 Nhân tố quan trọng của một thuộc tính Cj trong C được định nghĩa như sau: importance-factor = 1 -

) (

d C card

C d C

+

ư +

Định nghĩa 6 Giả sử P, Q là 2 họ các quan hệ tương đương của tập đối tượng U Ký hiệu U/IND(P) = {X1, X2, , Xn}; U/IND(Q) = {Y1, Y2, , Ym}

) ( /

|

P IND U x

i j j i

j

Y X X H









⊆

=

β

) ( /

P IND U x

i j j m

j

Y X X H

∈ +













⊄

=

β ,

thì {H1, H2, , Hm+1} được gọi là suy rộng của P với độ chính xác β có quan hệ với Q,

được ký hiệu là GENQβ (P) và có thể gọi {H1, H2, , Hm+1} là một phép tách của tập

đối tượng U

III CÂY QUYếT ĐịNH ĐA TRị

3.1 Tập dữ liệu huấn luyện đa trị

Bảng 1 là ví dụ minh hoạ tập dữ liệu huấn luyện đa trị Mỗi bản ghi của tập dữ liệu có 4 thuộc tính thông thường và một thuộc tính nhãn lớp Thuộc tính maker, performance, color là thuộc tính có giá trị phi số còn thuộc tính price là thuộc tính có giá trị số Thuộc tính nhãn lớp gồm 3 giá trị ‘A’, ‘B’, ‘C’ Sản phẩm p3 là một ví dụ về dữ liệu đa trị bởi nó có 2 giá trị đối với thuộc tính color: “yellow” và “green”

Bảng 1 Tập dữ liệu huấn luyện đa trị

Trang 4

Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr 57-64

3.2 Cây đa trị

Một cây quyết định đa trị tương ứng với tập dữ liệu trong bảng 1 được minh hoạ ở hình 2 Trong cây này, mỗi nút trong tương đương với một thuộc tính, mỗi nhánh của thuộc tính số tương đương với một khoảng giá trị, mỗi nhánh của thuộc tính phi số tương đương với một giá trị, các nút lá là các nhãn

Sau khi cây quyết định đa trị được xây dựng, ta có thể phân lớp một đối tượng thông qua cây đó Ví dụ trong bảng 1 ta có sản phẩm p7 với thuộc tính maker = ‘B’, price = '590’, performance = ‘not good’ và color = ‘green, yellow’ Bắt đầu với thuộc tính price = ‘590’ ta đi dọc theo nhánh ‘477 - 599’ và nhận được thuộc tính color Tiếp tục đi theo nhánh ‘green’ ta nhận được hai nhãn ‘A’, ‘B’ và đi theo nhánh ‘yellow’ ta nhận được nhãn ‘C’ Hợp các nhãn này lại ta được kết quả dự đoán là ‘A’, ‘B’, ‘C’

Việc lựa chọn thuộc tính đa trị tốt nhất khác với lựa chọn thuộc tính đơn trị theo phương pháp truyền thống:

- Đối với dữ liệu đa trị, việc nhóm đầy đủ nghĩa là mỗi nút con xấp xỉ có cùng nhiều nhãn, trong khi đối với dữ liệu đơn trị thì mỗi nút con xấp xỉ có cùng một nhãn

- Trong phân lớp bản ghi, một bản ghi có thuộc tính đa trị đi đến nhiều nhánh trong khi một bản ghi đơn trị chỉ đi đến một nhánh

3.3 Giải thuật cơ bản xây dựng cây quyết định đa trị

Các giải thuật xây dựng cây quyết định thường tránh xây dựng những cây lớn bởi vì chúng sẽ sinh ra nhiều luật, điều này sẽ không hiệu quả trong việc dự đoán

price

performance

color

blue green

100~224 225~349

350~474

475~599

725~849

850~974

975~109 1100~1224

1225~1350

Hình 2 Ví dụ về cây quyết định đa trị

Trang 5

phân lớp Vì vậy việc xây dựng cây quyết định nhỏ để đưa ra các luật tốt nhất là vấn

đề có tầm quan trọng

Giải thuật:

Input: Tập dữ liệu huấn luyện đa trị D

Output: Cây quyết định đa trị T

Begin

1 Khởi tạo cây T và đặt tất cả các bản ghi của T ở gốc

2 while (các nút lá trong T là nút NONSTOP)

3 for mỗi thuộc tính i của nút NONSTOP do

4 for mỗi khoảng giá trị của thuộc tính i do

5 đánh giá độ tốt đối với cách chia của thuộc tính i;

6 for mỗi nút lá NONSTOP do

7 lấy cách chia tốt nhất đối với nút lá này;

8 tách các bản ghi và phát triển cây thêm 1 mức theo cách chia tốt nhất;

9 xác định các nút có thể dừng, đánh dấu chúng là các nút STOP và xác

định tập nhãn kết quả của chúng

10 return T

End;

Các bước 3-5 và bước 9 là các bước điều kiện Bước 3-5 xác định nút lá và các nhánh của nó Bước 9 xác định nút lá

IV XÂY DựNG CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ

4.1 Giải thuật

RS_DTA (Rough Set base Decision Tree Algorithm)

Input: Bảng quyết định S = (U, A ∪ {d})

Output: Cây quyết định đa trị T

Procedure Khởi tạo cây có biến T là cây rỗng Nhãn ở gốc là tập các đối tượng U

và tập các thuộc tính điều kiện hiện tại A (Current Condition Attributes Set - CCAS) Trạng thái của nút gốc là unready

while (có nút lá mang trạng thái unready) do

begin for (mỗi nút lá nhãn N là unready của cây T)

begin if (tồn tại 1 đối tượng u nhãn N có σA(u) = ∅) then

begin prinf (“bảng quyết định là không nhất quán với độ chính xác β”); return;

end

if (mọi đối tượng đang gán nhãn N có cùng σA(u)) then

begin Thay thế tập đối tượng tại N bằng cái chung của nó: σA(u);

Thay đổi trạng thái của N là ready;

end

else

begin Tính P = COREβ(N, CCAS ∪{d});

if P = ∅ | P = CCAS then begin P = thuộc tính từ tập CCAS có importance factor cao nhất;

Trang 6

end Tính GENDβ(P);

CCAS = CCAS \ P;

Thay thế nhãn của nút N bằng P và đánh dấu là ready;

Tạo m+1 nút mới N1, N2, , Nm+1 với trạng thái unready là các cây con của nút N, trong đó Ni = Hi, i = 1,2, ,m+1 và gán nhãn chúng với CCAS

end end end

return T

4.2 Ví dụ minh hoạ

Giả sử ta có bảng quyết định nh− trong bảng 2

Dễ nhận thấy bảng trên là không nhất quán vì tồn tại u9 IND u10 và d(u9)≠d(u10), do đó không thể phân lớp cho các đối t−ợng này nh− các đối t−ợng ở bảng 1 Tuy nhiên các đối t−ợng trên nhất quán với một độ chính xác β nào đó, giả sử

β = 0,6 Từ bảng 2 ta có:

U/IND(C) = { {1}, {2, 4,18, 21, 22}, {3, 7, 9, 10, 14}, {5}, {6}, {8}, {11}, {12}, {13}, {15},

{16}, {17}, {19}, {20} }

U/IND(D) = { {1, 2, 3, 4, 7, 9, 12, 14, 18, 20}, {5, 6, 8, 10, 11, 13, 15, 16, 17, 19, 21, 22}}

P = COREβ (N, CCAS ∪ {d}) = {C1,C4}

U/P = { {1, 12, 13}, {2, 4, 16, 18, 21, 22}, {3, 7, 9, 10, 14, 20}, {5, 19}, {6, 8,1 5}, {11, 17}} Tính GENDβ(P): H1 = {3, 7, 9, 10, 14, 20}; H2 = {5, 6, 8, 11, 15, 17, 19};

H3 = {1, 2, 4, 12, 13, 16, 18, 21, 22}

Bảng 2 Ví dụ về bảng quyết định

Các thuộc tính điều kiện Thuộc tính quyết định

Tập đối

t−ợng U

C1 C2 C3 C4 Lớp (D)

1 high high high normal H

2 high high high good H

3 low or less than zero low normal good H

5 middle high high normal F

6 low or less than zero middle high normal F

8 low or less than zero low normal normal F

10 low or less than zero low normal good F

11 middle low normal good F

12 high middle high normal H

Trang 7

13 high low normal normal F

15 low or less than zero middle normal normal F

16 high middle normal good F

17 middle middle high good F

19 middle high normal normal F

20 low or less than zero middle high good H

21 high high high good F

22 high high high good F

áp dụng giải thuật RS_DTA, tập đối t−ợng U đ−ợc phân lớp dựa vào H1,H2,H3 và xây dựng cây quyết định nh− sau:

V KếT LUậN

Việc xây dựng cây quyết định dựa trên lý thuyết tập thô truyền thống chỉ thực hiện đối với các bảng quyết định nhất quán (bảng 1) Trên đây chúng tôi đã đ−a

ra một cách tiếp cận tập thô để xây dựng cây quyết định đa trị nhằm quản lý các hệ thông tin đa trị và đ−a ra một giải thuật xây dựng cây quyết định dựa trên mô hình tập thô có độ chính xác thay đổi có khả năng chịu lỗi Cho dù tồn tại sự không nhất quán trong bảng quyết định nh−ng giải thuật vẫn có thể đ−a ra kết quả khá vừa ý

So với giải thuật ID3 [9] thì cây quyết định xây dựng dựa trên giải thuật RS_DTA có cấu trúc đơn giản hơn và có các luật tốt hơn

Tập đối t−ợng

U

C1: low or less than

zero

C4: good

{3,7,9,10,14,20}

C1: high C4: good {1,2,4,12,13,16,18, 21,22}

C1: low or less than zero C4: normal

Hoặc C1:middle {5,6,8,11,15,17,19}

C3: high {1,2,4,12,18, 21,22}

C3: normal {13,16}

Hình 3 Cây quyết định đa trị xây dựng bởi giải thuật RS_DTA

Trang 8

TàI LIệU THAM KHảO

[1] Hồ Cẩm Hà, Một cách tiếp cận mở rộng cơ sở dữ liệu quan hệ với thông tin không

đầy đủ, Luận án tiến sĩ Toán học, Trường ĐHBK Hà Nội, 2002

[2] Nguyễn Đăng Khoa, Nghiên cứu một vài khía cạnh của lý thuyết tập thô và ứng dụng, Luận án tiến sĩ Toán học, Trường ĐHBK Hà Nội, 2002

[3] N T Thuy, N N Hieu, A framework for knowledge discovery in multivalued tables using rough set approach, Proceeding of Joint Workshop of Vietnamese Society of AI, SIGKBS-JSAI, ICS-IPSJ and IEICE-SIGAI on Active Mining, Hanoi, Vietnam, 2004

[4] H T Bao, Introduction To Knowledge Discovery And Data Mining,

[5] Chang-Ling Hsu, Multi-valued and Multi-labeled Decision Tree Classifiers For Data Mining, PhD Thesis in Information Management, China, 2004

[6] Jin Mao Wei, Rough Set based approach to selection of node, Yang’s Scientific Research Institute, 2002

[7] X Liu, H Huang, W Xu, A Contribution to Decision Tree Construction Based on Rough Set Theory, Springer-Verlag Berlin, 2004

[8] Z Pawlak, Rough Sets, Theoretical Aspects of Reasoning about Data Dordrecht, Kluwer, 1991

[9] J R Quinlan, Induction of decision trees, In: Machine Learning, 1986

[10] Sonajharia Minz, Rajni Jain, Rough Set based Decision Tree Model for Classification, Springer-Verlag Berlin, 2003

[11] W Ziarko, Variable Precision Rough Set Model, Journal of computer and System Sciences, 46, 1993, 39–59

[12] Y Zhao, H Zhang, Q Pan, Classification Using the Variable Precision Rough Set, Springer-Verlag Berlin, 2003

SUMMARY

A Multivariate Decision Tree Construction Based on Rough Set

This paper presented an approach to construct multivariate decision tree, which has the ability of fault tolerance, based on the variable precision rough sets model A new concept of generalization of one equivalence relation with precision β

is introduced in the variable precision rough sets model and used for construction of multivariate decision tree

(a) Khoa Công Nghệ Thông Tin, Trường Đại học Vinh

Định dạng
Số trang	8
Dung lượng	163,55 KB