1. Trang chủ
  2. » Công Nghệ Thông Tin

Phân lớp dữ liệu Khai thác dữ liệu data mining

38 607 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 632,46 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

9Ë'Ө Name Blood Type Give Birth Can Fly Live in Water Class &KRWұS'/KXҩQOX\ӋQVDX 46 9Ë'Ө z 7ͅSOXͅW R1: Give Birth = no Can Fly = yes Birds R2: Give Birth = no Live in Water = yes Fishes

Trang 2

Cho WұS các PүX ÿm phân OӟS WUѭӟF xây

GӵQJ mô hình cho WӯQJ OӟS

Trang 3

*,Ӟ,7+,ӊ8

Ví Gͽ Phân OͳS :

Phân OӟS khách hàng (trong

ngân hàng) ÿӇ cho vay hay

không

'Ή ÿRiQ W͗ bào NKͩL u là lành

tính hay ác tính

Phân ORҥL giao GӏFK WKҿ tín GөQJ

là KӧS pháp hay gian OұQ

Phân OR̹L tin W΁F WKXͱF OƭQK YΉF

tài chính, WK͵L WL͗W JL̻L trí, WK͛

thao, «

'ӵ ÿRiQ khi nào sông có ONJ

&KX́Q ÿRiQ y khoa

ÿӏQK QJKƭD WUѭӟF

™ Tìm OXͅW phân OͳS cây TX\͗W ÿͣQK

KR͏F công WK΁F toán mô W̻ OͳS

Trang 4

Mike Assistant Prof 3 no

Mary Assistant Prof 7 yes

Bill Professor 2 yes

Jim Associate Prof 7 yes

Dave Assistant Prof 6 no

Anne Associate Prof 3 no

Classification Algorithms

,)UDQN µSURIHVVRU¶

OR years > 6 7+(1WHQXUHG µ\HV¶

Classifier (Model)

Trang 5

9tGө6ӱGөQJP{KuQK

Classifier

Testing Data

Tom Assistant Prof 2 no

Merlisa Associate Prof 7 no

Joseph Assistant Prof 7 yes

Unseen Data (Jeff, Professor, 4)Tenured?

Trang 8

9Ë'Ө&Æ<48<ӂ7Ĉӎ1+

age?

<=30 >40

yes

31 40

Trang 10

QK̽W có OͻL QK̽W cho quá trình phân OͳS

z Ĉӝ ÿR ÿӇ ÿiQK giá FKҩW OѭӧQJ phân chia là ÿӝ

ÿR Vӵ ÿӗQJ QKҩW

z Entropy (Information Gain)

z Information Gain Ratio

z Gini Index

Trang 11

„ C i,D WɪSFiFPɨXFͧD'WKX͙FO͛S& i Y͛LL ^«P`

„ |C i, D __'_OͱFOɉͣQJFͧDWɪS& i,D Yj'WɉɇQJͩQJ

„ p i Oj[iFVX̽Wÿ͛PͱWP̓XE̽WNǤFͿD'WKXͱFY͙OͳS& i

„ Thông tin NƒY͍QJÿʀSKkQO͛S P͙WPɨXWURQJ'Oj

) ( log )

1

i m

i

p D

Trang 12

5 log 14

5 14

9 log 14

9 )

5 , 9

Info(D)

24

&Æ<48<ӂ7Ĉӎ1+

„ 7KX͙F tính A có các giá WUʈ :{a 1 , a 2 , «,a v }

„ Dùng WKX͙F tính A ÿʀ phân chia WɪS KXɢQ OX\ʄQ D

thành v WɪS con {D 1 , D 2 , «, D v }

„ Thông tin FɤQ WKLɼW ÿʀ phân chia D theo WKX͙F tính A :

) ( )

(

1

j v

Info

„ Ĉ͙ OͣL thông tin (information gain) GͱD trên phân

chia theo WKX͙F tính A :

) ( )

( D Info D Info

Trang 13

35

2log5

2)3,2

I

04

0log4

04

4log4

4)0,4

I

971.05

2log5

25

3log5

3)2,3

5 ) 0 , 4 ( 14

4 ) 3 , 2 ( 14

5 )

Infoage

246 0 ) ( )

( )

( age Info D Info D

Suy ra :

Trang 14

no yes excellent fair

yes

31 40

Trang 15

&Æ<48<ӂ7Ĉӎ1+

Information Gain Ratio: C4.5

WKXӝF tính có QKLӅX giá WUӏ -> FҫQ FKXҭQ hóa ÿӝ

|

|

|

| )

D

D D

D D

SplitInfo v Dj

j j

„ &K͡ PͽF Gini FӫD WұS D ± gini(D) là :

YͳLSi OjW̿QVX̽WFͿDOͳS&i trong D

‡ &KRWұS'/FӫDYtGөWDFygini(D) là :

459 0 14

5 14

9 )

(

2 2

D gini( (

Trang 16

&Æ<48<ӂ7Ĉӎ1+

&Kʆ PͥF Gini (Gini index) :

„ 7KXӝF tính A có các giá WUӏ :{a 1 , a 2 , «,a v}

„ Dùng WKXӝF tính A ÿӇ phân chia WұS KXҩQ OX\ӋQ D

thành v WұS con {D 1 , D 2 , «, D v }

„ &K͡ PͽF Gini FӫD phân chia D theo WKXӝF tính

A :

) ( )

( gini( ( Djj

D

D D

j

j A

) 2 , 3

( 14

5 ) 0 , 4

( 14

4 ) 3 , 2

( 14

5 )

giniage

Trang 17

9tGө*,1,,1'(;

Sau khi tính ÿӝ ÿR FKӍ PөF Gini GӵD

trên phân chia theo WKXӝF tính :

low yes fair yes

medium yes excellent yes

income student credit_rating buys_computer medium no fair yes

low yes excellent no medium yes fair yes medium no excellent no

Trang 18

&Æ<48<ӂ7Ĉӎ1+

5 9ɢQÿɾTXiSKKͣSY͛L'/ (overfitting)

Overfitting

Trang 23

9Ë'Ө

Name Blood Type Give Birth Can Fly Live in Water Class

&KRWұS'/KXҩQOX\ӋQVDX

46

9Ë'Ө

z 7ͅSOXͅW

R1: (Give Birth = no) (Can Fly = yes) Birds

R2: (Give Birth = no) (Live in Water = yes) Fishes

R3: (Give Birth = yes) (Blood Type = warm) Mammals

R4: (Give Birth = no) (Can Fly = no) Reptiles

R5: (Live in Water = sometimes) Amphibians

z 6΅GͽQJWͅSOXͅWÿ͛[iFÿͣQKOͳSFKRFiFP̓XPͳL

sau :

Name Blood Type Give Birth Can Fly Live in Water Class

turtle cold no no sometimes ?

dogfish shark cold yes no yes ?

Trang 24

9Ë'Ө

Name Blood Type Give Birth Can Fly Live in Water Class

turtle cold no no sometimes ?

dogfish shark cold yes no yes ?

z 0үX ³OHPXU´ SKӫ EӣL OXұW R3, nên ÿѭӧF phân vào OӟS

³0DPPDOV´

z 0үX ³WXUWOH´ SKӫ EӣL Fҧ OXұW R4 và R5

z 0үX ³GRJILVK VKDUN´ không ÿѭӧF SKӫ EӣL EҩW NǤ OXұW

z Theo kích WḰͳF FͿD OXͅW : các OXͅW có WͅS ÿL͙X NL͟Q

OͳQ K˿Q V͕ có ÿͱ ́X tiên cao K˿Q

z Theo OXұW : các OXұW ÿѭӧF [ӃS KҥQJ theo ÿӝ ÿR FKҩW

OѭӧQJ OXұW KRһF theo ý NLӃQ chuyên gia

z Theo OͳS : gom các OXͅW WKXͱF cùng PͱW OͳS

z 1ӃX PӝW PүX ÿѭӧF SKӫ EӣL QKLӅX OXұW thì FKӑQ

OXұW có WKӭ KҥQJ cao QKҩW

z 1ӃX không SKӫ EӣL EҩW NǤ OXұW nào thì gán vào

OӟS PһF ÿӏQK

Trang 25

*,Ӟ,7+,ӊ8

z 3Ḱ˿QJ pháp WUΉF WL͗S :

Trang 26

9Ë'Ө&Æ<48<ӂ7Ĉӎ1+

age?

no yes excellent fair

IF age ³ ´$1' student ³ yes ´

THEN buys_computer ³ yes ´

IF age ³«´

THEN buys_computer ³ yes ´

IF age ³!´$1' credit_rating ³ excellent ´7+(1

IF age ³!´$1' credit_rating ³ fair ´

THEN buys_computer ³\HV´

Trang 27

*LӞ,7+,ӊ8

3KɉɇQJ pháp WUͱF WLɼS :

„ Rút trích OXɪW WUͱF WLɼS Wͫ DL : WKɪW toán SKͧ WXɤQ Wͱ

„ Các OXɪW ÿɉͣF K͍F WXɤQ Wͱ 0͗L OXɪW trong O͛S C i Vɺ SKͧ QKLɾX

PɨX FͧD C i QKɉQJ không SKͧ KRɴF SKͧ ít) PɨX FͧD các O͛S khác

„ Xây GͱQJ OXɪW :

„ %ɬW ÿɤX Wͫ OXɪW U͗QJ

„ 6ͭ GͥQJ hàm Learn-One-Rule ÿʀ phát WULʀQ OXɪW

„ Thêm WKX͙F tính làm WăQJ FKɢW OɉͣQJ FͧD OXɪW ÿ͙ SKͧ

ÿ͙ chính xác)

„ /RɞL các PɨX Eʈ SKͧ E͟L OXɪW ra NK͏L DL

„ /ɴS OɞL quá trình trên cho ÿɼQ khi JɴS ÿLɾX NLʄQ GͫQJ (không

Trang 29

/8Ұ748,1Ҥ3- ILA

z M.Tolun, 1998, ILA ± inductive learning

algorithm

z Xác ÿͣQK các OXͅW IF-THEN WUΉF WL͗S W΃ WͅS

KX̽Q OX\͟Q (phát WUL͛Q OXͅW theo ḰͳQJ W΃

WͭQJ quát -> Fͽ WK͛

z 7ḰF KL͟Q YL͟F so sánh các giá WUͣ FͿD

WKXͱF tính trong W΃QJ E̻QJ con và tính Vͩ

O̿Q [X̽W KL͟Q.

z 7KXӝF tính có GҥQJ phi Vӕ giá WUӏ UӡL UҥF

58

7+8Ұ772È1,/$

z %ѭӟF 1 : Chia EҧQJ có FKӭD m PүX thành n EҧQJ con

( %ѭӟF 2 ÿӃQ EѭӟF 8 VӁ ÿѭӧF OһS OҥL cho PӛL EҧQJ

con)

z %ѭӟF 2 : KӣL WҥR Vӕ OѭӧQJ WKXӝF tính NӃW KӧS j=1

z %́ͳF 3 : Xét W΃QJ E̻QJ con, W̹R danh sách các WKXͱF

tính N͗W KͻS SK̿Q W΅ danh sách có j WKXͱF tính)

z %ѭӟF 4 : 9ӟL PӛL SKҫQ Wӱ trong danh sách trên, ÿӃP

Vӕ OҫQ [XҩW KLӋQ các giá WUӏ FӫD WKXӝF tính ӣ các dòng

FKѭD ÿiQK GҩX FӫD EҧQJ con ÿDQJ xét, QKѭQJ giá WUӏ

không ÿѭӧF [XҩW KLӋQ ӣ QKӳQJ EҧQJ con khác.

&KͥQ SK̿Q W΅ N͗W KͻS ÿҫX tiên có Vͩ O̿Q [X̽W KL͟Q

FͿD giá WUͣ WKXͱF tính QKL͙X QK̽W và ÿ͏W tên là

max-combination

Trang 30

7+8Ұ772È1,/$

z %ѭӟF 5 : 1ӃX max-combination = 0 thì j=j+1 và quay OҥL

EѭӟF 3

z %́ͳF 6 : Trong E̻QJ con ÿDQJ xét, ÿiQK G̽X các dòng

có [X̽W KL͟Q giá WUͣ FͿD max-combination

z %ѭӟF 7 : WҥR OXұW

z IF $1' WKXӝF tính = giá WUӏ (WKXͱF max-combination)

THEN giá WUӏ FӫD WKXӝF tính OӟS ӭQJ YӟL EҧQJ con ÿDQJ

xét

z %ѭӟF 8 :

z 1ӃX WҩW Fҧ các dòng ÿӅX ÿiQK GҩX

z 1ӃX còn EҧQJ con thì FKX\ӇQ qua EҧQJ con WLӃS theo

và OұS OҥL Wӯ EѭӟF 2

Trang 31

3 (5) /ӟQ Xanh lá cây 7Uө Yes

4 (7) /ӟQ Xanh lá cây &ҫX Yes

Trang 32

3 (5) /ӟQ Xanh lá cây 7Uө Yes

4 (7) /ӟQ Xanh lá cây &ҫX Yes

3 (5) /ӟQ Xanh lá cây 7Uө Yes

4 (7) /ӟQ Xanh lá cây &ҫX Yes

‡ B4 : max-FRPELQDWLRQ ³FҫX´

‡ %ÿiQKGҩXGzQJ

‡ B7 : 5,)VKDSH ³FҫX´7+(1GHFLVLRQ ³<HV´

‡ %FKX\ӇQTXDEҧQJFRQY às EҵWGҫXWӯ%

Trang 35

2. &KXҭQ Eӏ bài 4 : Phân OӟS Gӳ OLӋX

1 Hãy cho ELӃW chi WLӃW các EѭӟF FӫD SKѭѫQJ pháp phân OӟS GӵD trên

cây TX\ӃW ÿӏQK GӵD trên OXұW (ILA).

2 Cho cây TX\ӃW ÿӏQK EҥQ có 2 OӵD FKӑQ :

a) %LӃQ ÿәL cây thành OXұW sau ÿy ORҥL EӟW OXұW NӃW TXҧ

b) /RҥL EӟW nhánh FӫD cây, sau ÿy ELӃQ ÿәL cây thành OXұW.

Hãy cho ELӃW các ѭX WKӃ FӫD a) so YӟL b) ?

3 Cho WұS KXҩQ OX\ӋQ QKѭ trong ví Gө 1 ³PXD¶ ³NK{QJ mua máy

WtQK´

a) 6ӱ GөQJ chi PөF gini ÿӇ xây GӵQJ cây TX\ӃW ÿӏQK So sánh NӃW

TXҧ YӟL cây Vӱ GөQJ ÿӝ OӧL thông tin.

b) Áp GөQJ WKXұW toán ILA cho ví Gө 1, so sánh NӃW TXҧ YӟL WұS OXұW

rút ra Wӯ SKѭѫQJ pháp cây TX\ӃW ÿӏQK

c) Xác ÿӏQK OӟS cho PүXX = < age =<=30, income = medium,

ÿѭӧF.

Trang 36

4. Cho WұS KXҩQ OX\ӋQ QKѭ trong ví Gө 2.

a) Áp GөQJ SKѭѫQJ pháp cây TX\ӃW ÿӏQK lên ví Gө 2

(không V΅ GͽQJ FͱW WKXͱF tính name ÿ͛ phân chia

DL) và rút WұS OXұW Wӯ cây So sánh YӟL WұS OXұW ÿm có,

QKұQ xét

b) 6ӱ GөQJ WұS OXұW thu ÿѭӧF Wӯ cây TX\ӃW ÿӏQK ÿӇ xác

ÿӏQK OӟS cho các PүX PӟL sau So sánh NӃW TXҧ YӟL

YLӋF Vӱ GөQJ WұS OXұW ÿm có trong bài JLҧQJ

Name Blood Type Give Birth Can Fly Live in Water Class

Name Blood Type Give Birth Can Fly Live in Water Class

72

OӟS

Trang 37

%¬,7Ұ33+Ҫ1

74

7¬,/,ӊ87+$0.+Ҧ2

1 C Apte and S Weiss Data mining with decision trees

and decision rules Future Generation Computer

Systems, 13, 1997

2 M Kamber, L Winstone, W Gong, S Cheng, and J

Han Generalization and decision tree induction:

Efficient classification in data mining In Proc 1997

Int Workshop Research Issues on Data Engineering

(RIDE'97), pages 111-120, Birmingham, England, April

1997

3 Mehmet R Tolun, Saleh M Abu-Soud ILA, an

inductive learning algorithm for rule extraction ESA

14(3), 4/1998, 361-370

Trang 38

Q & A

... 35

2. &KXҭQ Eӏ : Phân OӟS Gӳ OLӋX

1 Hãy cho ELӃW chi WLӃW EѭӟF FӫD SKѭѫQJ pháp phân OӟS GӵD trên

cây... class="page_container" data- page="37">

%¬,7Ұ33+Ҫ1

74

7¬,/,ӊ87+$0.+Ҧ2

1 C Apte and S Weiss Data mining with decision... induction:

Efficient classification in data mining< /b> In Proc 1997

Int Workshop Research Issues on Data Engineering

(RIDE''97), pages 111-120, Birmingham,

Ngày đăng: 10/02/2017, 07:46

HÌNH ẢNH LIÊN QUAN

Hình tròn and 500  ÿLӉPKuQKWDP giác. - Phân lớp dữ liệu Khai thác dữ liệu data mining
Hình tr òn and 500 ÿLӉPKuQKWDP giác (Trang 18)

TỪ KHÓA LIÊN QUAN