1. Trang chủ
  2. » Công Nghệ Thông Tin

Phân lớp dữ liệu Khai thác dữ liệu data mining

27 566 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 606,72 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân OӟS : Cho WұS các PүX ÿm phân OӟS WUѭӟF xây GӵQJ mô hình cho WӯQJ OӟS... khi có yêu FҫX phân OӟS PүXÿӕL WѭӧQJ PӟLz Ĉ́D P̓XÿͩL ẂͻQJ vào OͳS mà J̿Q YͳL chúng QK̽W... z 6ӵ phân Eӕ FӫD

Trang 3

*,Ӟ,7+,ӊ8

1 Phân OӟS :

Cho WұS các PүX ÿm phân OӟS WUѭӟF xây

GӵQJ mô hình cho WӯQJ OӟS

Trang 4

1 Phân OӟS theo mô hình xác VXҩW :

'ӵ ÿRiQ xác VXҩW hay Gӵ ÿRiQ xác

VXҩW là thành viên FӫD OӟS

1͙Q W̻QJ : GΉD trên ÿͣQK lý Bayes

Cho X, Y là các EL͗Q E̽W NǤ ( U͵L U̹F

Vͩ F̽X trúc, «) 'Ή ÿRiQ Y W΃ X

/ѭӧQJ giá các tham Vӕ FӫD P(X | Y) , P(Y)

WUӵF WLӃS Wӯ WұS DL KXҩQ OX\ӋQ

6ӱ GөQJ ÿӏQK lý Bayes ÿӇ tính P(Y | X=x)

Trang 5

2 ĈӏQKOê%D\HV

) x ( P

) y ( P ) y

| x ( P ) x

| y ( P

Trang 6

ĈӏQK QJKƭD : X ÿӝF OұS ÿLӅX NLӋQ YӟL Y khi cho Z QӃX

phân Eӕ xác VXҩW trên X ÿӝF OұS YӟL các giá WUӏ FӫD Y

khi cho các giá WUӏ FӫD Z

9tGͽ

3 6̽PVpW| 0́D&KͳS  3 6̽PVpW| &KͳS

*,Ӟ,7+,ӊ8

Trang 7

ÿ{L PͱW YͳL nhau khi cho OͳS C

Khi ÿy : ta FҫQ xác ÿӏQK xác VXҩW P(Ci|X) OӟQ

)

|()

|(1

)

|()

|

(

2

1 Ci P x Ci P x Ci x

P n

k P x Ci Ci

P

n k

X

)(

)()

|()

|(

X

X X

C P i C P i

C P

( max arg

Trang 8

( max arg

16

7UѭӡQJKӧS;± JLiWUӏUӡLUҥF

*Lҧ Vӱ :

‡ X = <x1, ,xn>

‡ xi QKұQ các giá WUӏ UӡL UҥF

Khi ÿy : /ѭӧQJ giá P(Ci) và OѭӧQJ giá

P(Xk|Ci) theo công WKӭF

D i C

k

x D i

C i

C k x P

,

} { ,

# )

| (

D

D i

C i

C

Trang 9

x D i

C i

C k x P

,

1 } { ,

# )

| (

m D

D i

C i

C

P

1 ,

Cho WұS Gӳ OLӋX KXҩQ OX\ӋQ :

Outlook Temperature Humidity Windy Play?

sunny hot high strong No

overcast hot high weak Yes

rain cool Normal weak Yes

rain cool normal strong No

overcast cool normal strong Yes

sunny cool normal weak Yes

rain mild normal weak Yes

sunny mild normal strong Yes

overcast mild high strong Yes

overcast hot normal weak Yes

rain mild high strong No

Trang 10

B1 : ѬӟF OѭӧQJ P(C i ) YӟL C 1 = ³\HV´ C 2 = ³QR´ và

P(x k |C i )

Ta thu ÿѭӧF P(C i ) :

9ӟL WKXӝF tính Outlook, ta có các giá WUӏ : sunny,

overcast, rain Trong ÿy P(sunny|C i ) là :

P(C 1 ) = 9/14=0.643 P(C 2 ) = 5/14=0.357

Trang 11

B2 : Phân OӟS

X new = < Outlook=sunny, Temp = cool, Humidity =

high, Windy = strong>

Hãy xác ÿӏQK OӟS cho PүX PӟL sau :

Humidity = high, Windy = strong>

%jLWұSFiQKkQ

Trang 12

P(hot | y) = 3/12 P(hot | n) = 3/8 P(mild | y) = 5/12 P(mild | n) = 3/8 P(cool | y) = 4/12 P(cool | n) = 2/8

Humidity

P(high | y) = 4/11 P(high | n) = 5/7 P(normal | y) = 7/11 P(normal | n) = 2/7

Windy

P(strong | y) = 4/11 P(strong | n) = 4/7 P(weak | y) = 7/11 P(weak | n) = 3/7

X new = < Outlook =overcast , Temp = cool, Humidity

= high, Windy = strong>

Ta tính theo công WKӭF làm WUѫQ Laplace :

Trang 13

) (

2

1 )

, , (

x

e x

g

) ,

, ( )

|

(

i

i C C

k x g Ci

Trang 14

khi có yêu FҫX phân OӟS PүXÿӕL WѭӧQJ PӟL

z Ĉ́D P̓XÿͩL ẂͻQJ vào OͳS mà J̿Q YͳL chúng QK̽W

Trang 16

X D

1

2) (

) , (

‡ Các WKXӝF tính có PLӅQ giá WUӏ khác nhau

-> &̿Q FKX́Q hóa giá WUͣ WKXͱF tính

No of credit cards=2

Trang 17

z &ҫQ SKҧL FKXҭQ hoá Gӳ OLӋX : ánh [ҥ các giá WUӏ

vào ÿRҥQ [0,1] theo công WKӭF :

YͳL : v i là giá WUͣ WKΉF W͗ FͿD WKXͱF tính i

a i là giá WUͣ FͿD WKXͱF tính ÿm FKX́Q hóa

i i

i i

i

v v

v v

a

minmax

Trang 19

z 6ӵ phân Eӕ FӫD các OӟS

z Chi phí phân OR̹L sai

zĈiQK giá WKӵF thi

z 7ұS trung vào NKҧ QăQJ Gӵ ÿRiQ FӫD mô

hình KѫQ là WӕF ÿӝ phân ORҥL hay xây GӵQJ

a: TP (true positive) b: FN (false negative)

c: FP (false positive) d: TN (true negative)

Trang 20

d (TN)

FN FP

TN TP

TN TP d

c b a

d a

a p

r rp

b a a

c a a

2

2 2

(F) measure -

F

(r) Recall

(p) Precision

Trang 21

ƒ Dùng SKѭѫQJ pháp Oҩ\ PүX sao cho PӛL OӟS ÿѭӧF

phân Eӕ ÿӅX trong Fҧ 2 WұS DL KXҩQ OX\ӋQ và WKӱ

QJKLӋP

ƒ /ҩ\ PүX QJүX nhiên : WKӵF KLӋQ holdout k OҫQ và ÿӝ

chính xác acc(M) = trung bình FӝQJ k giá WUӏ chính

xác

Trang 22

pháp Oҩ\ PүX ÿӇ phân Eӕ các OӟS trong

WӯQJ WұS con QKѭ trên toàn Eӝ DL.

44

7Ï07Ҳ7

¾ Phân O͛S là hình WKͩF phân tích DL ÿʀ rút ra

các mô hình mô Wɠ các O͛S DL quan WU͍QJ

¾ 1KLɾX WKXɪW toán KLʄX TXɠ ÿɉͣF phát WULʀQ.

¾ Không WKXɪW toán nào YɉͣW WU͙L QKɢW cho P͍L

WɪS DL

¾ Các YɢQ ÿɾ QKɉ ÿ͙ chính xác, WK͝L gian KXɢQ

OX\ʄQ tính linh KRɞW NKɠ QăQJ co giãn,« FɤQ

quân tâm và nghiên FͩX sâu KɇQ

Trang 23

3. &KXҭQ Eӏ bài 5 : Gom nhóm Gӳ OLӋX

6ӱGөQJWKXұWWRiQN-N Yj6ӱGөQJWKXұWWRiQN-N ÿӇ[iF

ÿӏQKOӟSFKR³&KkX´

6RViQKNӃWTXҧ

Trang 24

1. Cho WұS KXҩQ OX\ӋQ QKѭ trong ví Gө 1 FӫD bài 5-P1

³PXD´´NK{QJ mua máy WtQK´ Áp GөQJ WKXұW tốn

Nạve Bayes cho ví Gө 1 và xác ÿӏQK OӟS cho PүX

PӟL : X= (<=30, medium, yes, fair)

So sánh YӟL NӃW TXҧ phân OӟS Vӱ GөQJ cây TX\ӃW

>40 low yes excellent no

« low yes excellent yes

>40 medium yes fair yes

<=30 medium yes excellent yes

« medium no excellent yes

>40 medium no excellent no

7ұS'/KXҩQOX\ӋQYtGө± bài 5-P1

Trang 25

3 Cho WұS KXҩQ OX\ӋQ sau :

a) 6ӱ GөQJ WKXұW tốn k-NN ÿӇ xác ÿӏQK OӟS cho ³7X\ӃQ´ YӟL

k = 3, KRһF 5, KRһF 7 So sánh NӃW TXҧ thu ÿѭӧF.

b) &KXҭQ hĩa DL và xác ÿӏQK OӟS cho ³'NJQJ´ So sánh NӃW TXҧ

YӟL câu a).

c) Tìm SKѭѫQJ pháp ELӃQ ÿәL WұS DL bên YӅ GҥQJ cĩ WKӇ áp

GөQJ SKѭѫQJ pháp cây TX\ӃW ÿӏQK ILA, Nạve Bayes Áp

GөQJ PӝW trong 3 SKѭѫQJ pháp ÿy lên DL ÿm ELӃQ ÿәL ÿӇ

xác ÿӏQK OӟS cho ³'NJQJ´ So sánh NӃW TXҧ YӟL câu a).

4 So sánh ѭX ÿLӇP NKX\ӃW ÿLӇP FӫD các SKѭѫQJ pháp phân

OӟS GӵD trên cây TX\ӃW ÿӏQK GӵD trên OXұW xác VXҩW và GӵD

trên WKӇ KLӋQ

Trang 26

2. J.Han, M.Kamber, &KѭѫQJ 7 ± Data mining :

Concepts and Techniques

http://www.cs.sfu.ca/~han/dmbook

2 nd

3. P.-N Tan, M Steinbach, V Kumar, &KѭѫQJ 4

-Introduction to Data Mining

http://www-users.cs.umn.edu/~kumar/dmbook/ch4.pdf

Trang 27

Q & A

... class="page_container" data- page="22">

pháp Oҩ\ PүX ÿӇ phân Eӕ OӟS trong

WӯQJ WұS QKѭ tồn Eӝ DL.

44

7Ï07Ҳ7

¾ Phân O͛S hình WKͩF phân. .. class="text_page_counter">Trang 19

z 6ӵ phân Eӕ FӫD OӟS

z Chi phí phân OR̹L sai

zĈiQK... class="text_page_counter">Trang 26

2. J.Han, M.Kamber, &KѭѫQJ ± Data mining :

Concepts and Techniques

http://www.cs.sfu.ca/~han/dmbook

Ngày đăng: 10/02/2017, 07:46

TỪ KHÓA LIÊN QUAN