1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích hồi quy bằng Support Vector Machines (SVM) Đề tài nghiên cứu khoa học cấp cơ sở

55 657 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 1,86 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trang dS tai nay, chung toi gi&i mo hinh SVM nhu Ia motphuang phap h5i quy cAp 00 sa, chung toi khong c6 tham vong l&n, khong dua ra bfit ky mot nghien cuu m&i hoac mot ung d1,mg thvc t8

Trang 1

BO • GIAO DUC VA DAO TAO • •

'

PHAN TiCH HOI QUY BANG

SUPPORT VECTOR MACHINES (SVM)

CN: ThS GVC HuYNH VAN DUC

TP HO CHi MINH NAM 2009

Trang 2

BO GIAO DUC VA DAO TAO • • •

PHAN TICH HOI QUY BANG

SUPPORT VECTOR MACHINES (SVM)

TP HO CHi MINH NAM 2009

Trang 3

Ngay nay chung ta dang dung tru&c mot kh6i luQ'ng du kh6ng 16 fin chua ben trong quy Iuat cha dUQ'C kham pha Cung v&i S\1' phat triSn cua khoa hoc, S\1' hiSu cua chung ta vS nhiSu d6i tUQ'ng, S\1' vat dUQ'C dfiy du han va chi han M6i quan gifra cac y8u tfi theo d6 cang them phuc Mot thuoc tinh c6 thS c6 m6i quan v&i rAt nhiSu nhung thuoc tinh khac, ddn d8n du quan sat duQ'c thuang c6 s6 chiSu rAt l&n lam cho cac phuang phap truySn th6ng gap nhiSu kh6 khan

Sau thai ky hoang kim cua thJng ke rieng phdn (cac thap nien 1930- 1960, v&i phuang phap clfe dc,zi likelihood do Fisher dS xuAt vao dfiu thap nien 1930, v6n lam rAt t6t v&i dfr lieu c6 s6 chiSu nh6), ngucri ta dfiu quay v&i thJng ke t6ng quat [1] Ngay Iap

tuc mot nguyen ly chung dUQ'C chAp nhan rong rai, nguyen ly qrc tidu t6n thdt thlfc

(Empirical Risk Minimization- ERM)

V&i dii c6 s6 chiSu Ian, khong gian gia thi8t tra nen phuc Lam th8 nao vira kiSm soat dUQ'C khong gian gia thi8t vira bao dam tinh vfrng cua cac u&c luQ'ng? Nguyen ly qrc

gia thi8t

Sau d6 (1990), cac mo hinh Support Vector Machines (SVM) duQ'c gi&i nhu Ia mot phuang phap cai dat nguyen ly SRM Tu d6 nay, cac thuat toan SVM da chung to duQ'c kha nang lam qua v&i dii c6 s6 chiSu l&n

Trang dS tai nay, chung toi gi&i mo hinh SVM nhu Ia mot(phuang phap h5i quy

cAp 00 sa, chung toi khong c6 tham vong l&n, khong dua ra bfit ky mot nghien cuu m&i hoac mot ung d1,mg thvc t8 qua nao ca Chung toi tap trung trinh bay mot each c6 M

chung ta dfiu tu nghien Cll'U sau han vS n6

thao Qu6c gia lfin thu Ill Nghien c(ru ca ban va ung d1,1ng Cong thong tin nam 2007 (Hoi thao F AIR07), va xay dvng mot chuang trinh minh hoa Chung toi da dung chuang tiinh nay du thvc t8 lAy tu mot dS tai nghien cuu cfip bo [20]

CAu true cua dS tai g5m ba chuang va mot ph1,1 l1,1c

- Chuang 1 phac thao mot hue tranh toan canh, cling gi&i dong CO' nghien Cll'U

- Chuang 3 trinh bay mot thuat toan huAn chi ti8t d8n muc c6 thS cai dat duQ'c dang

Trang 4

PHAN TiCH HOI QUY BANG SVM

Toi xin g&i loi cam an chan thimh Phong Qufm ly khoa hQc - HQ'p tcic quBc da kien cho chung toi hoan tAt tai nay; Cam an cac d6ng nghiep trong khoa Tin hQc quan ly, cac d6ng nghiep tu Khoa Cong ngM thong tin, hQc Khoa hQc t1,r nhien TpHCM, da tham gia va dong g6p cac y quy bau trong cac bu6i seminar duQ'c t6 chuc cho tai nay

Du rAt n6 h,rc bam sat m1,1c tieu, nhung tai duQ'c thl,l'c hien con

Chung toi nghiem tuc d6n nhan cac g6p y gAn xa

Tp.H6 Chi Minh, ngay 24/04/2009

Nh6m tac gia

Trang 5

Mucluc

MO'diu i

MIJC II}C iii

ChU'O'Dg 1: D't vftn 1

Chwung 2: MO hinh SVM 7

1 Mo hinh SVM tach tuydn tlnh 9

Bai toan tach 9

Mo hinh toan hoc 9

Mo hinh chiu 16i 12

2 Mo hinh tach phi tuyin 15

3 Mo hinh hdi quy SVM 19

Cau tnic J ' khA ong g1an glc:t uet • 'At}'J 20 Mo hinh toan hoc 21

ChU'O'Dg 3: toan huftn SM0 25

1 Mota thuqt toan : 26

K 1em A tra ti'nh to1 J uu cua p uong an 01 ngau • h ' dJ :t 26 chinh phuong an 27

Xay d\fng bang tinh toan 29

Minh hQa 29

Minh hQa trubng hQl> phi 31

toan SMO cua Platt [25] 32

Heuristic tim i 33

Heuristic ti1n j , 3 3 2 Thugt toan SMO cho biti toim hdi quy 34

Xay d\fng bang tinh toan '"""' 37

Minh hQa 38

K@t luij.n 41

Tai tham khao _ 43

Phi} 1: Thl}'C 47

1 Bai toan tach 47

2 Bai to an hdi quy 48

3 Bai toan thl,fc ti 49

Du lieu 49

qua thir nghiem 50

Chi ml}c • • • • • 52

Trang 6

ChU'ong 1:

problem)[ 1]

hinh t6ng quat cua thS giai thuc tu mo hinh mang tinh xac dinh sang mo hinh co tinh

nay la cua Karl Popper, Glivenko, Cantelli, Andrei N Kolmogorov va Ronald A Fisher

[1]

1

ngfr dung cila n6 Ia th6ng ke parametric

Trang 7

PHAN TiCH HOI QUY BANG SVM

ke tham s6 da dtrQ'c dua ra Khoang thai gian tir 1930 dSn 1960 Ia thai Icy vang son cua tiSp can nay Cac gia thiSt chinh cua mo hinh th&ng ke tham sf> Ia [1]:

1 tim mot quan phlJ thu(Jc ham tir dfr cac nha th6ng ke dinh nghla mot

tap cac ham phl,l thuoc tham sf>, v&i sf> it cac tham s6 va tinh theo tham s6;

2 th&ng ke cua thanh phdn nhien, Ia sai s6 giua mo hinh va du li¢u thl!C,

tuan thea Iuat phan ph&i chuAn;

3 v oi gia thiSt 2, phuang phap Cf!C dc;Ii likelihood Ia phuang phap t5t

Ngay nay khi n6i dSn luQ'c dB cua Fisher nguai ta hay goi Ia th5ng ke c6 Th5ng ke

cfl di8n di giai ba bai toan: U'cYC lu()11g ham m(it dQ, U'cYC lw;mg hJi quy va U'cYC lu()11g ham

phan bi¢t dung cac mo hinh tham sf> khac nhau (Phuang phap Cf!C dqi likelihood,

R.A.Fisher, 1930) v&i CO' sa toan vfrng (Mathematical Methods of Statistics, Harold Cramer, 1946) Mot each tflng quat, suy Iuan thf>ng ke di giai mot bai toan qt'c tidu phidm ham dva vao du thvc V&i each Ic\m rieng phdn cua Fisher, ly thuySt th5ng ke c6 di8n da khong xem xet mot each chi tiSt bai toan Cl,lC ti8u phiSm ham nay2

Ngoai ra, u&c luQ'ng ham gia tri thvc tir dfr duQ'c xem nhu bai toan trung tam cua thf>ng ke trng d1,1ng Ky thuat chinh dtrQ'c sir dt,mg a day Ia phuang phap t6ng binh phUV11g

be nhdt va phuang phap t6ng modul be nhdt dtrQ'c Gauss va Laplace dS xufit trong thai

gian dai trong qua khu Tuy nhien nhfrng phan tich vS cac phuang phap nay chi m&i thvc trong thS ky XX Thea d6 thf>ng ke c6 chu trong dSn cac u&c ltrQ'ng khong

Gia thiSt vS u&c luQ'ng khong ddu duQ'c xem xet4 sau khi James va Stein (1961) xay dvng mOt u&c ltrQ'ng ky vong cua mot vecta nhien (n ;::: 3) c6 phan ph&i chudn v&i rna tran tuang quan dan vi U'&c ltrQ'ng nay cMch va v&i kich thu&c quan sat c5 dinh u&c IUQ'ng nay dSu t6t han trung binh (mot u&c luQ'ng khong cua· ky vong) sau Baranchik da dua ra mot tap cac u&c ltrQ'ng nhu vay, baa gBm u&c ltrQ'ng cua James-Stein

Them vao d6, trong cac bai toan thvc tS, khong phai tfit ca sac gia thiSt cua mo hinh th6ng

ke tham s6 duQ'c thoa man Cac bai toan ngay nay c6 sf> rfit Ion dSn S\1 bung n6 tA hQ'p cua cac tham sf> Ngoai ra quy Iuat cua thanh phdn nhien c6 th8 khong thea phan ph6i chudn (Tukey) va phuang phap eve likelihood cling khong Ia phuang phap t6t nhfit (James va Stein) [1]

Trang 8

Chuang 1: DA TV AN DE

nhAt;

nhAt va phuang phap t6ng modul be nhAt voi cac ham tuySn tinh theo tham s6 Trong cac nam cua thap nien 1970 cac ham tuySn tinh t6ng quat duQ'c dung voi hy vong tim dUQ'C s6

ham cho truoc, dung du lieu xac dinh mot s6 nho cac ham va uoc luQ'ng cac he s6 Phuong phap nay gBm Projection Pursuit (Friedman va Stuetzle (1981), Huber (1985)); MARS (Multivariate Adaptive Regression Spline) (see Friedman (1991)) rAt thu hut va tra thanh cong Cl,l chinh trong phan tich nhiSu chiSu

trong CO' chS hoc nhu Ia SIJ tuang tac gifra s6 Ion cac tac nhan dan gian (mo hinh

naron cua McCulloch-Fitts) Ngay Iap tuc mot nguyen ly chung duQ'c chAp nhan, chinh Ia

vao cu6i nam 1960

khong gian gia thiSt Ia mot trong nhfrng cong Cl,l chinh cua tiSp can nay

suAt cua mot biSn c6 se hoi tl,l dSn xac suAt xay ra biSn c6 m\y Tuy nhien voi

Trang 9

PHAN TiCH HOI QUY BANG SVM

chiJu VC Nguyen ly eve ham l6i v6i s6 VC nho duqc goi la nguyen ly qrc tiJu hqi cdu true (Structural Rist Minimization- SRM)

may vectO' (Support Vector Machines- SVM) [1, 2] Gi6ng v6i mo hinh perceptron,

qua phan tich

Thi truong chung khoan tu lau da duqc xem la llnh vvc dfiu tu c6 lO'i nhuan cao Bai toan

5

Mot s6 tai dung ngfr may vecta h6 tr(Y

Trang 10

Chuang 1: DA TV AN DE

tich ky thuat khong c6 kha nang du bao chinh xac gia chung khoan GAn day ky thuat tinh

cong ty, uac luqng gia Iua ch<;>n (Li, 1994)va chi baa mua ban (Chapman, 1994) (Margarita, 1992)

Ian phuang phap va ky thuat khai pha dfr phat tri thuc da dang vase

[11, 12, 13, 14, 15, 16, 17, 18, 19] Tinh

1 Cac mo hinh SVM CO' ban

3 Xay dung mot cai dl,it thl'r

Trang 11

PAAN TICH HOI QUY BANG SVM

Trang 12

ChU'O'Dg 2:

Trong ly hoc th6ng ke, bai tocm hQc c6 giam sat duqc hinh thanh nhu sau [I, 2,

21] Cho tap dfr hoc {(xi, Yi)} duqc lAy theo phan b6 xac suAt chua p(x, y)

Gia su t5n quan M hamy ph\1 thuoc vao X V6i hamfkha dr, chung ta dinh nghra ham

V(y,j(x)) do sv t6n thAt (Loss Function) khi chdp nhanf Ham/ d.n tim chinh Ia lai giai

Vi p chua chung ta tim lai giai trong mot lop ham ( duqc goi Ia kh6ng gian gia

( 2.2)

L = JV(y,f*(x))p(x,y)dxdy ( 2.3)

( 2.4)

Cau hoi du<;Yc ra mot each w nhien Ia lam nita danh gia aU(J'C Sl:f khac giua hai gia trt nay V6i can SRM, da duQ'c cap trong ph§.n m& d§.u, ham tdn thdt ngoai

ph1,1 thuoc vao I6i cua ham dv bao j(x) so v6i gia tri thvc y, con ph1,1 thuoc vao do

chon gi6i khai s6 chidu VC 6 (VC dimension) (1, 2] Chung toi se dinh nghla

Trong vi cua tai chung toi khong di ;vao nghien cuu cac danh gia S\l' khcic gifraL (2.3) vaLE (2.4) rna tap trung vao qua trinh mo hinh h6a va thuat toan hufin

Tuy nhien tru6c khi di vao chi chung toi cling mu6n gi&i mot dinh ly cho thfiy vai tro cua s6 chidu vc trong dua ra cac danh gia :E>inh ly sau neu ra mot danh gia

S\l' khac gifra L vaLE dva theo d9 tin cc;ly, s6 chidu vc va kich thu&c cua tqp du

6

VC Ia ten cua hai tac gia d€ xuftt khai Vapnik va Chervonenkis (1998)

7

Trang 13

PHAN TiCH HOI QUY BANG SVM

V&i xac sudt 1- 1'f, IJi kj; vr;mg be nhdt L va IJi thTJc be nhdt LE thoa rang bu9c

IL -LEI 75, 4 fl m

d9c lcjp v&i phiin b6 xac sudt p(x, y)

( 2.5)

Ro rang dinh ly tren day chi c6 y nghia v6i cac khong gian gia c6 s6 chiBu VC huu

nguyen ly SRM Theo nguyen ly SRM, cac khong gian gia g6m cac ho ham I6ng nhau [ 1' 2] hinh thanh mot thu w tinh giup dang xay dvng mo hinh hoc v a dung duqc cac danh gia gifJng nhu dinh ly (2.5), s6 chiBu vc cua cac khong gian gia

Bai toan v6i s6 chiBu l6n Ia bai toan phuc (R.Bellman 1960) Mo hinh SVM duqc xay dvng dva tren nguyen ly SRM, c6 kha nang kiSm soat do phuc cua khong gian gia

t6ng quat duqc (mo hinh perceptron cua F Rosenblatt, 1950), mo hinh SVM duqc xay dvng va dAn tra thanh mot trong nhung phucmg phap qua ghii bai toan uoc luqng

{f(x, w) = wr x + b, lwl -.5: A} ( 2.7) Thay vi giai bai toan cho m6i khong gian gia con (2 7), mo hinh SVM se soat cac khong gian gia nay qua mot tham s6 [ 1] Trong chuang nay chung tOi khong

Chung toi thua nhan dfJi tUQ'ng duqc mo ta hoi mot vee tO' n cac s6 va tap trung vao

Trang 14

Chuang 2: MO HiNH SVM

tl:fa va M Theo d6 sieu t6i uu la sieu tach c6 lon nhAt va duqc xac djnh

{(xi, Yi) }i = I m, trong d6 Yi E ( -1, 1} Xet sieu tuy y, w\: + b = 0,

KhoaTHQL

wrx+ b

dlwl/2 = 0

9

Trang 15

PHAN TICH HOI QUY BANG SVM

( 2.8)

toan quy ho(lch toan phuang sau (con duqc goi Ia bai toan gBc):

1

-wrw

2

trong d6 {(xi,yi)}i=l,m Ia dfr lieu cua m dBi tuc,mg, Yi E {0,1} xac dinh lap cua d6i tuqng

thu ;_ l(li du6i d(lng rna

Trang 16

Chung ta cfin tim cac vecto tl,l'a, la nhung vecto tren 2 ducrng bien thoa man cac rang

duong cua (X la mot vecto tl,l'a

Trang 17

PHAN TiCH HOI QUY BANG SVM

t6i uu

d<) r<)ng cua bien Ian nhfit, vua bao dam lfli phan tach nho nhfit

I • I

L ,,,_,_,,,,,,,,,,, ,./t -.w.-.,_,,,,.,,,_,_,,,J

Giil sir dft GU(YC ch{Jn trong tqp X new do s6 vc cua h{J ham F a6i vtri X

Ia s6 1671 nhdt cac w}cta co th€ tach aU(Yc thanh hai 16p bdt kj; biri m9t ham thu9c

F

{f(x, w) = wT x + b, lwl ::; A}

Trang 18

Chuang 2: MO HiNH SVM

Dinh ly sau [1] xac dinh s6 VC cua cac kh6ng gian ghi vai dfr duqc ldy

Cho tcjp dft li?u v&i thimh phdn x c6 d(J l6n bi chcjn tren b&i giit tr; D va kh6ng gian gia thih g6m cac sieu phimg chinh tlic v&i w c6 d(J l6n bt chc)n tren b&i gia triA Khi dy sJ chiiu VC bi chcjn tren hili giG tri min(int(D 2 A 2 ), n) + 1

Ro rang vai dinh ly 2 tren day, thi dinh ly 1 tru&c d6la c6 y nghla vai bai toan tach tinh vi s6 VC bi chan

Chung ta c6 m6 hinh toan hoc cua m6 hinh chiu I6i Ia bai toan quy toan phuong

nguai ta con goi m6 hinh chiu I6i Ia m6 hinh M mim (soft margin)

( 2.13)

13

Trang 19

PHAN TiCH HOI QUY BANG SVM

Ctic rang buoc d6i ngfiu bao g6m:

Suy ra vectO' thu i ung vcri thanh phAn CXj ducrng va be han c Ia vectO' tva

Vi d\l sau cho thAy vai tro cua C

14

Vfin dfr lieu duQ'c cho trong vi du 1

- Vcri C = 1 phucrng an: wr = (0.4, -0.8), b = 2.6, zr = (0, 0, 0, 0, O) cua bai toan g6c va ar = (0, 0, 0.4, 0, 0.4) cua bai toan d6i ngfiu thea diSu kien t6i

uu Ham muc tieu gia tri nho nhAt 0.4

DE TAl CAP Cd sd

Trang 20

Chuang 2: MO HINH SVM

V&i c = 0.2 phucrng an: wT = (0.25, -0.5), b = 1.25, zT = (0, 0, 0.75, 0, 0) CUa bai toan g{)c va aT= (0.03125, 0, 0.2, 0.05625, 0.175) cua bai toan d5i ng[u thoa kien t5i uu Ham ffil,lC tieu dl;lt gia tti nho nhat 0.30625

qua nay cho th§.y lai giai c6 khac nhau trong cac khong gian gia khac nhau Trong vi d1,1 tren chung ta con quan sat thay hai sau:

I V&i c l&n, Iai giai Ia trung nhau;

2 V&i c nho, ham ffil,lC tieu giam, cho thay mo hinh cang kh&p v&i thvc

can may vecta t11cl (Support Vector Machines- SVM) dua ra mot tieu chuAn t5i uu

cho phep chi ra lai giai t5t nhat trong s5 cac lai giai kha di biet can.nay xac dinh sieu tach qua cac vecta t11a (Support Vector) thay vi mot phucrng trinh tuang minh V&i cac vectcr tva chung ta c6 phep thay d6i khong gian bai toan rna khong cAn tuang minh phep d6i can nay cho phep xay dvng cac mo hinh tach phi

duang cong tach V&i nhfrng bai toan khong kha tach (theo nghia t6n tl;li mot sieu tach) chung ta giai n6 di tim mot phucrng an tach phi

0

0

khong gian m&i Ia kha tach

7

Hien tuQ'ng qua kh6'p (gifra mo hinh va mfru) khOng pMi Ia hien tuqng t6t Viec qua khop voi mfru c6

tl - , h;;' T , ' 1' ct' I - '

eu m IvU eng Iv ung ngu vecta o trc;r rong tat Ivu nay c mng tm ung t ngu vecta

(1fQ VI vai tro Sl)' ciia cac vectO' nay

Trang 21

PHAN TiCH HOI QUY BANG SVM

16

Mt

Mz M3

Trang 22

V&i each lcl.m ml.y chung ta phai hai kh6 khan lien quan imh <1>:

1 Cach xac dinh anh ml.y va

2 Tra v8 khong gian bi8u ban dAu

TM.t ra v&i SVM chung ta khong phai ban dim d8n di8u nay vi l<Yi giai cua bai toim tuong duang v&i viec xac dinh cac vee ta tua That vay:

m

Bai toan g6c cho tach phi khong khac gi v&i tach tinh trir cac vecta

duc,1c cho trong khong gian m&i

Trang 23

PHAN TiCH HOI QUY BANG SVM

Ma tran K = (kij) duQ'c goi la rna tran kernel

Thvc chung ta khong cAn phai xac dinh <1>, rna dung mot ham goi la ham kernel

Trong nhi8u trucrng hQ'p nola ham cua tich vo huang

Nghien Cll'U vi cac ham kernel VUQ't khoi phl;lm vi cua d8 tai Trong d8 tai nay chung toi

Bang cac lo\li ham kernel thong dvng

Tuyen tinh kernel(x,y) = (x,y)

Da thuc kernel(x,y) = ((x,y) + 1)d Gauss

Trang trucrng hQ'p su dvng ham kernel, chung ta khong din quay v8 khong gian ban dAu

V Oi X, ta dinh X thUOC lop naa d\Ia vaa qua:

khong con dung trong trucrng hQ'p tach phi Voi tach phi chung ta giai bai

la phuang phap cai nguyen ly SRM voi cfiu true cac khong gian ham I6ng nhau c6 s6

xac dinh gia tri t6t nhfit cpa tham s6 C chung ta phai di giai mot bai taan t6i uu [1]

Trang 24

Chuang 2: MO HiNH SVM

Khac v6i bai toan tach, y nhan gia tti 1 -1, bai toan h6i quy lam v6i gia tti cua y la gia tti lien we Mot each trvc giac chung ta se tap dfr thanh 2

Trang 25

PHAN TiCH HOI QUY BANG SVM

Tu true giac tren chung ta di xay dvng mo hinh toan hoc thAy mo hinh toan hoc duqc Hip nhu nao, chung ta xet chu6i d6i hinh thuc sau

Bay gicr thay m6i (xi, yi) bcri hai mai chi a cho hai lap Ia (xi, Yi - 1 - c)

thuoc lap c6 nhan 1 va (xi,yi + 1 +c) thuoc lap c6 nhan -1, ta c6 bai toan:

d.n djnh l1;1i mo hinh nay Chung ta phai bao dam lcri giai cua mo hinh Ia mot

uac luQ'ng vfrng cho bai toan h6i quy Vai can SVM chung ta se phai cap s6

y = WTX + b

Trang 26

Chuong 2: MO HiNH SVM

gifra mo hinh va gia tri thvc, nhu sau

Trang 27

PMN TiCH HOI QUY BANG SVM

T6ng quat v6i ham <I> ap d1,mg cho ca h6i quy phi

zt 0

Zt 0

w = K(a+- a-) eT(a+- a-)= 0

{a:t- =a

ai a·< 1 0 { = 0

Ngày đăng: 13/05/2015, 21:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm