dữ liệu đầu vàu Ứng dụng của học không có thầy thường trong bài toán phân cụm, bài toán giảm số chiều, tìm ra ngữ nghĩa ân hoặc nguồn gốc của dữ liệu, các mô hình mật độ đữ liệu giúp ch
Trang 1PHUONG PHAP SUPPORT VECTOR
MACHINES VA UNG DUNG
CHUYEN NGANH: CONG NGHE THONG TIN
LUAN VAN THAC SI CONG NGHE THONG TIN
NGƯỜI HƯỚNG DAN KHOA HOC: PGS.TS NGUYEN THANH THUY
HA NOI - 2004
Trang 2
2.3.1 Khái niệm hảm bạt nhân
2.3.7 Máy hục tuyến tính thông qua
hân lớp với khoảng cách lớn nhất
u diễn hảm hại nhân
2.3.3 Các đặc trưng của xâu kí ty va vin ban
2.3.4 Hàm hạt nhân dựa trên đặc trưng của xâu
2.3.5, Khoaing cach Levenstein
2.3.6, Hàm hại nhân dựa trên khoảng
2.3.7 Một số hàm hại nhân
2.3.8 Tinh chat cua ham hat nba:
2.3.9 Xây dựng vecto dic trưng dựa trên hàm hạt nhân
2.3.10 Xay dung him hạt nhân từ các hàm hạt nhẫn cơ sở
2.4 Không gian các hàm hạt nhân Hilbert
Trang 3
3.3.3 Phương pháp SVM trong trường hợp đữ liệu không phân tách tuyến tính
trong không pian đặc trưng,
3.3.1 Thuật (gắn phân rã cho bài tuản C—§VC
3.3.2 Iaya chọn tập lầm việc vã tiền chuẩn đừng cho C ~§VC
3.3.3 Thuật toán phân rã cho bài toán v- SVC
3.3.4 Phân tích lời giải
5.1 Hướng phát triển của đề tài
'TÀI LIỆU THAM KHẢO
Lugn nan Fhge si Cong nghe Thing tia
Trang 4MO DAU
Negay nay sự phát triển rất nhanh và mạnh mẽ của ngành Công nghệ Thông tin đã góp phần rất lớn vào sự phát triển của xã hội Các ứng dụng của Công
nghệ Thông tin dã liên tục được triển khai vả mang lại hiệu quả cao trong
thực tế Công nghệ Thông tin đã có những liên hệ chặt chế với các ngành
khác như điểu khiển học, khoa học vũ trụ, sinh học, hoá học, Trong luận
văn tốt nghiệp Cao học tại Trường Đại học Bách Khoa Hà Nội, tôi chọn để tài
“PIIVONG PILAP SUPPORT VECTOR MACIINES VA UNG DUNG”
"Tý do chọn dé tai
Vấn đề phân lớp (Classification) và dự đoán (Pridiction) là khâu rất
quan trọng trong học máy và trong khai phá dữ liệu, phát hiện trí thức Phuong phdp Support Vector Machines (SVM) duoc cai là công cụ
mạnh và tình vì nhất hiện nay cho những bài toán phân lớp phi hgễn,
phương pháp này ra đời năm 1995 bởi tác giá Vapnik và Chervonerlis
Hiện nay đã có rất nhiều những ứng dung hiệu quả được xây dựng dựa
vào phương pháp SVA và nhiều người đã đánh giá rằng SVAM là
phương pháp mạnh vả hiệu quá hơn phương phap mang Neural
" Mục đích, đối tượng vả phạm vi nghiên cứu
Trong khuên khổ luận văn sẽ nghiên cửu phần cơ sở lý thuyết của
phương pháp SVM, các vẫn dé lién quan dén phương pháp và xây dựng,
một số ứng dụng cụ thể của phương pháp
"_ Ý nghĩa khoa học vả thực Liễn
tÖây là một phương pháp phân lớp hiện dai và hiệu quả, nắm chắc
phương pháp này sẽ là nền ting cho việc xây đựng những ứng dụng
Trang 5Chương 1 Các khái niệm cơ bản
Chương 2 Không gian đặc trưng
Chương 3 Phương phap Support Vector Machines
Chương 4 Một số img dung ctia phuong phap SVM
Chương 5 Kết luận
Lugn nan Fhge si Cong nghe Thing tia
Trang 6CHƯƠNG 1 CAC KHAI NIEM CƠ BẢN
1.1 Cac phuong phap hoc
1.1.1 Giới thiệu
Có một số bài toán khó có thể giải quyết bằng kỹ thuật cổ điền, ví đụ như
nhận dạng chữ viết tay với giả thiết có rất nhiễu mẫu chữ viết tay có sẵn Vấn
để đặt ra ở đây là huấn luyện máy tính nhận dạng các ký tự thông qua các
mẫu có sẵn Cáo kỹ thuật này tương tự cũng sẽ sử dụng cho việu tìm kiếm
gene trong day DNA, loc thu điện tử, phát hiện virus máy tỉnh, dự đoán cấu
trúc của Protein,
Điệc sử dụng các mẫu học cho việc xây dựng các chương trình có khá
năng khái quát và tẵng hợp được biêt đến như là phương pháp học
1.12 Học có thay
Vấn đề cơ bản của học có thầy là xác định một hàm, hay xác định một
ánh xạ giữa đầu vào và đầu ra một cách tốt nhất, tức là việc tý lệ lỗi đấi với
các mẫu kiểm chứng là nhỗ nhất
Các ký hiệu:
x © X: dau vao và không gian dầu vào,
yeY: đầu ra và không gian đầu ra,
S$: tap mẫu học,
S= {Gx yi), Ge, V2), (Xã, V3), Œ VO} C ÔX x Y)!
+: là kich thước tập mẫu huấn luyện
Tuy thuộc vào kiểu của đầu ra, la chía các bài toán phân lớp với học có
thầy thành: học phân lớp, học ưu tiên, hồi quy (học hảm) kếu đầu ra là các
gia trị nhị phân như : (ves/ no), (1 /-), (0/1), bai toán học được gọi là bài toán
phân lớp nhị phân Nếu dầu ra cỏ một số hữu hạn giả trị khác nhau thi ta nỏi đây là bài toán nhiều lớp Nếu không gian đầu ra là các số thực, bài toán học
Lugn nan Fhge si Cong nghe Thing tia
Trang 7có thầy được gọi lả bải toán hồi quy (Regression) Néu không gian đầu ra có
thứ tự, trong dỏ các giá trị sánh được với nhau, khác nhau từng đôi một, bài
toán học có thầy được gọi lả học ưu tiên
1.1.3 Học không có thay
"Irong hoc không có thây mục đích đặt ra là xây dựng một miều tả chung
cho một phần tử x bất kỳ, có thể sử đựng cho việc lập luận, tạo ra các quyết định, dự đoán, xác định môi liên hệ giữa các thực thể Học không có thầy do
không có giá trị đầu ra nền được xem như việc trích rút các quá trình phát
sinh ra lữ dữ liệu đầu vàu
Ứng dụng của học không có thầy thường trong bài toán phân cụm, bài toán giảm số chiều, tìm ra ngữ nghĩa ân hoặc nguồn gốc của dữ liệu, các mô
hình mật độ đữ liệu giúp cho quá trình nén dữ liệu, phát hiện các đi thường và
quá trinh phân lớp
1.1.4 Học tăng cường
Trong học tăng cường, máy có thể dưa ra các hoạt dộng ảnh hưởng tới
trạng thái thực tại và nhận được những kích thích đưới đạng lợi ích hoặc rủi
ro, nhằm cực đại lợi ích thu được
1.1.5 Các biển thể trang mô hình hoc
® Học theo lô: Iất cả dữ liệu dược dưa cho người học tại thời diểm ban đầu
© Toe rực tuyến: Trong quá trình học người học nhận được một mẫu tại một thời điểm, đưa ra một đánh gid cho đầu ra và sau đó nhận được kết qua đúng và ghỉ nhận một ruẫu
Ching la sẽ lập trung vào kỹ thuật áp dụng cho việc học gó thẫy vả sử
dụng việc học theo lô
Lugn nan Fhge si Cong nghe Thing tia
Trang 81.1.6 Quả trình hee
Mô hình diễn hình về quả trình học lả xác dịnh một hảm mục tiêu, một
khái niệm, phản ánh môi quan hệ giữa đầu vào và đầu ra Khi đó, mẫu học sẽ
đưa tới một đánh giá của hàm mục tiêu Thuật toán học lả thuật toán nhận tập
mẫu học như là đầu vào và lựa chọn các giá thuyết k từ không gian giã thuyết
1 Một thuật toán chọn được một giả thuyết Ö tạo ra phân lớp đúng so với tập
mẫu sẽ dược gọi lả thuật toán học nhất quán Khi giả thuyết phân lớp 4p dung
được cho cả đầu vào không có trong tập mẫu, ta nói quả trình học đã đạt được
sự khái quát hoá Mục đích của chúng ta là tối ưu hoá sự khái quát này
1.17 Lỷ thuyết hạc
Mục dich của lý thuyết học là trả lời các câu hỏi như sau:
"_ Cần bao nhiêu mẫu học £ đủ cho việc thi hành của máy suy diễn?
"=_ Với một tập mẫu xác định 8, hiệu suất là bao nhiêu?
" - Với hai thuật toán học đã cho, thuật toán nào sẽ phân lớp tối ưu hơn? 1.2 Support Vector Machines và phân lớp với khoảng cách lớn nhất
Support Vector Machines (SVM) là phương pháp học sở đụng không
gian giả thuyết các hàm tuyển tỉnh trên không gian đặc trưng nhiều chiều, dựa
trên lý thuyết tối ưu và lý thuyết thông kê
"Lrong học có thầy, ta có tập các mẫu học:
S— {Gx yi), Oa, Và), (Xe Và) Baya} OOK x YY,
+ là số lượng của tập mẫu học, xị là đầu vào vả y¡ là nhãn phân lớp tương ứng,
Một tập mẫu học được gọi là tầm thường nếu tất cả các nhãn là bằng
nhau
thông thường không gian đầu vảo thưởng là tâp con của không gian giá
trị trực, X C R* (trong đó n là số chiều của không gian dầu vảo)}
Lugn nan Fhge si Cong nghe Thing tia
Trang 91.3 Phân lớp tuyến tinh
Hàm tuyến tính fQx) tương ứng với phân lớp nhị phân ( đầu ra yc {-l,
1), có thể phát biểu như sau:
Đầu vào x — {XI Xã, Xa} sẽ được gan vao lớp có nhần 1 nếu fQX)> Ú, còn ngược lại gán vào lớp có nhãn -1
dây /G)= X1, +he Ôx)+b
trong đó (.) biểu thị tích vô hướng
TRnh I1 Phân tách theo siêu phẳng (w, b) trơng không gian 2 chiều của tập mẫu
Vectơ w goi là vectơ pháp tuyến của siêu phẳng, giả trị của ở thay đổi có thể tạo ra các siêu nhẳng song song với nhau ð được gọi là ngưỡng
1.4 Ma trận GRAM
Cho tập {xị, xa, xở} các vector trong không gian tích vô hướng X, ma
trận Œ kích thước £ x Ê với Gụ = ‹x.xj) dược goi 14 ma tin GRAM
Đặc diễn quan trọng của mà trận (ram là: các dế liệu dẫu vào cho các
chương trình tổng hợp hoặc khải quát hoàn toàn có thể biểu điễn thông
qua ma tran GRAM
1.5 Khoảng cách giữa các siêu phẳng
ø Khoảng cách của một mẫu (4, y¡) tới siêu phẳng (w, b) là
Lugn nan Fhge si Cong nghe Thing tia
Trang 10
yi —yildw.x) +b) voi ye -1, +1}, khi > 0 ta néi cé mét su phan lớp đúng (Gu, yi)
« Khoảng cách hình học là khoảng cách vuông góc của điểm đến siêu phẳng
« Khoảng cách của lập mẫu § lá khoảng cách hình học lớn nhất trên tất cả các siêu phẳng Một siêu phẳng nhận khoảng cách lớn nhất gợi là siểu phẳng khoảng cách lớn nhất
® Khoảng cách cla S đạt giá trị nhỏ nhất bằng /|[| cho tất cả các mẫu
trong 8
© Ta sé lim một siêu phẳng (wam, bu) với khoảng cách hình học lớn nhất vả
gọi đó là siêu phẳng có khoảng cách lớn nhất
Trong trường hợp mẫu học không phân tách tuyến tính ta sẽ đưa ra các
bién “mém” & Cu thé với mẫu (xị, v¡) siêu phẳng (w, b) và khaảng cách đích +, ta có
Ši = max(0, ÿ - vi((wW Xử + b)
Trang 11* Phân lớp: đầu ra rời rac
® Nội suy: đầu ra giá trị thực
® Uu tiên: đầu ra có thứ tự
Lugn nan Fhge si Cong nghe Thing tia
Trang 1211
CHU ONG 2 KHÔNG GIAN DAC TRUNG
2.1 Đặt vấn để
Các (ng dụng phức tạp trong thể giới thực đòi hỏi phải biểu diễn không
gian không chỉ bỡi các hàm tuyển tỉnh, do không thể diễn tả đưới đạng một tổ
hợp tuyến tính của các thuộc tỉnh đầu vào Nhận xét này được đánh giá bởi Minsky va Papert nam 1960 khi xem xét mang no ron perceptron va dan đến
dé nghị xây dựng mạng nơ ron nhiễu tang Cách biểu điễn qua hat nhân sẽ
được đề cập ở đây cho phép ánh xạ các thuộc tính đầu vảo lên không gian
đặc trưng nhiều chiều Điều này sẽ làm tăng tốc độ tỉnh toán, cho phép phối
hợp các thuật toán học trên không gian đặc trưng và thiết kế hàm hạt nhân cho
phủ hợp với ứng dụng của người dùng,
2.2 Không gian đặc trưng,
Sự phức tạp của hàm mực tiêu din đến quá trình học phụ thuộc vào cách
nó được điển tả Khi diễn tả dữ liệu một cách phù hợp, vấn dé hoc sẽ trở nên
dé dang Vì vậy, một việc làm rất phố biển trong học máy là chuyển dỗi đữ
liệu từ không gian đầu vào X sang không gian đặc trưng:
X =Ố, X:, Xu) Lò GỌO = (ĐI ÓO, , GuGc)
trong dé n là số chiêu của đầu vào (số thuộc tính) và N 1a số chiều của không
gian đặc trưng Dữ liệu sẽ được chuyên vào không gian đặc trưng véi N > n
Không gian đặc trưng kí hiệu là k:
F={®@)| xe X}
2.3 Hàm hạt nhân
3.3.1 Khải niệm hàm hạt nhân
Một hạt nhân là một hàm K sao cho mọi x, z e X ta có:
Lugn nan Fhge si Cong nghe Thing tia
Trang 1312
K(x, 2) — (đấu) đz))
ở dây < > là tích vô hưởng trong không gian đặc trưng
Ví dụ: Xét phép biến đối dữ liệu từ không gian đầu vào X — R2 vào không
gian đặc trưng T — RẺ được cho bởi
GŒ: R?r› R}
)
Ảnh xạ trên cũng có thể được lý giải như sau Cho x = (x1, x2) va z= (a1, %)
x —Ôu, x) Bè O(K) — (iON, Dal), O36) — (kế x/2xx,,x
2.3.2 May hoc tuyén tink thang qua hiéu diễn hàm hạt nhân
May hoc khéng tuyén tinh trên không gian đầu vào được xây dựng qua hai bước: trước tiên sử dụng một ánh xạ không tuyến tính để chuyển đổi đữ
liệu vào không gian đặc trưng và sau đó sử dựng máy học phân lớp tuyến tính
trong không gian đặc trưng
Máy học tuyến tính trong không gian đặc trưng lương ứng với hảm:
N
Z@)=3x.4(e)+b
vl
Chung ta khéng cần xác định tường minh trọng số w, khi triển khai tiếp
bằng cách đưa vao vector w — Sax, la od
Lugn nan Fhge si Cong nghe Thing tia
Trang 142.3.3 Các đặc trung của xâu kí rự và uăn bản
Ký hiệu 5" bidu thị tập hợp của các xâu kí tự có đô dài hữu han sinh ra từ tập 3 Nếu 3 — {a, b, o} thì >“— {s, a, b, œ, sa, ab, ba, bb, aaa, aab, } trong,
đó £ biểu thị xâu rỗng,
Với s C>", || biểu thị chiều đài xâu s (bằng số lượng kí tự trong xâu s}
Ta quy định độ đải của xâu rỗng là 0
Gia st uch” vas Cb”, ta nói u lả xâu con của s nếu tổn tại các chỉ số ¡ =
(in, ia iy) Vou 1 < iy ins ie và tị =g,, với j — 1, 2, , Ju Khi dó, tá
viếtu — s() S[ï : j] biểu thị xâu con s¡, six 1,8 có độ đài j - FT
Dặt m= Ez | là số lượng của các kỉ tự trong 3 Với n > 1, ta định nghĩa
một ánh xạ yD" FR” ign két mdi xdu s CE" voi mét vector dé dai m4, mai
thành phần tương ứng với số lần xuất hiện của một xâu con có độ dai n trong,
s Ví dụ, với xâu s — abcaaab và t— beaas, n— 1, 2, 3 và 5 — {a, h, c}, ta cd
Lugn nan Fhge si Cong nghe Thing tia
Trang 15
Lugn nan Fhge si Cong nghe Thing tia
Trang 1615
aca acb acc baa bab bac bba bbb bbe
6
bea beb bes can cab cag cba
ebb
che
cca
ecb cec
2
1 Ka(s, t)
Lugn nan Fhge si Cong nghe Thing tia
Trang 1716
2.3.4 Ham hạt nhân dựa trên đặc trưng của xâu kí tự
Dat Ka(s, t) bigu thi tich v6 hudng (@,(s) @,(t)) Khi dé Ka(s, t) 06 thé
đánh giá đệ quy không cần xay dung wong minh ®,(s) va @,(t) bling gách sử
dụng các quan hệ sau
* Ks, 1)-1 vii Vs, 1
* Kis, t)— Onéu min{ shi} <ii-1,2,
+ Ki@x, ĐT KG, + 3, E¬s,1 j-TxeS,ï—1,2,
Vi du: cho s = abcaaab, † = bcaac và 1 =0, 1, 2, 3, thực hiện trên MATLAI ta
Trang 1918
2.3.5 Khotng cich Levenstein
Khoảng cách Levenstein (mang tên nhà khoa học người Nga Vladimir Levenstein) đánh giá độ tương tự giữa xâu nguén s và xâu đích t được định
nghĩa bằng số lượng các phép xoá, chén và thay thế cần thiết để biển đổi s
thành t
Vi du:
* sla “test” va t la “test” thi dfs, D=0
* sla “test” vat ld “best” thi d(s, )=1
Thuật Loán tinh khodng cach Levenslein duge sir dung trong
* Kiém tra dinh vin,
+ Nhân dang tiếng nói,
* Phan tich DNA,
+ Phát hiện gian lân
thuật toán Levenstein
Sử dụng phương pháp quy hoạch động:
1 Đặt nạ và ne tương ứng là độ dài của xâu s và t Khởi tao giá trị đầu của ma
trận C có kích thước (nạ +1) x (+1) bằng 0, đánh số chỉ số hàng của Ö từ
0 đến nạ và chí số cột của Ở từ 0 dến mụ
2 Khởi tạo giá trị các phần tử cột đầu tiên với Cio =1, i= 9, 1, 2, ., Os,
3 Khởi tạo giá trị các phần tử dòng đầu tiên với Ca¿ — j, j — 0,1,2, ,m,
4 Việc tính CỊi, j] dựa vào công thức đệ quy sau
C[1j] = min(CỊ,, j-1]! 1, Cfi-1, j1, €TET, j-1] | THD,
0 neu shi] = [7]
rong đó: TỆ, /]= fi néushil ah]
5 Khoảng cách giữa s vả t là dás, t)= C nytt
Lugn nan Fhge si Cong nghe Thing tia
Trang 2019
2.3.6 Ham hạt nhân dựa trên khoảng cách
Hàm hạt nhân dựa trên khoáng cách giữa hai xâu thường dược cho dưới
dang tống quát như sau:
KG, x) = @(G - xe} T2 'áx - xe))
trong dé @ là ham, x, là tâm và D ma trận sao cho (x - xe}TD 14x - x¿) là độ đo
ảng cả ova ada wa ws
khoảng cách giữa đầu vào x va tim xe
khi xét khoảng cách Huclidean, †a có l2 — Ẻ], trong dé 1 1A ma tran don
vị Khi đó công thức hảm hạt nhân trở thành:
Trang 2221
2.3.8 Tinh chit cia ham hạt nhân
Giả sứ hảm hạt nhân K(x, z) được dịnh nghĩa như là tích vô hướng của
@z2 trong đó x, z eR^ Ta xây dựng dựa trôn tập £ vocLor dữ liệu xụ, với ¡
-1, 2, ,€, ma tran Gram G, tong dé Gy — Kặx, x) Ma trận này sẽ có các
tính chất sau
1 Gà đối xứng
2 G là hoàn toàn xác định dương nghĩa là với một vecbor œCR* bat ky ta
luôn có ø'Gø >0 hay 5 S” G 2ø, >0 Sở dĩ như vậy là do G— X
= [xi, x‡Ƒ Dặt w = Ko khi dé Go =o" XX’ a = ww
Khi hàm hạt nhân Kx, z) không định nghĩa tưởng mình như là tích võ
hướng, hai tính chất trên của ma trận Gram vẫn phải được bảo đảm Tỉnh
chất đầu tiên được bảo đầm nếu Kx, Zz) = K(z x) đối với mọi x, z c R
Trong trường hợp nay ta nói hàm hạt nhân K đôi xứng
Tỉnh chất thứ hai được bảo đám nếu
Ï J,XGœ2)/09/02k4>0
trong đó là hàm được định nghĩa trên không gian dữ liệu D
Tiàm bạt nhân thoả mãn hai tính chất trên được goi la ham hạt nhân
Mercer
Chú ý rằng nếu ta chọn hàm ƒ như là tổng của các hàm tại các điểm xạ,
Xa, X¿ € l1, với các trọng số dụ, 0a œ¿ thì tích phân kép ở trên sẽ trở thành tông kép
Trang 231 KQu, x) > 0 cho moi veelor dif ligu x; € D Điều nảy cĩ được bằng cách
“ã Nếu ^ là giá trị riêng của G thì A.> 0 (lưu ý rằng nếu ^, là giá trị riêng oda
G và v tương ứng là vector riêng thì Œv — Av) Hơn nữa Œ là đếi xứng,
nên v la các giá trị thực Thực vậy ta lấy œ%—V du VGưV - Vy —
2.3.9 Xây dựng vectz dặc trưng dựa trên hàm hạt nhân
Xét ma trận Gram G kích thước £ x ? dựa trên ham hat nhan K(x, 7) đối
xứng và dương, đụ = Kặa, xj, 1, j =1, 2, £ Như dã nĩi ở trên vector đặc
trumg (x), 1-1, 2 U dược dịnh nghĩa thộ mãn diễu kiện
KG, x) — (Độ), Độ)
Do K(x, z) đối xứng và dương nên G sẽ đối xứng và hồn tồn xác định
đương Hơn nữa Œ cĩ # piả trị riêng khơng âm Âu À¿, À¿ và tương ứng với
Lugn nan Fhge si Cong nghe Thing tia
Trang 2423
€ vector riény vi, v2, Ve hod mãn điều kiện {, vị) — 0 nếu ¡ z j và chúng
có thể được chuẩn hoá nghia la 44, v2 = 1 voi i=l, 2, ., &
Dat V la ma tran kich thude £ x # dược xây dumg Ltr ede vecto riéng nghĩa là
Ve lv vz, ¥e] khi đó:
Hon nita G = VậV' Đặt Ï— L⁄/A, tức là nhân cột dầu tiên của V với 4/2,
cột thứ hai với 4, ta được: Ơ_— P7
'Từ đó có thể định nghĩa ®ộ)” lã dòng thừ ¡ của V,¡— 1, 2, ,£
2.3.10 Xây dựng hàm hạt nhân từ các hàm hạt nhân cơ sở
Giải sử Kì, K¿ là các hàm hạt nhân trên X x X C R", a €R”, #£J là ham gia
trị thực trên X, B lả ma trận đối xứng hoàn toàn xác định dương kích thước n>n Các hàm sau dây cũng lả các hàm hạt nhân
* E(x, z)=KiG, z)- Katx,z),
Trang 2524
© K(x, 4)—x’Bz
2.4 Không gian các hàm hạt nhân Hilbert
Giá sử X _ R* là không gian dữ liệu vào gầm các vector kích thước n, x
— Ga, X;, Xe), Œ ánh xạ xe X thành veetor đặc trưng ŒŒx) — (Œh(x),
®x{x)) Ký hiệu KŒ, y) là hàm hạt nhân xác định trên X x X nghĩa là K(x, y)
— (8Q), ®(y)) Tá có không gian dặc trưng là: F—{®(x) |xe X‡ C RY
Cho £ vector mau x1, x;, ,xe C X Khi đó bài toán phân lớp nhị phân
quy về bài toán tìm F + 1 số thực dụ, dạ , và b sao cho
'Tương tự như vậy bài toán hồi quy trở thành tìm E số thực œạ, Q đ¿,
sao cho lx) * yi voii-l, 2, , É, ở đây yi—1, 2 E) là các giá trị đầu ra
đã biết rước
Xét không gian tất cã các các hằm có dạng
” alx)= 34,8 ,(2),
Khi đó không gian H trở thành không gian tích vô hướng hơn nữa là một
không gian IHlbert tương ứng với chuẩn:
Trang 26Trong chương 2 đã trình bày khái miệm hạt nhân, tính chất của hạt nhân
và không gian hạt nhân Hilbert Một tính chất rất quan trọng của hạt nhân là
khả năng biểu thị dữ liệu trong không gian đặc trưng Trong các chương tiếp
theo ching ta tiép tuc nghiên cứu và sử dụng Linh chal nay cho cdc bai loan
phân lớp
Trang 2726
CHUONG 3 PHUONG PHAP
SUPPORT VECTOR MACHINES (SVM) 3.1 Giới thiệu
Vấn đề phân lớp (Classification) và dự đoán (Prediction) là hai bài toán
cơ bản và có rất nhiều ứng dụng trong tất cả các lĩnh vực Có nhiều phương
pháp đã được nghiên cửu và ứng dụng cho các bài toán dạng này như: mạng
Nơ ron nhân tạo, phương pháp học thống kê, Trong chương nảy chúng ta sẽ
đi nghiên cửu một phương rất hiệu quả hiện nay đó là phương pháp Support
Vector Machines
Phương pháp Support Vector Machines (SVM) duoc coi la công cụ mạnh cho những bài toán phân lớp phi tuyến, ra đời năm 1995 bởi các tác giả Vapnik va Chervonenkis
Phuong phap Support Vector Machines (SVM) la phuong pháp học sử dụng không gian giả thuyết các hàm tuyến tính trong không gian đặc trưng
nhiều chiêu, dựa trên lý thuyết tối ưu và lý thuyết thông kê
SVM liên hệ chặt chế với phương pháp hạt nhân, phương pháp phân lớp với khoảng cách lớn nhất, không gian hạt nhân Hilbert
3.2 Nội dung phương pháp
3.2.1 Mở đầu
3.2.1 Bhi toi phiin 3 lép
Cho tap mau {(X1, yr), (X2, V2), (Xe YO} với xị € R* và yị € {-1, 1} là
nhãn lớp tương ứng của các xị, -1 biểu thị lớp thứ nhất, 1 biểu thị lớp thử hai
Bài toán đặt ra là: Xáe định hàm phân lớp để phân lớp các mẫu trong tương
lai, nghĩa là với một mẫu dữ liệu mới x: thì cần phải xác định x; được phân vào lop +1 hay lop -1?
Phuong phap SVM cho bài toán phân lớp được mô tả thông qua vỉ du sau
-Đuậm oăn Glqe sĩ ông nghé Thong tin
Trang 28Hình 3.1 Minh hoạ phương pháp SVM cho bài toán hai lớp
Để xác định ham phân lớp dựa trên phương pháp phương pháp Support Vector Machines ta sé tién hành tìm hai siêu phẳng song song (hrơng ứng
với hai đường nét đứt tong không gian hai chiều trên hình về) sao cho
khoảng cách y giữa chúng là lớn nhất có thể để phân tách hai lớp này ra
làm bai phía Hàm phân tách tương ứng với phương trình siêu phẳng nằm
giữa hai siêu phẳng Lim được (dường nót đậm trên hình vẽ 3.1),
'Ta nhận thấy hình 3.1 là trường hợp có thể tùm được siêu phẳng phân
tách, đữ liệu rang tường hợp này gọi là phân tách tuyén tinh
Xét trường hợp đã liệu không phân tách tuyến tính như hinh 3.2:
Trang 2928
Tình 3.2 Bài laán SVM trong trường hợp để liệu mẫu không phân tách tuyển tính
Như trên hình 3.2 có những mẫu có nhãn -1 lại *rơi” vào phía các mẫu có
nhãn ! 1 vả ngược lại
Trong trường hợp này phương pháp SVM sẽ sử dụng một phép ảnh xe đ#
liệu mẫu vào không gian có số chiều lớn hơn để tập mẫu này là phân tách
tuyến tính trong không đó (ta gọi không gian mới này là không gian đặc
trưng) Irong không gian mới nảy ta vẫn tiễn hành tìm khoảng cách cực dại
giữa hai siêu phẳng song song để phân tách dữ liệu mẫu
Các điểm nằm trên hai siêu phẳng phân tách goi ld cdc Support Vector Các điểm này sẽ quyết định đến hàm phân tách dữ liệu
"Trong thực tê để thuận tiện cho quá trình tính toán, đữ liệu mẫu sẽ được
ánh xạ vào không gian đặc trưng nhiều chiều hơn bằng cá hảm
ch sứ dụng cá
hạt nhân (đã xét ở chương 2), điều này làm tăng tốc độ tính toán và đảm bảo
rằng dữ liệu sẽ gần như phân tách tuyến tính và lốc độ tính toán của phương
pháp SVM sẽ hiệu quả hơn
Tuy tùng trường hợp cụ thể ta sẽ có các biển thé cla SVM nhu C - SVC,
v- SVC va bài toán SVM nhiều lớp
3.2.1.2 Hải toán phân nhiều lớp
Tài toán phân nhiều lớp sử dụng phương pháp SVM hoàn toàn có thể
thực hiện giếng như bài toán hai lớp Đằng cách sử dụng chiến lược “1 đối 1”
(one - against - one),
Giả sử bài toán cần phân loại có k lớp (k > 2), chiến lược “1 đối 1” sẽ tiễn
hành k(k-1}⁄2 lần phân lớp nhị phân sử dụng phương pháp 8VM Mỗi lớp sẽ
tiến hành phân tách với k-1 lớp còn lại để xác định k-I hảm phân tách dựa
vào bản toán phân hai lớp bằng phương phap SVM
3.2.1.3 Cáu bước chính của phương pháp SVMI
Lugn nan Fhge si Cong nghe Thing tia
Trang 30Phương pháp SVM yêu cầu dữ liệu được diễn tả như các vector của các
số thực Như vậy nếu dầu vào chưa phải lả số ta cần phải tìm cách chuyển
chung vé dang s6 cla SVM
«Tiên xử lý dữ liệu: biển đổi dữ liêu phủ hợp cho quả trình tính tốn tránh
các số quả lớn mẽ tả các thuộc tính Thường nên co giần (scaling) dữ liệu
để chuyển về đoạn |~1, 1] hoặc |0, 1]
* Chọn hàm hạt nhân: Chọn hàm hạt nhân phủ hợp cho từng bài tốn cụ thể
dễ dạt dộ chính xác cao trong quả trình phân lớp
© Sử dụng kiểm tra chéo để xác đình các tham số cho ứng dựng Điều này
cũng quyết định đền tính chính xác của quá trình phân lớp
« Sử dụng các tham số cho việc huấn luyện với tập mẫu: tron quá trình
huấn luyện sẽ sử dụng thuật tốn tối ưu hố khoảng cách giữa các siêu
phẳng trong quá trình phân lớp, xác định hàm phân lớp trong khơng gian
đặc trưng nhờ việc ánh xa dữ liệu vào khơng gian đặc trưng dựa vào cách
mơ tả hạt nhân đã xét ở chương 2 giải quyết cho cä hai trường hợp dử liệu
là phân tách vả khơng phân tách tuyến tính trong khơng gian đặc trưng
© Kiểm thử tập đữ liệu Test
3.22 Phương pháp SƯM trong trường hop dũ liệu được phân tách tuyén
tính
3.2.2.1 Tìm khoảng cách cực đại giữa hai siêu phẳng
Chúng ta tiến hành phân lớp nhị phân các đữ liệu thộ mãn tính chất phân
tách tuyển tinh trong khơng gian đặc trưng
Cho 8 —{x, vị), Ga, yÙ} biểu thị tập mẫu huấn luyện phân tách tuyển
tính của các điểm x c R* trong khơng gian đặc trưng n chiều, chúng được phân lớp thành các lớp — vả - ở đây:
Trang 31X Trong đú:
® : cóc điểm củ nhồn
Hình 3.3 Ví dụ về sự phân tách dữ liệu trong không gian dặc trưng
Xem xét hai diễm mẫu (xì, +1) vả (x;, -1) trên khoảng trống giữa hai siêu
phẳng như trên hình 3.3, trong đó với mỗi ` > 0 ta có:
{w xu) tb— +
(w x2) | b= -¥"
trong dé khodng cach hinh hoc la 7—y|
bel) Khi dé w va b cd thé co ty 1é tuy
ý, do vậy ta chọn khoảng cách y =1/ |w|| Trên thực tế tập mẫu phân tách
tuyển tính nên tần tại mặt phẳng Gw x} | b — 0 trong không gian đặc trưng
đến mặt phẳng được cho bởi
và khoảng cách
Lugn nan Fhge si Cong nghe Thing tia
Trang 323
mê»?
a) Bài toán quy hoạch taàn phương
Vấn đề xác định w và b sao cho (3.1) được thoả mãn có thể diễn tả lại như
sau
Tìm (w, b) để cực tiểu biểu thức:
với vi w xộ | bB)>1,1— 1,2 £
Đài toán (3.2) được gọi là bài quy hoạch toàn phương, nó thường được
điễn tả như sau Tìm z c R2 để cực tiểu hoá:
Dữ liệu đầu vao nói chung là không phân tách tuyến tính Khi đó ta phải
ánh xạ đữ liệu vào không gian đặc trưng (như đã nói trong chương 2) Điều
này làm tăng tốc độ tính toán và đữ liêu sẽ phân tách tuyến tính trong không
gian nhiều chiều hơn
Lugn nan Fhge si Cong nghe Thing tia
Trang 3332
Ta minh hoạ điều này bằng vi du sau:
Đầu vào của phân lớp nhị phân dược cho trong không gian hai chiều diễn
tả bởi hình vẽ:
Hình 3.4 Lữ liệu không phân tách trong không gian dầu vào Mỗi diểm đữ liêu sẽ được đặc trưng bởi toa độ Gu, y¡) Rõ rằng các dữ liệu nảy là không phân tách tuyến tính Bây giờ ta sẽ ánh xạ nó vào không gian
đặc trưng nhiều chiều hơn, cụ thể ở đây ta chọn 3 chiêu và thực hiện phép
biến déi sau
Trang 34Dễ khắc phục vấn để trên chúng ta đưa ra vectlơ Œ có Ÿ giá trị
w= 3, x = X'ø, trong dó X”= |xị, gJ Đài toán (3.2) được chuyên thánh bài toàn sau: Tìm cặp (0, b) để cực dại biểu thức sau
Tư
2
VỚI 1, >.0,K§„#,)I ð}>L¿— 12, £ trong đó Œ là ma trận Gram kích
thước £ + È với phần tử @ j) là KỌu, xj)
€) Phái biểu đốt ngẫu
Ta diễn tả bài toán (3.2) một cách đơn giản hơn như sau:
Tim (w, b) để cực tiểu hoá
với giữ b)< 0,1=1,2, ,E
Vi vay trong (3.2) ta có:
1
#0b)— ai) và pi(w, b) — I-yi(€w gò + b)
Bây giờ chúng ta đưa ra hàm Langrange:
Trang 35
`
he in| rene) + Dealt floes »+2)|
Tuy nhiên, tại các điểm cực tiểu ta có
với 5” œy,=0 và chủ ý rằng tổng kép có thể được biểu điễn như
&Ga=a'Ga,vo &=|a,y, ey,] va phin i (, jolla G 1 yyjK@, xị)
'Trở lại (3.4) bài toán đối ngẫu trở thành:
'Tìm œ để cực đại
O(a) @.10)
với %> 0,1=1,2,.„ É, và Ð "1,44 —0
Một lời giải khả thi cho bài toán dối ngẫu là œ € RẺ sao cho thoả mãn
rang buộc ơ > 0 Lời giải tối ưu biểu thị bằng œ* là lời giải khả thí làm cực
đại hoá O(c)
Lugn nan Fhge si Cong nghe Thing tia