TÀI LI U THAM KH OKoutroumbas, Academic Press.. Pattern Classification, Duda, Hart, and Stork, John Wiley & Sons.. Statistical, Structural, and Neural Approaches, Schalkoff... VÍ D V LU
Trang 2Thông tin chung
Thông tin v nhóm môn h c:
Th i gian, đ a đi m làm vi c: B môn Khoa h c máy tính T ng 2, nhà A1.
a ch liên h : B môn Khoa h c máy tính, khoa Công ngh thông tin.
i n tho i, email: 069-515-329, ngohuuphuc76.mta@gmail.com
TT H tên giáo viên H c hƠm H c v n v công tác (B môn)
Trang 4Bài 1: Gi i thi u chung
Trang 5TÀI LI U THAM KH O
Koutroumbas, Academic Press
2. Pattern Classification, Duda, Hart, and Stork,
John Wiley & Sons
3. Pattern Recognition Statistical, Structural, and
Neural Approaches, Schalkoff.
Trang 97. Phân lo i phi tuy n.
7.1 Phân lo i tuy n tính suy r ng.
7.2 nh lý l p ph
7.3 Máy h tr vector.
Trang 13Thông tin chung
Thông tin v nhóm môn h c:
Th i gian, đ a đi m làm vi c: B môn Khoa h c máy tính T ng 2, nhà A1.
a ch liên h : B môn Khoa h c máy tính, khoa Công ngh thông tin.
i n tho i, email: 069-515-329, ngohuuphuc76.mta@gmail.com
TT H tên giáo viên H c hƠm H c v n v công tác (B môn)
Trang 162.1 TH NÀO LÀ NH N D NG M U
ây là môn khoa h c có m c đích phân l p đ i
t ng thành các ph m trù khác nhau
“Là hành đ ng l y d li u thô và tác đ ng d a trênphân lo i các m u”
Trang 19 B phân l p:
H c đ c t d li u hu n luy n.
Thông th ng s tr l i câu h i: m u đã có thu c vào
l p nào? ho c i t ng thu c ki u l p nào?
Trang 202.3 H TH NG NH N D NG M U (CONT)
2.3.2 Thi t k
Trong ph n này, th ng tr l i m t s
câu h i sau:
Thu nh n d li u: o đ c thông tin
gì? C n bao nhiêu thông tin?
Trang 232.4 TI N X LÝ VÀ CHU N HÓA (T)
2.4.2 M t s d ng chu n hóa
Minmax-scaling:
min m
Trang 24N
i
k k
k
N
i
k k
x
x x
x
x N
l k
x N
x
i i
i i
, , 2
, 1 1
1
2 2
1
Trang 252.4 TI N X LÝ VÀ CHU N HÓA (T)
2.4.2 M t s d ng chu n hóa
Softmax-scaling:
i k i
i i
y k
k
k k
k
e x
r
x
x y
Trang 262.5 L A CH N C TR NG
M c đích c a l a ch n đ c tr ng: có kh n ng phân bi t
và t ng quát hóa.
Kh n ng phân bi t: các đ c tr ng này s r t khác n u các đ i t ng trong các l p khác nhau.
T ng quát hóa: các đ c tr ng t ng t cho các đ i
Trang 27phân l p sai t w1 vào w2, khi đó
đ ng cong ROC đ c v trong
h tr c và 1-
N u = 1- , phân b ch ng l p
hoàn toàn.
Trang 28l m
Cl
Trang 29 H c không giám sát:
Trang 30 Ph ng pháp m ng neuron:
Trang 312.6 PH NG PHÁP PHÂN L P (T)
2.6.2 Phân lo i d a trên ph ng pháp
D a trên mô hình:
Các l p đ c đ i di n b i m u tham chi u nào đó.
Nh n d ng d a trên vi c tìm m u tham chi u g n nh t.
Trang 32 Nhi m v là tìm cách đánh giá (h u h n) s sai s
i
k i i
i
k
N errors
Trang 33i
N
k w
ˆ
Trang 342.7 ÁNH GIÁ H TH NG (T)
2.7.2 Hu n luy n và d li u test.
V n đ : v i b d li u h u h n, c n dùng cho c hu n luy n và test.
N u s d ng nhi u d li u cho vi c hu n luy n s cho tính t ng quát t t h n.
N u s d ng nhi u d li u test s cho c l ng sai s
Trang 36Thông tin chung
Thông tin v nhóm môn h c:
Th i gian, đ a đi m làm vi c: B môn Khoa h c máy tính T ng 2, nhà A1.
a ch liên h : B môn Khoa h c máy tính, khoa Công ngh thông tin.
i n tho i, email: 069-515-329, ngohuuphuc76.mta@gmail.com
TT H tên giáo viên H c hƠm H c v n v công tác (B môn)
Trang 38Bài 3 : Nh n d ng m u d a trên th ng kê h c
Trang 39T NG QUAN
S tính toán không ch c ch n là m t thành ph nquan tr ng trong vi c ra quy t đ nh (ví d , phân
Trang 43XÁC SU T TIÊN NGHI M
Xác su t tiên nghi m là xác su t c a m t s ki nkhông có r ng bu c nào tr c đó
Ví d :
P(thi đ )=0.1 có ngh a: trong tr ng h p không
có thêm thông tin nào khác thì ch có 10% là thi đ
Trang 44XÁC SU T CÓ I U KI N
Xác su t có đi u ki n là xác su t c a m t s ki nnào đó khi có thêm thông tin r ng bu c
Ví d :
P(thi đ | h c sinh gi i) = 0.8 có ngh a: xác
su t đ h c sinh thi đ khi bi t đó là h c sinh gi i là80%
Trang 45XÁC SU T CÓ I U KI N (CONT)
Xác su t có đi u ki n có th đ c đ nh ngh a quaxác su t không đi u ki n:
Hay ta có:
Trang 47VÍ D V LU T T NG XÁC SU T
My mood can take one of two values: Happy, Sad
The weather can take one of three values: Rainy,Sunny, Cloudy
We can compute P(Happy) and P(Sad) as follows:
Trang 48NH LÝ BAYES
Theo lu t Bayes, ta có:
trong đó,
( / ) ( ) ( / )
Trang 53BI N NG U NHIÊN (CONT)
Bi n ng u nhiên là giá tr ta gán cho k t qu c a
m t th nghi m ng u nhiên (hàm cho phép gán
m t s th c ng v i m i s ki n)
Trang 54 Ta quan sát th y khi và ch khi k t qu c a th
nghi m ng u nhiên là , hay
Ví d : trong ví d trên thì P(X=2)=?
Trang 59HÀM PHÂN B XÁC SU T – PDF (CONT)
Ví d minh h a:
Trang 60HÀM PHÂN B XÁC SU T – PDF (CONT)
N u X là bi n liên t c, PDF có th tính:
S d ng công th c trên, ta có:
Trang 61HÀM PHÂN B XÁC SU T – PDF (CONT)
Ví d v pdf và PDF c a Gaussian
Trang 63HÀM PDF NHI U BI N (BI N LIÊN T C)
V i n bi n ng u nhiên liên t c, hàm pdf nhi u bi n
đ c tính:
Trang 64M T S TÍNH CH T
Hàm pdf có đi u ki n có th đ c tính t hàm pdfnhi u bi n:
V i tr ng h p nhi u bi n (n bi n), ta có d ng t ngquát:
Trang 65M T S TÍNH CH T (CONT)
N u các bi n là đ c l p, khi đó ta có (ví d v i 2
bi n X và Y):
Quy t c t ng xác su t:
Trang 66HÀM PHÂN B CHU N (GAUSSIAN)
Hàm phân b chu n Gaussian đ c đ nh ngh a:
trong đó: : giá tr k v ng; : đ l ch chu n
V i x là m t véc t , ta có:
trong đó: d: s chi u; : k v ng; : ma tr n hi p
ph ng sai
Trang 67HÀM PHÂN B CHU N (GAUSSIAN) - CONT
Ví d v phân b chu n có 2 bi n:
Trang 68HÀM PHÂN B CHU N (GAUSSIAN) - CONT
1
2 2
i
i i
Trang 74MA TR N HI P PH NG SAI
V i 2 bi n X, Y, ma tr n hi p ph ng sai:
C Cov X XCov Y X Cov Y YCov X Y
v i Cov X X Var X Cov Y Y Var Y
V i tr ng h p nhi u bi n:
Trang 76Thông tin chung
Thông tin v nhóm môn h c:
Th i gian, đ a đi m làm vi c: B môn Khoa h c máy tính T ng 2, nhà A1.
a ch liên h : B môn Khoa h c máy tính, khoa Công ngh thông tin.
i n tho i, email: 069-515-329, ngohuuphuc76.mta@gmail.com
TT H tên giáo viên H c hƠm H c v n v công tác (B môn)
Trang 78Bài 3 : Nh n d ng m u d a trên th ng kê h c
Trang 79 N u xác su t trên không bi t, vi c c l ng ph i s d ng d li u hu n luy n.
N u vi c phân lo i có kèm c r i ro, c n c c ti u r i ro.
Trang 803.1 LÝ THUY T QUY T NH BAYES
3.1.1 S phân lo i d a trên c c ti u sai s
òi h i s phân lo i t i u.
V i tr ng h p có 2 l p, quy t c phân lo i:
� u quy t đ nh là w
�g c l i quy t đ nh là w trong đó, xác su t h u nghi m đ c tính theo lu t Beyes:
� w x p x w � wp x
Trang 813.1 LÝ THUY T QUY T NH BAYES (CONT)
Trang 823.1 LÝ THUY T QUY T NH BAYES (CONT)
Trong tr ng h p có nhi u l p, quy t c phân lo i d ng:
quy t đ nh w n u � w x � w x v i j i
t ng ng v i v i mi n R i
Trang 833.1 LÝ THUY T QUY T NH BAYES (CONT)
Quy t đ nh khác nhau (đúng ho c sai) có th cho k t qu
khác nhau
Chi phí ki c a l a ch n x thu c R i, đúng l p w i, đ c l utrong ma tr n L.
k
i
dx w
x p
r
1
|
Trang 843.1.2 C C TI U HÓA R I RO PHÂN LO I (CONT)
Nhi m v : C c ti u hóa r i ro trung bình
v y m i tích phân trên c n c c ti u hóa.
ki M
P w
x p w
P r
l l
if R
x i i j
Trang 853.1.2 C C TI U HÓA R I RO PHÂN LO I (CONT)
2
2 2
21 1
1 11
P w x p l
w P w x p w
P w x p
w P w
x p
w x p
Trang 86� C x p x C � Cp x
Trang 88VÍ D (CONT)
D ng bi u đ , ta có:
Trang 89VÍ D (CONT)
Có th tính xác su t h u nghi m:
1 1 1
( 1.0 / ) ( ) ( / 1.0)
( 1.0 / ) ( ) ( 1.0 / ) ( )
0.2081*0.183
0.438 0.2081*0.183 0.0597 *0.817
Trang 903.2 HÀM PHÂN BI T VÀ M T QUY T NH
Chúng ta có không gian đ c tr ng đ c chia thành M mi n R i.
Câu h i đ t ra: ranh gi i gi a các mi n là gì?
Ranh gi i quy t đ nh gi a l p w i và w j sao cho c c ti u hóa sai s
Trang 91if w Decide i i j
x g x 0
Trang 923.3 PHÂN B CHU N (1/4)
Mô hình đ y đ c a phân b chu n nhi u bi n đ c dùng trong nhi u
ng d ng.
Phân b chu n cho hàm 1 bi n:
trong đó, : giá tr k v ng (trung bình) và 2 : ph ng sai ( : đ l ch
2
1 exp
2
1 )
(
~ ,
Trang 933.3 PHÂN B CHU N (2/4)
Phân b chu n Gaussian cho hàm nhi u bi n:
trong đó, =E[x]= xp(x)dx là vector trung bình, là ma tr n lxl hi p
1 exp
2
1 )
(
~ ,
Trang 943.3 PHÂN B CHU N (3/4)
Trong công th c trên, đ i x ng và xác đ nh d ng.
Thành ph n trên đ ng chéo chính kk ph ng sai c a x k.
Các thành ph n khác km là hi p ph ng sai c a x k và x m . N u x k và
x m đ c l p thì km =0.
T các khái ni m c a phân b chu n có th xây d ng b phân l p Bayesian!!!
Trang 95i i
i
wP
lx
x
wPw
xp
wPwxpx
g
ln
ln2
12
ln22
1
ln
|ln
|ln
Trang 96T i
i i
i
T i i
w P w
w
w x
w x
g
ln 2
Trang 97kho ng cách min đ c xác đ nh:
i
T i
0
ln2
1
j i
j i
j
i j
i
j i
T ij
wP
w
Px
w
xxwx
Trang 98VÍ D V I TR NG H P = 2I
Trang 993.3.1 HI P PH NG SAI B NG NHAU (3/3)
Tr ng h p không có d ng đ ng chéo
M t quy t đ nh:
Nh v y, m t này đi qua x0 và vuông góc v i Và kho ng cách đ c s d ng là:
2 20
1
0
1
ln 2
j i
j
i j
i
j i
T ij
w P
w
P x
w
x x
w x
d
Trang 100VÍ D V TR NG H P NON-DIAGONAL
Trang 102p x
p x
p x
p
2
1 1
Trang 103K HO NG CÁCH K ULLBACK -L EIBLER ( CONT )
V i phân b Gaussian N( i, i) và N( j, j)
Trong tr ng h p 1 chi u:
T i j i j
j i
i j
j i
1 1
21
}2
{2
2
2
2 2
2
11
21
22
1
j i
j i
j
i i
j ij
Trang 1043.4.2 BIÊN CHERNOFF VÀ BHATTACHARYYA
C c ti u hóa sai s c a b phân l p Bayesian cho 2 l p
; 0 ,
} ,
s b
a for b
a b
error P w P w p x w p x w dx
Trang 1053.4.2 BIÊN CHERNOFF VÀ BHATTACHARYYA (CONT)
s j
s i
j i
i j
j i
T i j
s s
s
s s
s s
s k
( ln
2 1
) 1
(
1 )
Trang 1063.4.2 BIÊN CHERNOFF VÀ BHATTACHARYYA (T)
N u s=1/2, ta có biên Bhattacharyya
v i
) (
) ( wi P wj e kP
error
j i
j i
i j
j i
T i j
21
28
1)
2/1(
Trang 1083.4 B PHÂN L P C C TI U KHO NG CÁCH
B phân l p Bayesian t i u th a m t s r ng bu c sau:
Các l p có xác su t nh nhau.
D li u c a t t c các l p theo phân b chu n Gaussian.
Ma tr n hi p ph ng sai là gi ng nhau v i t t c các l p.
Ma tr n hi p ph ng sai có d ng đ ng chéo và t t c các thành ph n trên đ ng chéo gi ng nhau, d ng � I, v i I là
ma tr n đ n v
Trang 1093.4 B PHÂN L P C C TI U KHO NG CÁCH
V i các r ng bu c trên, b phân l p Bayesian t i u t ng
đ ng b phân l p c c ti u kho ng cách Euclidean.
Nh v y, cho vecto x ch a bi t, x s đ c gán vào l p n u:
Nh n xét:
B phân l p Euclidean th ng đ c s d ng vì tính đ n gi n c a nó,
k c trong tr ng h p các r ng bu c trên không th a mãn.
Cách phân l p này còn đ c g i là phân l p g n nh t theo tiêu chu n Euclidean.
Trang 1103.4 B PHÂN L P C C TI U KHO NG CÁCH
Trong b phân l p Bayesian t i u, n u b y u t : ma tr n hi p
ph ng sai có d ng đ ng chéo v i các ph n t gi ng nhau, khi đó, b phân l p này t ng đ ng v i phân l p c c ti u theo kho ng cách Mahalanobis.
Nh v y, v i vecto x ch a bi t, x đ c gán vào l p n u:
Trong đó, S là ma tr n hi p ph ng sai.
Trang 113[num,z(i)]=min(dm);
end
Trang 1153.4.3 C L NG THAM S H P LÝ C C I C A PHÂN
B GAUSSIAN
Trong th c t , v n đ th ng g p: ch a bi t hàm phân b xác
su t c a d li u Do đó c n c l ng thông qua d li u hu n luy n.
Trang 1163.4.3 C L NG THAM S H P LÝ C C I C A PHÂN
B GAUSSIAN (CONT)
K thu t c l ng h p lý c c đ i (maximum likelihood - ML)
đ c s d ng r ng rãi đ c l ng các tham s ch a bi t c a phân b nào đó.
T p trung vào phân b Gaussian, gi s có N đi m, x � i
� Các đi m này có phân b chu n, s d ng c l ng
ML đ tìm giá tr k v ng và ma tr n hi p ph ng sai t ng ng.
và
Trang 118S_hat=(1/N)*S_hat;
Trang 1203.5 MÔ HÌNH H N H P
Khi hàm phân b c a d li u trong m t l p ch a bi t, nó c n
đ c c l ng đ có th áp d ng vào b phân l p Bayesian.
Trang 123randn( 'seed' ,0);
m1=[1, 1]'; m2=[3, 3]';
m=[m1 m2];
S(:,:,1)=[0.1 -0.08; -0.08 0.2];
Trang 125% N: s đi m trong mô hình
% sed: giá tr kh i t o cho hàm
Trang 126VÍ D PH N 3.5 (CONT)
Hình 1
Trang 127VÍ D PH N 3.5 (CONT)
Hình 2:
Trang 128VÍ D PH N 3.5 (CONT)
Hình 3:
Trang 129VÍ D PH N 3.5 (CONT)
Hình 4:
Trang 1313.6 GI I THU T EM – C C I HÀM TIN C Y (CONT)
Ví d v v n đ c a bài toán
Trong ví d trên:
Trang 1323.6 GI I THU T EM – C C I HÀM TIN C Y (CONT)
Ý t ng: s d ng k thu t ML cho d li u không đ y đ
G i y là b d li u đ y đ , , v i hàm m t đ xác
su t , v i là vector tham s ch a bi t Tuy nhiên, y
không th y tr c ti p.
Ta có th quan sát đ c , v i l m, và có hàm m t đ xác su t
c l ng ML c a th a mãn khi:
L u ý: y ch a bi t, c c đ i giá tr k v ng d a trên X quan sát và c l ng
Trang 1333.6 GI I THU T EM – C C I HÀM TIN C Y (CONT)
Trang 1343.6 GI I THU T EM – C C I HÀM TIN C Y (CONT)
V i ý t ng trên, ph n này mô t gi i thu t cho mô hình h n
h p Gaussian v i ma tr n hi p ph ng sai d ng đ ng chéo
có d ng: nh sau:
Trong tr ng h p này: xác su t ti n nghi m ; giá tr k v ng
; ph ng sai ch a bi t.
C n c l ng t i b c
Trang 1353.6 GI I THU T EM – C C I HÀM TIN C Y (CONT)
E-step:
M-step:
Trang 1363.6 GI I THU T EM – C C I HÀM TIN C Y (CONT)
Sau khi hoàn thành các b c l p, ch c n tính
Trang 137VÍ D M C 3.6
Chu n b d li u cho bài toán:
Sinh b d li u có N=500 d li u 2D đ c theo hàm phân b :
Trang 139VÍ D M C 3.6 (CONT)
D li u đ u vào:
Trang 140VÍ D M C 3.6 (CONT)
K t qu tr ng h p 1:
Trang 141VÍ D M C 3.6 (CONT)
K t qu tr ng h p 2:
Trang 142VÍ D M C 3.6 (CONT)
K t qu tr ng h p 3:
Trang 1433.7 C A S PARZEN
i v i bài toán c l ng không tham s c a m t phân b
ch a bi t d a trên b d li u đã cho có th s d ng ph ng pháp c a s Parzen đ c l ng phân b
Ý t ng chung: Chia không gian nhi u chi u thành các hình
kh i có kích th c h Qua đó, c l ng các thành ph n c a phân b d a trên s d li u trong hình kh i.
Trang 1453.7 C A S PARZEN (CONT)
N u nhân là hàm Gaussian, khi đó ta có:
Trang 146VÍ D PH N 3.7
Gi s t o đ c b d li u g m N=1000 ph n t đ n gi n, sinh ng u nhiên theo hàm:
V i:
S d ng c a s Parzen đ c l ng l i d li u nói trên.
Trang 148px(k)=px(k)*(1/N)*(1/(((2*pi)^(l /2))*(h^l)));
k=k+1;
Trang 149VÍ D PH N 3.7 (CONT)
K t qu :
Trang 1503.8 C L NG K LÁNG GI NG G N NH T
Xem xét b d li u g m N đi m: ch a bi t phân b
Trang 1534.1 GI I THI U CHUNG
Trong ch ng này t p trung vào vi c thi t k hàm phân bi t/m t quy t đ nh có kh n ng phân l p theo m t tiêu chí nào đó.
V i các k thu t s d ng b phân l p Bayesian d a trên c
l ng hàm phân b d li u c a m i l p Tuy nhiên, đây là nhóm công vi c ph c t p đ i v i d li u có s chi u l p.
Ch ng này đ a ra gi i pháp xây d ng m t quy t đ nh mà không c n s d ng hàm phân b c a d li u.
Gi i pháp thu c nhóm này đ n gi n h n so v i ph ng pháp phân l p Bayesian, ngay c đ i v i d li u không nhi u.
Trang 1544.1 GI I THI U CHUNG (CONT)
minh h a, thi t k b phân l p tuy n tính đ c mô t :
hay có th vi t l i:
Nh v y, n u đ c c l ng, m t b d li u x s thu c l p
n u:
L u ý: đ đ n gi n cách vi t, có th l c b ký hi u chuy n v
Trang 1554.1 GI I THI U CHUNG (CONT)
V i d li u trên, có th dùng b phân l p tuy n tính
Trang 1564.1 GI I THI U CHUNG (CONT)
Trang 1574.2 THU T TOÁN PERCEPTRON
Trang 1584.2 THU T TOÁN PERCEPTRON (CONT)
Nguyên t c chung c a gi i thu t là gi m gradient!
Trang 1594.2 THU T TOÁN PERCEPTRON (CONT)
Ví d v s bi n đ i trong ý t ng:
) 1 (
)
(
) ( )
1 (
t
t
x t
w
x t
w t
Trang 1604.2 THU T TOÁN PERCEPTRON (CONT)
Trang 1614.2 THU T TOÁN PERCEPTRON (CONT)
Sau khi hình thành b phân l p, m t d li u x thu c l p nào tùy vào k t qu c a hàm:
Hàm đ c g i là hàm truy n hay hàm kích ho t Ví d :
Mô hình m ng c b n (perceptron hay neuron):
Trang 1624.2 THU T TOÁN PERCEPTRON (CONT)
Xây d ng Perceptron trong MatLAB có d ng:
w iter mis clas perce X y w ini rho
Trang 1634.2 THU T TOÁN PERCEPTRON (CONT)
function
[w,iter,mis_clas]=perce(X,y,w_ini,rho)
[l,N]=size(X);
max_iter=20000; % so vong lap toi da
w=w_ini; % khoi tao vecto trong
so
iter=0; % so buoc lap
mis_clas=N; % so vecto bi phan lop sai
if (iter==1)
fprintf( '\n Sau vong lap dau
Trang 164VÍ D PH N 4.2
T o b d li u X - 2 chi u 100 d li u đ u mang nhãn -1,phân b trong [0, 2]×[0, 2] 100 d li u ti p theo mangnhãn 1, phân b trong [3, 5]×[3, 5] Thành ph n th 3 cógiá tr 1
Các b c th c hi n:
V b d li u nói trên.
Th c hi n gi i thu t Perceptron v i h s h c là 0.01 và 0.05; vecto tr ng s kh i t o: [1, 1, −0.5]T
Nh n xét k t qu th c hi n.
Trang 1651), 'r.' )
X1(1,y1==-1),X1(2,y1==-figure(1), axis equal
[w,iter,mis_clas]=perce(X1,y1, w_ini,rho)
% 3 ve bo phan lop
a=0:0.1:5;
b=(-w(1)*a-w(3))/w(2);
figure(1),plot(a,b, 'k' )
Trang 167VÍ D PH N 4.2
L p l i ví d trên v i d li u:
100 d li u đ u mang nhãn -1, phân b trong [0, 2]×[0, 2].
100 d li u ti p theo mang nhãn 1, phân b trong [0, 2]×[2, 4].
Thành ph n th 3 có giá tr 1.
Các b c th c hi n:
V b d li u nói trên.
Th c hi n gi i thu t Perceptron v i h s h c là 0.01 và 0.05; vecto tr ng s kh i t o: [1, 1, −0.5]T
Nh n xét k t qu th c hi n.