Mục đích của đồ án nhằm nghiên cứu bài toán phân lớp nhị phân để khi ta đưa một bức ảnh vào thì ta có thể dùng thuật toán trong bài toán phân lớp nhị phân để đưa ra giới tính của một bức ảnh là nam hay nữ. Để nắm rõ các nội dung nghiên cứu, mời các bạn cùng tham khảo đồ án.
Trang 1TR ƯỜ NG Đ I H C VINH Ạ Ọ
VI N K THU T VÀ CÔNG NGH Ệ Ỹ Ậ Ệ
ĐINH TH NHUNG Ị
NGHIÊN C U PH Ứ ƯƠ NG PHÁP PHÂN L P NH PHÂN Ớ Ị
TRONG NH N D NG GI I TÍNH QUA NH Ậ Ạ Ớ Ả
Đ ÁN T T NGHI P Đ I H C Ồ Ố Ệ Ạ Ọ
NGÀNH CÔNG NGH THÔNG TIN Ệ
Ngh An, ệ 05 năm 2019
Trang 2TRƯỜNG Đ I H C VINHẠ Ọ
VI N K THU T VÀ CÔNG NGHỆ Ỹ Ậ Ệ
NGHIÊN C U PH Ứ ƯƠ NG PHÁP PHÂN L P NH PHÂN Ớ Ị
TRONG NH N D NG GI I TÍNH QUA NH Ậ Ạ Ớ Ả
Trang 3Ngh An, ệ 05/ 2019
Trang 4L I CAM ĐOAN Ờ
Đ án ồ này là công trình nghiên c u c a cá nhân ứ ủ em, được th c hi n dự ệ ướ ự i s
hướng d n c a Tẫ ủ hs. Võ Đ c Quang.ứ Các s li u, nh ng k t lu n nghiênố ệ ữ ế ậ
c u đứ ược trình bày trong đ án ồ này hoàn toàn trung th c. ự Em xin hoàn toàn
ch u trách nhi m v l i cam đoan nàyị ệ ề ờ
Ngh An, ngày…. tháng… năm 2019 ệ Sinh viên th c hi nự ệ
Đinh Th Nhungị
Trang 6Hình 7: Ví d v logistic regression.ụ ề
Trang 7Hình 8: B ng d li u ho t đ ng c a chim cánh c t.ả ữ ệ ạ ộ ủ ụ
Hình 9: Đ th ồ ị sigmoid function
Hình 10: Các ví d m u trong AR face database.ụ ẫ
Hình 11: Ví d v k t qu tìm đụ ề ế ả ược b ng Logistic Regressionằ
L I C M N Ờ Ả Ơ
Trang 8Đ hoàn thành đ án t t nghi p, l i đ u tiên em xin chân thành c m nể ồ ố ệ ờ ầ ả ơ
đ n toàn th th y cô trong trế ể ầ ường Đ i H c Vinh và các th y cô trong Vi nạ ọ ầ ệ
K Thu t và Công Ngh , đ c bi t h n là các th y cô trong nganh công nghỹ ậ ệ ặ ệ ơ ầ ̀ ệ thông tin, b môn h th ng thông tin nói riêng, nh ng ngộ ệ ố ữ ười đã t n tìnhậ
hướng d n d y d và trang b cho em nh ng ki n th c b ích trong nămẫ ạ ỗ ị ữ ế ứ ổ năm v a qua.ừ
Đ c bi t em xin chân thành g i l i c m n sâu s c đ n th y giáo Ths. Võặ ệ ử ờ ả ơ ắ ế ầ
Đ c Quang, ngứ ười đã t n tình hậ ướng d n, tr c ti p ch b o và t o m i đi uẫ ự ế ỉ ả ạ ọ ề
ki n giúp đ em trong su t quá trình làm đ án t t nghi p.ệ ỡ ố ồ ố ệ
Sau cùng em xin g i l i c m n chân thành t i gia đình, b n bè, anh chử ờ ả ơ ớ ạ ị khóa trên đã đ ng viên, c vũ và đóng góp ý ki n trong quá trình h c t p,ộ ổ ế ọ ậ nghiên c u cũng nh quá trình làm đ án t t nghi p.ứ ư ồ ố ệ
Em xin chân thành c m n!ả ơ
Ngh An, tháng 05 năm 2019 ệ
Sinh viên th c hi n ự ệ
Đinh Th Nhung ị
Trang 9M Đ U Ở Ầ
1. Lý do ch n đ tàiọ ề
Ngay nay,̀ trí tu nhân t o đang phát tri n ệ ạ ể m nh m ạ ẽ và xâm nh p vào r tậ ấ nhi u lĩnh v c trong cu c s ng nh t đ ng d ch thu t, nh n d ng gi ng nói,ề ự ộ ố ư ự ộ ị ậ ậ ạ ọ
đi u khi n t đ ng,ề ể ự ộ nh n d ng khuôn m t, nh n d ng ch vi t tay.ậ ạ ặ ậ ạ ữ ế v.v. Nó giờ
đ c coi là xu h ng công ngh th gi i và nhi u ng i cho r ng đó là cu cượ ướ ệ ế ớ ề ườ ằ ộ cách m ng công nghi p l n th 4.ạ ệ ầ ứ
Trong lĩnh v c AIự , h c máyọ (machine learning) là m t lĩnh v c liên quanộ ự
đ n vi c nghiên c u cac ky thuât và xây d ng các h th ng co thê “h c”t đ ngế ệ ứ ́ ̃ ̣ ự ệ ố ́ ̉ ọ ự ộ
t d li u, t đo gi i quy t cac v n đ bai toan cu thê. Hay nói cách khác h cừ ữ ệ ừ ́ ả ế ́ ấ ề ̀ ́ ̣ ̉ ọ máy phân nao đo giúp cho máy tính có thê x ly d liêu va đ a ra quyêt đinh nh̀ ̀ ́ ̉ ử ́ ̃ư ̣ ̀ ư ́ ̣ ư con ng i. Ví d khi đ a m t b c nh vào thì máy tính có th x lý b c nhườ ụ ư ộ ứ ả ể ử ứ ả xem nh đó là nam hay là n ả ữ
Trong cac bài toán Machine learning có hai lo i bài toán đ c tr ng đó là bàí ạ ặ ư toán phân l p và phân c m. Môi bai toan co nh ng đăc tr ng riêng va pham vi apớ ụ ̃ ̀ ́ ́ ữ ̣ ư ̀ ̣ ́ dung vao cac loai bai toan th c tê khac nhau. Bên canh đo, bai toan nh n d ng vạ̀ ̀ ́ ̣ ̀ ́ ự ́ ́ ̣ ́ ̀ ́ ậ ạ
x lý nh la môt bai toan hâp dân va co tinh ng dung cao. Trong khuôn khô đôử ả ̀ ̣ ̀ ́ ́ ̃ ̀ ́ ́ ứ ̣ ̉ ̀ nay, em se đi sâu vao nghiên c u bai toan phân l p va cu h n la thuât toaǹ ̃ ̀ ứ ̀ ́ ớ ̀ ̣ ơ ̀ ̣ ́ Logistic Regession đê ap dung vao nhân dang gi i tinh ̉ ́ ̣ ̀ ̣ ̣ ớ ́ qua d liêu nh đâu vao,ữ ̣ ả ̀ ̀ xem nh đó là nam hay là n H n n a, đô an cung se th nghiêm đanh gia hiêuả ữ ơ ữ ̀ ́ ̃ ̃ ử ̣ ́ ́ ̣ qua phân l p cua thuât toan trên môt bô d liêu cu thê AR face database.̉ ớ ̉ ̣ ́ ̣ ̣ ư ̣̃ ̣ ̉
2. M c đích nghiên c uụ ứ
M c đích c a đ tài là nghiên c u bài toán phân l p nh phân đ khi ta đ aụ ủ ề ứ ớ ị ể ư
m t b c nh vào thì ta có th dùng thu t toán trong bài toán phân l p nhộ ứ ả ể ậ ớ ị phân đ đ a ra gi i tính c a m t b c nh là nam hay n ể ư ớ ủ ộ ứ ả ữ
3. Ph m vi th c hi nạ ự ệ
Th c hi n đánh giá trên b d li u AR face database.ự ệ ộ ữ ệ
Trang 104 N i dung th c hi n ộ ự ệ
Đ nghiên c u phể ứ ương pháp phân l p nh phân trong nh n d ng gi i tínhớ ị ậ ạ ớ qua nh thì ta c n th c hi n các bả ầ ự ệ ước sau đây:
Tìm hi u bài toán phân l p nh phân, bài toán nh n d ng và x lýể ớ ị ậ ạ ử
nh, bài toán nh n d ng gi i tính qua nh
Chương 2: Nghiên c u thu t toán Logistic Regressionứ ậ
Chương 3: Th nghi m nh n d ng gi i tính qua nh s d ng b c s dử ệ ậ ạ ớ ả ử ụ ộ ơ ở ữ
li u AR face data base.ệ
Chương 4: K t lu nế ậ
Trang 11CH ƯƠ NG I: C S LÝ THUY T Ơ Ở Ế
1. H c máy (Mọ achine Learning)
1.1 Gi i thi u ớ ệ
Nh ng năm g n đây, Trí ữ ầ tu ệ nhân t o ạ (AI Artificial Intelligence) đang phát tri n m nh m và xâm nh p va tr thanh nh ng công nghê côt loiể ạ ẽ ậ ̀ ở ̀ ữ ̣ ́ ̃ trên nhiêù lĩnh v c ự cuả đ i s ngờ ố con ngươ Ta co thê băt găp s hiên diên cuai.̀ ́ ̉ ́ ̣ ự ̣ ̣ ̉
AI khăp n i. Vi du: ở ́ ơ ́ ̣ Xe t hành c a Google và Tesla, h th ng t tagự ủ ệ ố ự khuôn m t trong nh c a Facebook, tr lý o Siri c a Apple, h th ng g iặ ả ủ ợ ả ủ ệ ố ợ
ý s n ph m c a Amazon, h th ng g i ý phim c a Netflix, máy ch i cả ẩ ủ ệ ố ợ ủ ơ ờ vây AlphaGo c a Google DeepMind, …, ch là m t vài trong vô vàn nh ngủ ỉ ộ ữ
ng d ng c a AI/Machine Learning
Machine Learning là m t lĩnh v cộ ự c a AI,ủ nó có kh năng t h c h i d aả ự ọ ỏ ự trên d li u đ a vào mà không c n ph i đữ ệ ư ầ ả ượ ậc l p trình c thụ ể Machine learning còn cung c p m t ph ng pháp hi u qu đ h c h i d li u thay vìấ ộ ươ ệ ả ể ọ ỏ ữ ệ
d a vào con ng i đ phân tích và d đoán. ự ườ ể ự Nh vàoờ h c máy, các máy tínhọ
có th x lý nh và đ a ra gi i tính cho m i b c nh xem b c nh đ a vào làể ử ả ư ớ ỗ ứ ả ứ ả ư nam hay là n ữ
Cac loai hoc may:́ ̣ ̣ ́
H c có giám sátọ (Supervised Learning): Là ph ng pháp s d ng nh ngươ ử ụ ữ
d li u đã đ c gán nhãn t tr c đ đ a ra các d đoán gi a đ u vàoữ ệ ượ ừ ướ ể ư ự ữ ầ
và đ u ra. Các d li u này đ c g i là d li u hu n luy n và chúng làầ ữ ệ ượ ọ ữ ệ ấ ệ
c p các đ u vàođ u ra. H c có giám sát s xem xét các t p hu n luy nặ ầ ầ ọ ẽ ậ ấ ệ này đ t đó có th đ a ra d đoán đ u ra cho 1 đ u vào m i ch a g pể ừ ể ư ự ầ ầ ớ ư ặ bao gi Ví d m t “email”có th đ c gán nhãn “th rác” ho c “khôngờ ụ ộ ể ượ ứ ặ
th rác” và đ a vào mô hình Supervised Learing đ phân lo i.ư ư ể ạ
Trang 12H c không giám sátọ (Unsupervised Learning): Khác v i h c có giám sát,ớ ọ
h c không giám sát s d ng nh ng d li u ch a đ c gán nhãn t tr cọ ử ụ ữ ữ ệ ư ượ ừ ướ
đ suy lu n. Ph ng pháp này th ng đ c s d ng đ tìm c u trúcể ậ ươ ườ ượ ử ụ ể ấ
c a t p d li u. Tuy nhiên l i không có ph ng pháp đánh giá đ c c uủ ậ ữ ệ ạ ươ ượ ấ trúc tìm ra đ c là đúng hay sai. Ví d nh phân c m d li u, tri t xu tượ ụ ư ụ ữ ệ ế ấ thành ph n chính c a m t ch t nào đó.ầ ủ ộ ấ
H c n a giám sátọ ử là m t l p c a k thu t h c máy, s d ng c dộ ớ ủ ỹ ậ ọ ử ụ ả ữ
li u đã gán nhãn và ch a gán nhãn đ hu n luy n đi n hình là m tệ ư ể ấ ệ ể ộ
lượng nh d li u có gán nhãn cùng v i lỏ ữ ệ ớ ượng l n d li u ch a gánớ ữ ệ ư nhãn. H c n a giám sát đ ng gi a h c không giám sát (không có b tọ ử ứ ữ ọ ấ
kì d li u có nhãn nào) và có giám sát (toàn b d li u đ u đữ ệ ộ ữ ệ ề ược gán nhãn). Nhi u nhà nghiên c u nh n th y d li u không gán nhãn, khiề ứ ậ ấ ữ ệ
đượ ử ục s d ng k t h p v i m t chút d li u có gán nhãn, có th c iế ợ ớ ộ ữ ệ ể ả thi n đáng k đ chính xác. Đ gán nhãn d li u cho m t bài toánệ ể ộ ể ữ ệ ộ
h c máy thọ ường đòi h i m t chuyên viên có kĩ năng đ phân lo iỏ ộ ể ạ
b ng tayằ các ví d hu n luy nụ ấ ệ
được dán nhãn hay nói cách khác thì bài toán này không có đ u raầ Trong
trường h p này, thu t toán s tìm cách phân c m chia d li u thành t ngợ ậ ẽ ụ ữ ệ ừ nhóm có đ c đi m tặ ể ương t nhau, nh ngự ư đ ng th i đ c tính gi a các nhómồ ờ ặ ữ
đó l i ph i càng khác bi t càng t tạ ả ệ ố
Ví d : ụ D li u c a chúng taữ ệ ủ có th là b t c th gì, ch ng h n nh dể ấ ứ ứ ẳ ạ ư ữ
li u vệ ề khách hàng: Thu t toán phân c m s r t h u ích trong vi c đánh giáậ ụ ẽ ấ ữ ệ
và chia thành các nhóm người dùng khác nhau, r i t đó ta có th đ a raồ ừ ể ư
nh ng chi n lữ ế ược marketing phù h pợ trên t ng nhóm ngừ ười dùng đó
Trang 131.3 Bài toán phân l p ớ
Bài toán phân l p thu c m t nhánh ng d ng chính c a lĩnh v c ớ ộ ộ ứ ụ ủ ự Supervised
Learning. Và bài toán là quá trình phân l p m t đ i tớ ộ ố ượng d li u vào hayữ ệ nhi u l p đã cho trề ớ ước nh m t mô hình phân l p (model). Mô hình nàyờ ộ ớ
được xây d ng d a trên m t t p d li u đự ự ộ ậ ữ ệ ược xây d ng trự ước đó có gián nhãn (hay còn g i là hu n luy n). Quá trình phân l p là quá trình gián nhãnọ ấ ệ ớ cho đ i tố ượng d li u.ữ ệ
Hình 1: Ví d v bài toán phân l p ụ ề ớ
Nh v y, nhi m v c a bài toán phân l p là c n tìm m t mô hình phân l pư ậ ệ ụ ủ ớ ầ ộ ớ
đ khi có d li u m i thì có th xác đ nh để ữ ệ ớ ể ị ược d li u đó thu c vào phânữ ệ ộ
l p nào.ớ
Ví d : Ta có b d li u traning bao g m có h t đ u, h t l c, h t lúa sau đóụ ộ ữ ệ ồ ạ ậ ạ ạ ạ
ta xây d ng mô hình phân l p đ gán nhãn cho b d li u đó là h t đ uự ớ ể ộ ữ ệ ạ ậ
được gán nhãn là A, h t lúa có gán nhãn là B, h t l c gán nhãn là C. ti pạ ạ ạ ế theo nhi m v c a bài toán phân l p là tìm mô hình phân l p đ khi ta đ a 1ệ ụ ủ ớ ớ ể ư
Trang 14d li u b che nhãn vào mô hình phân l p đ phân l p xem d li u đóữ ệ ị ớ ể ớ ữ ệ thu c vào h t nào trong 3 h t đã độ ạ ạ ược gán nhãn.
Mô hình bài toán phân l p:ớ
Trang 15Hình 2: Mô hình bài toán phân l p ớ
Trong bài toán phân l p d li u thì có các bài toán sau đây:ớ ữ ệ
Bài toán phân l p đa l p (multiclass).ớ ớ
Bài toán phân l p đa tr ớ ị
Bài toán phân l p nh phân (binary).ớ ị
Bài toán phân l p nh phân là bài toán g n nhãn d li u cho đ i tớ ị ắ ữ ệ ố ượng vào
m t trong hai l p khác nhau d a vào vi c d li u đó có hay không có cácộ ớ ự ệ ữ ệ
đ c tr ng (feature) c a b phân l pặ ư ủ ộ ớ
M t s thu t toán ph bi n:ộ ố ậ ổ ế
Thu t toán ậ Perceptron Learning Algorithm.
Thu t toán Support Vecto Machineậ
Thu t toán Naive Bayesậ
Thu t toán ậ Logistic Regression
1.3.1 Thu t toán ậ Perceptron Learning Algorithm.
PLA là thu t toán classification n n t ng c a các model Neuron Network vàậ ề ả ủ deeplearning. Ý tưởng c a thu t toán đó là v i các classes khác nhau, hãyủ ậ ớ tìm các đường biên đ phân chia các classes này thành nh ng vùng di n tíchể ữ ệ tách bi t. Trệ ường h p đ n gi n nh t c a thu t toán này là phân chia nhợ ơ ả ấ ủ ậ ị phân (binary classification) b ng nh ng đằ ữ ường biên tuy n tính. Bài toánế
được phát bi u nh sau: Choể ư 2 class được dán nhãn khác nhau, tìm m tộ
đường th ng sao cho toàn b các đi m thu c class 1 n m v 1 phía c aẳ ộ ể ộ ằ ề ủ
đường th ng và toàn b các đi m thu c class 2 s n m v phía còn l i v iằ ộ ể ộ ẽ ằ ề ạ ớ
gi đ nh luôn t n t i 1 đả ị ồ ạ ường th ng nh th (không r i vào trẳ ư ế ơ ường h p 2ợ class n m ch ng l n lên nhau d n t i không t n t i đằ ồ ấ ẫ ớ ồ ạ ường biên)
Ví d : ụ Gi s chúng ta có hai t p h p d li u đã đả ử ậ ợ ữ ệ ược gán nhãn được minh
ho trong ạ hình 3 bên trái dưới đây. Hai class c a chúng ta là t p các đi mủ ậ ể màu xanh và t p các đi m màu đ Bài toán đ t ra là: t d li u c a hai t pậ ể ỏ ặ ừ ữ ệ ủ ậ
Trang 16được gán nhãn cho trước, hãy xây d ng m tự ộ classifier (b phân l p) đ khiộ ớ ể
có m t đi m d li u hình tam giác màu xám m i, ta có th d đoán độ ể ữ ệ ớ ể ự ượ cmàu (nhãn) c a nó.ủ
Hình 3: Bài toán Perceptron.
Chúng ta c n tìmầ lãnh thổ c a m i class sao cho, v i m i m t đi m m i, taủ ỗ ớ ỗ ộ ể ớ
ch c n xác đ nh xem nó n m vào lãnh th c a class nào r i quy t đ nh nóỉ ầ ị ằ ổ ủ ồ ế ị thu c class đó. Đ tìmộ ể lãnh thổc a m i class, chúng ta c n đi tìm biên gi iủ ỗ ầ ớ (boundary) gi a haiữ lãnh thổ này Hình 3 bên ph i minh h a m t đả ọ ộ ườ ng
th ng phân chia hai class trong m t ph ng. Ph n có n n màu xanh đẳ ặ ẳ ầ ề ược coi
là lãnh thổ c a l p xanh, ph n có nên màu đ đủ ớ ầ ỏ ược coi là lãnh thổ c a l pủ ớ
đ Trong trỏ ường h p này, đi m d li u m i hình tam giác đợ ể ữ ệ ớ ược phân vào class đ ỏ
1.3.2 Bài toán Logistic Regression
Phương pháp h i quy logistic là m t thu t toán v i mô hình d đoán đồ ộ ậ ớ ự ượ c
s d ng khi bi n y là phân lo i nh phân. Nghĩa là ch l y giá tr 1 và 0. Hi uử ụ ế ạ ị ỉ ấ ị ể theo m t cách khác n a đó là mô hình này nh m d đoán đ u ra r i r c yộ ữ ằ ự ầ ờ ạ
tương ng v i m t vecto đâu vào X. Vi c này tứ ớ ộ ệ ương đương v i chuy nớ ệ phân lo i đ u vào X vào các nhóm y tạ ầ ương ng.ứ
1.3.3 Bài toán Support Vecto Machine
Trang 17Support Vector Machine SVM là m t ph ng pháp h c có giám sát trong cácộ ươ ọ
mô hình nh n d ng m u. Nó không ch ho t đ ng t t v i các d li u đ cậ ạ ẫ ỉ ạ ộ ố ớ ữ ệ ượ phân tách tuy n tính mà còn t t v i c d li u phân tách phi tuy n. V i nhi uế ố ớ ả ữ ệ ế ớ ề bài toán, SVM mang l i k t qu t t nh m ng n ron v i hi u qu s d ng tàiạ ế ả ố ư ạ ơ ớ ệ ả ử ụ nguyên t t h n h n.ố ơ ẳ
Hình 4: Bài toán SVM
1.3.4 Thu t toán Naive Bayes.ậ
Naive Bayes là m t thu t toán phân lo i cho các v n đ phân lo i nh phânộ ậ ạ ấ ề ạ ị (hai l p) và đa l p. K thu t này d hi u nh t khi đớ ớ ỹ ậ ễ ể ấ ược mô t b ng các giáả ằ
tr đ u vào nh phân ho c phân lo i.ị ầ ị ặ ạ
Có m t ộ thuât toan hay trong phân l p nhi phân là thu t toán Logistic̣ ́ ớ ̣ ậ Regression
ap dung nhiế ̣ ̀u trong nhi u bài toán phân l p. ề ớ Ch ng tiêp theo ươ ́ em se trinh baỹ ̀ ̀
ky h n vê ̃ ơ ̀thu t toán này.ậ
Trang 182. Bài toán nh n d ng và x lý nhậ ạ ử ả
Nh n d ng là quá trình phân lo i các đ i tậ ạ ạ ố ượng được bi u di n m t môể ễ ộ hình nào đó và gán chúng m t tên (gán cho đ i tộ ố ượng m t tên g i, t c là m tộ ọ ứ ộ
d ng) d a theo nh ng quy lu t và mâu thu n. Quá trình nh n d ng d a vàoạ ự ữ ậ ẫ ậ ạ ự
nh ng mâu thu n h c bi t trữ ẫ ọ ế ước g i là nh n d ng có th y hay h c có th y,ọ ậ ạ ầ ọ ầ trong nh ng trữ ường h p ngợ ượ ạ ọc l i g i là h c không có th y. ọ ầ
Nh n d ng nh là giai đo n cu i c a các h th ng x lý nh. Nh n d ngậ ạ ả ạ ố ủ ệ ố ử ả ậ ạ
nh d a trên lý thuy t nh n d ng đã đ c đ c p tr ng nhi u sách v nh n
Nh n d ng d a vào k thu t m ng n ron.ậ ạ ự ỹ ậ ạ ơ
Hai cách ti p c n đ u là cách ti p c n kinh đi n các đ i tế ậ ầ ế ậ ể ố ượng nh quan sátả
và thu nh n đậ ược ph i tr i qua giai đo n ti n x lý nh nh m tăng cả ả ạ ề ử ả ằ ườ ng
ch t lấ ượng, làm n i các chi ti t, ti p theo là trích ch n và bi u di n đ cổ ế ế ọ ể ễ ặ
tr ng. Cu i cùng m i là giai đo n nh n d ng. Cách ti p c n th 3 là hoànư ố ớ ạ ậ ạ ế ậ ứ toàn khác. Nó d a vào c ch đoán nh n, l u tr và phân bi t đ i tự ơ ế ậ ư ữ ệ ố ượng mô
ph ng theo ho t đ ng c a h th n kinh con ngỏ ạ ộ ủ ệ ầ ười. Do c ch đ c bi t, cácơ ế ặ ệ
đ i tố ượng thu nh n b i th giác ngậ ở ị ười không c n giai đo n c i thi n màầ ạ ả ệ chuy n ngay sang giai đo n t ng h p, đ i sách v i các m u l u tr đ nh nể ạ ổ ợ ố ớ ẫ ư ữ ề ậ
Trang 19Phân bi t hai ch s vi t tayệ ữ ố ế
Nh n d ng gi i tính qua nh c a khuôn m tậ ạ ớ ả ủ ặ
Đ ng d ng th c t cho bài toán nh n d ng và x lý nh thì trong đ ánể ứ ụ ự ế ậ ạ ử ả ồ này em áp d ng bài toán phân l p nh phân đ nh n d ng gi i tính qua nhụ ớ ị ể ậ ạ ớ ả
r t nhi u thông tin b ích đấ ề ổ ược khai thác t m t b c nh khuôn m t, ví dừ ộ ứ ả ặ ụ
nh danh tính, gi i tính, c m xúc c a con ngư ớ ả ủ ười, tình tr ng s c kh e. Trongạ ứ ỏ
s các thông tin đố ược khai thác t nh m t ngừ ả ặ ười thì gi i tính là m t thu cớ ộ ộ tính quan trong vì nó có khá nhi u ng d ng trong th c t nh đi u tra dânề ứ ụ ự ế ư ề
Trang 20Hình 6: Mô hình nh n d ng gi i tính qua nh ậ ạ ớ ả
Ph n này em s trình bày mô hình nh n d ng gi i tính qua nh xem nh đóầ ẽ ậ ạ ớ ả ả
là nam hay n Thì đ u tiên là ta đ a b d li u vào và chia b d li u raữ ầ ư ộ ữ ệ ộ ữ ệ làm hai ph n train và test. Quá trình phân l p đ c th c hi n theo các b c ầ ớ ượ ự ệ ướsau
Bước 1: Hu n luy n mô hình phân l p d li uấ ệ ớ ữ ệ
Ta đ a d li u là các b c nh đã đư ữ ệ ứ ả ược gán nhãn vào quá trình phân l p. ớTrích ch n đ c tr ng cho m i b c nh. Sau đó ta đ a các b c nh vào mô ọ ặ ư ỗ ứ ả ư ứ ảhình phân l p. Sau khi k t thúc cái quá trình hu n luy n, h th ng s l u l iớ ế ấ ệ ệ ố ẽ ư ạ các tham s đ ph c v cho quá trình phân l p ti p theo.ố ể ụ ụ ớ ế
Bước 2: Phân l p d li u – th nghi m mô hình.ớ ữ ệ ử ệ
Sau khi xây d ng mô hình hu n luy n d li u bự ấ ệ ữ ệ ở ước 1: Ta ti n hành phân ế
l p v i m t b c nh đ a vào b che nhãn. Ta trích ch n đ c tr ng c a b c ớ ớ ộ ứ ả ư ị ọ ặ ư ủ ứ
nh v a m i đ a vào. Sau đó đ a b c nh b che nhãn vào tính toán các
tham s c a hàm quy t đ nh (các tham s c a mô hình hu n luy n) đ xác ố ủ ế ị ố ủ ấ ệ ể
l p cho b c nh đó.ớ ứ ả
Trang 21CHƯƠNG II: THU T TOÁN PHÂN L P NH PHÂN LOGISTICẬ Ớ Ị
REGRESSION1.Gi i thi u ớ ệ
Mô hình h i quy logistic thu c vào bài toán h c giám sát trong Machineồ ộ ọ Learning
Mô hình h i quy logistic s dùng hàm bi n đ i logarit cho bi n đ u ra đồ ẽ ế ổ ế ầ ể
bi n mô hình t quan h phi tuy n tính sang tuy n tính. Hay nói cách khác,ế ừ ệ ế ế
nó bi u di n quan h h i quy tuyên tính dể ễ ệ ồ ưới hàm logarit. Mô hình logistic
có 1 gi đ nh r ng bi n d đoán có giá tr r i r c. N u bi n d đoán ch l yả ị ằ ế ự ị ờ ạ ế ế ự ỉ ấ hai giá tr r i r c, đó là mô hình Binary Logistic Regression. N u bi n dị ờ ạ ế ế ự đoán nhi u h n hai giá tr thì đó là mô hình ề ơ ị Multinomial Logistic Regression.Trong đ án này, em ch t p trung vào ồ ỉ ậ Binary Logistic Regression vì nó r tấ hay được s d ng trong th c t d đoán: nam/n , có/không, s ng/ch t,ử ụ ự ế ự ữ ố ế qua/hay trươt, b b nh/ không b b nh.ị ệ ị ệ
Ph ng pháp h i quy logistic là m t mô hình h i quy nh m d đoán giá tr đ uươ ồ ộ ồ ằ ự ị ầ
ra r i r c ờ ạ (discrete target variable) y ng v i m t véct đ u vàoứ ớ ộ ơ ầ x. Vi c nàyệ
t ng đ ng v i chuy n phân lo i các đ u vàoươ ươ ớ ệ ạ ầ x vào các nhóm y t ng ng.ươ ứ
Trang 22Hay nói cách khác nó là m t thu t toán v i mô hình d đoán độ ậ ớ ự ượ ử ụ c s d ngkhi bi n y là phân lo i nh phân v i đ u ra là [1] ho c [0].ế ạ ị ớ ầ ặ
Vì v y, hãy t o m t b ng ch a các ho t đ ng chim cánh c t và k t qu c aậ ạ ộ ả ứ ạ ộ ụ ế ả ủ
Penguin s s d ng các ho t đ ng (tính năng) trên đ hu n luy n mô hìnhẽ ử ụ ạ ộ ể ấ ệ
h i quy logistic.ồ Sau đó, mô hình h i quy logistic đồ ược đào t o s d đoánạ ẽ ự
c m giác c a chim cánh c t đ i v i các ho t đ ng c a chim cánh c t m i.ả ủ ụ ố ớ ạ ộ ủ ụ ớ
Trang 23Vì không th s d ng b ng d li u phân lo i trên đ xây d ng h i quyể ử ụ ả ữ ệ ạ ở ể ự ồ logistic. B ng d li u ho t đ ng trên c n chuy n đ i thành đi m ho tả ữ ệ ạ ộ ầ ể ổ ể ạ
đ ng, tr ng lộ ọ ượng và m c tiêu tụ ương ng.ứ
TT Ho t đ ngạ ộ
c a chimủ cánh c tụ
Hình 8: B ng d li u ho t đ ng c a chim cánh c t ả ữ ệ ạ ộ ủ ụ
Các t p d li u c p nh t trông nh th này.ậ ữ ệ ậ ậ ư ế Trước khi đi vào bài toán, hãy
hi u thêm v b ng d li u trên.ể ề ả ữ ệ
Ho t đ ng chim cánh c t:ạ ộ ụ
Các ho t đ ng chim cánh c t làm hàng ngày nh ăn cá nh , ănạ ộ ụ ư ỏ cua vv
Đi m ho t đ ng:ể ạ ộ
Đi m ho t đ ng gi ng nh s tể ạ ộ ố ư ố ương đương v i ho t đ ngớ ạ ộ
c a chim cánh c t.ủ ụ Đ i v i ho t đ ng ăn m c, đi m ho tố ớ ạ ộ ự ể ạ
đ ng tộ ương ng là 6 và tứ ương t , đ i v i các ho t đ ng khác,ự ố ớ ạ ộ