1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án tốt nghiệp Công nghệ Thông tin: Nghiên cứu phương pháp phân lớp nhị phân trong nhận dạng giới tính qua ảnh

47 100 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,45 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục đích của đồ án nhằm nghiên cứu bài toán phân lớp nhị phân để khi ta đưa một bức ảnh vào thì ta có thể dùng thuật toán trong bài toán phân lớp nhị phân để đưa ra giới tính của một bức ảnh là nam hay nữ. Để nắm rõ các nội dung nghiên cứu, mời các bạn cùng tham khảo đồ án.

Trang 1

TR ƯỜ NG Đ I H C VINH Ạ Ọ

VI N K  THU T VÀ CÔNG NGH Ệ Ỹ Ậ Ệ

­­­­­­­­­­­­­­­­­­­­­­­­­­

       ĐINH TH  NHUNG

NGHIÊN C U PH Ứ ƯƠ NG PHÁP PHÂN L P NH  PHÂN Ớ Ị  

TRONG NH N D NG GI I TÍNH QUA  NH Ậ Ạ Ớ Ả

Đ  ÁN T T NGHI P Đ I H C Ồ Ố Ệ Ạ Ọ

 NGÀNH CÔNG NGH  THÔNG TIN

Ngh  An,  05 năm 2019

Trang 2

      TRƯỜNG Đ I H C VINHẠ Ọ

VI N K  THU T VÀ CÔNG NGHỆ Ỹ Ậ Ệ

­­­­­­­­­­­­­­­­­­­­­­­­­­

NGHIÊN C U PH Ứ ƯƠ NG PHÁP PHÂN L P NH  PHÂN Ớ Ị  

TRONG NH N D NG GI I TÍNH QUA  NH  Ậ Ạ Ớ Ả

Trang 3

Ngh  An,  05/ 2019

Trang 4

L I CAM ĐOAN

Đ  án ồ này là công trình nghiên c u c a cá nhân ứ ủ em, được th c hi n dự ệ ướ ự i s

hướng d n c a Tẫ ủ hs.  Võ Đ c Quang.ứ   Các s  li u, nh ng k t lu n nghiênố ệ ữ ế ậ  

c u đứ ược trình bày trong đ  án ồ  này hoàn toàn trung th c. ự Em xin hoàn toàn 

ch u trách nhi m v  l i cam đoan nàyị ệ ề ờ

      

      Ngh  An, ngày…. tháng… năm 2019 ệ      Sinh viên th c hi nự ệ

       

   

      Đinh Th  Nhungị

Trang 6

Hình 7: Ví d  v  logistic regression.ụ ề

Trang 7

Hình 8: B ng d  li u ho t đ ng c a chim cánh c t.ả ữ ệ ạ ộ ủ ụ

Hình 9: Đ  th  ồ ị sigmoid function

Hình 10: Các ví d  m u trong AR face database.ụ ẫ

Hình 11: Ví d  v  k t qu  tìm đụ ề ế ả ược b ng Logistic Regressionằ

L I C M  N Ờ Ả Ơ

Trang 8

Đ  hoàn thành đ  án t t nghi p, l i đ u tiên em xin chân thành c m  nể ồ ố ệ ờ ầ ả ơ  

đ n toàn th  th y cô trong trế ể ầ ường Đ i H c Vinh và các th y cô trong Vi nạ ọ ầ ệ  

K  Thu t và Công Ngh , đ c bi t h n là các th y cô trong nganh công nghỹ ậ ệ ặ ệ ơ ầ ̀ ệ thông tin, b  môn h  th ng thông tin nói riêng, nh ng ngộ ệ ố ữ ười đã t n tìnhậ  

hướng d n d y d  và trang b  cho em nh ng ki n th c b  ích trong nămẫ ạ ỗ ị ữ ế ứ ổ  năm v a qua.ừ

Đ c bi t em xin chân thành g i l i c m  n sâu s c đ n th y giáo Ths. Võặ ệ ử ờ ả ơ ắ ế ầ  

Đ c Quang, ngứ ười đã t n tình hậ ướng d n, tr c ti p ch  b o và t o m i đi uẫ ự ế ỉ ả ạ ọ ề  

ki n giúp đ  em trong su t quá trình làm đ  án t t nghi p.ệ ỡ ố ồ ố ệ

Sau cùng em xin g i l i c m  n chân thành t i gia đình, b n bè, anh chử ờ ả ơ ớ ạ ị khóa trên đã đ ng viên, c  vũ và đóng góp ý ki n trong quá trình h c t p,ộ ổ ế ọ ậ  nghiên c u cũng nh  quá trình làm đ  án t t nghi p.ứ ư ồ ố ệ

Em xin chân thành c m  n!ả ơ

Ngh  An, tháng 05 năm 2019 ệ

Sinh viên th c hi n ự ệ

Đinh Th  Nhung ị

Trang 9

M  Đ U Ở Ầ

1. Lý do ch n đ  tàiọ ề

        Ngay nay,̀  trí tu  nhân t o đang phát tri n ệ ạ ể m nh m  ạ ẽ và xâm nh p vào r tậ ấ  nhi u lĩnh v c trong cu c s ng nh  t  đ ng d ch thu t, nh n d ng gi ng nói,ề ự ộ ố ư ự ộ ị ậ ậ ạ ọ  

đi u khi n t  đ ng,ề ể ự ộ  nh n d ng khuôn m t, nh n d ng ch  vi t tay.ậ ạ ặ ậ ạ ữ ế  v.v. Nó giờ 

đ c coi là xu h ng công ngh  th  gi i và nhi u ng i cho r ng đó là cu cượ ướ ệ ế ớ ề ườ ằ ộ  cách m ng công nghi p l n th  4.ạ ệ ầ ứ

       Trong lĩnh v c AIự , h c máyọ  (machine learning)  là m t lĩnh v c liên quanộ ự  

đ n vi c nghiên c u cac ky thuât và xây d ng các h  th ng co thê “h c”t  đ ngế ệ ứ ́ ̃ ̣ ự ệ ố ́ ̉ ọ ự ộ  

t  d  li u, t  đo gi i quy t cac v n đ  bai toan cu thê. Hay nói cách khác h cừ ữ ệ ừ ́ ả ế ́ ấ ề ̀ ́ ̣ ̉ ọ  máy phân nao đo giúp cho máy tính có thê x  ly d  liêu va đ a ra quyêt đinh nh̀ ̀ ́ ̉ ử ́ ̃ư ̣ ̀ ư ́ ̣ ư con ng i. Ví d  khi đ a m t b c  nh vào thì máy tính có th  x  lý b c  nhườ ụ ư ộ ứ ả ể ử ứ ả  xem  nh đó là nam hay là n ả ữ

        Trong cac bài toán Machine learning có hai lo i bài toán đ c tr ng đó là bàí ạ ặ ư  toán phân l p và phân c m. Môi bai toan co nh ng đăc tr ng riêng va pham vi apớ ụ ̃ ̀ ́ ́ ữ ̣ ư ̀ ̣ ́ dung vao cac loai bai toan th c tê khac nhau. Bên canh đo, bai toan nh n d ng vạ̀ ̀ ́ ̣ ̀ ́ ự ́ ́ ̣ ́ ̀ ́ ậ ạ  

x  lý  nh la môt bai toan hâp dân va co tinh  ng dung cao. Trong khuôn khô đôử ả ̀ ̣ ̀ ́ ́ ̃ ̀ ́ ́ ứ ̣ ̉ ̀ nay, em se đi sâu vao nghiên c u bai toan phân l p va cu h n la thuât toaǹ ̃ ̀ ứ ̀ ́ ớ ̀ ̣ ơ ̀ ̣ ́ Logistic Regession đê ap dung vao nhân dang gi i tinh ̉ ́ ̣ ̀ ̣ ̣ ớ ́ qua d  liêu  nh đâu vao,ữ ̣ ả ̀ ̀  xem  nh đó là nam hay là n  H n n a, đô an cung se th  nghiêm đanh gia hiêuả ữ ơ ữ ̀ ́ ̃ ̃ ử ̣ ́ ́ ̣  qua phân l p cua thuât toan trên môt bô d  liêu cu thê AR face database.̉ ớ ̉ ̣ ́ ̣ ̣ ư ̣̃ ̣ ̉

2. M c đích nghiên c uụ ứ

 M c đích c a đ  tài là nghiên c u bài toán phân l p nh  phân đ  khi ta đ aụ ủ ề ứ ớ ị ể ư  

m t b c  nh vào thì ta có th  dùng thu t toán trong bài toán phân l p nhộ ứ ả ể ậ ớ ị phân đ  đ a ra gi i tính c a m t b c  nh là nam hay n  ể ư ớ ủ ộ ứ ả ữ

3. Ph m vi th c hi nạ ự ệ

Th c hi n đánh giá trên b  d  li u AR face database.ự ệ ộ ữ ệ

Trang 10

4  N i dung th c hi n ộ ự ệ

Đ  nghiên c u phể ứ ương pháp phân l p nh  phân trong nh n d ng gi i tínhớ ị ậ ạ ớ  qua  nh thì ta c n th c hi n các bả ầ ự ệ ước sau đây:

Tìm hi u bài toán phân l p nh  phân, bài toán nh n d ng và x  lýể ớ ị ậ ạ ử  

nh, bài toán nh n d ng gi i tính qua  nh

­ Chương 2: Nghiên c u thu t toán Logistic Regressionứ ậ

­ Chương 3: Th  nghi m nh n d ng gi i tính qua  nh s  d ng b  c  s  dử ệ ậ ạ ớ ả ử ụ ộ ơ ở ữ 

li u AR face data base.ệ

­ Chương 4: K t lu nế ậ

Trang 11

CH ƯƠ NG I: C  S  LÝ THUY T Ơ Ở Ế

1. H c máy (M achine Learning)

1.1 Gi i thi u ớ ệ

Nh ng năm g n đây, Trí  ữ ầ tu  ệ nhân  t o  ạ (AI ­ Artificial Intelligence)  đang phát tri n m nh m  và xâm nh p va tr  thanh nh ng công nghê côt loiể ạ ẽ ậ ̀ ở ̀ ữ ̣ ́ ̃ trên nhiêù lĩnh v c ự cuả đ i s ngờ ố  con ngươ  Ta co thê băt găp s  hiên diên cuai.̀ ́ ̉ ́ ̣ ự ̣ ̣ ̉  

AI   khăp n i. Vi du:  ở ́ ơ ́ ̣ Xe t  hành c a Google và Tesla, h  th ng t  tagự ủ ệ ố ự  khuôn m t trong  nh c a Facebook, tr  lý  o Siri c a Apple, h  th ng g iặ ả ủ ợ ả ủ ệ ố ợ  

ý s n ph m c a Amazon, h  th ng g i ý phim c a Netflix, máy ch i cả ẩ ủ ệ ố ợ ủ ơ ờ vây AlphaGo c a Google DeepMind, …, ch  là m t vài trong vô vàn nh ngủ ỉ ộ ữ  

ng d ng c a AI/Machine Learning

Machine Learning là m t lĩnh v cộ ự  c a AI,ủ nó có kh  năng t  h c h i d aả ự ọ ỏ ự  trên d  li u đ a vào mà không c n ph i đữ ệ ư ầ ả ượ ậc l p trình c  thụ ể Machine learning còn cung c p m t ph ng pháp hi u qu  đ  h c h i d  li u thay vìấ ộ ươ ệ ả ể ọ ỏ ữ ệ  

d a vào con ng i đ  phân tích và d  đoán. ự ườ ể ự  Nh  vàoờ  h c máy, các máy tínhọ  

có th  x  lý  nh và đ a ra gi i tính cho m i b c  nh xem b c  nh đ a vào làể ử ả ư ớ ỗ ứ ả ứ ả ư  nam hay là n ữ

Cac loai hoc may:́ ̣ ̣ ́

H c có giám sátọ  (Supervised Learning): Là ph ng pháp s  d ng nh ngươ ử ụ ữ  

d  li u đã đ c gán nhãn t  tr c đ  đ a ra các d  đoán gi a đ u vàoữ ệ ượ ừ ướ ể ư ự ữ ầ  

và đ u ra. Các d  li u này đ c g i là d  li u hu n luy n và chúng làầ ữ ệ ượ ọ ữ ệ ấ ệ  

c p các đ u vào­đ u ra. H c có giám sát s  xem xét các t p hu n luy nặ ầ ầ ọ ẽ ậ ấ ệ  này đ  t  đó có th  đ a ra d  đoán đ u ra cho 1 đ u vào m i ch a g pể ừ ể ư ự ầ ầ ớ ư ặ  bao gi  Ví d  m t “email”có th  đ c gán nhãn “th  rác” ho c “khôngờ ụ ộ ể ượ ứ ặ  

th  rác” và đ a vào mô hình Supervised Learing đ  phân lo i.ư ư ể ạ

Trang 12

H c không giám sátọ  (Unsupervised Learning): Khác v i h c có giám sát,ớ ọ  

h c không giám sát s  d ng nh ng d  li u ch a đ c gán nhãn t  tr cọ ử ụ ữ ữ ệ ư ượ ừ ướ  

đ  suy lu n. Ph ng pháp này th ng đ c s  d ng đ  tìm c u trúcể ậ ươ ườ ượ ử ụ ể ấ  

c a t p d  li u. Tuy nhiên l i không có ph ng pháp đánh giá đ c c uủ ậ ữ ệ ạ ươ ượ ấ  trúc tìm ra đ c là đúng hay sai. Ví d  nh  phân c m d  li u, tri t xu tượ ụ ư ụ ữ ệ ế ấ  thành ph n chính c a m t ch t nào đó.ầ ủ ộ ấ

H c n a giám sátọ ử  là m t l p c a k  thu t h c máy, s  d ng c  dộ ớ ủ ỹ ậ ọ ử ụ ả ữ 

li u đã gán nhãn và ch a gán nhãn đ  hu n luy n ­ đi n hình là m tệ ư ể ấ ệ ể ộ  

lượng nh  d  li u có gán nhãn cùng v i lỏ ữ ệ ớ ượng l n d  li u ch a gánớ ữ ệ ư  nhãn. H c n a giám sát đ ng gi a h c không giám sát (không có b tọ ử ứ ữ ọ ấ  

kì d  li u có nhãn nào) và có giám sát (toàn b  d  li u đ u đữ ệ ộ ữ ệ ề ược gán nhãn). Nhi u nhà nghiên c u nh n th y d  li u không gán nhãn, khiề ứ ậ ấ ữ ệ  

đượ ử ục s  d ng k t h p v i m t chút d  li u có gán nhãn, có th  c iế ợ ớ ộ ữ ệ ể ả  thi n đáng k  đ  chính xác. Đ  gán nhãn d  li u cho m t bài toánệ ể ộ ể ữ ệ ộ  

h c máy thọ ường đòi h i m t chuyên viên có kĩ năng đ  phân lo iỏ ộ ể ạ  

b ng tayằ  các ví d  hu n luy nụ ấ ệ

được dán nhãn  hay nói cách khác thì bài toán này không có đ u raầ  Trong 

trường h p này, thu t toán s  tìm cách phân c m ­ chia d  li u thành t ngợ ậ ẽ ụ ữ ệ ừ  nhóm có đ c đi m tặ ể ương t  nhau, nh ngự ư  đ ng th i đ c tính gi a các nhómồ ờ ặ ữ  

đó l i ph i càng khác bi t càng t tạ ả ệ ố

   Ví d : ụ D  li u c a chúng taữ ệ ủ  có th  là b t c  th  gì, ch ng h n nh  dể ấ ứ ứ ẳ ạ ư ữ 

li u vệ ề khách hàng: Thu t toán phân c m s  r t h u ích trong vi c đánh giáậ ụ ẽ ấ ữ ệ  

và chia thành các nhóm người dùng khác nhau, r i t  đó ta có th  đ a raồ ừ ể ư  

nh ng chi n lữ ế ược marketing phù h pợ  trên t ng nhóm ngừ ười dùng đó

Trang 13

1.3 Bài toán phân l p

Bài toán phân l p thu c m t nhánh  ng d ng chính c a lĩnh v c ớ ộ ộ ứ ụ ủ ự Supervised 

Learning. Và bài toán là quá trình phân l p m t đ i tớ ộ ố ượng d  li u vào hayữ ệ  nhi u l p đã cho trề ớ ước nh  m t mô hình phân l p (model). Mô hình nàyờ ộ ớ  

được xây d ng d a trên m t t p d  li u đự ự ộ ậ ữ ệ ược xây d ng trự ước đó có gián nhãn (hay còn g i là hu n luy n). Quá trình phân l p là quá trình gián nhãnọ ấ ệ ớ  cho đ i tố ượng d  li u.ữ ệ

      

      Hình 1: Ví d  v  bài toán phân l p ụ ề ớ

Nh  v y, nhi m v  c a bài toán phân l p là c n tìm m t mô hình phân l pư ậ ệ ụ ủ ớ ầ ộ ớ  

đ  khi có d  li u m i thì có th  xác đ nh để ữ ệ ớ ể ị ược d  li u đó thu c vào phânữ ệ ộ  

l p nào.ớ

Ví d : Ta có b  d  li u traning bao g m có h t đ u, h t l c, h t lúa sau đóụ ộ ữ ệ ồ ạ ậ ạ ạ ạ  

ta xây d ng mô hình phân l p đ  gán nhãn cho b  d  li u đó là h t đ uự ớ ể ộ ữ ệ ạ ậ  

được gán nhãn là A, h t lúa có gán nhãn là B, h t l c gán nhãn là C. ti pạ ạ ạ ế  theo nhi m v  c a bài toán phân l p là tìm mô hình phân l p đ  khi ta đ a 1ệ ụ ủ ớ ớ ể ư  

Trang 14

d  li u   b  che nhãn   vào mô hình phân l p đ  phân l p xem d  li u đóữ ệ ị ớ ể ớ ữ ệ  thu c vào h t nào trong 3 h t đã độ ạ ạ ược gán nhãn.

Mô hình bài toán phân l p:ớ

Trang 15

Hình 2: Mô hình bài toán phân l p ớ

­ Trong bài toán phân l p d  li u thì có các bài toán sau đây:ớ ữ ệ

Bài toán phân l p đa l p (multiclass).ớ ớ

Bài toán phân l p đa tr ớ ị

Bài toán phân l p nh  phân (binary).ớ ị

­Bài toán phân l p nh  phân là bài toán g n nhãn d  li u cho đ i tớ ị ắ ữ ệ ố ượng vào 

m t trong hai l p khác nhau d a vào vi c d  li u đó có hay không có cácộ ớ ự ệ ữ ệ  

đ c tr ng (feature) c a b  phân l pặ ư ủ ộ ớ  

­M t s  thu t toán ph  bi n:ộ ố ậ ổ ế

Thu t toán ậ Perceptron Learning Algorithm. 

Thu t toán Support Vecto Machineậ

Thu t toán Naive Bayesậ

Thu t toán ậ Logistic Regression

1.3.1 Thu t toán  Perceptron Learning Algorithm. 

PLA là thu t toán classification n n t ng c a các model Neuron Network vàậ ề ả ủ  deeplearning. Ý tưởng c a thu t toán đó là v i các classes khác nhau, hãyủ ậ ớ  tìm các đường biên đ  phân chia các classes này thành nh ng vùng di n tíchể ữ ệ  tách bi t. Trệ ường h p đ n gi n nh t c a thu t toán này là phân chia nhợ ơ ả ấ ủ ậ ị phân (binary classification) b ng nh ng đằ ữ ường biên tuy n tính. Bài toánế  

được phát bi u nh  sau: Choể ư   2 class được dán nhãn khác nhau, tìm m tộ  

đường th ng sao cho toàn b  các đi m thu c class 1 n m v  1 phía c aẳ ộ ể ộ ằ ề ủ  

đường th ng và toàn b  các đi m thu c class 2 s  n m v  phía còn l i v iằ ộ ể ộ ẽ ằ ề ạ ớ  

gi  đ nh luôn t n t i 1 đả ị ồ ạ ường th ng nh  th  (không r i vào trẳ ư ế ơ ường h p 2ợ  class n m ch ng l n lên nhau d n t i không t n t i đằ ồ ấ ẫ ớ ồ ạ ường biên)

Ví d : ụ Gi  s  chúng ta có hai t p h p d  li u đã đả ử ậ ợ ữ ệ ược gán nhãn được minh 

ho  trong ạ hình 3 bên trái dưới đây. Hai class c a chúng ta là t p các đi mủ ậ ể  màu xanh và t p các đi m màu đ  Bài toán đ t ra là: t  d  li u c a hai t pậ ể ỏ ặ ừ ữ ệ ủ ậ  

Trang 16

được gán nhãn cho trước, hãy xây d ng m tự ộ  classifier (b  phân l p) đ  khiộ ớ ể  

có m t đi m d  li u hình tam giác màu xám m i, ta có th  d  đoán độ ể ữ ệ ớ ể ự ượ  cmàu (nhãn) c a nó.ủ

      Hình 3: Bài toán Perceptron.

Chúng ta c n tìmầ  lãnh thổ c a m i class sao cho, v i m i m t đi m m i, taủ ỗ ớ ỗ ộ ể ớ  

ch  c n xác đ nh xem nó n m vào lãnh th  c a class nào r i quy t đ nh nóỉ ầ ị ằ ổ ủ ồ ế ị  thu c class đó. Đ  tìmộ ể  lãnh thổc a m i class, chúng ta c n đi tìm biên gi iủ ỗ ầ ớ  (boundary) gi a haiữ  lãnh thổ này Hình  3  bên ph i minh h a m t đả ọ ộ ườ  ng

th ng phân chia hai class trong m t ph ng. Ph n có n n màu xanh đẳ ặ ẳ ầ ề ược coi 

là lãnh thổ c a l p xanh, ph n có nên màu đ  đủ ớ ầ ỏ ược coi là lãnh thổ c a l pủ ớ  

đ  Trong trỏ ường h p này, đi m d  li u m i hình tam giác đợ ể ữ ệ ớ ược phân vào class đ ỏ

1.3.2 Bài toán Logistic Regression

Phương pháp h i quy logistic là m t thu t toán v i mô hình d  đoán đồ ộ ậ ớ ự ượ  c

s  d ng khi bi n y là phân lo i nh  phân. Nghĩa là ch  l y giá tr  1 và 0. Hi uử ụ ế ạ ị ỉ ấ ị ể  theo m t cách khác n a đó là mô hình này nh m d  đoán đ u ra r i r c yộ ữ ằ ự ầ ờ ạ  

tương  ng v i m t vecto đâu vào X. Vi c này tứ ớ ộ ệ ương đương v i chuy nớ ệ  phân lo i đ u vào X vào các nhóm  y tạ ầ ương  ng.ứ

1.3.3 Bài toán Support Vecto Machine

Trang 17

Support Vector Machine ­ SVM là m t ph ng pháp h c có giám sát trong cácộ ươ ọ  

mô hình nh n d ng m u. Nó không ch  ho t đ ng t t v i các d  li u đ cậ ạ ẫ ỉ ạ ộ ố ớ ữ ệ ượ  phân tách tuy n tính mà còn t t v i c  d  li u phân tách phi tuy n. V i nhi uế ố ớ ả ữ ệ ế ớ ề  bài toán, SVM mang l i k t qu  t t nh  m ng n ­ron v i hi u qu  s  d ng tàiạ ế ả ố ư ạ ơ ớ ệ ả ử ụ  nguyên t t h n h n.ố ơ ẳ

Hình 4: Bài toán SVM

1.3.4 Thu t toán Naive Bayes.

Naive Bayes là m t thu t toán phân lo i cho các v n đ  phân lo i nh  phânộ ậ ạ ấ ề ạ ị  (hai l p) và đa l p. K  thu t này d  hi u nh t khi đớ ớ ỹ ậ ễ ể ấ ược mô t  b ng các giáả ằ  

tr  đ u vào nh  phân ho c phân lo i.ị ầ ị ặ ạ

Có m t ộ thuât toan hay trong phân l p nhi phân là thu t toán Logistic̣ ́ ớ ̣ ậ  Regression 

ap dung nhiế ̣ ̀u trong nhi u bài toán phân l p. ề ớ Ch ng tiêp theo ươ ́ em se trinh baỹ ̀ ̀ 

ky h n vê ̃ ơ ̀thu t toán này.ậ

Trang 18

2. Bài toán nh n d ng và x  lý  nhậ ạ ử ả

Nh n d ng là quá trình phân lo i các đ i tậ ạ ạ ố ượng được bi u di n m t môể ễ ộ  hình nào đó và gán chúng m t tên (gán cho đ i tộ ố ượng m t tên g i, t c là m tộ ọ ứ ộ  

d ng) d a theo nh ng quy lu t và mâu thu n. Quá trình nh n d ng d a vàoạ ự ữ ậ ẫ ậ ạ ự  

nh ng mâu thu n h c bi t trữ ẫ ọ ế ước g i là nh n d ng có th y hay h c có th y,ọ ậ ạ ầ ọ ầ  trong nh ng trữ ường h p ngợ ượ ạ ọc l i g i là h c không có th y.   ọ ầ

  Nh n d ng  nh là giai đo n cu i c a các h  th ng x  lý  nh. Nh n d ngậ ạ ả ạ ố ủ ệ ố ử ả ậ ạ  

nh d a trên lý thuy t nh n d ng đã đ c đ  c p tr ng nhi u sách v  nh n

­ Nh n d ng d a vào k  thu t m ng n ­ron.ậ ạ ự ỹ ậ ạ ơ

Hai cách ti p c n đ u là cách ti p c n kinh đi n các đ i tế ậ ầ ế ậ ể ố ượng  nh quan sátả  

và thu nh n đậ ược ph i tr i qua giai đo n ti n x  lý  nh nh m tăng cả ả ạ ề ử ả ằ ườ  ng

ch t lấ ượng, làm n i các chi ti t, ti p theo là trích ch n và bi u di n đ cổ ế ế ọ ể ễ ặ  

tr ng. Cu i cùng m i là giai đo n nh n d ng. Cách ti p c n th  3 là hoànư ố ớ ạ ậ ạ ế ậ ứ  toàn khác. Nó d a vào c  ch  đoán nh n, l u tr  và phân bi t đ i tự ơ ế ậ ư ữ ệ ố ượng mô 

ph ng theo ho t đ ng c a h  th n kinh con ngỏ ạ ộ ủ ệ ầ ười. Do c  ch  đ c bi t, cácơ ế ặ ệ  

đ i tố ượng thu nh n b i th  giác ngậ ở ị ười không c n giai đo n c i thi n màầ ạ ả ệ  chuy n ngay sang giai đo n t ng h p, đ i sách v i các m u l u tr  đ  nh nể ạ ổ ợ ố ớ ẫ ư ữ ề ậ  

Trang 19

Phân bi t hai ch  s  vi t tayệ ữ ố ế

Nh n d ng gi i tính qua  nh c a khuôn m tậ ạ ớ ả ủ ặ

Đ   ng d ng th c t  cho bài toán nh n d ng và x  lý  nh thì trong đ  ánể ứ ụ ự ế ậ ạ ử ả ồ  này em áp d ng bài toán phân l p nh  phân đ  nh n d ng gi i tính qua  nhụ ớ ị ể ậ ạ ớ ả  

r t nhi u thông tin b  ích đấ ề ổ ược khai thác t  m t b c  nh khuôn m t, ví dừ ộ ứ ả ặ ụ 

nh  danh tính, gi i tính, c m xúc c a con ngư ớ ả ủ ười, tình tr ng s c kh e. Trongạ ứ ỏ  

s  các thông tin đố ược khai thác t   nh m t ngừ ả ặ ười thì gi i tính là m t thu cớ ộ ộ  tính quan trong vì nó có khá nhi u  ng d ng trong th c t  nh  đi u tra dânề ứ ụ ự ế ư ề  

Trang 20

Hình 6: Mô hình nh n d ng gi i tính qua  nh ậ ạ ớ ả

Ph n này em s  trình bày mô hình nh n d ng gi i tính qua  nh xem  nh đóầ ẽ ậ ạ ớ ả ả  

là nam hay n  Thì đ u tiên là ta đ a b  d  li u vào và chia b  d  li u raữ ầ ư ộ ữ ệ ộ ữ ệ  làm hai ph n train và test. Quá trình phân l p đ c th c hi n theo các b c ầ ớ ượ ự ệ ướsau

Bước 1: Hu n luy n mô hình phân l p d  li uấ ệ ớ ữ ệ

Ta đ a d  li u là các b c  nh đã đư ữ ệ ứ ả ược gán nhãn vào quá trình phân l p. ớTrích ch n đ c tr ng cho m i b c  nh. Sau đó ta đ a các b c  nh vào mô ọ ặ ư ỗ ứ ả ư ứ ảhình phân l p. Sau khi k t thúc cái quá trình hu n luy n, h  th ng s  l u l iớ ế ấ ệ ệ ố ẽ ư ạ  các tham s  đ  ph c v  cho quá trình phân l p ti p theo.ố ể ụ ụ ớ ế

Bước 2: Phân l p d  li u – th  nghi m mô hình.ớ ữ ệ ử ệ

Sau khi xây d ng mô hình hu n luy n d  li u   bự ấ ệ ữ ệ ở ước 1: Ta ti n hành phân ế

l p v i m t b c  nh đ a vào b  che nhãn. Ta trích ch n đ c tr ng c a b c ớ ớ ộ ứ ả ư ị ọ ặ ư ủ ứ

nh v a m i đ a vào. Sau đó đ a b c  nh b  che nhãn vào tính toán các 

tham s  c a hàm quy t đ nh (các tham s  c a mô hình hu n luy n) đ  xác ố ủ ế ị ố ủ ấ ệ ể

l p cho b c  nh đó.ớ ứ ả

Trang 21

CHƯƠNG II: THU T TOÁN PHÂN L P NH  PHÂN LOGISTICẬ Ớ Ị  

REGRESSION1.Gi i thi u ớ ệ

  Mô hình h i quy logistic thu c vào bài toán h c giám sát trong Machineồ ộ ọ  Learning

Mô hình h i quy logistic s  dùng hàm bi n đ i logarit cho bi n đ u ra đồ ẽ ế ổ ế ầ ể 

bi n mô hình t  quan h  phi tuy n tính sang tuy n tính. Hay nói cách khác,ế ừ ệ ế ế  

nó bi u di n quan h  h i quy tuyên tính dể ễ ệ ồ ưới hàm logarit. Mô hình logistic 

có 1 gi  đ nh r ng bi n d  đoán có giá tr  r i r c. N u bi n d  đoán ch  l yả ị ằ ế ự ị ờ ạ ế ế ự ỉ ấ  hai giá tr  r i r c, đó là mô hình Binary Logistic Regression. N u bi n dị ờ ạ ế ế ự đoán nhi u h n hai giá tr  thì đó là mô hình ề ơ ị Multinomial Logistic Regression.Trong đ  án này, em ch  t p trung vào ồ ỉ ậ Binary Logistic Regression vì nó r tấ  hay được s  d ng trong th c t  d  đoán: nam/n , có/không, s ng/ch t,ử ụ ự ế ự ữ ố ế  qua/hay trươt, b  b nh/ không b  b nh.ị ệ ị ệ

Ph ng pháp h i quy logistic là m t mô hình h i quy nh m d  đoán giá tr  đ uươ ồ ộ ồ ằ ự ị ầ  

ra r i r c ờ ạ  (discrete target variable) y  ng v i m t véc­t  đ u vàoứ ớ ộ ơ ầ  x. Vi c nàyệ  

t ng đ ng v i chuy n phân lo i các đ u vàoươ ươ ớ ệ ạ ầ  x vào các nhóm y t ng  ng.ươ ứ  

Trang 22

Hay nói cách khác nó là m t thu t toán v i mô hình d  đoán độ ậ ớ ự ượ ử ụ  c s  d ngkhi bi n y là phân lo i nh  phân v i đ u ra là [1] ho c [0].ế ạ ị ớ ầ ặ

Vì v y, hãy t o m t b ng ch a các ho t đ ng chim cánh c t và k t qu  c aậ ạ ộ ả ứ ạ ộ ụ ế ả ủ  

Penguin s  s  d ng các ho t đ ng (tính năng) trên đ  hu n luy n mô hìnhẽ ử ụ ạ ộ ể ấ ệ  

h i quy logistic.ồ  Sau đó, mô hình h i quy logistic đồ ược đào t o s  d  đoánạ ẽ ự  

c m giác c a chim cánh c t đ i v i các ho t đ ng c a chim cánh c t m i.ả ủ ụ ố ớ ạ ộ ủ ụ ớ

Trang 23

Vì không th  s  d ng b ng d  li u phân lo i   trên đ  xây d ng h i quyể ử ụ ả ữ ệ ạ ở ể ự ồ  logistic. B ng d  li u ho t  đ ng trên c n chuy n đ i thành đi m ho tả ữ ệ ạ ộ ầ ể ổ ể ạ  

đ ng, tr ng lộ ọ ượng và m c tiêu tụ ương  ng.ứ

TT Ho t đ ngạ ộ  

c a chimủ  cánh c tụ

 Hình 8: B ng d  li u ho t đ ng c a chim cánh c t ả ữ ệ ạ ộ ủ ụ

Các t p d  li u c p nh t trông nh  th  này.ậ ữ ệ ậ ậ ư ế  Trước khi đi vào bài toán, hãy 

hi u thêm v  b ng d  li u trên.ể ề ả ữ ệ

Ho t đ ng chim cánh c t:ạ ộ ụ

 Các ho t đ ng chim cánh c t làm hàng ngày nh  ăn cá nh , ănạ ộ ụ ư ỏ  cua   vv

Đi m ho t đ ng:ể ạ ộ

 Đi m ho t đ ng gi ng nh  s  tể ạ ộ ố ư ố ương đương v i ho t đ ngớ ạ ộ  

c a chim cánh c t.ủ ụ  Đ i v i ho t đ ng ăn m c, đi m ho tố ớ ạ ộ ự ể ạ  

đ ng tộ ương  ng là 6 và tứ ương t , đ i v i các ho t đ ng khác,ự ố ớ ạ ộ  

Ngày đăng: 09/01/2020, 13:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w