1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)

56 313 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 2,44 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)Nhận dạng biển số xe dùng phương pháp học sâu CNNs (Luận văn thạc sĩ)

Trang 1

NGUYỄN DUY LONG

Trang 2

NGUYỄN DUY LONG

NHẬN DẠNG BIỂN SỐ XE DÙNG PHƯƠNG PHÁP HỌC SÂU CNNs

Chuyên ngành: Hệ thống thông tin

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác

Tp Hồ Chí Minh, ngày 20 tháng 4 năm 2018

Học viên thực hiện luận văn

Nguyễn Duy Long

Trang 4

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn chân thành nhất đến PGS.TS Lê Hoàng Thái,

Thầy đã tận tâm chỉ dẫn, truyền đạt những kiến thức và kinh nghiệm quý báu cho tôi suốt quá trình thực hiện luận văn này

Tôi cũng xin được gửi lời cảm ơn đến các quí Thầy Cô giáo trong khoa Đào tạo Sau đại học, Học Viện Công Nghệ Bưu Chính Viễn Thông cơ sở tại thành phố

Hồ Chí Minh đã trang bị cho tôi những kiến thức nền tảng quan trọng trong suốt quá trình tôi theo học

Tôi xin chân thành cảm ơnquý công ty Tâm Toàn Thắng đã tạo điều kiện và cung cấp số liệu cho tôi hoàn thiện luận văn này

Và cuối cùng, tôi xin được gửi lời cảm ơn đến gia đình và bạn bè, những người đã động viên tôi trong suốt thời gian vừa qua

Mặc dù đã cố gắng song luận văn cũng không tránh khỏi những thiếu sót Tôi rất mong nhận được những ý kiến đóng góp của Thầy Cô để tôi có thể hoàn thiện hơn đề tài của mình

Xin trân trọng cảm ơn

Tp Hồ Chí Minh, ngày 20 tháng 4 năm 2018

Học viên thực hiện luận văn

Nguyễn Duy Long

Trang 5

Mục Lục

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

Mục Lục iii

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v

DANH SÁCH BẢNG vi

DANH SÁCH HÌNH VẼ vii

MỞ ĐẦU 1

Chương 1 – TỔNG QUAN 3

1.1.Khái niệm về hệ thống nhận dạng biển số xe 3

1.1.1.Khái niệm 3

1.1.2.Lịch sử và phát triển 3

1.1.3.Cách thức hoạt động của hệ thống 4

1.1.4.Ứng dụng thực tiễn tại Việt Nam 4

1.2.Một số nghiên cứu về phương pháp cách ly biển số, phân đoạn ký tự từ ảnh chụp của camera 5

1.2.1.Chuyển đổi Hough 5

1.2.2.Hình thái học 5

1.3.Một số nghiên cứu về phương pháp nhận dạng ký tự trong biển số từ ảnh chụp của camera 6

1.4.Đề xuất phương pháp áp dụng trong luận văn 7

Chương 2 – CƠ SỞ LÝ THUYẾT 8

2.1.Tổng quan về mạng noron, luật học delta và lan truyền ngược 8

2.1.1.Giới thiệu về mạng noron 8

2.1.2.Một số kiểu mạng noron 10

2.1.3.Mạng noron lan truyền ngược MLP 11

2.2.Giới thiệu về mạng noron tích chập và kỹ thuật cải tiến 15

Trang 6

2.2.1.Giới thiệu về mạng noron tích chập 15

2.2.2.Convolution 15

2.2.3.Mô hình mạng noron tích chập 16

2.2.4.Xây dựng mạng noron tích chập 17

2.3.Phương pháp cải tiến gần đây 21

2.3.1.Phương pháp học không giám sát để huấn luyện bộ trọng ban đầu 21

2.3.2.Phương pháp Dropout trong Deep Neural Networks 21

Chương 3 – THỰC NGHIỆM 24

3.1.Thực nghiệm mạng noron căn bản tự xây dựng trên bộ dữ liệu ảnh sưu tập 24

3.2 Thực nghiệm mạng noron căn bản dùng thư viện trên bộ dữ liệu ảnh sưu tập 27 3.3.Thực nghiệm phương pháp phân lớp truyền thống dựa vào hình thái học sử dụng thư viện open CV trên bộ dữ liệu ảnh sưu tập 28

3.4 Thực nghiệm mạng noron đa lớp trên bộ dữ liệu ảnh sưu tập 31

Chương 4 – CÀI ĐẶT VÀ KIỂM THỬ 33

4.1 Cài đặt ứng dụng 33

4.1.1.Nền tảng công nghệ sử dụng 33

4.1.2.Các chức năng của chương trình 35

4.2 Kiểm thử và đánh giá 38

4.3 Nhận xét 42

KẾT LUẬN 44

DANH MỤC CÁC TÀI LIỆU THAM KHẢO 45

Trang 7

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

ANN Artificial Neural Network Mạng noron nhân tạo

ALPR Automatic License Plate

MSE Mean Squared Error Sai số trung bình tổng

bình phương MPE Mean Percentage Error Phần trăm sai số trung

bình

Trang 8

DANH SÁCH BẢNG

Bảng 4.1: Bảng thống kê kết quả nhận dạng trên ảnh tự tạo 41Bảng 4.2: Bảng thống kê kết quả nhận dạng trên ảnh thực tế 41Bảng 4.3: So sánh các kỹ thuật áp dụng của luận văn với công ty Tâm Toàn Thắng 42

Trang 9

DANH SÁCH HÌNH VẼ

Hình 2.1: Mô hình một noron sinh học 9

Hình 2.2: Mô hình một noron nhân tạo của McCulloch và Pitts 9

Hình 2.3: Ánh xạ phi tuyến trong noron 11

Hình 2.4: Mô hình mạng noron truyền thẳng đơn giản 12

Hình 2.5: Cơ chế tích chập 16

Hình 2.6: Ví dụ mạng noron tích chập 17

Hình 2.7: Ý tưởng mạng noron tích chập 17

Hình 2.8: Ví dụ phép toán tích chập 18

Hình 2.9: Ví dụ áp dụng phép tính Conv trên ảnh 18

Hình 2.10: Các thành phần của Conv 19

Hình 2.11: Phương pháp học không giám sát cho bộ trọng 21

Hình 2.12: Mạng noron chuẩn/mạng áp dụng Drop - Out 22

Hình 3.1: Mẫu biển 11 ký tự (Nhãn: 74-DY038.45_1) 24

Hình 3.2: Mẫu biển 9 ký tự (Nhãn: 09-T13567_1) 24

Hình 3.3: Biển số nhãn:82-T8242.84_0 25

Hình 3.4: Biển số nhãn: 79-V41104_0 25

Hình 3.5: Ảnh đầu vào sau khi vecto hóa 25

Hình 3.6: Nhãn của ảnh đầu vào sau khi vecto hóa 25

Hình 3.7: Noron căn bản sau huấn luyện 26

Hình 3.8: Tập tin bộ trọng 26

Hình 3.9: Kết quả kiểm thử mạng noron căn bản 27

Hình 3.10: Thực nghiệm noron căn bản dùng thư viện 28

Hình 3.11: Giao diện đăng ký ứng dụng TTT-SP 29

Hình 3.12: Giao diện chức năng chính ứng dụng TTT-SP 29

Hình 3.13: Sau khi đăng nhập thành công 30

Hình 3.14: Giao diện vận hành TTT-SP 30

Hình 3.15: Thực nghiệm mạng CNNs đơn giản 31

Hình 4.1: Mô hình mạng 34

Hình 4.2: Huấn luyện sau 460 lần lặp 34

Trang 10

Hình 4.3: Huấn luyện sau 32460 lần lặp 35

Hình 4.4: Giao diện trang chủ của chương trình 36

Hình 4.5: Chọn ảnh cần nhận dạng 36

Hình 4.6: Bươc tiến hành nhận dạng 37

Hình 4.7: Đăng nhập vào chương trình 37

Hình 4.8: Đăng nhập với quyền quản trị 38

Hình 4.9: Tiếp tục huấn luyện mô hình mạng của chương trình 38

Hình 4.10: Kiểm thử với bộ ảnh thực tế 39

Hình 4.11: Tọa độ các cửa sổ 40

Hình 4.12: Biển số nhận dạng sai 40

Trang 11

MỞ ĐẦU

Trong bối cảnh toàn cầu hóa và hội nhập quốc tế hiện nay, cùng với sự bùng

nổ thông tin, sự phát triển của khoa học kỹ thuật và nhu cầu đi lại ngày càng tăng số lượng phương tiện giao thông trên đường ngày càng xuất hiện nhiều Với số lượng phương tiện giao thông lớn và còn không ngừng tăng lên như vậy đã làm nảy sinh nhiều vấn đề trong việc kiểm soát cũng như quản lý các phương tiện Để giải quyết vấn đề này nhu cầu đặt ra là áp dụng các hệ thống tự động Một trong những hệ thống như vậy là hệ thống tự động nhận dạng biển số xe là hệ thống có khả năng thu nhận hình ảnh cũng như là “đọc” và “hiểu”các biển số xe một cách tự động

Một hệ thống như vậy có thể được sử dụng trong rất nhiều các ứng dụng chẳng hạn như: trạm cân và rửa xe tự động hoàn toàn, bãi giữ xe tự động, kiểm soát lưu lượng giao thông, giám sát tai nạn hay trong các ứng dụng về an ninh như tìm kiếm xe mất cắp

Như mọi hệ thống tự động khác, hệ thống như vậy cũng sẽ yêu cầu có cả phần cứng lẫn phần mềm Phần cứng của nó có phần chính sẽ là một camera có tác dụng thu nhận hình ảnh còn phần mềm sẽ có tác dụng xử lý hình ảnh đó Với sự phát triển của kỹ thuật điện tử, các camera sẽ dễ dàng có khả năng thu nhận được hình ảnh do đó mà vấn đề đặt ra và luôn là vấn đề quan trọng nhất trong hệ thống, quyết định tính hiệu quả của hệ thống xử lý ảnh như vậy sẽ là phần mềm xử lý ảnh Với vai trò như đã phân tích ở trên nghiên cứu này tập trung vào giải quyết các vấn

đề đặt ra khi xử lý ảnh để đưara chính xác biển số đăng ký xe

Trước đây, đã có những nghiên cứu đáng kể về việc phát hiện biển số [1], [2]

và những kỹ thuật nhận dạng [3], [4], [5], [6] Tuy nhiên hầu hết đều có những hạn chế nhất định, làm việc với camera tĩnh, góc nhìn, độ phân giải cố định, chỉ sử dụng cho một mẫu hay loại biển số cụ thể, phụ thuộc vào font chữ dùng trên biển số Đặc biệt là độ chính xác không được tốt dưới những điều kiện khác nhau như ảnh chụp không trực diện (thay đổi về tư thế), nhạy cảm với độ sáng (chói sáng, thiếu sáng), hiệu ứng sáng tối

Trang 12

Chính vì các lý do cơ bản trên, việc lựa chọn đề tài nghiên cứu “Nhận dạng biển số xe dùng phương pháp học sâu CNNs” là cần thiết và đáp ứng yêu cầu cấp

thiết của mục tiêu cải thiện độ chính xác cho hệ thống nhận dạng biển số tự động

Luận văn được bố cục như sau:

Chương 1 –Tổng quan – Cơ sở lý luận

Chương 2 – Cơ sở lý thuyết

Chương 3 –Thực nghiệm

Chương 4 – Cài đặt và kiểm thử

Trang 13

Đến năm 1996, công nghệ ALPR đã được hoàn thiện tại mỗi cổng phía tây Vương quốc Anh để đọc tất cả các biển đăng ký xe từ Ireland Công nghệ ALPRtiếp tục được nghiên cứu và phát triển tại Anh Kể từ tháng ba năm 2006, hầu hết các con đường, các trung tâm thị trấn, cảng, trạm xăng của London đã được lắp đặt camera chạy phần mềm ALPR

Trên thế giới hiện nay, bài toán nhận dạng biển số xe được nghiên cứu và phát triển một cách sâu rộng Nhiều tác giả với các công trình nghiên cứu được công bố với tỉ lệ nhận dạng ngày càng chính xác Một số bài báo cáo nghiên cứu của các tác giả tiêu biểu trong vài năm trở lại đây như:

Chirag N Paunwala, 2010 [11] với nội dung: rút trích vùng số xe trong ảnh Ảnh đầu vào được tiền xử lý bằng cách phương pháp nâng cao chất lượng ảnh, sau đó tìm biên bằng Vertical Edge và xử lý một lần nữa bằng Opening và Closing Các vùng ứng viên sau đó được kiểm tra bằng thuật toán scan theo dòng để tìm được vùng chứa biển số xe chính xác Kết quả nhận dạng 750 ảnh trong các điều kiện khác nhau cho tỉ lệ 742/750 = 99.2

Choo Kar Soon, 2012 [12] với nội dung: nhận dạng biển số xe tại Malaysia,

sử dụng giải thuật Adaboots để training tập dữ liệu gồm gần 100 ảnh biển số Các

ký tự được nhận dạng bằng phương pháp KNN Kết quả nhận dạng biển số 98%

và nhận dạng ký tự 95% trên ảnh tĩnh

Trang 14

1.1.3 Cách thức hoạt động của hệ thống

Hệ thống ALPR (Automatic License Plate Recognition) gồm phần cứngvà phần mềm, trong đó phần cứng là camera thu nhận ảnh xe và phần mềm có chức năng nhận dạng biển số xe từ ảnh chụp của camera Camera thu nhận ảnh được đặt tại một vị trí cố định sao cho có thể quét được hình ảnh xe một cách rõ ràng và chụp lại hình ảnh đối tượng xe có chứa biển số Ảnh này được đưa vào phần mềm nhận dạng để trích ra chính xác biển số xe có trong ảnh, sau đó một thuật toán OCR (Optical Character Recognition) được sửdụng để lấy từng ký

tự và chuyển đổi thành định dạng mà máy tính có thểphân biệt được các chữ và số như dạng text…Cùng với sự phát triển của công nghệ, camera ngày nay đã có thể chụp một cách rõ nét trong điều kiện xe chạy với tốc độ cao như ở các đường cao tốc

Không có một hệ thống ALPR nào có thể nhận dạng chính xác 100% Điều đó phụ thuộc vào nhiều yếu tố như thời tiết, độ sáng, góc của camera tới xe,…Một số yếu tố ảnh hưởng đến độ chính xác của hệ thống là:

 Độ phân giải của ảnh kém hoặc ảnh bị mờ

 Điều kiện ánh sáng yếu, bị phản chiếu hoặc che bóng

 Các đối tượng có dạng tương tự như biển số xe ở ngoại cảnh

 Sự khác nhau về cấu trúc biển số xe của mỗi nước

1.1.4 Ứng dụng thực tiễn tại Việt Nam

Hệ thống nhận dạng biển số xe được xây dựng nhằm mục đích giám sát, kiểm soát các phương tiện Dưới đây chúng ta đề cập đến một số ứng dụng phổ biến đối với hệ thống nhận dạng biển số xe:

 Thu phí giao thông: Lắp đặt hệ thống “Nhận dạng biển số xe” tại các trạm thu phí nhằm hỗ trợ hoặc tự động hóa công tác thu phí

 Kiểm soát xe tại các đường biên giới: Mỗi quốc gia đều có những quy định riêng về biển số xe, để phục vụ cho công tác quản lý và phát hiện những phương tiện giao thông (xe) vượt biên giới bất hợp pháp Việc lắp hệ thống

Trang 15

“Nhận dạng biển số xe” tại các trạm kiểm soát sẽ góp phần hỗ trợ công tác kiểm tra và an ninh quốc gia

 Các trạm gác cổng: Việc lắp đặt hệ thống “Nhận dạng biển số xe” sẽ hỗ trợ hoặc tự động hóa công tác mở cổng cho xe vào Ngoài ra, hệ thống còn được ứng dụng vào công tác chống trộm xe, các bãi giữ xe tự động, điều tiết giao thông

1.2 Một số nghiên cứu về phương pháp cách ly biển số, phân đoạn

ký tự từ ảnh chụp của camera

1.2.1 Chuyển đổi Hough

Dò đặc trưng biên ngang, dọc: làm nổi bật các viền bao của tất cả các đối tượng trong ảnh trong đó có viền bao biển số Phương pháp sử dụng các bộ lọc gradient để trích được các đặc trưng cạnh biên này Nghiên cứu này sửdụng bộ lọc Sobel để tiến hành dò Dùng chuyển đổi Hough tìm các đoạn thẳng ngang dọc trên cở sở của ảnh nhị phân biên cạnh thu được từ bước trên Tách các đoạn thẳng ngang, dọc có thể là cạnh của biển số

Trích ứng viên biển số: thành lập các hình chữ nhật là ứng viên cho biển

số với tiêu chí cụ thể là các bộ 4 đoạn thẳng thu được sẽ qua đánh giá vềkích thước,

tỉ lệ chiều rộng trên chiều cao so với một ngưỡng nào đó

Ưu điểm: độ chính xác cao, không phụ thuộc vào màu sắc của biển sốxe Nhược điểm: Độ phức tạp tính toán khá cao Khi ảnh có thêm nhiêu đối tượng khác thì khối lượng tính toán tăng lên rất nhiều do mục đích là phải xác định được vùng con nào chứa biển số xe và phụ thuộc rất lớn vào bước tríchđặc trưng biên cạnh dẫn đến là các đoạn thẳng ứng viên thu được thường ngắn hơn nhiều so với chiều dọc cũng như chiều ngang của biển số

1.2.2 Hình thái học

Nội dung của phương pháp: Dựa vào đặc trưng quan trọng là biển số xe máy

có độ sáng (tức mức xám khi chuyển bức ảnh về dạng xám) là tương đối khác so với các vùng khác trong bức ảnh, cũng như sự phân bố mức xám là khá đồng

Trang 16

đềutrên biển số và vì vậy khi được nhị phân hoá, vùng biển số là một đối tượng

có đặc thù hình thái, có thể phân biệt được với các vùng khác Như vậy các bước thực hiện là:

 Xác định ngưỡng xám Thực chất là không có phương pháp nào chọn cho đúng ngưỡng xám để thực hiện Thay vào đó, ngưỡng xám sẽ được quét trong một khoảng nào đó Thông qua lược đồ xám ta nhận thấy vùng biển số thường sẽ có độ sáng tương đối lớn (từ 130-200) vì vậy ta sẽ xác định ngưỡng xám cần chọn sẽ thuộc vùng này nhờ đó ta sẽ giảm được thời gian lặp tìm ngưỡng xám

 Nhị phân hoá ảnh xám đầu vào với ngưỡng xám đã xác định

 Lọc các nhiễu gây ảnh hưởng xấu tới đối tượng biển số

 Gắn nhãn cho các đối tượng trong ảnh nhị phân thu được

 Trích ra các đối tượng ứng viên biển số theo tiêu chí cụ thể của biển số xe

về chiều cao, chiều rộng, tỉ lệ các cạnh, diện tích, trọng tâm, số điểm cắt…

1.3 Một số nghiên cứu về phương pháp nhận dạng ký tự trong biển số từ ảnh chụp của camera

Phương pháp phổ biến nhất để nhận dạng ký tự là sử dụng mạng noron (hoặc SVM, K-NN,…), tức là huấn luyện cho máy tính để nhận dạng các ký tự Tuy nhiên do số lượng ký tự trên biển số là không nhiều nên để đảm bảotốc độ

xử lý, chúng ta cũng có thể sử dụng phương pháp Hình thái học để giải quyết khâu này bởi vì các ký tự đều có những đặc điểm hình thái đặc biệt có thể phân biệt với nhau chẳng hạn như “0” có lỗ trống ở giữa, “8” có 2 lỗ trống hay “X” đối xứng 2 trục dọc và ngang…Khâu này được thực hiện trên cơ sở xây dựng cây nhị phân tối

ưu của các đặc điểm hình thái nên đảm bảo tính khoa học và tính chính xác cao Thuật toán cơ bản của bước này như sau:

 Quan sát chọn ra các đặc tính phân biệt ký tự để xây dựng ma trận đặc tính

 Xây dựng cây nhị phân tối ưu từ ma trận đặc tính và tập ký tự thu được

Trang 17

 Quan sát cây nhị phân, kiểm tra số đặc tính như vậy đã đủ để nhận dạng chưa, thiếu (dư) thì phải bổ sung (bỏ đi) và quay lại bước đầu tiên

 Tiến hành nhận dạng các ký tự trên cơ sở cây nhị phân tối ưu tìm được

1.4 Đề xuất phương pháp áp dụng trong luận văn

Các công trình nghiên cứu là những cơ sở quý báo, và các công trình này bước đầu cũng đã áp dụng.Trong đồ án này, công việc cần phải giải quyết vấn đề phát hiện vùng chứa biển số xe và nhận dạng ký tự trong biển số Cả bài toán phát hiện vùng chứa biển số và bài toán nhận dạng ký tự sẽsử dụng mô hình Convolutional Neural Networks để tiến hành nhận dạng cho các biển đăng ký xe của Việt Nam

Trang 18

Chương 2 – CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về mạng noron, luật học delta và lan truyền ngược

2.1.1 Giới thiệu về mạng noron

Mạng Nơron nhân tạo là sự mô phỏng sinh học bằng máy tính bộ não của con người Nó có cấu trúc song song được cấu thành từ nhiều phần tử (Nơron nhân tạo) liên kết với nhau thông qua các trọng số, tập hợp các trọng số này tạo thành bộ trọng của mạng Nơron nhân tạo Mỗi Nơron nhân tạo là một hệ thống động phi tuyến có khả năng tự học Các Nơron và bộ trọng cấu thành cấu trúc mạng Do đó mạng Nơron có khả năng học từ kinh nghiệm hay từ tập mẫu Mạng Nơron được gọi là mô hình liên kết vì vai trò quan trọng của sự kết nối giữa chúng Bộ trọng liên kết chính là “bộ nhớ” của hệ thống

Mạng nơron nhân tạo, Artificial Neural Network (ANN) là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơron sinh học Nó được tạo nên từ một số lượng lớn các phần tử (nơron) kết nối với nhau thông qua các liên kết (trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó Một mạng nơron nhân tạo được cấu hình cho một ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, ) thông qua một quá trình học từ tập các mẫu huấn luyện Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơron

Một Nơron nhân tạo cũng giống như một Nơron sinh học được cấu thành từ hai khối chính: nối kết và thân với nhân bên trong Mỗi khối này chịu trách nhiệm cung cấp hai kiểu biến đổi toán học khác nhau hình thành lên cơ chế xử lý thông tin của một Nơron: Biến đổi toán học nối kết và biến đổi toán học bên trong thân Nơron Mô hình tổng quát của một Nơron được mô tả trong hình sau:

Trang 19

Hình 2.1: Mô hình một noron sinh học

Hình 2.2: Mô hình một noron nhân tạo của McCulloch và Pitts

Sự tương ứng giữa một nơron sinh học và một nơron nhân tạo

Trọng số wi tượng trưng cho cường độ của synapse (gọi là sự kết nối) từ

nơron nguồn j đến nơron đích i Một trọng số dương tương ứng với một synapse

kích hoạt, một trọng số âm tương ứng với một synapse cản trở Nếu wi = 0 tức là

không có sự kết nối giữa hai nơron

Mặc dù với cấu trúc đơn giản với đầu ra chỉ là giá trị nhị phân nhưng nơron

M-P có một khả năng tính toán tiềm ẩn to lớn, nó có thể thực thi các thao tác logic

như NOT, OR, AND khi các trọng số và các ngưỡng được chọn lựa tùy theo Bởi vì

nhiều hàm kết hợp có nhiều biến có thể được thực thi bởi các thao tác cơ bản nên

một sự đồng bộ hóa kết hợp của các nơron có khả năng tính toán rất lớn

Một cách tổng quát, mạng nơron nhân tạo là một cấu trúc xử lý thông tin

phân phối song song có các đặc điểm sau:

)(

f

0

01

)(

“Cháy”

“Không cháy”

Trang 20

2.1.2 Một số kiểu mạng noron

Các nơron trong mạng có thể kết nối đầy đủ (fully connected) tức là mỗi nơron đều được kết nối với tất cả các nơron khác, hoặc kết nối cục bộ (partially connected) chẳng hạn chỉ kết nối giữa các nơron trong các tầng khác nhau Người ta chia ra hai loại kiến trúc mạng chính:

 Tự kết hợp (autoassociative): là mạng có các nơron đầu vào cũng là các nơron đầu ra Mạng Hopfield là một kiểu mạng tự kết hợp

 Kết hợp khác kiểu (heteroassociative): là mạng có tập nơron đầu vào và đầu

ra riêng biệt Perceptron, các mạng Perceptron nhiều tầng (MLP: MultiLayer Perceptron), mạng Kohonen, … thuộc loại này

 Ngoài ra tùy thuộc vào mạng có các kết nối ngược (feedback connections) từ các nơron đầu ra tới các nơron đầu vào hay không, người ta chia ra làm 2 loại kiến trúc mạng:

 Kiến trúc truyền thẳng (feedforward architechture): là kiểu kiến trúc mạng không có các kết nối ngược trở lại từ các nơron đầu ra về các nơron đầu vào; mạng không lưu lại các giá trị output trước và các trạng thái kích

Trang 21

hoạt của nơron Các mạng nơron truyền thẳng cho phép tín hiệu di chuyển theo một đường duy nhất; từ đầu vào tới đầu ra, đầu ra của một tầng bất kì sẽ không ảnh hưởng tới tầng đó Các mạng kiểu Perceptron là mạng truyền thẳng

 Kiến trúc phản hồi (Feedback architecture): là kiểu kiến trúc mạng có các kết nối từ nơron đầu ra tới nơron đầu vào Mạng lưu lại các trạng thái trước

đó, và trạng thái tiếp theo không chỉ phụ thuộc vào các tín hiệu đầu vào mà còn phụ thuộc vào các trạng thái trước đó của mạng Mạng Hopfield thuộc loại này

2.1.3 Mạng noron lan truyền ngược MLP

Hình 2.3: Ánh xạ phi tuyến trong noron

Trang 22

Ánh xạ phi tuyến bao gồm:

Phép toán hợp nhất: đồ án xử dụng phép hợp nhất tuyến tính (Integration Linear Function)

Hàm truyền phi tuyến: đồ án sử dụng hàm sigmoid với  = 1

Đồ án xây dựng mô hình mạng neuron truyền thẳng đơn giản ba lớp với lớp nhập, lớp ẩn và lớp xuất

Hình 2.4: Mô hình mạng noron truyền thẳng đơn giản

Trang 23

Công thức tính độ lỗi tổng cộng của tất cả các neuron trong mạng (bình

phương bé nhất – squared error function):

Cập nhật trọng số sau khi lan truyền đến neuron output sử dụng đạo hàm để

trọng số hội tụ về giá trị tối ưu (độ lỗi là bé nhất có thể): giả sử lúc này đang cập

nhật trọng số thứ 5 của neuron output (w5) Ta xem xét trọng số w5 ảnh hưởng như

thế nào đến độ lỗi tổng cộng

(3)

Trang 24

Lưu ý: Output của neuron ẩn phía trước (outh1) chính là input cho neuron output phía sau Như vậy (3) chính bằng input tương ứng

Như vậy:

Công thức cập nhật trọng số (giả sử w5)

với eta ( ) là hệ số học có miền giá trị [0,1] Như vậy các bước cần tính toán như sau:

+Tính toán lan truyền thẳng đến đầu ra

+Tính toán sai số cho tất cả neuron trong lớp output: (1) * (2) = E_out

+ Tính toán sai số cho tất cả neuron trong lớp ẩn: (1) * (2) Tuy nhiên ở lớp

ẩn công thức (1) đã thay đổi Với mỗi neuron j trong lớp ẩn: (1) =

Lý do: giả sử như neuron ẩn h1 độ lỗi tại đây qui về tổng độ lỗi của các neuron lớp trước (hình bên dưới) Sau khi phân tích tương tự như trên đã đưa ra công thức thay đổi

Trang 25

+ Cập nhật trọng số cho tất cả neuron dựa vào (1)*(2)*(3) tương ứng với công thức cho mỗi lớp (tầng) Với (3) là input tương ứng với mỗi neuron như đã đề cập trong lưu ý

2.2 Giới thiệu về mạng noron tích chập và kỹ thuật cải tiến

2.2.1 Giới thiệu về mạng noron tích chập

Những năm gần đây, chúng ta đã chứng kiến được nhiều thành tựu vượt bậc trong ngành Thị giác máy tính Các hệ thống xử lý ảnh lớn như Facebook, Google hay Amazon đã đưa vào sản phẩm của mình những chức năng thông minh như nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái hay drone giao hàng

Convolutional Neural là một trong những mô hình Deep Learning tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện nay

2.2.2 Convolution

Để dễ hình dung, ta có thể xem tích chập như một cửa sổ trượt (sliding window) áp đặt lên một ma trận Bạn có thể theo dõi cơ chế của tích chập qua hình minh họa Hình 2.5

Trang 26

Hình 2.5: Cơ chế tích chập

Ma trận bên trái là một bức ảnh đen trắng Mỗi giá trị của ma trận tương đương với một điểm ảnh (pixel), 0 là màu đen, 1 là màu trắng (nếu là ảnh grayscale thì giá trị biến thiên từ 0 đến 255)

Sliding window còn có tên gọi là kernel, filter hay feature detector Ở đây, ta dùng một ma trận filter 3×3 nhân từng thành phần tương ứng (element -wise) với

ma trận ảnh bên trái Gía trị đầu ra do tích của các thành phần này cộng lại

Kết quả của tích chập là một ma trận (convoled feature) sinh ra từ việc trượt

ma trận filter và thực hiện tích chập cùng lúc lên toàn bộ ma trận ảnh bên trái [7]

Trong suốt quá trình huấn luyện, CNNs sẽ tự động học được các thông số cho các filter Ví dụ trong tác vụ phân lớp ảnh, CNNs sẽ cố gắng tìm ra thông số tối

ưu cho các filter tương ứng theo thứ tự raw pixel> edges > shapes > facial > high-level features Layer cuối cùng được dùng để phân lớp ảnh

Trang 27

Hình 2.6: Ví dụ mạng noron tích chập

CNNs có tính bất biến và tính kết hợp cục bộ (Location Invariance and Compositionality) Với cùng một đối tuợng, nếu đối tượng này được chiếu theo các gốc độ khác nhau (translation, rotation, scaling) thì độ chính xác của thuật toán sẽ bị ảnh hưởng đáng kể Pooling layer sẽ cho bạn tính bất biến đối với phép dịch chuyển (translation), phép quay (rotation) và phép co giãn (scaling) [7]

2.2.4 Xây dựng mạng noron tích chập

Từ thực tế đặt ra ở mục 2.2.3 người ta thấy rằng để giảm số lượng tham số cần giảm số lượng kết nối giữa các lớp Từ đây thành phần convolution được áp dụng Ý tưởng chính là mỗi noron chỉ cần kết nối tới một vùng cục bộ của ảnh thay

vì trên toàn bộ ảnh như mạng noron truyền thẳng truyền thống

Hình 2.7: Ý tưởng mạng noron tích chập

Tầng Convolution:

Tầng Convolution (Conv) là tầng quan trọng nhất trong cấu trúc của CNNs Conv dựa trên lý thuyết xử lý tín hiệu số, việc lấy tích chập sẽ giúp trích xuất những

Trang 28

thông tin quan trọng từ dữ liệu Hình dưới mô tả lý thuyết và cách thức Conv hoạt động trên một dữ liệu đầu vào được biểu diễn bằng một ma trận hai chiều

Ta có thể hình dung phép tính này được thực hiện bằng cách dịch chuyển một cửa sổ mà ta gọi là kernel trên ma trận đầu vào, trong đó kết quả mỗi lần dịch chuyển được tính bằng tổng tích chập – tích của các giá trị giữa 2 ma trận tại vị trí tương ứng, trong hinh là giá trị đầu ra khi dịch chuyển kernel kích thước 2*2 trên toàn bộ ma trận kích thước 3*4

Hình 2.8: Ví dụ phép toán tích chập

Khi được áp dụng phép tính Conv vào xử lý ảnh người ta thấy rằng Conv sẽ giúp biến đổi các thông tin đầu vào thành các yếu tố đặc trưng Hình 2.9 là minh họa việc áp dụng phép tính Conv trên ảnh trong đó (a) la kết quả biến đổi hình ảnh khi thực hiện phép Conv khác nhau cho ra kết quả khác nhau, (b) là trực quan hóa các kernel dùng để phát hiện các đặc trưng về cạnh, hướng, đốm màu

Hình 2.9: Ví dụ áp dụng phép tính Conv trên ảnh

Ngày đăng: 24/08/2018, 16:44

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Hsieh, J.W., Yu, S.H., Chen, Y.S (2002), “Morphology-based license plate detection from complex scenes” IEEE International Conference on Pattern Recognition Sách, tạp chí
Tiêu đề: Morphology-based license plate detection from complex scenes”
Tác giả: Hsieh, J.W., Yu, S.H., Chen, Y.S
Năm: 2002
[2]. VinhDu Mai, Duoqian Miao and Ruizhi Wang,“An Improved Method for Vietnam License Plate Location based on Mathematic Morphology &Measuring Properties of Image Regions” Sách, tạp chí
Tiêu đề: An Improved Method for Vietnam License Plate Location based on Mathematic Morphology & Measuring Properties of Image Regions
[3]. VinhDu Mai, Duoqian Miao and Ruizhi Wang, “Vietnam License Plate Recognition System based on Edge Detection and Neural Networks” Sách, tạp chí
Tiêu đề: Vietnam License Plate Recognition System based on Edge Detection and Neural Networks
[4]. Du, S., Ibrahim, M., Shehata, M., Member, S., Badawy, W. (2013), “Automatic license plate recognition (alpr): A state-of-the-art review”IEEE Transactions on Circuits and Systems for Video Technology, 23 Sách, tạp chí
Tiêu đề: Automatic license plate recognition (alpr): A state-of-the-art review”"IEEE Transactions on Circuits and Systems for Video Technology
Tác giả: Du, S., Ibrahim, M., Shehata, M., Member, S., Badawy, W
Năm: 2013
[5]. VinhDu Mai, Duoqian Miao and Ruizhi Wang,“Recognition of Characters and Numbers in Vietnam License Plates based on Image Processing and Neural Network” Sách, tạp chí
Tiêu đề: Recognition of Characters and Numbers in Vietnam License Plates based on Image Processing and Neural Network
[6]. Doãn Đạt Phước, Nguyễn Đông Hải Phương, “Automatic License Plate Recognization in Camera Pictures” Sách, tạp chí
Tiêu đề: Automatic License Plate Recognization in Camera Pictures
[7].Lê Thị Thu Hằng, Nghiên cứu về mạng neural tích chập và ứng dụng cho bài toán nhận dạng biển số xe, Đại học công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Nghiên cứu về mạng neural tích chập và ứng dụng cho bài toán nhận dạng biển số xe
[8]. Y. LeCun and Y. Bengio (1995), “Convotional networks for images, speech, and time-series.”M. A. Arbib, editor, The Handbook of Brain Theory and Neural Networks. MIT Press Sách, tạp chí
Tiêu đề: Convotional networks for images, speech, and time-series.”
Tác giả: Y. LeCun and Y. Bengio
Năm: 1995
[9].Syed Zain Masood, Guang Shu, Afshin Dehghan, Enrique G. Ortiz(28/03/2017), “License Plate Detection and Recognition Using Deeply Learned Convolutional Neural Networks” Sách, tạp chí
Tiêu đề: License Plate Detection and Recognition Using Deeply Learned Convolutional Neural Networks
[10]. PGS.TS. Lê Hoàng Thái, Bộ Slide bài giảng Mạng neron nhân tạo, Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP.Hồ Chí Minh Sách, tạp chí
Tiêu đề: Bộ Slide bài giảng Mạng neron nhân tạo

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w