1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỒ án tốt NGHIỆP đại học chuyên ngành hệ THỐNG THÔNG TIN QUẢN lý đề tài nhận dạng biển số xe

63 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 8,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục đích của nhận dạng biển số xe là thực hiện các bước xử lý để từ một ảnh đầu vào, máy tính có thể nhận ra chính xác biển số xe trên ảnh.Nhận dạng biển số xe trở thành một ứng dụng hữu

Trang 3

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

1 Mục đích và nội dung của đồ án:

………

………

………

………

………

2 Kết quả đạt được: ………

………

………

………

………

3 Ý thức làm việc của sinh viên: ………

………

………

………

………

Hà Nội, ngày tháng năm 2022 Giảng viên hướng dẫn

(Ký và ghi rõ họ tên)

Trang 4

MỤC LỤC

Contents

MỤC LỤC 1

MỞ ĐẦU 3

LỜI CẢM ƠN 4

DANH MỤC HÌNH VẼ 5

CHƯƠNG I: GIỚI THIỆU VỀ ĐỀ TÀI 6

1.1 Mục đích nghiên cứu 6

1.2 Đối tượng nghiên cứu 6

1.3 Phạm vi nghiên cứu 6

1.4 Ứng dụng của đề tài 6

1.4.1 Khái niệm nhận dạng biển số xe 6

1.4.2 Ứng dụng 9

CHƯƠNG II: CƠ SỞ LÝ THUYẾT 10

2.1 Học sâu 10

2.2 Mạng nơ-ron nhân tạo 10

2.2.1 Kiến trúc mạng nơ- ron 10

2.2.2 Các kỹ thuật quan trọng trong mạng nơ-ron 15

2.3 Mạng nơ-ron tích chập (Convolutional neural network - CNN) 17

2.3.1 Kiến trúc mạng tích chập 18

2.3.2 Mô hình phát hiện đối tượng 25

2.4 Phân đoạn và nhận dạng ký tự 27

2.4.1 Tổng quan về phân đoạn ký tự 27

2.4.2 Nhận dạng ký tự 27

CHƯƠNG III: MÔ HÌNH ĐỀ XUẤT 29

3.1 Mô hình mạng học sâu YOLOv5 31

3.1.1 Mô hình mạng học sâu YOLO (You Only Look Once) 31

3.1.2 Thuật toán YOLOv5 40

3.2 Mô hình WPOD 43

3.3 Mô hình đề xuất 47

3.3.1 Phát hiện phương tiện giao thông 50

3.3.2 Phát hiện và căn chỉnh biển số 53

3.3.3 Nhận dạng ký tự 55

CHƯƠNG IV: KẾT LUẬN 58

Trang 5

4.1 Kết quả 58

4.2 Hạn chế 58

4.3 Phương hướng phát triển 58

KẾT LUẬN 58

TÀI LIỆU THAM KHẢO 59

Trang 6

MỞ ĐẦU

Hiện nay với sự phát triển kinh tế xã hội đã bùng nổ số lượng phươngtiện giao thông Gây ra những khó khăn trong công tác quản lý, xử lý vi phạmgiao thông mà nguồn nhân lực con người khó có thể đảm đương được Vì vậyvấn đề cần thiết là có một hệ thống quản lý, xử lý vi phạm giao thông tự động

Để xây dựng hệ thống quản lý giao thông tự động thì “Bài toán nhậndạng biển số xe” là tiền đề để xây dựng những mô hình quản lý đó Tuynhiên, hiện nay ở Việt Nam nhưng hệ thống quản lý đó chưa nhiều và lĩnhvực nhận dạng còn đang phát triển

Từ những thực tế đó, trong thời gian làm đồ án tốt nghiệp em đã quyếtđịnh lựa chọn tìm hiểu về bài toán “nhận dạng” trong đó chú trọng vào việcnhận dạng biển số xe Để phục vụ cho bước đầu trong hệ thống quản lýphương tiện giao thông tại Việt Nam Trong điều kiện năng lực và thời gian

có hạn, nên báo cáo của em không tránh khỏi những sai sót Em kính mongthầy cô và các bạn đóng góp những ý kiến để em có thể chỉnh sửa và bổ sungnhững phần thiếu sót để em hoàn thiện đề tài của mình

Trong báo cáo đồ án tốt nghiệp này em trình bày thành 4 chương nhưsau:

Chương I: Giới thiệu về đề tài

Chương II: Cơ sở lý thuyết

Chương III: Mô hình đề xuất

Chương IV: Kết quả thực nghiệm

Trang 7

LỜI CẢM ƠN

Trong thời gian làm đồ án tốt nghiệp, em đã nhận được nhiều sự giúp

đỡ, đóng góp ý kiến và chỉ bảo nhiệt tình của thầy cô và bạn bè

Em xin gửi lời cảm ơn chân thành đến thầy Vũ Thành Nam, giảng viêntrường Đại học Bách khoa Hà Nội, người đã tận tình hướng dẫn, chỉ bảo emtrong suốt quá trình em làm đồ án tốt nghiệp này

Em cũng xin chân thành cảm ơn các thầy cô trong trường Đại học Báchkhoa Hà Nội nói chung và Viện Toán ứng dụng và Tin học nói riêng đã dạy

dỗ cho em kiến thức về các môn đại cương cũng như các môn chuyên ngành,giúp em có được cơ sở lý thuyết vững vàng và tạo điều kiện cho em hoànthành đồ án tốt nghiệp này

Cuối cùng, em xin chân thành cảm ơn gia đình và bạn bè, đã luôn tạođiều kiện, quan tâm, giúp đỡ, động viên em trong suốt quá trình học tập vàhoàn thành đồ án tốt nghiệp

Em xin chân thành cảm ơn!!

Sinh viên thực hiện

Vũ Minh Nguyệt

Trang 8

DANH MỤC HÌNH VẼ

Trang 9

CHƯƠNG I: GIỚI THIỆU VỀ ĐỀ TÀI

1.1 Mục đích nghiên cứu

Hệ thống nhận dạng biển số xe là một ứng dụng dựa trên trên kỹ thuật xử

lý ảnh số Mục đích của nhận dạng biển số xe là thực hiện các bước xử lý để

từ một ảnh đầu vào, máy tính có thể nhận ra chính xác biển số xe trên ảnh.Nhận dạng biển số xe trở thành một ứng dụng hữu ích, được đưa vào trongnhững lĩnh vực như: quản lý giao thông, kiểm tra an ninh, thu phí giao thông,trạm gác cổng, quản lý các bãi giữ xe một cách tự động

1.2 Đối tượng nghiên cứu

Đây là một trong những ứng dụng xử lý ảnh nhận được nhiều sự nghiêncứu về cả hai mặt lý thuyết và thực hiện chương trình Đề tài của em bao gồmcác quá trình xử lý: phân vùng biển số, tách các ký tự và nhận biết các ký tự

1.3 Phạm vi nghiên cứu

Việc có nhiều biển số xe với định dạng và độ sáng khác nhau gây khókhăn cho việ nhận dạng và trích xuất biển số từ ảnh chụp nên độ sáng khácnhau làm tăng độ phức tạp trong quá trình nhận dạng

Do thời thực hiện đề tài không cho phép nên các biển số xe bị giới hạn vớiđiều kiện như sau:

Trang 10

Hệ thống nhận dạng biển số xe là hệ hệ thống có khả năng phân tích hìnhảnh và xác định biển số trên xe, thông qua video, thiết bị ghi hình và hình ảnh.Sau là xác định thông tin như: chủ sở hữu, …

Phân loại ứng dụng nhận dạng biển số xe:

Ứng dụng nhận dạng biển số xe là ứng dụng có khả năng phân tích hìnhảnh và xác định biển số xe từ các hình ảnh chụp được từ các thiết bị thu hình.Nguồn hình ảnh cho ứng dụng có rất nhiều Trong báo cáo tốt nghiệp em chỉdừng lại ở mức xác định biển số xe (cắt các vùng chữ trên biển) từ các hình ảnh

Có nhiều cách thức khác nhau để phân loại các ứng dụng nhận dạng biển

số xe Một trong những cách đơn giản là phân loại ứng dụng nhận dạng biển số

xe thông qua mục đích sử dụng Có thể chia ứng dụng nhận dạng biển số xethành hai loại sau:

Loại 1: Giới hạn vùng nhìn

 Đầu vào: ảnh thu trực tiếp từ các thiết bị ghi nhận ảnh kỹ thuật số Ảnhđược ghi nhận thường chỉ giới hạn trong vùng có biển số xe

 Nguyên lý hoạt động: các phương tiện giao thông phải chạy với một tốc

độ đủ chậm để máy ghi nhận hình ảnh có thể thu được ảnh vùng biển sốxe

 Ứng dụng: những ứng dụng nhận dạng biển số xe loại này thường đượcdùng tại các trạm kiểm soát, các trạm thu phí, các bãi gửi xe tự động,các trạm các cổng…

Trang 11

Hình 1.1 - Hệ thống tự động nhận dạng biển số xe

Loại 2: Không giới hạn vùng nhìn

 Đầu vào: ảnh đầu vào thu được từ thiết bị ghi hình tự động, không phụthuộc vào góc độ, các đối tượng xung quanh, ảnh không cần bắt buộcchỉ chụp vùng chứa biển số xe, mà có thể là ảnh tổng hợp như chứathêm các đối tượng như người, cây, đường phố, … miễn là vùng biển

số phải đủ rõ để có thể nhận dạng được ký tự trong vùng đó

 Nguyên lý hoạt động: do đặc tính không giới hạn vùng nhìn mà ảnh đầuvào có thể thu được từ một thiết bị ghi hình (camera, máy ảnh) Và do

đó, công việc đầu tiên là dò tìm trong ảnh, để xác định đúng vùng nào

là biển số xe Sau đó, thực hiện tách vùng và nhận dạng Cuối cùng tùythuộc vào mục đích sử dụng mà kết quả nhận dạng được truyền đi haylưu trữ để phục vụ nhu cầu của người dùng cuối

 Ứng dụng: vì không phụ thuộc vào phạm vi hình ảnh thu được nên cóthể dùng ứng dụng tại nhiều nơi như tại những điểm điều tiết giaothông, tại các vị trí nhạy cảm của giao thông như ngã ba, ngã tư đườnggiao nhau Kiểm soát, phát hiện những hành vi vi phạm an toàn giaothông

Trang 12

1.4.2 Ứng dụng

Hệ thống nhận dạng biển số xe được xây dựng nhằm mục đích giámsát, kiểm soát các phương tiện Dưới đây đề cập đến một số ứng dụng phổbiến đối với hệ thộng nhận dạng biển số xe:

- Thu phí giao thông: Lắp đặt hệ thống nhận dạng biển số xe tại cáctrạm thu phí nhằm hỗ trợ hoặc tự động hóa công tác thu phí

- Kiểm soát xe tại các đường biên giới: Mỗi quốc gia đều có những quyđịnh riêng về biển số xe, để phục vụ công tác quản lý và phát hiện nhữngphương tiện giao thông vượt biên bất hợp pháp Việc lắp đặt hệ thống nhậndạng biển số xe tại các trạm kiểm soát sẽ góp phần hỗ trợ công tác kiểm tra và

an ninh quốc gia

- Các trạm gác cổng: Việc lắp đặt hệ thống sẽ hỗ trợ hoặc tự động hóacông tác mở cổng cho xe ra vào

- Xử lý vi phạm giao thông: Khi lắp đặt hệ thống sẽ hỗ trợ việc xử lý viphạm giao thông đường bộ và có thể tự động báo lỗi vi phạm

Trang 13

CHƯƠNG II: CƠ SỞ LÝ THUYẾT

2.1 Học sâu

Học sâu (deep learning) là một nhánh của ngành máy học, dựa trên mộttập hợp các thuật toán để cố gắng mô hình dữ liệu để trừu tượng hóa ở mứccao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cáchkhác bao gồm nhiều lớp biến đổi phi tuyến để trích tách đặc trưng và chuyểnđổi Mỗi lớp kế tiếp dùng đâu ra của lớp trước làm đầu vào Các thuật toánnày có thể được giám sát hoặc không cần giám sát và các ứng dụng bao gồmcác mô hình phân tích (không giám sát) và phân loại (giám sát)

Một trong những phương pháp học sâu thành công nhất là mô hình mạng ron nhân tạo

nơ-2.2 Mạng nơ-ron nhân tạo

Mạng nơron nhân tạo, Artificial Neural Network (ANN) gọi tắt là mạngnơron (neural network) là một mô hình xử lý thông tin được xây dựng dựatheo cách thức xử lý thông tin của các hệ nơron sinh học Trong hơn hai thập

kỷ qua nó là lĩnh vực khoa học được nhiều người quan tâm nghiên cứu và ứngdụng rộng rãi Mạng nơron được tạo nên từ một số lượng lớn các phần tử (gọi

là phần tử xử lý hay nơron) kết nối với nhau thông qua các liên kết (gọi làtrọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụthể nào đó Một nơron là một đơn vị xử lý thông tin và là thành phần cơ bảncủa một mạng nơron

2.2.1 Kiến trúc mạng nơ- ron

Mạng Neural Network là sự kết hợp của của các tầng perceptron haycòn được gọi là perceptron đa tầng (multilayer perceptron)

Mỗi một mạng Neural Network thường bao gồm 3 kiểu tầng là:

Trang 14

 Tầng input layer (tầng vào): Tầng này nằm bên trái cùng của mạng, thểhiện cho các đầu vào của mạng

 Tầng output layer (tầng ra): Là tầng bên phải cùng và nó thể hiện chonhững đầu ra của mạng

 Tầng hidden layer (tầng ẩn): Tầng này nằm giữa tầng vào và tầng ra nóthể hiện cho quá trình suy luận logic của mạng

Mỗi một Neural Network chỉ có duy nhất một tầng vào và một tầng ranhưng lại có rất nhiều tầng ẩn

Hình Kiến trúc mạng nơ-ron nhân tạo

Mặc dù mỗi nơron đơn lẻ có thể thực hiện những chức năng xử lýthông tin nhất định, sức mạnh của tính toán nơron chủ yếu có được nhờ sự kếthợp các nơron trong một kiến trúc thống nhất Một mạng nơron là một môhình tính toán được xác định qua các tham số: kiểu nơron (như là các nút nếu

ta coi cả mạng nơron là một đồ thị), kiến trúc kết nối (sự tổ chức kết nối giữacác nơron) và thuật toán học (thuật toán dùng để học cho mạng)

Về bản chất một mạng nơron có chức năng như là một hàm ánh xạ F: X

→ Y, trong đó X là không gian trạng thái đầu vào (input state space) và Y làkhông gian trạng thái đầu ra (output state space) của mạng Các mạng chỉ đơngiản là làm nhiệm vụ ánh xạ các vectơ đầu vào x ∈ X sang các vec-tơ đầu ra y

Trang 15

∈ Y thông qua “bộ lọc” (filter) các trọng số Tức là y = F(x) = s(W, x), trong

đó W là ma trận trọng số liên kết Hoạt động của mạng thường là các tínhtoán số thực trên các ma trận

Một nơ-ron bao gồm các liên kết nhận tín hiệu vào bằng số có các trọng

số kết nối w tương ứng, một hàm tổng và một hàm truyền còn gọi là hàm kíchhoạt để tạo tín hiệu ra dựa trên giá trị hàm tổng và giá trị ngưỡng θ

 Liên kết: Mỗi liên kết thứ i sẽ nhận vào giá trị x i có trọng số kết nối w i

tương ứng

 Trọng số kết nối: Các trọng số kết nối của đường liên kết là yếu tố thenchốt của nơ-ron, chúng ta sẽ được xác định tùy theo tập dữ liệu nhờ quátrình huấn luyện

 Hàm tổng: Hàm tổng là tổng của tích các trọng số kết nối với các tínhiệu vào trên các liên kết tương ứng:

Hình Mạng nơron chỉ có 1 nút và có sự phản hồi

Trang 16

Mạng nơron truyền thẳng một lớp (perceptron) là loại mạng chỉ có lớpnơron đầu vào và một lớp nơron đầu ra (thực chất lớp nơron đầu vào không

có vai trò xử lý, do đó ta nói mạng chỉ có một lớp) Loại mạng này còn đượcgọi là mạng perceptron một lớp Mỗi nơron đầu ra có thể nhận tín hiệu từ cácđầu vào x1, x2, …, xm để tạo ra tín hiệu đầu ra tương ứng

Hình Mạng nơron truyền thẳng 1 lớp (Single-layer feedforward

network)

Mạng có phản hồi (feedback network) là mạng mà đầu ra của mộtnơron có thể trở thành đầu vào của nơron trên cùng một lớp hoặc của lớptrước đó Mạng feedback có chu trình khép kín gọi là mạng quy hồi (recurrentnetwork)

Trang 17

Hình Mạng nơron hồi quy 1 lớp

Mô hình mạng truyền thẳng nhiều lớp: Mô hình mạng nơron được sửdụng rộng rãi nhất là mô hình mạng nhiều tầng truyền thẳng (MLP: MultiLayer Perceptron) Một mạng MLP tổng quát là mạng có n (n ≥ 2) lớp (thôngthường lớp đầu vào không được tính đến): trong đó gồm một lớp đầu ra (lớpthứ n) và (n-1) lớp ẩn

Hình 2 Mạng MLP tổng quát

Một số kết quả đã được chứng minh với mạng MLP:

Trang 18

- Bất kì một hàm Boolean nào cũng có thể biểu diễn được bởi một mạngMLP 2 lớp trong đó các nơron sử dụng hàm truyền sigmoid

- Tất cả các hàm liên tục đều có thể xấp xỉ bởi một mạng MLP 2 lớp sửdụng hàm truyền sigmoid cho các nơron lớp ẩn và hàm truyền tuyếntính cho các nơron lớp ra với sai số nhỏ tùy ý

- Mọi hàm bất kỳ đều có thể xấp xỉ bởi một mạng MLP 3 lớp sử dụnghàm truyền sigmoid cho các nơron lớp ẩn và hàm truyền tuyến tính chocác nơron lớp ra

Mô hình mạng kết hợp : Trong thực tế, người ta thường kết hợp nhiềuloại mạng để giải quyết các bài toán Có thể tham khảo mô hình ANN hệthống chơi cờ vây AlphaGo của Google bao gồm kết hợp 3 mạng ANN.Mạng 1 SL(self learning) có cấu trúc xoắn bao gồm 13 lớp ẩn với tập dữ liệuhọc có giám sát là hàng triệu nước cờ đã có thu thập từ các ván cờ các kỳ thủ

đã chơi, AlphaGo tự học chơi cờ vây bằng tập dữ liệu đã có Mạng 2RL(reinforcement learning- học tăng cường) có cấu trúc giống mạng SLnhưng được tối ưu hóa bộ trọng số qua bộ huấn luyện là các ván cờ tự chơivới nhau giữa các máy Mạng 3 Evalue network dự đoán kết quả trò chơi dựatrên RL,giá trị của vị trí p được định nghĩa như một kỳ vọng phân phối cáckết quả phát từ vị trí p đến cuối ván cờ Cuối cùng, AlphaGo kết hợp mạngtrên với thuật toán Monte Carlo Tree Search để đưa ra đánh giá vị trí cuốicùng cho nước đi tiếp theo

2.2.2 Các kỹ thuật quan trọng trong mạng nơ-ron

Hàm kích hoạt trong mạng nơ-ron

Hàm kích hoạt mô phỏng tỷ lệ truyền xung qua axon của một nơron thầnkinh Trong một mạng nơron nhân tạo, hàm kích hoạt đóng vai trò là thành

Trang 19

phần phi tuyến của đầu ra của các nơron Nếu không có các hàm kích hoạt phituyến, thì mạng nơ-ron dù có nhiều lớp vẫn không hiệu quả như một lớptuyến tính Các hàm kích hoạt phổ biến thường gặp là:

một giá trị khoảng (0, 1) Đầu vào là số thực âm rất nhỏ sẽ cho đầu ra tiệmcận với 0 và ngược lại, nếu đầu vào là số thực dương lớn thì sẽ cho đầu ra làmột số tiệm cận với 1 Tuy nhiên, hiện nay hàm sigmoid rất ít được sử dụng

vì có các nhược điểm như bão hòa, gây triệt tiêu gradient

Công thức hàm sigmoid:

σ ( x )= −1

1+ⅇ −x

Tanh: Hàm Tanh cũng nhận đầu vào là số thực và chuyển thành giá trị

trong khoảng (−1; 1) Cũng như hàm sigmoid, hàm tanh gây bão hoà ở 2 đầu.Tuy nhiên, do hàm tanh đối xứng qua 0 nên khắc phục được một nhược điểmcủa sigmoid

Công thức hàm tanh:

tan h( x )= ⅇ

x−ⅇ −x

x+ⅇ −x

đây để huấn luyện các mạng nơ-ron Hàm ReLU đơn giản chỉ là lọc các giá trịnhỏ hơn 0 Nhìn vào công thức trên ta có thể hiểu được cách hoạt động của

nó Hàm ReLU có nhiều ưu điểm vượt trội so với hàm sigmoid và tanh: Tốc

độ hội tụ nhanh và tính toán nhanh Tuy nhiên, hàm ReLU có nhược điểm làcác giá trị nhỏ hơn 0 thì khi đi qua hàm ReLU sẽ trở thành 0, hiện tượng này

Trang 20

gọi là "Dying ReLU" Cũng có nhiều biến thể của ReLU ra đời để khắc phụcnhược điểm đó như Leaky ReLU, ELU, GLU

Hình - Dropout

Trang 21

2.3 Mạng nơ-ron tích chập (Convolutional neural network - CNN)

Mô hình mạng nơron được áp dụng cho nhiều bài toán liên quan đếncác tác vụ phân loại, nhận diện, Tuy nhiên, trong mô hình này, các nơron ởcác lớp liên kết đầy đủ với nhau, điều này làm cho không tốt với dữ liệu đầuvào là ảnh:

Với dữ liệu ảnh thường có kích thước khá lớn, ví dụ với một ảnh RGB

có kích thước là 224 × 224 × 3, ảnh này sẽ được liên kết đầy đủ với lớp đầutiên, lớp này sẽ có 1000 nơron, như vậy, tham số cần học sẽ là224×224×3×1000 tham số Dù mới có 2 tầng nhưng số lượng tham số lại quálớn

Việc liên kết tất cả các điểm ảnh là quá dữ thừa, bởi vì sự phụ thuộccủa những điểm ảnh xa nhau là không nhiều, mà chủ yếu là sự phụ giữa cácđiểm ảnh lân cận nó Từ đó sẽ khiến cho mạng huấn luyện không tốt Dựatrên tư tưởng này, mạng nơron tích chập ra đời với cấu trúc khác hẳn mạngnơron truyền thẳng Thay vì toàn bộ ảnh nối trực tiếp với một node thì chỉ cómột phần cục bộ trong ảnh nối với một node trong lớp tiếp theo Dữ liệu hìnhảnh ban đầu qua các lớp của mô hình mạng nơron tích chập sẽ học được racác đặc trưng để tiến hành phân lớp hiệu quả CNN được sử dụng nhiều trongcác bài toán phát hiện các object trong ảnh

2.3.1 Kiến trúc mạng tích chập

Tích chập: là khái niệm trong xử lý tín hiệu số nhằm biến đổi thông tin

đầu vào thông qua một phép tích chập với bộ lọc để trả về đầu ra là một tínhiệu mới, giúp làm giảm những đặc trưng mà bộ lọc không quan tâm và chỉ

Trang 22

Mạng nơron tích chập chia sẻ trọng số, khác với mạng nơron nhân tạonơi có mỗi nơron có trọng số riêng biệt Việc chia sẻ trọng số làm giảm tổng

số tham số Kiến trúc mạng nơ-ron tích chập là một dạng mạng nơ-ron đượccấu thành bởi các lớp sau:

 Lớp tích chập (Convolution layer)

 Lớp hàm kích hoạt (Activation layer)

 Lớp Pooling (Pooling layer)

 Lớp kết nối đầy đủ (Fully Connected layer)

Mỗi lớp tích chập sẽ bao gồm nhiều đơn vị mà kết quả ở mỗi đơn vị làmột phép biến đổi tích chập từ layer trước đó thông qua phép nhân tích chậpvới bộ lọc Mỗi lớp như vậy lại được áp đặt các bộ lọc khác nhau, thông

Trang 23

thường có vài trăm đến vài nghìn bộ lọc như vậy Một số lớp khác nhưPooling được dùng để chắt lọc lại các thông tin hữu ích hơn.

Trong suốt quá trình huấn luyện, mạng nơron tích chập tự động họcđược các thông số cho các bộ lọc mà ở đây chúng ta gọi là trọng số W để cóthể phân loại một cách tối ưu nhất

Lớp tích chập

Đây là lớp quan trọng nhất và cũng là lớp đầu tiên của mô hình mạngnơ–ron tích chập Lớp này có chức năng chính là phát hiện các đặc trưng cótính không gian hiệu quả Lớp tích chập nhận đầu vào là một ma trận 3 chiều

và một bộ lọc (filters) cần phải học Bộ lọc này sẽ trượt qua từng vị trí trênbức ảnh để tính tích chập giữa bộ lọc và phân tương ứng trên bức ảnh Phầntương ứng này trên bức ảnh gọi là receptive field, tức là vùng mà một nơ-ron

có thể nhìn thấy và ra quyết định, và ma trận cho ra bởi quá trình này đượcgọi là bản đồ đặc trưng (feature map)

Hình 2.11 – Phép nhân tích chập

Lớp tích chập có chức năng chính là phát hiện đặc trưng cụ thể của ảnh

Trang 24

tạp hơn như kết cấu của ảnh Vì các bộ lọc quét qua toàn bộ bức ảnh, nênnhững đặc trưng này cho có thể nằm ở vị trí bất kì trong bức ảnh, cho dù ảnh

có bị xoay trái/phải thì các đặc trưng này vẫn được phát hiện Và thông quaquá trình đào tạo, các lớp tích chập sẽ biết phải học gì và lựa chọn đặc trưngnào ứng với bài toán cụ thể

Lớp gộp

Lớp gộp (pooling) tương tự như lớp tích chập, lớp này sẽ giảm bớt sốlượng tham số khi hình ảnh quá lớn, chịu trách nhiệm để làm giảm chiều kếtquả tích chập Điều này nhằm mục đích để giảm chi phí tính toán cần phải có

để xử lý dữ liệu thông qua việc giảm kích thước tính năng đầu vào Hơn nữa,

nó rất hữu ích để trích xuất các đặc trưng cốt lõi, cái thường bất biến trước

các phép xoay và phép trượt, do đó làm cho quá trình huấn luyện mô hìnhhiệu quả hơn Các toán tử tổng hợp bao gồm một cửa sổ có kích thước cố địnhđược trượt trên tất cả các vùng đầu vào với giá trị sải bước nhất định, tínhtoán một giá trị đầu ra duy nhất tại mỗi vị trí mà cửa sổ trượt qua

Có hai loại phép gộp: Gộp cực đại (Max Pooling) và Gộp trung

bình (Average Pooling) Phép gộp cực đại trả về giá trị lớn nhất từ phần hình

ảnh được bao phủ bởi bộ lọc Trong khi đó, phép gộp trung bình trả về giá trịtrung bình của tất cả các giá trị từ phần hình ảnh được bao phủ bởi bộ lọc

Phép gộp cực đại cũng hoạt động như một công cụ khử nhiễu Nó loại bỏ cácnguồn nhiễu và thực hiện khử nhiễu song song với giảm kích thước Mặtkhác, phép gộp trung bình chỉ đơn giản thực hiện giảm kích thước như một cơchế khử nhiễu Do đó, chúng ta có thể nói rằng phép gộp cực đại hoạt độngtốt hơn rất nhiều so với phép gộp trung bình

Trang 25

Hình Phép max pooling bên trái và average pooling bên phải

Lớp kết nối đầy đủ

Giống như trong mạng nơ-ron nhân tạo thông thường các đặc trưng thuđược khi dữ liệu đầu vào qua các lớp tích chập hay lợp tổng hợp sẽ được liênkết đầy đủ với các nơ-ron ở các lớp tiếp theo Nghĩa là, mỗi đặc trưng sẽ đượcliên kết với tất cả các nơ-ron ở lớp tiếp theo, lớp này thường được xếp ở cuốicùng của các nơ-ron tích chập

Hình Ví dụ về lớp kết nối đầy đủ

Trang 26

Thiết kế của một mạng nơ ron tích chập hai chiều có dạng như sau:

INPUT -> [[CONV -> RELU]N -> POOL?]M -> [FC -> RELU]*K -> FCtrong đó:

INPUT: lớp đầu vào

CONV: lớp tích chập

RELU: lớp biến đổi thông qua hàm relu để kích hoạt tính phi tuyến

POOL: lớp tổng hợp, thông thường là Max pooling hoặc có thể là Averagepooling dùng để giảm chiều của ma trận đầu vào Làm giảm số lượng tham số

Trang 27

Như vậy về cơ bản, một mạng nơ ron tích chập có 3 quá trình sau:

 Quá trình chiết xuất đặc trưng: thông qua các tích chập giữa ma trậnđầu vào với bộ lọc để tạo thành các đơn vị trong một ma trận lớp mới.Quá trình này diễn ra liên tục ở phần đầu mạng và thường sử dụng hàmkích hoạt relu

 Quá trình tổng hợp: các lớp ở sau quá trình chiết xuất đặc trưng sẽ cókích thước lớn do số đơn vị ở các lớp sau thường tăng tiến theo cấp sốnhân Điều đó làm tăng số lượng hệ số và khối lượng tính toán - > cầngiảm chiều ma trận hoặc số đơn vị của lớp Vì mỗi đơn vị là kết quả đạidiện của việc áp dụng 1 bộ lọc để tìm ra một đặc trưng cụ thể nên việcgiảm đơn vị sẽ không khả thi Giảm kích thước ma trận thông qua việctìm ra 1 giá trị đại diện cho mỗi một vùng không gian mà bộ lọc đi qua

sẽ không làm thay đổi các đường nét chính của bức ảnh nhưng lại giảmđược kích thước của ảnh Do đó quá trình giảm chiều ma trận được ápdụng, gọi là quá trình tổng hợp

 Quá trình kết nối hoàn toàn: sau khi đã giảm số lượng tham số hợp lý,

ma trận cần được làm phẳng thành 1 vector và sử dụng các kết nối hoàntoàn giữa các lớp Quá trình này diễn ra cuối mạng tích chập và sửdụng hàm kích hoạt relu Kết nối cuối cùng sẽ dẫn tới các đơn vị là đại

Trang 28

diện cho mỗi lớp với hàm kích hoạt softmax nhằm mục đích tính xácsuất

2.3.2 Mô hình phát hiện đối tượng

Phát hiện đối tượng (Object Detection) được coi là một trong những lĩnhvực quan trọng nhất trong phát triển của học sâu (Deep Learning) và xử lý hìnhảnh (Image Processing) Với sự phát triển mạnh mẽ của học sâu (deeplearning) và công nghệ phần cứng trong những năm gần đây, các thuật toánphát hiện đối tượng cũng theo đó mà phát triển mạnh mẽ Từ xử lí ảnh đơnthuần như: HOG (Histogram of Oriented Gradients), Deformable Part-basedModel (DPM), đến sử dụng mạng nơ-ron tích chập như: RCNN, YOLO,SSD, …

Kiến trúc hệ thống HOG để phát hiện đối tượng Nguồn: Neptune.AI

Trang 29

Chu trình phát hiện đối tượng với Mạng nơ-ron tích chập dựa trên khu vực

(R-CNN)

Hình Quá trình phát triển của mô hình phát hiện vật thể

Trang 30

2.4 Phân đoạn và nhận dạng ký tự

2.4.1 Tổng quan về phân đoạn ký tự

Kết quả của khối tách biển số là một ảnh màu RBG có chứa biển số xe

Để nhận dạng các ký tự trong biển số, ta tiến hành phân đoạn ký tự trong biển

số Phân đoạn ký tự là việc cắt các ký tự trong biển số xe

Sau khi nhận kết quả của khối tách biển số, khối phân đoạn ký tự bắtđầu tiến hành tách từng ký tự trong biển số Trước khi phân đoạn ký tự, ảnhcủa biển số được chuyển thành ảnh nhị phân Ảnh nhị phân được chuẩn hóa

về kích chuẩn, sau đó tiến hành cắt các ký tự Kết quả của quá trình phânđoạn là một ma trận chứa các ảnh đen trắng của ký tự

Hình Sơ đồ khối phân đoạn ký tự

2.4.2 Nhận dạng ký tự

Sau khi thực hiện phân vùng ta sẽ được số ma trận tương ứng với số ký

tự trên hai hàng biển số Lần lượt từng ma trận ký tự sẽ được đưa vào chương

Trang 31

trình nhận dạng Kết quả cuối cùng sẽ là các ký tự số và chữ, chương trình sẽhiện thị ký tự này dưới dạng text.

Thực chất, quá trình nhận dạng là quá trình đổi ma trận điểm ảnh củacác ký tự thành mã ASCII tương ứng với ký tự đó Để làm được điều nàyngười ta đem so sánh ma trận của ký tự với tất cả các ma trận trong tập mẫu,

ma trận mẫu nào có khả năng giống nhiều nhất thì đó chính là ký tự cần tìm

Trong lĩnh vực nhận dạng có hai phương pháp để nhận dạng là phươngpháp cổ điển và phương pháp sử dụng mạng noron

 Phương pháp nhận dạng cổ điển:

Phương pháp này sẽ có một tập ma trận ký tự mẫu Phương pháp nàykhá đơn giản: ma trận ký tự cần nhận dạng khá giống với ma trận ký tự đótrong tập mẫu Ví dụ, ta nhận dạng các số từ 0 đến 9 thì trong tập mẫu ta sẽtạo ra các ma trận ký tự từ 0 đến 9 Giả sử ma trận cần nhận dạng là số 1 thì

ma trận này nhìn bằng mắt thấy cũng khá giống so với ma trận số 1 trong tậpmẫu

Phương pháp này tuy đơn giản nhưng hiệu quả trong trường hợp tậpảnh nhận dạng rõ nét, ít bị nhiễu Nếu ảnh bị nhiễu thì ma trận đầu vào thayđổi, lúc này tập mẫu sẽ không còn chính xác Trong một vài trường hợp biển

số ban đầu bị nghiêng hoặc lếch, khi ta xoay và chuẩn hóa kích thước thì các

ký tự bị nhiễu và khi so sánh với tập mẫu cũng không còn chính xác

 Phương pháp ứng dụng mạng Noron:

Cũng như phương pháp cổ điển, ta nhận dạng ký tự nhờ vào vị trí vàhàng của ký tự đó trên biển số nhưng ở phương pháp này sẽ khắc phục đượccác nhược điểm của phương pháp cổ điển làm cho việc nhận dạng trở nên dễdàng hơn

Ngày đăng: 19/08/2022, 01:51

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w