Luận văn nghiên cứu các phương pháp tiên tiến, tập trung vào phương pháp gom cụm dữ liệu huấn luyện và đề xuất các cải tiến nhằm nâng cao hiệu quả, độ chính xác cho việc phát hiện phương
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
- -
ĐOÀN VĂN HUYÊN
PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG BỊ CHE KHUẤT TRONG ẢNH
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn được thực hiện bởi chính công sức của bản thân tôi trong suốt một thời gian nghiên cứu, dưới sự giúp đỡ tận tình của PGS TS Lê Đình Duy, TS Ngô Đức Thành Luận văn được thực hiện tại trường Đại học Công nghệ Thông tin, Thành phố Hồ Chí Minh
Những kết quả đạt được trong Luận văn là do quá trình thực nghiệm trên hệ thống của tôi kế thừa và phát triển từ kết quả nghiên cứu đã được công bố với bộ dữ liệu đã được giới thiệu
Những nội dung cơ sở, kế thừa và các công trình tham khảo được liệt kê đầy
đủ trong mục tài liệu tham khảo
Tp Hồ Chí Minh, tháng 10 năm 2016
Học viên thực hiện
Đoàn Văn Huyên
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành đến PGS TS Lê Đình Duy, TS Ngô Đức Thành, người đã tin tưởng, giúp đỡ tận tâm và hướng dẫn tận tình để tôi có thể hoàn thành Luận văn này Xin cảm ơn quý Thầy/Cô, Ban Giám hiệu Nhà trường, khoa Khoa học Máy tính, phòng Đào tạo Sau Đại học của Trường Đại học Công nghệ Thông tin, ĐHQG TP HCM đã tạo điều kiện để tôi được học tập, nghiên cứu cũng như truyền đạt cho tôi kiến thức, nền tảng và kinh nghiệm
Tôi xin cảm ơn các thành viên trong Phòng thí nghiệm Truyền thông Đa phương tiện (MMLab) trường Đại học Công nghệ Thông tin Thành phố Hồ Chí Minh
đã giúp đỡ, đóng góp ý kiến để tôi thực hiện được Luận văn này
Và cuối cùng là lời cảm ơn cao cả nhất dành cho bậc sinh thành cũng như gia đình tôi, những người luôn là nguồn động viên lớn lao trong suốt quá trình nghiên cứu
Trang 4MỤC LỤC
LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III THUẬT NGỮ VÀ TỪ VIẾT TẮT V DANH MỤC CÁC BẢNG VII DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ IX
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN 3
1.1 Giới thiệu chung 4
1.1.1 Mô tả bài toán 4
1.1.2 Tính cấp thiết 5
1.1.3 Khó khăn, thách thức và vấn đề cần giải quyết 5
1.1.4 Tình hình nghiên cứu 7
1.2 Mục tiêu của luận văn 9
1.3 Đóng góp của luận văn 9
1.4 Bố cục của luận văn 10
CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN VÀ HƯỚNG TIẾP CẬN CỦA LUẬN VĂN 11
2.1 Các hướng tiếp cận của bài toán 12
2.1.1 Tổng quan 12
2.1.2 Các công trình liên quan 14
2.2 Hướng tiếp cận của Luận văn 20
2.2.1 Kiến trúc tổng quát 20
2.2.2 Gom cụm 21
2.2.3 Đặc trưng huấn luyện và phát hiện 23
2.2.4 Huấn luyện 24
2.2.5 Phát hiện 25
2.3 Đánh giá, nhận xét 25
2.4 Tổng kết 26
Trang 5CHƯƠNG 3: PHƯƠNG PHÁP CẢI TIẾN DỰA TRÊN GOM CỤM DỮ LIỆU
HUẤN LUYỆN 27
3.1 Các hạn chế của phương pháp phát gom cụm dữ liệu huấn luyện 28
3.1.1 Phân tích dữ liệu huấn luyện 28
3.1.2 Phân tích thử nghiệm trên từng cụm 30
3.1.3 Nhận xét 32
3.2 Đề xuất cải tiến 33
3.2.1 Các tính chất của mẫu huấn luyện 33
3.2.2 Phương pháp tăng cường mẫu huấn luyện 34
3.2.3 Phương pháp tối ưu hóa bộ phát hiện 38
3.3 Tổng kết 39
CHƯƠNG 4: CÁC THỬ NGHIỆM VÀ KẾT QUẢ 40
4.1 Bộ dữ liệu thử nghiệm 41
4.2 Tiêu chuẩn đánh giá 42
4.3 Thử nghiệm 43
4.3.1 Cài đặt phương pháp 43
4.3.2 Thử nghiệm trên từng cụm 45
4.3.3 Thử nghiệm tăng cường mẫu huấn luyện 45
4.3.4 Thử nghiệm tối ưu hóa bộ phát hiện 52
4.4 Nhận xét, đánh giá 54
4.5 Tổng kết 56
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57
5.1 Kết luận 58
5.2 Hướng phát triển 58
TÀI LIỆU THAM KHẢO 59
PHỤ LỤC 63
Trang 6THUẬT NGỮ VÀ TỪ VIẾT TẮT
Thuật ngữ Diễn giải
LSVM Latent Support Vector Machine – Thuật toán máy học
dùng để phân lớp đối tượng
EM Expectation Maximization – Thuật toán cực đại hóa kỳ
vọng HOG Histogram of Oriented Gradients – Biểu đồ hướng
gradient fps Frames per Second – Tốc độ phát hiện đối tượng trên ảnh,
đơn vị khung hình trên giây Aspect-ratio Đặc trưng tỉ lệ khung hình của một đối tượng
Geometrical features Những loại đặc trưng hình học
Visual features Những loại đặc trưng trực quan
Occlusion Sự che khuất, một đối tượng bị che khuất một phần bởi
một đối tượng khác
Framework Một thư viện, bộ khung đã được phát triển sẵn dùng để thử
nghiệm, triển khai các thực nghiệm
LUV Một loại không gian màu
Easy mode Chế độ thử nghiệm bao gồm các phương tiện trong ảnh
không bị che khuất (mức độ che khuất nhỏ hơn 10%) và
có kích thước lớn (cao từ 40 pixel trở lên)
Moderate mode Chế độ thử nghiệm bao gồm các phương tiện trong ảnh
không bị che khuất hoặc bị che khuất một phần (mức độ che khuất nhỏ hơn 50%) và có kích thước nhỏ (cao từ 25 pixel trở lên)
Trang 7Hard mode Chế độ thử nghiệm bao gồm các phương tiện trong ảnh với
đầy đủ các mức độ che khuất từ không, ít hay nhiều và có kích thước nhỏ (cao từ 25 pixel trở lên)
Trang 8DANH MỤC CÁC BẢNG
Bảng 2.1 Tổng hợp các nghiên cứu gần đây về phát hiện xe trong
ảnh và so sánh tốc độ phát hiện
12
Bảng 3.1 Số lượng mẫu huấn luyện trên từng cụm 28 Bảng 3.2 Tổng hợp kết quả thử nghiệm trên từng cụm 30 Bảng 4.1 Bảng so sánh kết quả thí nghiệm trên bộ dữ liệu KITTI
với độ đo AUC (Area under the precision-recall curve)
Bảng 4.4 Bảng so sánh kết quả thử nghiệm ban đầu với kết quả thu
được từ bộ phát hiện gồm các mô hình phân lớp từ phương pháp tăng cường bằng lật ảnh
47
Bảng 4.5 Kết quả thử nghiệm trên từng cụm phương pháp tăng
cường bằng xoay ảnh
48
Bảng 4.6 Bảng so sánh kết quả thử nghiệm ban đầu với kết quả thu
được từ bộ phát hiện gồm các mô hình phân lớp từ phương pháp tăng cường bằng xoay ảnh
49
Bảng 4.7 Bảng so sánh kết quả thử nghiệm ban đầu với kết quả thu
được từ bộ phát hiện gồm các mô hình phân lớp từ phương pháp tăng cường bằng xoay ảnh với góc xoay 10o
và -10o
50
Trang 9Bảng 4.8 Bảng so sánh kết quả thử nghiệm ban đầu với kết quả thu
được từ bộ phát hiện gồm các mô hình phân lớp từ phương pháp tăng cường kết hợp lật ảnh và xoay ảnh
51
Bảng 4.9 Bảng so sánh kết quả thử nghiệm ban đầu với kết quả thu
được từ bộ phát hiện đã được tối ưu hóa
53
Bảng 4.10 Bảng so sánh kết quả thử nghiệm ban đầu, kết quả thử
nghiệm kết hợp lật ảnh và xoay ảnh, kết quả tối ưu bộ phát hiện bằng bộ phát hiện thu được từ thử nghiệm kết hợp lật ảnh và xoay ảnh
53
Trang 10DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Minh họa về phát hiện xe hơi trong ảnh 4 Hình 1.2 Minh họa các khó khăn của bài toán: phương tiện đông
đúc, bị che khuất, chủng loại đa dạng
6
Hình 1.3 Minh họa mô hình phân lớp DPM cho xe hơi và kết quả
phát hiện
9
Hình 2.1 Minh họa gom cụm bằng Locally Linear Embedding
(LLE) sử dụng đặc trung HOG
Trang 11Hình 2.11 Minh họa phương thức non-maximum suppression
(NMS)
25
Hình 3.1 Hình ảnh đại diện cho 25 cụm được gom theo đặc trưng
hướng của xe
29
Hình 3.2 Biểu đồ phân bố mẫu trên từng cụm, gom thành 25 cụm
theo hướng của xe
tăng cường bằng lật ảnh
47
Hình 4.3 Biểu đồ kết quả đánh giá thử nghiệm với phương pháp
tăng cường bằng xoay ảnh
50
Hình 4.4 Biểu đồ đánh giá kết quả thử nghiệm tăng cường mẫu
huấn luyện kết hợp lật ảnh và xoay ảnh
52
Hình 4.5 Biểu đồ đánh giá kết quả thử nghiệm tối ưu hóa bộ phát
hiện kết hợp lật ảnh và xoay ảnh
54
Trang 12Hình 4.6 Biểu đồ so sánh kết quả thử nghiệm phương pháp tăng
cường mẫu huấn luyện
55
Hình 4.7 Biểu đồ kết quả thử nghiệm phương pháp tăng cường
mẫu huấn luyện
56
Trang 13MỞ ĐẦU
Tình hình giao thông tại Việt Nam ngày càng phức tạp, nhất là tại các thành phố lớn Lượt phương tiện tham gia giao thông tăng nhanh cả về số lượng và chủng loại Tai nạn giao thông xảy ra ngày càng nhiều và nguy hiểm Ý thức tham gia giao thông của người tham gia giao thông chưa cao Các trường hợp vi phạm luật giao thông ngày càng nhiều, vượt quá tầm kiểm soát của các cơ quan chức năng
Trước tình hình đó, việc áp dụng các công nghệ tiên tiến của khoa học kỹ thuật
và một vấn đề cấp bách Các hệ thống giao thông thông minh cũng như camera quan sát lần lượt ra đời và phát triển Tuy nhiên, các hệ thống giao thông thông minh chỉ
có thể kiểm soát trên các tuyến đường cao tốc với mật độ giao thông tương đối thấp, chủng loại phương tiện ít Còn các hệ thống camera quan sát thì vẫn hoạt động một cách thủ công, cần có người quan sát và kém hiệu quả Do đó cần có một hệ thống quan sát tự động nhằm phát hiện và theo vết phương tiện tham gia giao thông Từ đó
có thể kịp thời cảnh báo tình trạng giao thông như: kẹt xe, tai nạn,… cũng như ghi nhận các hành vi vi phạm luật giao thông
Trong hệ thống giám sát tự động, việc phát hiện chính xác và đầy đủ các phương tiện và vấn đề cốt lõi Các phương pháp background modeling thường được
sử dụng trong các hệ thống phát hiện và theo vết truyền thống Tuy nhiên gặp phải nhiều khó khăn khi các phương tiện nằm sát cạnh hoặc che khuất nhau trong khung hình sẽ bị gom thành một vùng chuyển động duy nhất, giảm độ chính xác khi phát hiện phương tiện giao thông trong môi trường đô thị đông đúc Một trong những phương pháp tiên tiến hiện nay thường được sử dụng cho phát hiện đối tượng là mô hình biểu diễn đối tượng dựa trên mối quan hệ giữa các bộ phận, điển hình là phương pháp Deformable Part Model (DPM) [31] Tuy nhiên, phương pháp này cũng khó phát hiện phương tiện trong điều kiện đông đúc, xe bị che khuất nhiều, do một số bộ phận của xe không được phát hiện Các phương pháp sử dụng AdaBoost [21] và các biến thể cũng được sử dụng rộng rãi với số lượng đặc trưng lớn Các loại đặc trưng
Trang 14về hình dáng, màu sắc, kích thước, hướng xe, thường được sử dụng cho bài toán phát hiện xe
Một trong những phương pháp mới mang lại hiệu quả với độ chính xác cao là gom cụm dữ liệu huấn luyện Sử dụng thuật toán AdaBoost [21] để huấn luyện và phát hiện, kết hợp nhiều đặc trưng về hình học và trực quan để huấn luyện Với phương pháp này có thể pháp hiện được các phương tiện bị che khuất nhiều, với độ chính xác cao
Luận văn nghiên cứu các phương pháp tiên tiến, tập trung vào phương pháp gom cụm dữ liệu huấn luyện và đề xuất các cải tiến nhằm nâng cao hiệu quả, độ chính xác cho việc phát hiện phương tiện tham gia giao thông, giải quyết vấn đề phát hiện đối tượng bị che khuất Thử nghiệm và đánh giá kết quả trên bộ dữ liệu KITTI Vision Benchmark [29]
Trang 15CHƯƠNG 1 TỔNG QUAN
Trong chương này, luận văn sẽ giới thiệu tổng quan về bài toán tổng quát, bài toán cụ thể, những ứng dụng, tầm quan trọng cũng như khó khăn, thách thức của hướng nghiên cứu Ngoài ra chương này sẽ trình bày các mục tiêu nghiên cứu và đóng góp khoa học của luận văn
Nội dung gồm 4 phần:
- Giới thiệu chung: trình bày mô tả bài toán, tính cấp thiết, những khó khăn,
thách thức
- Mục tiêu: trình bày các mục tiêu của việc nghiên cứu
- Đóng góp: trình bày những đóng góp khoa học của luận văn
- Bố cục: trình bày bố cục tổng thể của luận văn
Trang 161.1 Giới thiệu chung
1.1.1 Mô tả bài toán
Phương tiện tham gia giao thông rất đa dạng về chủng loại, kiểu dáng và kích thước Góc nhìn khác nhau cũng tạo ra sự đa đạng cho đối tượng phương tiện giao thông Các phương tiện che khuất lẫn nhau khi mật độ giao thông lớn cũng là một thách thức Do đó việc phát hiện một phương tiện giao thông trong ảnh trở nên phức tạp hơn Từ đó đặt ra bài toán phát hiện phương tiện giao thông trong ảnh Ảnh được thu thập từ camera hành trình của xe
Luận văn này tập trung nghiên cứu và cải tiến độ chính xác cho bài toán phát hiện xe hơi
- Đầu vào: ảnh cắt từ camera hành trình
- Đầu ra: vị trí của xe trong ảnh
Đầu vào
Đầu ra
Hình 1.1 Minh họa về phát hiện xe hơi trong ảnh
Trang 171.1.2 Tính cấp thiết
Việc xây dựng các hệ thống nhằm quản lý giao thông an toàn và hiệu quả hơn hiện nay đang là vấn đề cấp bách Do đó rất cần các nghiên cứu để đưa ra các công nghệ liên quan, phục vụ cho hệ thống
Các hệ thống giám sát, cảnh báo giao thông được ứng dụng rộng rãi nhưng còn gặp nhiều khó khăn và chưa hiệu quả Ví dụ như hệ thống camera hành trình trên
xe Việc phát hiện chính xác và đầy đủ các phương tiện tham gia giao thông là yếu tố quan trọng để những hệ thống giám sát giao thông hoạt động hiệu quả Phát hiện chính xác và đầy đủ phương tiện giao thông có thể đưa ra các cảnh báo chính xác và kịp thời
Ngoài ra sau khi phát hiện phương tiện giao thông còn có thể kết hợp với hệ thống nhận dạng phương tiện giao thông nhằm mục đích tìm kiếm phương tiện phục
vụ yêu cầu tìm phương tiện bị trộm, cướp, phương tiện vi phạm giao thông, có dấu hiệu nghi vấn đang lẫn trốn,…
1.1.3 Khó khăn, thách thức và vấn đề cần giải quyết
- Chủng loại phương tiện giao thông khá đa dạng (xe máy, xe buýt, xe tải,
xe hơi,…) Hình dáng, tốc độ di chuyển cũng có thể khác nhau Do đó, việc phát hiện và phân loại các loại phương tiện đồng thời đòi hỏi phải có các
xử lý phức tạp
- Lưu lượng phương tiện giao thông thường khá đông đúc đặc biệt trong các giờ cao điểm Theo đó, các phương tiện có thể có thể nằm sát cạnh nhau,
Trang 18thậm chí phần lớn bị che khuất bởi các phương tiện khác Việc phát hiện các phương tiện trong điều kiện này thường có độ chính xác thấp
- Góc quay của camera thay đổi khi di chuyển làm cho hình dáng của phương tiện thu được cũng bị thay đổi Thuật toán xây dựng cần phải có khả năng phát hiện được các phương tiện dưới nhiều góc khác nhau
- Chất lượng và độ phân giải của ảnh được thu thập từ camera có thể không cao (do các thao tác nén nhằm giảm kích thước lưu trữ)
Hình 1.2 Minh họa các khó khăn của bài toán: phương tiện đông đúc, bị che
khuất, chủng loại đa dạng
b Vấn đề cần giải quyết
Mặc dù các hướng nghiên cứu hiện nay đã đạt được những kết quả khả quan nhưng hiệu quả của các phương pháp hiện tại còn thấp trong một số trường hợp như đã nêu ở phần khó khăn, thách thức, đặc biệt trong trường hợp lưu lượng giao thông đông, các phương tiện che khuất nhau Đặt ra những vấn đề cần phải giải quyết:
- Phát hiện được phương tiện bị che khuất một phần bởi các phương tiện khác hoặc một đối tượng khác
- Nâng cao độ chính xác và tốc độ phát hiện để đáp ứng yêu cầu của các hệ thống cảnh báo, giám sát giao thông, giám sát hành trình
Trang 191.1.4 Tình hình nghiên cứu
Bài toán phát hiện và theo vết đối tượng là một trong những bài toán phổ biến trong khoa học máy tính nói chung và thị giác máy tính nói riêng Có rất nhiều nghiên cứu khoa học liên quan đến bài toán này Phát hiện và theo vết phương tiện giao thông cũng bắt đầu được nghiên cứu
a Trong nước
Tại Việt Nam, do tình hình giao thông ngày càng phức tạp, nhất là tại các đô thị lớn Trong những bước đầu, các hệ thống giao thông thông minh đang được ứng dụng cho các tuyến đường lớn, đường cao tốc, nơi có mật độ giao thông tương đối thấp, chủng loại phương tiện giao thông ít (đa phần là xe ô tô), khi
đó có thể áp dụng các phương pháp đã có mà không cần thay đổi, cải tiến nhiều
Các hệ thống quản lý giao thông thông minh hiện đang được triển khai ở mức
độ thử nghiệm trong một số khu vực của các thành phố lớn như Hà Nội và TP
Hồ Chí Minh Điển hình là hệ thống giám sát giao thông thông minh CadProTMS được phát triển bởi nhóm nghiên cứu của Phạm Hồng Quang [9]
Hệ thống này đã được triển khai tại Trung tâm điều hành đường cao tốc Cầu Giẽ - Ninh Bình bắt đầu từ tháng 10/2013, và trên tuyến Quốc lộ 1 đoạn Pháp Vân – Ninh Bình Việc vận hành khai thác hệ thống đã mang lại nhiều hiệu quả trong công tác giám sát điều hành giao thông Các camera được lắp đặt để quan sát và đếm tự động lưu lượng xe trên dọc tuyến quốc lộ Ngoài ra hệ thống cũng cho phép nhận dạng tự động biển số và đo tốc độ xe bằng camera, phát hiện và thu thập tự động hình ảnh của các phương tiện vi phạm các lỗi như dừng đỗ xe sai quy định, xe đi sai làn đường, xe vượt đèn đỏ Bên cạnh
đó còn có một số công trình nghiên cứu khác như của nhóm nghiên cứu Nguyễn Văn Căn [10][11][12][13], sử dụng nhiều phương phát khác nhau để phát hiện và theo vết phương tiện giao thông như: mô hình hỗn hợp Gaussian
và luồng quang học [10], dựa trên độ dài ảnh [11], biểu diễn đường viền trên trường số phức [12], dựa trên đặc trưng hình dạng [13]
Trang 20Nhìn chung các nghiên cứu trên đã bước đầu mang lại những kết quả khả quan Tuy nhiên các hệ thống đề xuất phần lớn được thử nghiệm trên các tuyến đường cao tốc, có lưu lượng và mật độ phương tiện thấp, khoảng cách giữa các phương tiện xa, mức độ chồng lấp, che khuất thấp Các thử nghiệm này đồng thời cũng chỉ ra rằng, trong điều kiện phức tạp hơn, độ chính xác của hệ thống bị giảm sút khá lớn Như vậy, những kết quả nghiên cứu hiện nay vẫn chưa thể đáp ứng tốt cho bài toán phát hiện phương tiện giao thông, nhất là đối với trường hợp phương tiện bị che khuất
b Ngoài nước
Background modeling [32] là một phương pháp được sử dụng khá phổ biến trong các hệ thống phát hiện phương tiện giao thông Tuy nhiên phương pháp này thể hiện nhiều khuyết điểm cho việc ứng dụng trong thực tế Nhất là đối với môi trường giao thông đông đúc, phức tạp, các xe nằm sát nhau, che khuất nhau Trong trường hợp đó, phương pháp này sẽ gom các phương tiện ấy thành một vùng chuyển động duy nhất và phát hiện như một đối tượng duy nhất Khi
đó không thể xác định chính xác từng phương tiện
Để tăng cường độ chính xác, nhiều nghiên cứu đã đề xuất sử dụng các mô hình dựa trên hình dáng để phát hiện phương tiện Ví dụ như các công trình của Zheng [4] và Feris [1][2] sử dụng thuật toán phát hiện đối tượng đề xuất bởi Viola-Jones cho bài toán Trong đó các đặc trưng sẽ được cải tiến phù hợp, như Zheng [4] sử dụng strip features, hay Feris [1][2] đề xuất sử dụng feature pool với số lượng đặc trưng lớn Các công trình trên đồng thời cũng đề xuất
sử dụng các biến thể khác trên Adaboost như Real Adaboost hay GentleBoost Bên cạnh đó, phương pháp phát hiện đối tượng mạnh mẽ hơn như mô hình máy học Support Vector Machines kết hợp với đặc trưng dựa trên hình dáng HOG cũng được đề xuất để giải quyết bài toán [5][6] Một trong những hướng tiếp cận tiên tiến nhất hiện nay là phương pháp biểu diễn đối tượng dựa trên
bộ phận (part-based) cũng đã được thử nghiệm và cho kết quả tốt ví dụ như công trình của Sivaraman [7] Và mô hình biểu diễn đối tượng dựa trên mối quan hệ giữa các bộ phận, điển hình là phương pháp Deformable Part Model
Trang 21(DPM) [8] được sử dụng rộng rãi và mang lại hiệu quả cao trong một số trường hợp
Hình 1.3 Minh họa mô hình phân lớp DPM cho xe hơi và kết quả phát hiện.
Ngoài ra phương pháp gom cụm dữ liệu huấn luyện cũng được sử dụng nhằm khắc phục tính đa dạng của đối tượng (hình dáng, kích thước, hướng nhìn, màu sắc,…) cũng góp phần mang lại hiệu quả cho việc phát hiện đối tượng [14] Đồng thời phương pháp này cũng giúp xác định một số thuộc tính cho đối tượng phát hiện được
Giai đoạn theo vết các phương tiện sau khi đã được phát hiện thông thường được thực hiện bằng việc sử dụng các bộ theo vết như Kalman Filter và đặc trưng optical flow [3][7]
1.2 Mục tiêu của luận văn
Nghiên cứu và thử nghiệm phương pháp phát hiện xe bằng cách gom cụm dữ liệu huấn luyện
Đề xuất phương pháp cải tiến nâng cao hiệu quả của việc phát hiện xe bị che khuất trong ảnh
Xây dựng chương trình thử nghiệm
1.3 Đóng góp của luận văn
Qua quá trình nghiên cứu và thử nghiệm các phương pháp tiên tiến cho bài toán phát hiện xe trong ảnh, đặc biệt là phương pháp gom cụm dữ liệu huấn luyện, Luận văn đã có những đóng góp sau:
Trang 22- Các mẫu huấn luyện phân bố không đồng đều giữa các cụm, đặc biệt là khi gom cụm bằng đặc trưng hướng xe Có những hướng có số lượng mẫu lớn và ngược lại có những hướng số lượng mẫu rất ít Do đó cần tăng cường mẫu huấn luyện ở các cụm có ít mẫu để huấn luyện ra các mô hình phân lớp tốt hơn Luận văn đề xuất phương pháp tăng cường mẫu huấn luyện để bổ sung thêm vào bộ dữ liệu huấn luyện làm số lượng mẫu ở các cụm có ít mẫu tăng lên, giúp cải tiến các mô hình phân lớp cho bộ phát hiện
- Dữ liệu được gom thành nhiều cụm và huấn luyện qua nhiều mức khác nhau dẫn đến số lượng mô hình phân lớp thu được luyện lớn Trong đó có những
mô hình tốt, phát hiện được nhiều xe với độ chính xác cao Ngược lại có những mô hình không tốt, phát hiện được rất ít xe, độ chính xác thấp và phát hiện trùng lắp với các mô hình phân lớp khác Do đó sự xuất hiện của các mô hình phân lớp không tốt trong bộ phát hiện là dư thừa, đồng thời làm chậm cho quá trình phát hiện Luận văn đề xuất phương pháp chọn lọc để tối ưu hóa bộ phát hiện, loại bỏ các mô hình phân lớp không tốt
1.4 Bố cục của luận văn
Bố cục của luận văn được tổ chức như sau:
- Chương 1: trình bày tổng quan về bài toán phát hiện xe trong ảnh, mục tiêu, các đóng góp của Luận văn
- Chương 2: trình bày các công trình nghiên cứu liên quan đến phát hiện phương tiện giao thông trong ảnh, nêu ra hướng tiếp cận của Luận văn
- Chương 3: trình bày phương pháp cải tiến dựa trên việc gom cụm dữ liệu huấn luyện
- Chương 4: trình bày các tiêu chuẩn đánh giá, bộ dữ liệu thử nghiệm, các thử nghiệm và đánh giá các kết quả thử nghiệm
- Chương 5: trình bày các kết luận, hướng phát triển và kiến nghị
Trang 23CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN
VÀ HƯỚNG TIẾP CẬN CỦA LUẬN VĂN
Chương 2 trình bày tổng quan về các công trình nghiên cứu liên quan đến bài
toán phát hiện xe trong ảnh và đưa ra hướng tiếp cận cho Luận văn
Nội dung chương 2 bao gồm:
- Giới thiệu các công trình liên quan, các hướng tiếp cận bài toán
- Giới thiệu hướng tiếp cận của Luận văn, giới thiệu phương pháp phát hiện
xe bằng cách gom cụm dữ liệu huấn luyện của Eshed Ohn-Bar [14].
Trang 242.1 Các hướng tiếp cận của bài toán
2.1.1 Tổng quan
Thời gian gần đây, có rất nhiều nghiên cứu để giải quyết bài toán phát hiện xe trong ảnh Từ nghiên cứu sử dụng phương pháp truyền thống như Background modeling [32] Đến các phương pháp tiên tiến, hiện đại như Deformable Part Model (DPM) [8] cũng được ứng dụng rộng rãi Công trình của Rogerio Feris [1][2] đề xuất phương pháp thu thập mẫu huấn luyện tự động qua video, đồng thời tạo ra các mẫu che khuất bằng cách chồng hai xe lên nhau để huấn luyện và phát hiện xe bị che khuất Công trình của Bo Li [19][20] sử dụng cấu trúc AND-OR để phân cấp dữ liệu huấn luyện và phát hiện xe
Một trong những hướng mang lại hiệu quả là gom cụm dữ liệu huấn luyện kết hợp với các phương pháp tiên tiến khác để huấn luyện và phát hiện [14] Phương pháp này giúp làm giảm tính đa dạng bên trong một đối tượng (hình dáng, màu sắc, hướng,…) chia nhỏ dữ liệu huấn luyện thành nhiều cụm và huấn luyện thành nhiều
mô hình, từ đó việc phát hiện cũng chính xác và đầy đủ hơn Ngoài ra sau khi đối tượng được phát hiện thì một số thuộc tính cơ bản cũng được xác định dựa trên bộ phát hiện
Các nghiên cứu theo hướng gom cụm dữ liệu huấn luyện rất đa dạng về đặc trưng gom cụm, đặc trưng huấn luyện và phương pháp huấn luyện Các nghiên cứu theo hướng này gần đây được tổng hợp theo bảng sau:
Bảng 2.1 Tổng hợp các nghiên cứu gần đây về phát hiện xe trong ảnh và so sánh tốc
độ phát hiện
Nghiên cứu Đặc trưng Thuật toán Phương
pháp gom cụm
Đặc trưng gom cụm
Tốc độ phát hiện
Trang 250.03 fps (1242 × 375)
Pepik et al
[18] (2013)
HOG LSVM Rule-based 3D orientation
and occlusion types
0.1 fps (1242 × 375)
Aspect-ratio and occlusion
0.3 fps (1242 × 375) Sivaraman
and Trivedi
[7] (2013)
(500 × 312)
Eshed
Ohn-Bar [14]
(2015)
Color, gradient orientation, and
magnitude
AdaBoost k-means,
spectral clustering, weak/full supervision
Geometrical and visual features
5 fps (1242 × 375)
Chú thích: Nguồn được trích dẫn từ [14]
Theo như Bảng 2.1 các công trình nghiên cứu về phát hiện xe trong ảnh chủ
yếu sử dụng những đặc trưng phổ biến HOG (Histogram of Oriented Gradients), thuật toán huấn luyện và phát hiện chủ yếu là AdaBoost và LSVM (Latent Support Vector Machine) Các nghiên cứu hầu hết sử dụng gom cụm dữ liệu huấn luyện với các đặc trưng gồm: HOG, Aspect-ratio, hướng (orientation), loại che khuất (occlusion type), các đặc trưng hình học (Geometrical features), trực quan (visual features), Có thể nhận thấy các nghiên cứu sử dụng thuật toán AdaBoost có ưu thế hơn về tốc độ phát hiện, một trong những điều kiện cần thiết để áp dụng cho bài toán phát hiện xe trong ảnh
Từ những khó khăn của bài toán phát hiện phương tiện giao thông, việc gom cụm dữ liệu là một điều kiện cần thiết để nâng cao độ chính xác cũng như số lượng phương tiện phát hiện được, đặc biệt trong trường hợp xe bị che khuất
Trang 262.1.2 Các công trình liên quan
a Công trình của Kuo and Nevatia [15] (2009)
Tác giả giải quyết vấn đề đa dạng về góc nhìn của xe, sử dụng phương pháp gom cụm dữ liệu huấn luyện Đặt trưng gom cụm được sử dụng là Histogram
of Oriented Gradients (HOG) Sử dụng các phương pháp gom cụm không giám sát (Unsupervised Sub-categorization) như: Locally Linear Embedding (LLE), k-means clustering để gom cụm dữ liệu huấn luyện
Thuật toán huấn luyện và phát hiện được sử dụng là Gentle AdaBoost hay còn gọi là GentleBoost một biến thể của AdaBoost Đặc trưng varied-block-sized HOG được sử dụng cho việc huấn luyện và phát hiện xe Mô hình phân lớp cấu trúc cây cũng được áp dụng trong công trình [15]
Hình 2.1 Minh họa gom cụm bằng Locally Linear Embedding (LLE) sử dụng đặc
trung HOG
Chú thích: Hình ảnh trích dẫn từ công trình của Kuo and Nevatia [15]
Trang 27Kết quả thử nghiệm của công trình trên bộ dữ liệu UIUC có độ chính xác là
98.50% Tuy nhiên bộ dữ liệu UIUC có số lượng ảnh thử nghiệm nhỏ (170
ảnh, 200 xe), không bị che khuất và số lượng xe trên ảnh cũng ít (từ 1 đến 2 xe)
b Công trình của Rogerio Feris [1][2] (2011, 2012)
Tác giả đề xuất phương pháp thu thập dữ liệu huấn luyện tự động trên video giám sát đô thị, tổng hợp và tạo ra các mẫu huấn luyện bị che khuất Sử dụng
mô hình được đề xuất bởi Viola and Jones Đặc trưng feature pool với số lượng đặc trưng lớn Sử dụng thuật toán AdaBoost để huấn luyện và phát hiện
Để thu thập mẫu huấn luyện tự động tác giả định nghĩa một hoặc nhiều of-interest (ROI) quy định các khu vực sẽ thu thập mẫu xe trong ảnh Sử dụng phương pháp trừ nền giữa các khung hình của video để phát hiện các hướng chuyển động Cuối cùng sử dụng các luật cơ bản để thu thập mẫu xe dựa trên hình dạng của các điểm chuyển động trong một khoảng thời gian cố định Các đặc trưng sử dụng để phát hiện mẫu xe là tỉ lệ khung hình, kích cỡ, hướng chuyển động
regions-Tác giả đề xuất phương pháp tạo ra các mẫu huấn luyện bị che khuất bằng cách chồng hai mẫu lên nhau Loại bỏ nền của mẫu đặt phía trên để tạo ra một mẫu mới thể hiện xe bị che khuất
Hình 2.2 Minh họa phương pháp tạo mẫu huấn luyện bị che khuất
Chú thích: hình ảnh trích dẫn từ công trình của Feris [1]
Trang 28Hình 2.3 Minh họa mẫu huấn luyện được tạo ra từ phương pháp tạo mẫu huấn luyện
bị che khuất
Chú thích: hình ảnh trích dẫn từ công trình của Feris [1]
c Công trình của Bojan Pepik [18] (2013)
Tác giả đề xuất phương pháp sử dụng mẫu che khuất (occlutions pattern) để huấn luyện và phát hiện các đối tượng bị che khuất Đề xuất phương pháp thu thập mẫu che khuất với hai mức độ: đối tượng đơn (occludees) và đối tượng đôi (cặp occluder-occludee) Sử dụng mô hình biểu diễn mối liên hệ giữa các
bộ phận với phương pháp deformable part model (DPM) để huấn luyện và phát hiện đối tượng Đặc trưng huấn luyện được sử dụng là Histogram of Oriented Gradients (HOG) Mẫu huấn luyện được gom cụm bằng các luật cơ bản (rule-based) với các đặc trưng của mẫu che khuất như: đối tượng che khuất (occluder) nằm bên trái hay bên phải đối tượng bị che khuất (occludee), hướng của đối tượng che khuất và bị che khuất, mức đọ bị che khuất, đối tượng có tự che khuất nó không
Tác giả đề xuất ba phương pháp huấn luyện dựa trên DPM để huấn luyện mẫu che khuất Một là, huấn luyện các đối tượng đơn với phương pháp OC-DPM, các thành phần trong mô hình phát hiện (model) là các thành phần của mẫu đối tượng đơn Hai là, huấn luyện các đối tượng đôi (cặp occluder-occludee) với phương pháp Sym-DPM, thành phần gốc bao gồm cả hai đối tượng che khuất và bị che khuất, các thành phần con được phân cấp theo tường đối tượng che khuất và bị che khuất Ba là, huấn luyện các đối tượng đôi với phương pháp Asym-DPM, các đối tượng che khuất và bị che khuất được tách rời và các thành phần con sẽ chỉ phân cấp theo từng đối tượng
Trang 29Hình 2.4 Mô hình hóa các phương pháp huấn luyện do Bojan Pepik đề xuất
Chú thích: hình ảnh trích dẫn từ công trình của Bojan Pepik [18]
Kết quả thử nghiệm trên bộ dữ liệu KITTI [29] đã công bố của tác giả với các
phương pháp huấn luyện khác nhau: OC-DPM 64.4%, Sym-DPM 53.7% và
Asym-DPM 52.3%
d Công trình của Bo Li [19], [20] (2013)
Tác giả đề xuất phương pháp huấn luyện và phát hiện xe bằng thuật toán cấu trúc AND-OR Sử dụng đặc trưng Histogram of Oriented Gradients (HOG) kết hợp mô hình DPM để huấn luyện Mẫu huấn luyện được gom cụm theo các đặc trưng: tỉ lệ khung hình và sự che khuất Phương pháp gom cụm được
sử dụng là cây AND-OR
Để huấn luyện bằng phương pháp cấu trúc AND-OR cần thực hiện 3 bước: (i) khởi tạo cấu hình che khuất, (ii) xây dựng ma trận dữ liệu cho AND-OR Tree (AOT), (iii) tinh chỉnh cấu trúc AOT
Kết quả thử nghiệm trên bộ dữ liệu Pascal VOC 2006 Car đạt độ chính xác
73%
Trang 30Hình 2.5 Minh họa phương pháp cấu trúc AND-OR do Bo Li đề xuất
Chú thích: hình ảnh trích dẫn từ công trình của Bo Li [19]
e Công trình của Sivaraman and Trivedi [7] (2013)
Tác giả đề xuất hệ thống phát hiện xe bằng cách phát hiện những thành phần độc lập (Vehicle Detection by Independent Parts – VDIP), áp dụng vào hệ thống hỗ trợ lái xe trong đô thị Thay vì phát hiện toàn bộ xe thì chỉ cần phát hiện một bộ phận riêng biệt của xe cũng xác định được đó có phải là xe hay không Phương pháp sử dụng đặc đưng Haar-like và thuật toán AdaBoost để huấn luyện và phát hiện
Ngoài ra, tác giả còn đề xuất phương pháp theo vết thành phần của xe và xe
Sử dụng bộ lọc Kalman trong mặt phẳng ảnh Việc theo vết xe hoặc bộ phận của xe có thể ước lượng được vị trí và vận tốc của xe
Trang 31Hình 2.6 Minh họa mô hình phát hiện thành phần độc lập của xe
Chú thích: hình ảnh trích dẫn từ công trình của Sivaraman and Trivedi [7].
f Công trình của Eshed Ohn-Bar [14] (2015)
Tác giả đề xuất mô hình phát hiện xe sử dụng phương pháp gom cụm dữ liệu huấn luyện Đưa ra các thử nghiệm với nhiều chiến lược khác nhau nhằm tìm
ra phương pháp hiệu quả cho bài toán phát hiện xe Giải quyết vấn đề đa dạng của đối tượng xe cũng như vấn đề xe bị che khuất
Đặc trung huấn luyện và phát hiện được sử dụng là Aggregated Channel Features (ACF) bao gồm 10 kênh: normalized gradient magnitude, 6 kênh histogram of oriented gradients và 3 kênh màu LUV Các thuật toán k-means, spectral clustering, weak/full supervision được sử dụng để gom cụm dữ liệu huấn luyện Đặc trưng gom cụm sử dụng là các đặt trưng về hình học và trực quan như: tỉ lệ, hướng, mức độ bị che khuất, loại bị che khuất,
Kết quả thử nghiệm trên bộ dữ liệu KITTI [29] có độ chính xác 81.94% ở chế
độ easy (xe không bị che khuất), 66.32% ở chế độ moderate (xe bị che khuất
ít dưới 50%) và 51.1% ở chế độ hard (xe bị che khuất nhiều từ 50% trở lên) Tốc độ phát hiện đạt 5 fps (5 khung hình trên giây) với kích thước ảnh là
1242x375 px
Trang 322.2 Hướng tiếp cận của Luận văn
Hình 2.7 Kiến trúc tổng quát của phương pháp phát hiện đối tượng bằng cách gom
cụm dữ liệu huấn luyện của Eshed Ohn-Bar [14]
Trong giai đoạn huấn luyện, dữ liệu được gom cụm theo một hoặc nhiều đặc trưng Các đặc trưng dùng để gom cụm là: hướng (orientation), loại bị che khuất (occlution type), mức độ bị che khuất (occlution level), tỉ lệ khung hình (aspect-ratio),… Đặc biệt đặc trưng về hướng xe có sự tách biệt khá lớn các cụm và làm giảm
sự đa dang cho đối tượng xe
Dữ liệu
huấn
luyện
Gom cụm
Huấn luyện
Mô hình phân lớp
Ảnh
Trang 33Trong giai đoạn phát hiện, các điểm ảnh được tổng hợp từng khối 4 x 4 thành
1 điểm tính toán các đặc trưng nhằm làm giảm độ phân giải và tăng hiệu năng tính toán, sau đó so sánh với các mô hình đã huấn luyện để phát hiện phương tiện
Ngoài ra công trình của Eshed Ohn-Bar [14] cũng xác định được hướng của
phương tiện sau khi phát hiện chúng
Nghiên cứu này sử dụng framework: Piotr's Computer Vision Matlab Toolbox được giới thiệu trong công trình nghiên cứu của Piotr Dollar [21] Framework cung cấp các công cụ, thuật toán để huấn luyện và phát hiện đối tượng Với số lượng đặc trưng đa dạng, sử dụng nhiều thuật toán huấn luyện và phát hiện Trong nghiên cứu của Eshed Ohn-Bar [14], tác giả đã sử dụng đặc trưng Aggregated Channel Features (ACF) bao gồm 10 kênh: normalized gradient magnitude, 6 kênh histogram of oriented gradients và 3 kênh màu LUV kết hợp với AdaBoost để huấn luyện và phát hiện xe trong ảnh
2.2.2 Gom cụm
Trước khi huấn luyện, dữ liệu huấn luyện được gom thành từng cụm, bằng cách sử dụng các thuật toán gom cụm: k-means, spectral clustering, quantizeAngle Các đặc trưng gom cụm: hướng (orientation), loại bị che khuất (occlution type), mức
độ bị che khuất (occlution level), tỉ lệ khung hình (aspect-ratio),…
Nghiên cứu [14] đưa ra bốn chiến lược gom cụm:
a Chiến lược 1: sử dụng đặc trưng hướng hoặc kết hợp đặc trưng hướng với đặc
trưng mức độ bị che khuất Gom cụm bằng cách chia khoảng hướng của xe thành B cụm (B là số lượng cụm cần gom), hướng xe nằm trong khoảng [−𝜋, 𝜋] Nếu kết hợp với mức độ bị che khuất thì sau khi gom cụm theo hướng, trong mỗi cụm sẽ được tách ra theo mức độ bị che khuất, có thể là 2 mức: không bị che khuất (0% - 10%) và bị che khuất (11% trở lên) hoặc 3 mức: không bị che khuất (0%-10%), bị che khuất ít (11%-50%) và bị che khuất nhiểu (51% trở lên) Chiến lược này cho kết quả tốt hơn trong các thử nghiệm với độ chính xác cao hơn Ngoài ra chiến lược này cũng nâng cao khả năng phát hiện xe bị che khuất và là nền tảng cho việc xác định hướng của xe
Trang 34b Chiến lược 2: sử dụng các đặc trưng hình học (geometry) để gom cụm dữ liệu,
sử dụng thuật toán gom cụm k-means hoặc spectral clustering
c Chiến lược 3: kết hợp 2 loại đặc trưng hình học và trực quan, sử dụng LSVM
hoặc framework của Hoai Minh và Andrew Zisserman [22]
d Chiến lược 4: chỉ sử dụng các đặc trưng trực quan để gom cụm dữ liệu Sử
dụng k-means, spectral clustering hoặc weakly-supervised clustering để gom cụm dữ liệu huấn luyện Chiến lược này cho ra các mô hình không có sự tách biệt rõ ràng về hướng và mức độ bị che khuất
Kết quả các thí nghiệm cho thấy chiến lược 1 mang lại hiệu quả cao hơn các chiến lược còn lại
Hình 2.8 Biểu đồ kết quả thử nghiệm chiến lược 1 và 2
Chú thích: Hình ảnh được trích dẫn từ [14]
K20_SC là kết quả chiến lược 2 và B20 là kết quả chiến lược 1, ở chiến lược
1 nghiên cứu thử nghiệm trên 4 mức độ khác nhau với B là số cụm gom theo hướng,
M là mức độ che khuất (M1 không tách cum đã gom theo mức độ che khuất, M2 tách thành 2 phần, split tách thành nhiều phần, NoOcc chỉ lấy xe không bị che khuất)
Từ các thí nghiệm của trong công trình [14] việc sử dụng từ 20 đến 25 cụm sẽ cho kết quả tốt nhất với tỉ lệ bỏ lỡ (miss rate) thấp nhất Do đó trong Luận văn gom thành 25 cụm cho các thử nghiệm
Trang 35Hình 2.9 Biểu đồ so sánh tỉ lệ bỏ lỡ (miss rate) và tốc độ phát hiện khi thay đổi số
lượng cụm
Chú thích: Hình ảnh trích dẫn từ [14]
2.2.3 Đặc trưng huấn luyện và phát hiện
Luận văn sử dụng 10 loại đặc trưng được giới thiệu trong công trình của Piotr Dollár [34] Gồm các đặc trưng: normalized gradient magnitude, 6 kênh histogram of oriented gradients, và 3 kênh màu LUV
Hình 2.10 Minh họa 10 loại đặc trưng sử dụng Trên: Mô hình hóa ảnh đầu vào và
các kênh đặc trung đã rút trích Dưới: Mô hình hóa bộ phân lớp đã huấn luyện và các kênh được tách riêng mỗi kênh hỗ trợ phân lớp một phần của đối tượng
Chú thích: Hình được trích dân từ công trình [34] , bài toán nghiên cứu là phát hiện
con người
Gradient histogram là đặc trưng được sử dụng nhiều trong các bài toán phát
Trang 36nghiên cứu INRIA Ý tưởng chính của HOG là hình dạng và trạng thái xuất hiện của vật có thể được đặc trưng bằng sự phân bố về cường độ và hướng của cạnh
Để rút trích 10 loại đặc trưng cho một cửa sổ (window) cần phân chia cửa sổ thành nhiều khối (block), mỗi khối có nhiều ô (cell), các ô có kích thước bằng nhau
và các khối có số lượng ô như nhau Kích thước mỗi ô là 1 điểm ảnh (pixel), kích thước khối là 4 x 4 Trong đó đặc trưng HOG được tính toán với không gian hướng biến thiên trong miền 0 − 180°, chia thành 6 hướng (6 bin), độ mở mỗi hướng là 30° Đặc trưng normalized gradient magnitude cũng được tính toán bằng phương pháp chuẩn hóa 𝐿1 theo công thức (2.1) Và cuối cùng 3 kênh màu LUV được tính toán và
bổ sung vào bộ đặc trưng
𝑀̃(𝑖, 𝑗) = 𝑀(𝑖, 𝑗)
(𝑀̅(𝑖, 𝑗) + 0.005) (2.1) Trong đó: 𝑀(𝑖, 𝑗) là gradient magnitude tại 1 điểm ảnh
Quá trình huấn luyện từng cụm trải qua 4 tầng Đầu tiên mẫu dương tính (positive) sẽ được huấn luyện với 5000 mẫu âm tính (negative) ngẫu nhiên để học ra
mô hình phân lớp Sau đó tiếp tục học với 3 tầng thêm Ở mỗi tầng sẽ bổ sung thêm các mẫu âm tính trong đó bao gồm các mẫu là mẫu dương tính của các cụm khác Kết quả thu được sau quá trình học phân lớp là một mô hình phân lớp mạnh dùng để phát hiện xe
Mỗi cụm mẫu huấn luyện được lấy để huấn luyện với 3 kích cỡ khác nhau nhằm cải thiện khả năng phát hiện
Trang 372.2.5 Phát hiện
Sử dụng cửa sổ trượt (sliding-windows) cho ảnh đầu vào, rút trích đặc trưng từng cửa sổ và sử dụng AdaBoost để phân lớp từng cửa sổ với từng bộ phân lớp đã huấn luyện trong bộ phát hiện để phát hiện xe Bước nhảy của cửa sổ trược (step size) được sử dụng là 4 điểm ảnh (pixel)
Phát hiện nhiều tỉ lệ (multiple-scale) được sử dụng khi phát hiện để phát hiện nhiều xe với các kích thước khác nhau Bước nhảy tỉ lệ (scale step) là 21/10 Tổng cộng có 8 tỉ lệ được thực thi Để giảm các tính toán khi phát hiện ở nhiều tỉ lệ khác nhau các đặc trưng sau khi rút trích được bảo toàn qua nhiều tỉ lệ và được sử dụng như là đặc trưng xấp xỉ ở các tỉ lệ lân cận
Để xác định cửa sổ đầu có chứa xe hay không, cửa sổ đó được phân lớp với tất
cả bộ phân lớp trong bộ phát hiện, nếu một bộ phân lớp bất kỳ phát hiện có chứa xe thì xem như cửa sổ đó có chứa xe Và khi thực hiện trên toàn bộ ảnh sẽ xác định được
vị trí của tất cả xe trong ảnh
Trong quá trình phát hiện, các mô hình phân lớp trong bộ phát hiện có thể phát hiện trùng lắp nhau (overlapping) Để giải quyết vấn đề trùng lắp khi phát hiện, thuật toán non-maximum suppression (NMS) để tìm ra mẫu phát hiện tốt nhất
có những cụm có nhiều mẫu và những cụm có ít mẫu Số lượng mẫu không đồng đều
sẽ ảnh hưởng đến hiệu quả phát hiện xe
NMS
Trang 38Số lượng mô hình phân lớp trong bộ phát hiện nhiều, các tính toán trong quá trình phát hiện cũng theo đó tăng lên làm giảm tốc độ phát hiện Theo đó hiệu quả phát hiện cũng sẽ giảm
2.4 Tổng kết
Trong chương này, luận văn đã giới thiệu tổng quan về phương pháp phát hiện
xe bằng cách gom cụm dữ liệu huấn luyện với công trình nghiên cứu của Eshed Bar [14] Và là bước thử nghiệm nhằm áp dụng phương pháp vào bài toán phát hiện phương tiện giao thông bị che khuất trong ảnh