Bài viết này được thực hiện nhằm khảo sát và phân loại những phương pháp và hướng tiếp cận phổ biến hiện nay đối với 2 bài toán nhận diện và đo tốc độ phương tiện tham gia giao thông, hướng đến việc xây dựng mô hình giám sát giao thông thông minh trong tương lai.
Trang 1DOI: 10.15625/vap.2020.00171
KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƯƠNG TIỆN VÀ
ĐO TỐC ĐỘ PHƯƠNG TIỆN THAM GIA GIAO THÔNG Trần Hoàng Lộc, Nguyễn Khắc Ngọc Khôi, Phan Đình Duy, Vũ Đức Lung
Trường Đại học Công nghệ thông tin Đại học Quốc gia Thành phố Hồ Chi Minh
locth@uit.edu.vn, 15520386@gm.uit.edu.vn, duypd@uit.edu.vn, lungvd@uit.edu.vn
TÓM TẮT: Giám sát giao thông là bài toán được quan tâm trong những năm vừa qua Với tín hiệu báo động từ các vụ tai
nạn giao thông và những hành vi phạm tội liên quan đến giao thông, phát triển hệ thống giám sát giao thông thông minh là một trong những nhu cầu cấp thiết hiện nay, trong đó 2 bài toán căn bản của hệ thống này là nhận diện phương tiện tham gia giao thông
và đo tốc độ phương tiện tham gia giao thông Bài báo này được thực hiện nhằm khảo sát và phân loại những phương pháp và hướng tiếp cận phổ biến hiện nay đối với 2 bài toán nhận diện và đo tốc độ phương tiện tham gia giao thông, hướng đến việc xây dựng mô hình giám sát giao thông thông minh trong tương lai Các bộ dữ liệu thường được sử dụng để huấn luyện và đánh giá hệ thống cũng được tổng hợp để làm cơ sở cho các nhóm nghiên cứu có thể đánh giá công trình nghiên cứu của mình
Từ khóa: Học sâu, nhận diện vật thể, hiệu chuẩn camera, đo tốc độ phương tiện giao thông
I GIỚI THIỆU
Trong những năm vừa qua, một trong những vấn đề xã hội nhức nhối ở Việt Nam chính là tình trạng tai nạn giao thông vẫn đang ở mức cao và gây ra nhiều thiệt hại cả về mặt xã hội và kinh tế Theo tổng cục thống kê, số lượng tai nạn giao thông năm 2019 là 12.626 vụ, trong đó có 22.152 người bị thương và 7624 người chết, con số này trong 7 tháng đầu năm năm 2020 lần lượt là 7996 vụ tai nạn, 5850 người bị thương và 3791 người chết1
Nguyên nhân chính của những vụ tai nạn giao thông này thường là chạy vượt quá tốc độ, chạy sai làn đường quy định hoặc vi phạm các quy tắc lưu thông đường bộ khác Để khắc phục tình trạng này, nhà nước đã thực hiện nhiều biện pháp khác nhau, trong đó có tăng cường lắp đặt các camera giám sát giao thông với mục đích theo dõi tình trạng giao thông cũng như
xử phạt nguội các trường hợp vi phạm Bản chất của việc theo dõi tình trạng tham gia giao thông là tận dụng những video thu được từ các camera và trích xuất các thông tin mà nhận diện các phương tiện tham gia giao thông là yếu tố cốt lõi Bài toán xác định phương tiện tham gia giao thông không phải là bài toán mới, tuy nhiên vẫn còn đó những thách thức, đặc biệt là đối với tình trạng giao thông phức tạp của Việt Nam như thành phần tham gia giao thông là xe máy, lưu lượng tham gia giao thông tăng nhanh tại một số thời điểm, điều kiện thời tiết xấu, góc đặt máy quay đa dạng,… Bên cạnh đó, để có thể phát hiện những trường hợp chạy vượt quá tốc độ quy định, nhiều tuyến đường đã trang bị các máy bắn tốc độ sử dụng laser Thiết bị này có chi phí rất đắt đỏ và việc trang bị số lượng lớn trên nhiều tuyến đường là không khả thi, thay vào đó, tận dụng hình ảnh thu được từ các video giám sát giao thông từ đó sử dụng các phương pháp xử lý ảnh để phân tích tốc độ xe đang là giải pháp được nhiều nhà nghiên cứu quan tâm Tóm lại, để tăng cường khả năng giám sát giao thông qua các camera giám sát đang được trang bị với số lượng lớn trên khắp cả nước, hướng tiếp cận sử dụng các kỹ thuật xử lý ảnh để nhận diện và đo tốc độ các phương tiện tham gia giao thông là cần thiết và khả thi với mức chi phí hợp lý
Vấn đề mà bài báo này hướng đến được chia thành hai bài toán nhỏ là: (1) nhận diện phương tiện và (2) đo tốc
độ di chuyển của phương tiện Đầu vào của cả 2 bài toán trên đều là video thu được từ các camera giám sát Đầu ra của bài toán (1) là bounding box của phương tiện kèm theo nhãn hay nói cách khác là phương tiện đó thuộc loại gì: xe máy,
xe đạp, xe bus, xe tải, xe ô tô con,… Như vậy, bài toán nhận diện phương tiện bao gồm 2 bài toán con đó là bài toán xác định vị trí - localization và bài toán phân loại - classification Đầu ra của bài toán (2) chính là tốc độ của từng phương tiện trong video
Hình 1 Đầu vào (a) của bài toán nhận diện phương tiện tham gia giao thông là video giám sát giao thông, đầu ra (b) của bài toán là ảnh có các bounding box xác định vị trí, nhãn và độ tin cậy của các phương tiện và đầu ra (c) của bài toán đo tốc độ phương
tiện tham gia giao thông là tốc độ của từng phương tiện Trong những năm vừa qua, hướng tiếp cận xử lý và phân tích video giám sát giao thông dựa trên các đặc trưng hình ảnh, video đã thu hút nhiều nhà nghiên cứu cả trong và ngoài nước [1], [2] Đối với bài toàn nhận diện phương
1
https://www.gso.gov.vn/default.aspx?tabid=621&idmid=&ItemID=19701
Trang 2tiện tham gia giao thông, Seenouvong và các đồng nghiệp [3] đã đề xuất mô hình nhận diện phương tiện giới hạn trong một khu vực ảo được xác định trên không gian ảnh Phương pháp này bao gồm trích xuất tiền cảnh (foreground), nhận diện, trích xuất đặc trưng và phân loại phương tiện Để nhận diện phương tiện, nhóm tác giả [3] đã sử dụng mô hình Gaussian Mixture (GMM), sau đó thực hiện thêm một vài phép tính khác để lấy được các vật thể chính trong ảnh Sau cùng, bước phân loại được thực hiện bằng cách sử dụng bộ phân loại k-nearest neighbor Audebert và các đồng nghiệp [4] đã đề xuất hướng tiếp cận thực hiện phân đoạn trước khi nhận diện phương tiện giao thông sử dụng kỹ thuật học sâu Các bước xử lý trong hướng tiếp cận trên lần lượt là phân đoạn, nhận diện và phân loại phương tiện và được thử nghiệm trên các ảnh viễn thám có độ phân giải cao Velazquez-Pupo và các đồng nghiệp [5] đã đề xuất mô hình phân tích hình ảnh với một camera giám sát được gắn cố định với khả năng nhận diện phương tiện tham gia giao thông bao gồm các chức năng xử lý che lấp, đếm phương tiện, theo dõi và phân loại phương tiện Năm 2019, Fukai Zhang và các đồng nghiệp [6] đã đề xuất mô hình phát hiện phương tiện tham giao thông dựa trên mô hình Single-Shot Multibox Detector (SSD) có khả năng phát hiện nhiều loại phương tiện khác nhau trong thời gian thực Nhóm tác giả sử dụng nhiều bộ trích xuất đặc trưng khác nhau cho việc xác định vị trí và phân loại trong cùng một mạng CNN Để cải thiện chất lượng, các đặc trưng này được kết hợp với nhau thông qua thao tác deconvolution và pooling Nhóm tác giả cũng tiến hành điều chỉnh các bounding box theo các tỷ lệ khác nhau để có thể phát hiện các phương tiện có kích thước nhỏ được chính xác hơn Nhìn chung, bài toán nhận diện phương tiện giao thông có thể được chia thành 3 phương pháp tiếp cận chính bao gồm: phương pháp dựa trên các đặc trưng chuyển động, phương pháp dựa trên các đặc trưng cấp thấp và phương pháp dựa trên mạng neural
Đối với bài toán đo tốc độ phương tiện tham gia giao thông, phương pháp thường được sử dụng là hiệu chuẩn camera từ đó tính toán tốc độ dựa trên tỉ lệ giữa hình ảnh trong video và trong thực tế [7] Trong công bố [8], nhóm tác giả
He và Yung đã đề xuất phương pháp để tính xấp xỉ tốc độ của phương tiện giao bằng cách biến đổi ảnh 2D sang tọa độ 3D trong thế giới thực dựa trên việc hiệu chuẩn các tham số của camera Sau khi đã có được ảnh trong tọa độ 3D, nhóm tác giả thực hiện tính toán độ lệch giữa 2 khung hình liên tiếp để loại bỏ cảnh nền và ghép các phương tiện trong 2 khung hình và một khung hình duy nhất Sau cùng, các đặc trưng khối gần mặt đất nhất được so khớp để tính xấp xỉ đoạn đường
di chuyển và tốc độ của phương tiện Cũng cùng nhóm tác giả này trong công bố [9] đã đề xuất hướng tiếp cận để giải quyết thử thách hiệu chuẩn camera trong thời tiết xấu bằng các sử dụng các vạch kẻ đường Schoepflin và các đồng nghiệp [10] đã tạo nên một sơ đồ hoạt động bằng cách nhận diện phương tiện dựa trên chuyển động của tiền cảnh Sử
dụng sơ đồ hoạt động này, nhóm tác giả xác định được đường biên của làn xe từ đó xác định điểm ảo (vanishing point)
đầu tiên bằng cách lấy giao điểm của các đường biên này trong ảnh Điểm ảo thứ hai được xác định bằng cách lấy giao điểm của các đường thẳng tạo bởi các cạnh dưới của phương tiện Sử dụng 2 điểm ảo, nhóm tác giả có thể hiệu chuẩn camera, từ đó với một đoạn độ dài được đo từ trước, hệ thống này có thể tính tỉ lệ giữa thế giới thực và hình ảnh ghi được
từ camera và tính khoảng cách cũng như tốc độ của phương tiện giao thông Năm 2019, Hyung Jun Kim [11] đề xuất một
hệ thống giám sát giao thông có khả năng nhận diện, theo dõi và phân loại các loại phương tiện giao thông sử dụng nhiều
kỹ thuật xử lý ảnh khác nhau cùng với máy học dựa trên mạng tích chập Với video đầu vào từ camera giám sát, tác giả sử dụng kỹ thuật tách nền để phát hiện các phương tiện giao thông Với ảnh nền vừa được tách ra, mô hình sử dụng bộ nhận diện các cạnh và biến đổi Hough để phát hiện các làn đường, các cột trụ trên đường, từ đó tính giao điểm của chúng để lấy được các điểm ảo Bên cạnh đó, để giảm thiểu mức độ tính toán, tác giả cũng tạo ra một vùng giới giới hạn nhất định và chỉ tính toán trong phạm vi đó Sau cùng, tác giả sử dụng mô hình hình chiếu phối cảnh để tính toán khoảng cảnh thực từ góc quay của camera, từ đó tính được khoảng cảnh và tốc độ di chuyển của phương tiện Phương pháp hiệu chuẩn camera
có thể được chia thành 5 hướng tiếp cận chính bao gồm: (1) hướng tiếp cận từ việc xác định các vạch kẻ đường, (2) hướng tiếp cận dựa trên chuyển động của phương tiện, (3) hướng tiếp cận đo đạc thủ công, (4) hướng tiếp cận tự động hiệu chuẩn dựa trên thống kê các chiều và (5) các hướng tiếp cận khác
Bài báo này nhằm khảo sát các phương pháp tiếp cận đối với hai bài toán là nhận diện phương tiện và đo tốc độ phương tiện tham gia giao thông dựa trên hình ảnh thu được từ camera giám sát Đóng góp chính của bài báo này bao
gồm: (1) Phân loại các hướng tiếp cận và khảo sát các công trình nghiên cứu đối với bài toán nhận diện phương tiện tham gia giao thông, (2) Phân loại các hướng tiếp cận và khảo sát các công trình nghiên cứu đối với bài toán đo tốc độ phương tiện tham gia giao thông, (3) Tổng hợp một số tập dữ liệu thường được sử dụng trong hai bài toán nêu trên
Mục tiêu tương lai của nhóm nghiên cứu là dựa trên những khảo sát này, nhóm sẽ tiếp tục nghiên cứu và đề xuất mô hình nhận diện và đo tốc độ phương tiện tham gia giao thông hiệu quả tại Việt Nam
Cấu trúc của bài báo được tổ chức như sau Phần II trình bày khảo sát về bài toán nhận diện phương tiện tham gia giao thông Các khảo sát về bài toán đo tốc độ phương tiện tham gia giao thông được trình bày trong phần III Phần
IV sẽ tổng hợp những tập dữ liệu được sử dụng để huấn luyện và đánh giá trong hai bài toán nêu trên Cuối cùng, Phần
V sẽ đưa ra kết luận
II KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƯƠNG TIỆN GIAO THÔNG
Như đã trình bày ở trên, bài toán nhận diện phương tiện tham gia giao thông bao gồm 2 bài toán con là xác định
vị trí của phương tiện - localization và phân loại phương tiện - classification Nhận diện phương tiện là bước cơ bản để
có thể thực hiện những chức năng giám sát như theo dõi hay phân tích hành vi Có 2 hướng tiếp cận chính trong bài toán này đó là nhận diện dựa trên hình dáng bên ngoài của phương tiện và nhận diện dựa trên chuyển động của tiền cảnh [12] Hướng tiếp cận dựa trên việc trích xuất các đặc trưng từ kết cấu, màu sắc hay hình dạng của phương tiện là
Trang 3hướng tiếp cận từ hình dáng bên ngoài Ngược lại, việc sử dụng các đặc tính chuyển động của video từ đó tính toán độ lệch giữa các khung hình tiền cảnh (foreground) trên hậu cảnh (background) tĩnh để xác định các phương tiện là hướng tiếp cận dựa trên chuyển động Phương pháp A được trình bày sau đây là hướng tiếp cận dựa trên chuyển động, còn phương pháp B và C sử dụng hướng tiếp cận dựa trên hình dáng bên ngoài của phương tiện
A Phương pháp dựa trên các đặc trưng chuyển động
Đặc trưng của video giám sát giao thông đó là cảnh nền trong video luôn cố định, hay nói cách khác ta có thể xem cảnh nền là một ảnh tĩnh, và đối tượng mà bài toán quan tâm chính là các phương tiện chuyển động trên cảnh nền tĩnh đó Mục tiêu của phương pháp này chính là tách được các phương tiện đang di chuyển ra khỏi cảnh nền tĩnh, để thực hiện được điều này, phương pháp này có thể được tiếp cận theo 3 hướng chính sau: (1) hướng tiếp cận từ sự khác biệt giữa các khung hình [13] bằng cách tính toán trên 2 hoặc 3 khung hình liên tiếp nhau, (2) hướng tiếp cận từ việc tách bỏ ảnh nền [14] bằng cách xây dựng cảnh nền từ các khung hình trước đó và (3) hướng tiếp cận từ luồng sáng (optical flow) [15] thông qua tốc độ của các điểm ảnh xuất hiện tức thời
1 Hướng tiếp cận từ sự khác biệt giữa các khung hình
Với hướng tiếp cận này, sự khác biệt giữa các điểm ảnh sẽ được tính toán trên 2 khung hình liên tiếp Các độ sai lệch này sau đó được so sánh với một mức ngưỡng để phân biệt tiền cảnh và hậu cảnh Độ chính xác của phương pháp này có thể được cải thiện bằng cách so sánh 3 khung hình liên tiếp Trong [13], tác giả sử dụng tính tương quan giữa không gian và thời gian của phương tiện chuyển động, từ đó đề xuất kết hợp phương pháp tính độ lệch giữa 3 khung hình và ngưỡng cross-entropy 2 chiều để xác định đối tượng chuyển động
2 Hướng tiếp cận từ tách bỏ ảnh nền
Đây là hướng tiếp cận thường được sử dụng trong bài toán nhận diện phương tiện giao thông Hướng tiếp cận này sử dụng sự khác nhau của các điểm ảnh giữa ảnh hiện tại và ảnh nền từ đó trích xuất ra các vật thể trong tiền cảnh [14] Trong [16], ảnh nền được xây dựng thông qua việc sử dụng một mô hình tính trung bình cảnh nền bằng cách lấy trung bình một chuỗi các ảnh trong video Tuy nhiên, cảnh nền thường sẽ có sự khác nhau trong các cảnh giao thông thực tế, do đó hướng tiếp cận này không phù hợp trong các cảnh giao thông trực tiếp
3 Hướng tiếp cận từ luồng sáng (optical flow)
Trong hướng tiếp cận này, sự thay đổi nhanh chóng của các điểm ảnh tức thời trên ảnh cũng giống như sự chuyển động của các vật thể trong không gian 3 chiều Ý tưởng cốt lõi của hướng tiếp cận này là sử dụng dữ liệu về thời gian và độ dốc để cân bằng các điểm ảnh giữa những khung hình Trong [15], để thực hiện phân đoạn phương tiện giao thông, các luồng sáng qua khung hình từ môi trường 3 chiều được sử dụng Với chi phí tính toán nhiều hơn, mô hình thu được các vector chuyển động điểm ảnh phụ chính xác từ đặc tính lặp đi lặp lại của việc tính toán các luồng sáng Kỹ thuật luồng sáng cũng thường được lựa chọn sử dụng trong bài toán nhận diện phương tiện giao thông bởi kỹ thuật này có thể xử lý vấn đề chồng lấp ở một mức độ nhất định
Nhìn chung, các hướng tiếp cận trên đều tận dụng được thông tin chuyển động của phương tiện giao thông trong video Ưu và nhược điểm của các phương pháp trên được trình bày trong Bảng 1
Bảng 1 Ưu và nhược điểm các hướng tiếp cận dựa trên các đặc trưng chuyển động
- Không tốn nhiều tài nguyên tính toán
- Tốt trong việc theo dõi đối tượng
- Có thể xử lý được trường hợp đối tượng
bị che khuất
Nhược điểm
- Không xử lý tốt khi đối tượng bị chồng hình
- Khả năng sai sót cao khi hậu cảnh phức tạp
- Đặc trưng theo dõi có thể khác nhau trên nhiều phương tiện khác nhau
- Khả năng sai sót xảy ra khi đối tượng đứng yên hoặc di chuyển chậm (như kẹt xe)
B Phương pháp dựa trên đặc điểm hình dáng
Trong thực tế, con người có thể nhận biết các vật thể khác nhau một cách chính xác bằng cách nhìn vào những đặc điểm về hình dáng bên ngoài của chúng Những đặc điểm này có thể bao gồm màu sắc, kết cấu, hình dạng Trích xuất những đặc điểm này, các bộ nhận dạng thông qua thị giác máy tính cũng có thể phân biệt và nhận diện được các vật thể mà người xây dựng mô hình mong muốn, cụ thể ở đây là phương tiện giao thông Các mô hình sử dụng phương pháp này thường cần phải chuẩn bị trước một bộ dữ liệu để huấn luyện và đánh giá trước khi đưa vào sử dụng Về cơ bản, phương pháp dựa trên đặc điểm hình dáng sẽ so sánh những đặc trưng trong ảnh 2 chiều với các đặc trưng trong không gian thực 3 chiều bằng cách sử dụng các bộ trích xuất đặc trưng
1 Hướng tiếp cận từ đặc điểm từng phần
Trong hướng tiếp cận này, các phương tiện được chia thành những phần nhỏ hơn và mô hình nhận diện sẽ được xây dựa trên các thành phần này Các phương tiện có thể được nhận diện dựa trên những khác biệt về mặt không gian giữa các thành phần Trong [2], để cải thiện được khả năng nhận diện và xử lý vấn đề chồng lấp, các phương tiện trong
Trang 4ảnh được tách thành các phần nhỏ gồm phía trước, phía sau và bên cạnh Trong [17], để đạt được khả năng nhận diện tốt, nhóm tác giả đề xuất mô hình tách các đối tượng thành những phần cấu tạo nhỏ hơn, sự biến đối về cấu tạo cũng như mối quan hệ giữa những thành phần này được mô hình hóa bằng ngữ pháp biểu đồ thuộc tính ngẫu nhiên (stochastic attribute graph grammar)
2 Hướng tiếp cận từ đặc trưng cấp thấp
Đặc trưng cấp thấp là những đặc trưng chỉ về hình dáng bên ngoài của đối tượng như các cạnh, góc, màu sắc,… Hướng tiếp cận từ đặc trưng cấp thấp sẽ sử dụng các bộ trích xuất đặc trưng khác nhau để mã hóa và biểu diễn các đối tượng quan tâm, mà cụ thể ở đây là các phương tiện giao thông như xe ô tô, xe tải, xe máy, xe đạp,… Sajib và các đồng nghiệp [18] đã đề xuất mô hình sử dụng mô hình Bag of Visual Words (BoVW) để xây dựng một bộ từ điển thị giác để biểu diễn phương tiện giao thông sử dụng đặc trưng SURF Sau đó, nhóm tác giả sử dụng bộ phân loại đa lớp SVM để phân lớp cho các đối tượng Bên cạnh đặc trưng SURF còn có các loại đặc trưng khác cũng có thể được sử dụng để biểu diễn đối tượng trong ảnh như: Scale Invariant Feature Transformation (SIFT) để nhận diện biển số xe [19], Histogram of Oriented Gradients (HOG) [20], [21] hay Harr-like Feature [22] để nhận diện phương tiện giao thông Bảng 2 thực hiện so sánh điểm mạnh và điểm yếu của 2 hướng tiếp cận trên Qua đó, ta thấy được dựa trên việc trích xuất những thông tin trong ảnh, các phương tiện giao thông có thể được biểu diễn chính xác, từ đó mô hình có thể xác định được vị trí của phương tiện Tuy nhiên, với phương pháp này, việc lựa chọn đặc trưng ảnh hoặc lựa chọn bộ phận của phương tiện để biểu diễn còn khá là khó khăn và rủi ro cao khi thay đổi môi trường thực nghiệm
Bảng 2 Ưu và nhược điểm của các hướng tiếp cận dựa trên đặc điểm về hình dáng
Nhược điểm - Việc lựa chọn các phần của phương tiện phức tạp và phụ thuộc vào vị trí đặt máy quay
- Việc biểu diễn thông qua codebook thường đánh mất thông tin về không gian
- Hiệu suất phục thuộc vào việc lựa chọn features descriptots
C Phương pháp dựa trên mạng neural
Với sự phát triển trong lĩnh vực trí tuệ nhân tạo nói chung và thị giác máy tính nói riêng, các mô hình mạng neural ngày càng được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau trong đó có xử lý video giám sát giao thông Giống với phương pháp nhận diện dựa trên đặc trưng về hình dáng, các phương pháp dựa trên mạng neural cũng yêu cầu phải có một bộ dữ liệu để huấn luyện và đánh giá trước khi được sử dụng Các mô hình mạng được sử dụng trong phương pháp này có thể được xây dựng từ đầu hoặc có thể được huấn luyện chuyển tiếp hoặc được tinh chỉnh từ những mạng đã có sẵn với một vài thay đổi nhất định trong kiến trúc mạng Hai hướng tiếp cận tiêu biểu trong phương pháp nhận diện phương tiện giao thông dựa trên mạng neural có thể kể đến là hướng tiếp cận dựa trên mô hình R-CNN với
kỹ thuật xử lý 2 bước và các hướng tiếp cận dựa trên kỹ thuật nhìn một lần (single shot) như SSD hay YOLO [23]
1 Hướng tiếp cận dựa trên mô hình 2-stage
Về cơ bản, bài toán nhận diện phương tiện giao thông bao gồm 2 bài toán con đó là xác định vị trí phương tiện và phân lớp cho phương tiện đó Mô hình R-CNN là kết quả của sự kết hợp 2 thành phần gồm mạng Region Proposal để đề xuất vị trí của vật thể, và một mạng CNN để phân lớp cho các vật thể Trong [24], Yilmaz và nhóm tác giả đề xuất 6 bước thực hiện như sau: nạp bộ dữ liệu huấn luyện, thiết kế mô hình mạng neural tích chập, điều chỉnh các thông số huấn luyện, huấn luyện mô hình sử dụng bộ nhận diện vật thể Faster CNN và cuối cùng là đánh giá mô hình Mô hình mạng R-CNN bao gồm nhiều lớp, và biểu diễn hình ảnh dưới dạng các feature map ở các mức độ khác nhau Các lớp mạng bên dưới sẽ dùng để nhận dạng những đặc trưng đơn giản như các cạnh, các góc, trong khi đó các lớp mạng ở bên trên sẽ có khả năng nhận dạng các đặc trưng phức tạp hơn từ việc kết hợp các đặc trưng ở lớp dưới [25]
2 Hướng tiếp cận dựa trên kỹ thuật nhìn một lần (single-shot)
Các phương pháp dựa trên mô hình R-CNN có một khuyết điểm đó là việc kết hợp 2 mô hình Region Proposal
và CNN làm tăng chi phí tính toán từ đó phần nào giảm hiệu suất giám sát Một hướng tiếp cận khác nhằm khắc phục nhược điểm này chính là kỹ thuật nhìn một lần được áp dụng trên các mô hình SSD [6] và YOLO [26] Đặc điểm của
kỹ thuật nhìn một lần đó mô hình mạng chỉ cần trích xuất ảnh đầu vào qua các lớp mạng một lần duy nhất mà không cần sử dụng thêm một mạng Region Proposal đề xuất vùng quan tâm (Region of Interest - ROI) Để thay thế cho việc dùng Region Proposal Network, SSD và YOLO sử dụng tập các hộp được định nghĩa trước dựa trên hình dáng của đối
tượng quan tâm trong groundtruth Các hộp được định nghĩa trước này được gọi là các priors trong mô hình SSD và anchors trong mô hình YOLO Về cơ bản, các mô hình theo hướng tiếp cận này sẽ duyệt qua từng phần tử trên feature
map, với mỗi điểm như vậy, mô hình sẽ thực hiện hồi quy trên các priors - theo mô hình SSD - để xác định vị trí chính xác của đối tượng, song song đó là thực hiện phân lớp cho từng prior Kết quả cuối cùng là các bounding box cho từng đối tượng quan tâm mà ở đây là các phương tiện giao thông trong ảnh
Trang 5Phương pháp dựa trên mạng neural thể hiện khả năng tính toán tốt với độ chính xác cao Tuy nhiên nhược điểm của phương pháp này nằm ở việc cần lượng tài nguyên tính toán lớn và yêu cầu một tập huấn luyện đủ đa dạng để có thể phát huy tốt khả năng tự học của mô hình Bảng 3 thể hiện điểm mạnh và điểm yếu của 2 hướng tiếp cận dựa trên
mô hình 2-stage và kỹ thuật nhìn một lần
Bảng 3 Ưu và nhược điểm của các hướng tiếp cận dựa trên mạng CNN
- Độ chính xác cao
- Tốc độ thực thi nhanh hơn đáng kể khi so sánh với mô hình 2-stage
Nhược điểm
- Tốc độ thực thi chậm do phải thực hiện 2 mô hình con
- Hao phí tài nguyên tính toán lớn hơn nhiều so với 2 phương pháp trước đó
- Độ chính xác phục thuộc vào việc định nghĩa các priors/anchors
- Hao phí tài nguyên tính toán lớn hơn nhiều so với 2 phương pháp trước đó
III KHẢO SÁT BÀI TOÁN ĐO TỐC ĐỘ PHƯƠNG TIỆN THAM GIA GIAO THÔNG
Bài toán đo tốc độ phương tiện tham gia giao thông là bài toán quan trọng để công tác giám sát giao thông đạt được hiệu quả Hiện nay ở Việt Nam, để thực hiện việc đo tốc độ phương tiện tham gia giao thông vẫn còn đang dựa vào các công cụ chuyên dụng sử dụng công nghệ RADAR (Radio Detection and Ranging) và LIDAR (Light Detection and Ranging) Ưu điểm của các công nghệ này là cho kết quả chính xác tuy nhiên giá thành thiết bị và lắp đặt rất cao dẫn đến việc khó có thể triển khai số lượng lớn trên diện rộng Trong khi đó, việc đo tốc độ giao thông dựa trên một camera giám sát được lắp đặt vẫn là bài toán còn trong giai đoạn nghiên cứu mà chưa được triển khai Với mục đích là lắp đặt các hệ thống đo tốc độ phương tiện giao thông trên diện rộng với số lượng lớn, bài toán đo tốc độ phương tiện tham gia giao thông có 2 thách thức lớn: (1) khả năng hoạt động tự động, nói cách khác là chỉ cần lắp đặt, hệ thống sẽ
tự động căn chỉnh camera sao cho tính toán được tốc độ phương tiện một cách chính xác bởi nếu với mỗi camera đều phải cung cấp hoặc đo đạc các tham số thủ công thì sẽ rất tốn chi phí cả về nhân lực và vật lực; và (2) khả năng hoạt động ở các góc nhìn khác nhau để tận dụng được tối đa các máy quay giám sát đã được lắp đặt
Về các bước xử lý, bài toán đo tốc độ phương tiện tham gia giao thông nhìn chung sẽ có các bước xử lý gồm đầu tiên là xác định phương tiện - bài toán đã được khảo sát và trình bày trong phần II, sau đó sử dụng các kỹ thuật để tìm kiếm đoạn đường di chuyển của phương tiện, cuối cùng tốc độ sẽ được tính bằng khoảng cách di chuyển chia cho thời gian Vấn đề thời gian có thể dễ dàng tính toán được khi đầu vào của bài toán là các video, tuy nhiên để tính toán khoảng cách di chuyển lại là một vấn đề khó khăn do khoảng cách trong video 2 chiều và khoảng cách trong không gian thực 3 chiều là khác nhau do đó cần phải có một bước căn chỉnh để khớp tọa độ của camera giám sát, tọa độ thực
và tọa độ trên ảnh
Hình 2 Mô hình camera đề xuất trong [27]
Hình 2 mô tả mô hình camera được sử dụng trong bài toán đo tốc độ phương tiện, trong đó bao gồm 3 hệ tọa độ là: hệ tọa độ ảnh U-V, hệ toa độ camera Xc, Yc, Zc, và hệ tọa độ không gian thực X-Y-Z Xử lý ảnh trên camera bao gồm 2 bước: đầu tiên là biến đổi hệ tọa độ không gian thực thành hệ tọa độ camera, và sau đó là biến đổi hệ tọa độ camera thành hệ tọa độ ảnh Để thực hiện được 2 phép biển đổi trên, ta phải thực hiện tính toán các nội tham số (độ dài tiêu cự, tâm điểm, độ lệch ống kính) và ngoại tham số của camera (các thông số chuyển động phần cứng gồm ma trận quay và vector tịnh tiến), quá trình này gọi là hiệu chuẩn camera
Hình 3 Bài báo [7] đề xuất mục đích của việc hiệu chuẩn camera chính là để tính toán khoảng cách thực d giữa 2 điểm (P _1,P _2) trên mặt đường thông qua phép chiếu (p1, p2) trên không gian ảnh Các trục X, Y, Z mô tả không gian thực, đại diện các nội
tham số, và là các ngoại tham số
Trang 6Nhóm tác giả [7] đề xuất mô hình tổng quan để cho việc hiệu chuẩn camera có thể được biểu diễn dưới dạng một ma trận hình chiếu , trong đó là ma trận các nội tham số của camera, là ma trận quay và là vector tịnh tiến Khi tiếp cận với bài toán này, một số giả định sau thường được các nhóm tác giả chấp nhận: các phương tiện tham gia giao thông di chuyển theo đường thẳng, ít nhất là trong một phạm vi xác định, tâm điểm của camera nằm ở chính giữa của khung hình và độ lệch ống kính bằng 0 Phương pháp đo tốc độ phương tiện dựa trên hiệu chuẩn camera có thể được chia thành 4 hướng tiếp cận chính sau: (1) hướng tiếp cận từ các vạch kẻ đường, (2) hướng tiếp cận từ chuyển động của phương tiện, (3) hướng tiếp cận từ đo lường thủ công và (4) hướng tiếp cận tự động điều chỉnh dựa trên thống kê các chiều
A Hướng tiếp cận từ các vạch kẻ đường
Để hiệu chuẩn được camera, You và các đồng nghiệp [27] đã đề xuất phương pháp xác định 2 điểm ảo Khi nhìn vào một tấm ảnh, do góc nhìn từ camera, các đường thẳng song song trong ảnh khi kéo dài đến vô cực sẽ cắt nhau tại một điểm, điểm này chính là điểm ảo [27] Xác định điểm ảo đầu tiên bằng cách lấy giao điểm các làn đường (vốn dĩ là những đường thẳng song song trong thực tế), và điểm ảo thứ hai tính toán được bằng cách lấy giao điểm của các cột đèn hoặc các đường thẳng đứng trong ảnh 2 điểm ảo này sẽ giúp hiệu chuẩn tự động các tham số trong camera sử dụng ước tính bình phương tối thiểu thay vì tính toán dạng đóng (closed-form computation) Trong [28], nhóm tác giả giả định rằng camera chỉ nghiêng theo trục Y trong Hình 3 từ đó họ giả định là điểm ảo thứ hai (theo phương ngang và vuông góc với điểm ảo thứ nhất) nằm ở vô cực Điểm ảo thứ nhất được tính toán dựa trên lấy giao điểm của các vạch
kẻ đường với điều chỉnh bình phương tối thiểu Các phương tiện giao thông được nhận diện bằng cách tách bỏ ảnh nền
và được theo dõi bằng kỹ thuật tương quan chéo chuẩn hóa (normalized cross-corelation) Hướng tiếp cận này có thể được sử dụng trên những con đường lớn, tuy nhiên với những con đường nhỏ ở các vùng quê, hay khu vực đường nội
bộ không có vạch kẻ đường thì hướng tiếp này trở nên bất khả thi
B Hướng tiếp cận từ chuyển động của phương tiện
Filipiak và các đồng nghiệp [29] đề xuất sử dụng chuyển động của các biển số xe phát hiện được từ các khung hình để tính toán nội tham số và ngoại tham số của camera thông qua giải thuật tiến hóa Công bố [30] đề xuất phương pháp hiệu chuẩn camera tự động dựa trên việc theo dõi các đặc trưng cục bộ và phân tích quỹ đạo di chuyển dựa trên phương pháp biến đổi Hough xếp tầng và tọa độ song song Hướng tiếp cận dựa trên chuyển động của phương tiện không còn phụ thuộc vào việc phát hiện các làn đường, tuy nhiên khi áp dụng trên các đoạn đường nhỏ, quá trình hiệu chuẩn có thể sẽ phải mất một ít thời gian vì độ chính xác thường phụ thuộc vào số lượng phương tiện di chuyển trong video
C Hướng tiếp cận từ đo lường thủ công
Các hướng tiếp cận từ đo lường thủ công thường yêu cầu biết trước một vài thông số trong thế giới thực để thực hiện việc hiệu chuẩn [31] Yêu cầu cần phải biết trước 2 góc tùy ý trên mặt đất để điều chỉnh camera Bên cạnh đó, phương pháp cũng yêu cầu biết trước độ dài của các vạch kẻ đường trong thực tế để tính tỉ lệ ảnh trong camera cho một bối cảnh nhất định Nhóm tác giả sau đó sử dụng phương pháp xóa cảnh nền để nhận diện các phương tiện và theo dõi chúng bằng cách sử dụng bộ lọc Kalman Khác biệt với các phương pháp đề xuất trước đó, Sina và các đồng nghiệp [32] tập trung vào việc đo tốc độ phương tiện giao thông vào buổi tối Nhóm tác giả nhận diện phương tiện bằng cách phát hiện cặp đèn xe vào buổi tối, sau đó theo dõi chuyển động và tính toán tốc độ của phương tiện Việc hiệu chuẩn camera được thực hiện bằng cách đo thủ công góc quay của camera và khoảng cách từ camera tới mặt đất
D Hướng tiếp cận tự động điều chỉnh dựa trên thống kê các chiều
Như đã đề cập ở trên, để tiết kiệm chi phí triển khai, việc tự động hóa quá trình hiệu chuẩn là một trong những yếu tố đáng cân nhắc Hướng tiếp cận này không yêu cầu biết trước thông tin gì và hiệu chuẩn hoàn toàn tự động Dubska và các đồng nghiệp [33] đề xuất việc hiệu chuẩn camera thông qua 2 điểm ảo Nhóm tác giả sử dụng một phương pháp đơn giản để tách lấy tiền cảnh để phát hiện những khu vực chuyển động Điểm ảo đầu tiên - là hướng di chuyển của phương tiện - được tính toán bằng cách theo dõi các điểm đặc trưng trên phương tiện sử dụng bộ phát hiện điểm cực tiểu và bộ theo dõi KLT Chuyển động của điểm bị theo dõi được biến đổi bằng biến đổi Hough line-to-line
và được tham số hóa bằng cách tọa độ song song, giá trị cực đại toàn cục tưng ứng với điểm ảo đầu tiên trên ảnh Điểm
ảo thứ hai được trích xuất từ các cạnh mạnh trên phương tiện đang di chuyển và phải đáp ứng một vài điều kiện từ điểm ảo đầu tiên Các cạnh tương tự cũng sẽ được biến đổi Hough với giá trị cực đại mạnh nhất ứng với điểm ảo thứ hai Từ 2 điểm ảo được xác định như trên, mô hình có thể tính toán được các nội và ngoại tham số của camera Tốc độ của phương tiện được tính toán dựa trên việc theo dõi 3D bounding box xung quanh đối tượng bằng cách sử dụng bộ lọc Kalman và tính toán khoảng cách trong không gian thực
Bốn hướng tiếp cận trên đều thể hiện được độ hiệu quả đo tốc độ xe khi được áp dụng vào đúng môi trường Tuy nhiên, khi xét đến những điều kiện đã đặt ra gồm việc tận dụng số lượng camera lớn và hạn chế việc đo lường thủ công, hướng tiếp cận tự động hiệu chuẩn dựa trên thống kê các chiều thể hiện tính khả thi cao khi áp dụng vào trong thực tế Bảng 4 bên dưới so sánh điểm mạnh và điểm yếu của các hướng tiếp cận để hiệu chuẩn camera được trình bày
ở trên
Trang 7Bảng 4 Ưu và nhược điểm của các hướng tiếp cận hiệu chuẩn camera
Ưu điểm
- Đơn giản, dễ thực hiện
- Phù hợp với những đoạn đường rộng, nhiều làn đường như cao tốc
- Các thông số được tự
- Đạt hiệu quả
- Có khả năng triển khai quy mô lớn
Nhược điểm
- Không có hiệu quả với những đoạn đường không
có vạch kẻ đường
- Cần thời gian quan sát phương tiện để hoàn thành việc hiệu chuẩn
- Không có tính thực hiện cao khi triển khai với quy
mô lớn
- Tính toán phức tạp
IV CÁC TẬP DỮ LIỆU
Trong bài toán classification và object detection, việc thu thập tập dữ liệu là điều hết sức quan trọng, công việc này ảnh hưởng trực tiếp đến quá trình huấn luyện và kiểm thử mô hình Trong bài báo này nhóm đã tổng hợp các tập
dữ liệu được công bố và sử dụng trong các nghiên cứu trước đó
A Bài toán nhận diện phương tiện giao thông
Bảng 5 Các tập dữ liệu thường được sử dụng trong bài toán nhận diện phương tiện giao thông
lượng
Số video
Số
The 2019 AI City Challenge
[34]
Iowa DOT Traffic
Vehicle Tracking by
Simultaneous Detection and
GRAM Road-Traffic Monitoring (GRAM-RTM) dataset
A Large-Scale Car Dataset for
Fine-Grained Categorization
The Comprehensive Cars (CompCars) dataset
B Bài toán đo tốc độ xe
Bảng 6 Các tập dữ liệu thường được sử dụng trong bài toán đo tốc độ phương tiện tham gia giao thông
Số video
Số
Comprehensive Dataset for Automatic
Single Camera Visual Speed
Measurement [7]
A Video-Based System for Vehicle
Speed Measurement in Urban
V KẾT LUẬN
Giám sát giao thông là một trong những bài toán được quan tâm hàng đầu hiện nay với nhiều thách thức còn đang chờ được giải quyết như phát hiện và theo dõi phương tiện trong các điều kiện thời tiết khác nhau, đặc biệt là thời tiết xấu Môi trường là yếu tố ảnh hưởng rất nhiều đến các camera, từ đó ảnh hưởng trực tiếp đến hiệu suất giám sát Đơn giản như việc thay đổi từ ngày sang đêm cũng là một thách thức cần phải giải quyết để hệ thống có thể đảm bảo hoạt động xuyên suốt Với các nhu cầu còn lớn như vậy, bài báo khảo sát này đã khảo sát một cách bao quát những hướng tiếp cận chính trong 2 bài toán là nhận diện phương tiện vốn là tiền đề cho nhiều xử lý phía sau như theo dõi, phân tích hành vi; và bài toán đo tốc độ phương tiện giao thông là bài toán cần được đầu tư để có thể triển khai trong thực tế Bên cạnh đó, bài báo cũng tổng hợp và đề xuất một số bộ dữ liệu thường được sử dụng để các nhóm nghiên cứu trong tương lai có thể triển khai hệ thống và có cơ sở đánh giá kết quả khoa học của mình
TÀI LIỆU THAM KHẢO
[1] V H Do, L H Nghiem, N P Thi, and N P Ngoc, “A simple camera calibration method for vehicle velocity estimation”, in ECTI-CON 2015 - 2015 12th
International Conference on Electrical Engineering/Electronics,
3
https://bit.ly/2ExReqN
4
http://www.dainf.ct.utfpr.edu.br/~rminetto/projects/vehicle-speed/
Trang 8Computer, Telecommunications and Information Technology, pp 1-5, 2015
[2] S Sivaraman and M M Trivedi, “Looking at vehicles on the road: A survey of vision-based vehicle detection, tracking, and behavior analysis”, IEEE Trans Intell Transp Syst., Vol 14, No 4, pp 1773-1795, 2013
[3] N Seenouvong, U Watchareeruetai, C Nuthong, K Khongsomboon, and N Ohnishi, “Vehicle detection and classification system based on virtual detection zone”, in 2016 13th International Joint Conference on Computer Science and Software Engineering (JCSSE), pp 1-5, 2016
[4] N Audebert, B Le Saux, and S Lefèvre, “Segment-before-detect: Vehicle detection and classification through semantic segmentation of aerial images”, Remote Sens., Vol 9, No 4, p 368, 2017
[5] R Velazquez-Pupo et al., “Vehicle detection with occlusion handling, tracking, and OC-SVM classification: A high performance vision-based system”, Sensors, Vol 18, No 2, p 374, 2018
[6] F Zhang, C Li, and F Yang, “Vehicle detection in urban traffic surveillance images based on convolutional neural networks with feature concatenation”, Sensors, Vol 19, No 3, p 594, 2019
[7] J Sochor et al., “Comprehensive Data Set for Automatic Single Camera Visual Speed Measurement”, IEEE Trans Intell Transp Syst., Vol 20, No 5, pp 1633-1643, 2019
[8] X C He and N H C Yung, “A Novel Algorithm for Estimating Vehicle Speed from Two Consecutive Images”,
in 2007 IEEE Workshop on Applications of Computer Vision (WACV ’07), pp 12, 2007
[9] X He and N H C Yung, “New method for overcoming ill-conditioning in vanishing-point-based camera calibration”, Opt Eng., Vol 46, No 3, pp 37202, 2007
[10] T N Schoepflin and D J Dailey, “Dynamic camera calibration of roadside traffic management cameras for vehicle speed estimation”, IEEE Trans Intell Transp Syst., Vol 4, No 2, pp 90-98, 2003
[11] H J Kim, “Multiple vehicle tracking and classification system with a convolutional neural network”, J Ambient Intell Humaniz Comput., pp 1-12, 2019
[12] B Tian et al., “Hierarchical and networked vehicle surveillance in ITS: a survey”, IEEE Trans Intell Transp Syst., Vol 16, No 2, pp 557-580, 2014
[13] Q.-L Li and J.-F He, “Vehicles detection based on three-frame-difference method and cross-entropy threshold method”, Comput Eng., Vol 37, No 4, pp 172-174, 2011
[14] S Gupte, O Masoud, R F K Martin, and N P Papanikolopoulos, “Detection and classification of vehicles”, IEEE Trans Intell Transp Syst., vol 3, no 1, pp 37-47, 2002
[15] A Ottlik and H.-H Nagel, “Initialization of model-based vehicle tracking in video sequences of inner-city intersections,” Int J Comput Vis., Vol 80, No 2, pp 211-225, 2008
[16] R Cucchiara, C Grana, M Piccardi, and A Prati, “Detecting moving objects, ghosts, and shadows in video streams”, IEEE Trans Pattern Anal Mach Intell., Vol 25, No 10, pp 1337-1342, 2003
[17] L Lin, T Wu, J Porway, and Z Xu, “A stochastic graph grammar for compositional object representation and recognition” Pattern Recognit., Vol 42, No 7, pp 1297-1307, 2009
[18] M S R Sajib and S M Tareeq, “A feature based method for real time vehicle detection and classification from on-road videos”, in 2017 20th International Conference of Computer and Information Technology (ICCIT), pp
1-11, 2017
[19] K M A Yousef, M Al-Tabanjah, E Hudaib, and M Ikrai, “SIFT based automatic number plate recognition”, in
2015 6th International Conference on Information and Communication Systems (ICICS), pp 124-129, 2015 [20] X Li and X Guo, “A HOG feature and SVM based method for forward vehicle detection with single camera”, in
2013 5th International Conference on Intelligent Human-Machine Systems and Cybernetics, Vol 1, pp 263-266,
2013
[21] A S Banu and P Vasuki, “Video based vehicle detection using morphological operation and hog feature extraction”, ARPN J Eng Appl Sci., Vol 10, No 4, pp 1866-1871, 2015
[22] S M Elkerdawi, R Sayed, and M ElHelw, “Real-time vehicle detection and tracking using Haar-like features and compressive tracking”, in ROBOT2013: First Iberian Robotics Conference, pp 381-390, 2014
[23] M Manana, C Tu, and P A Owolawi, “A survey on vehicle detection based on convolution neural networks”, in
2017 3rd IEEE International Conference on Computer and Communications (ICCC), pp 1751-1755, 2017 [24] A A Yilmaz, M S Guzel, I Askerbeyli, and E Bostanci, “A vehicle detection approach using deep learning methodologies”, arXiv Prepr arXiv1804.00429, 2018
[25] A Arinaldi, J A Pradana, and A A Gurusinga, “Detection and classification of vehicles for traffic video analytics”, Procedia Comput Sci., Vol 144, pp 259-268, 2018
[26] J Lu et al., “A vehicle detection method for aerial image based on YOLO”, J Comput Commun., Vol 6, No 11,
pp 98-107, 2018
[27] X You and Y Zheng, “An accurate and practical calibration method for roadside camera using two vanishing points”, Neurocomputing, Vol 204, pp 222-230, 2016
Trang 9[28] L Grammatikopoulos, G Karras, and E Petsa, “Automatic estimation of vehicle speed from uncalibrated video sequences”, in Proceedings of International Symposium on Modern Technologies, Education and Profeesional Practice in Geodesy and Related Fields, pp 332-338, 2005
[29] P Filipiak, B Golenko, and C Dolega, “NSGA-II based auto-calibration of automatic number plate recognition camera for vehicle speed measurement”, in European Conference on the Applications of Evolutionary Computation, pp 803-818, 2016
[30] M Dubská, A Herout, R Juránek, and J Sochor, “Fully automatic roadside camera calibration for traffic surveillance”, IEEE Trans Intell Transp Syst., Vol 16, No 3, pp 1162-1171, 2014
[31] C Maduro, K Batista, P Peixoto, and J Batista, “Estimation of vehicle velocity and traffic intensity using rectified images”, in 2008 15th
IEEE International Conference on Image Processing, pp 777-780, 2008
[32] I Sina, A Wibisono, A Nurhadiyatna, B Hardjono, W Jatmiko, and P Mursanto, “Vehicle counting and speed measurement using headlight detection”, in 2013 International Conference on Advanced Computer Science and Information Systems (ICACSIS), pp 149-154, 2013
[33] M Dubská, A Herout, and J Sochor, “Automatic Camera Calibration for Traffic Understanding.”, in BMVC, Vol 4, No 6, p 8, 2014
[34] M Naphade et al., “The 2019 AI City Challenge.”, in CVPR Workshops, pp 452-460, 2019
VEHICLE DETECTION AND SPEED ESTIMATION: A REVIEW Tran Hoang Loc, Nguyen Khac Ngoc Khoi, Phan Dinh Duy, Vu Duc Lung
ABSTRACT: Traffic surveillance is one of the most considerable problems in recent years The serious issue of traffic
accidents and traffic-related crimes is the motivation for developing an intelligent traffic system, which contains 2 basic problems namely vehicle detection and vehicle speed estimation This paper reviewed and classified some of popular approaches for vehicle detection and vehicle speed estimation This work aims to build a smart traffic monitoring system in the future In addition, some of commonly used datasets in these two problems for training and evaluating are also aggregated as a basis for other researchers to evaluate their works