Nhận dạng và phân tích ảnh để giám sát tốc độ phương tiện giao thông
Trang 1NHẬN DẠNG VÀ PHÂN TÍCH ẢNH ĐỂ GIÁM SÁT TỐC ĐỘ PHƯƠNG TIỆN
GIAO THÔNGChuyên ngành: Kỹ thuật Điện tử
LUẬN VĂN THẠC SĨ KỸ THUẬT
ĐÀ NẴNG - 2013
Trang 2Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Tác giả luận văn
Trang 3
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục đích nghiên cứu 1
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 2
5 Bố cục đề tài 2
6 Tổng quan tài liệu nghiên cứu 3
CHƯƠNG 1: GIỚI THIỆU HỆ THỐNG GIÁM SÁT GIAO THÔNG 4
1.1 XỬ LÝ ẢNH VÀ CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH 4
1.1.1 Xử lý ảnh là gì? 4
1.1.2 Các vấn đề cơ bản trong xử lý ảnh 6
1.2 HỆ THỐNG GIÁM SÁT GIAO THÔNG ỨNG DỤNG CÔNG NGHỆ XỬ LÝ ẢNH 8
1.2.1.Cấu trúc tổng thể hệ thống giám sát giao thông dùng công nghệ xử lý ảnh 8
1.2.2 Các thành phần chính trong phần mềm xử lý ảnh 11
1.3 TỔNG QUAN VỀ XỬ LÝ VIDEO 12
1.3.1 Khái niệm về video 12
1.3.2 Một số thuộc tính đặc trưng của video 14
1.3.3 Các phương pháp xử lý trên video số 15
1.4 KẾT LUẬN 19
CHƯƠNG 2: TỔNG QUAN CÁC PHƯƠNG PHÁP ỨNG DỤNG TRONG XỬ LÝ ẢNH GIAO THÔNG 20
2.1 BÀI TOÁN PHÂN LOẠI ĐỐI TƯỢNG 20
2.1.1 Phân loại đối tượng là gì 20
2.1.2 Một số phương pháp phân loại phổ biến 23
Trang 42.3 BÀI TOÁN XÁC ĐỊNH TỐC ĐỘ PHƯƠNG TIỆN GIAO THÔNG 42
2.3.1 Mục tiêu 42
2.3.2 Các phương pháp xác định vận tốc 42
2.4 KẾT LUẬN 45
CHƯƠNG 3: THUẬT TOÁN VÀ CHƯƠNG TRÌNH GIÁM SÁT TỐC ĐỘ CỦA PHƯƠNG TIỆN GIAO THÔNG 46
3.1 THUẬT TOÁN PHÁT HIỆN CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG 46
3.1.1 Phát hiện ảnh foreground 48
3.1.2 Thuật toán xử lý ảnh 48
3.1.3 Phát hiện các khối 51
3.1.4 Hậu xử lý các vùng đối tượng 53
3.1.5 Trích xuất các đặc trưng của đối tượng 53
3.2 BÀI TOÁN PHÂN LOẠI ĐỐI TƯỢNG 53
3.2.1 Phân loại dựa trên các mẫu hình chiếu 55
3.2.2 Trích rút hình chiếu của đối tượng 55
3.2.3 Cơ sở dữ liệu mẫu các hình chiếu 55
3.2.4 Độ đo phân loại 58
3.2.5 Sự nhất quán thời gian 60
3.3 THUẬT TOÁN THEO VẾT ĐỐI TƯỢNG 61
3.3.1 Tách đối tượng chuyển động 62
3.3.2 Sử dụng bộ lọc Kalman 62
3.3.3 Kết nối các đối tượng ở hai khung hình liên tiếp 63
3.4 PHƯƠNG PHÁP ĐO TỐC ĐỘ 64
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 65
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 66
DANH MỤC TÀI LIỆU THAM KHẢO 68 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)
Trang 72.4 Quá trình phân loại, phải sau một vài khung hình đối
Trang 83.8 Hình chiếu mẫu trong cơ sở dữ liệu mẫu với các nhãn 56
Trang 9MỞ ĐẦU
1 Tính cấp thiết của đề tài
Hiện nay, nhiều thành phố lớn có mật độ giao thông cao, phương tiện
và người lưu thông trên đường rất lớn, nên việc kiểm soát và điều khiển giaothông gặp nhiều khó khăn Đặc biệt vào giờ cao điểm, tại các khu vực nhưtrường học, khu công nghiệp,… thường xuyên xảy ra ùn tắc và nguy cơ xảy ratại nạn rất cao Một trong những nguyên nhân chính đó là do lái xe vượt tốc
độ, chạy sai làn, vượt đèn đỏ… Nhưng chủ yếu trong đó là do người điềukhiển phương tiện giao thông không tuân thủ luật một cách triệt để dẫn tớiviệc mất trật tự an toàn giao thông
Để khắc phục tình trạng trên thì cần phải có sự giám sát chặt chẽ tất cảcác hành vi giao thông, đặc biệt là các hành vi sai phạm của từng phương tiệngiao thông Hệ thống giám sát này được đặt ngoài trời tại các nút giao thông
có đèn tín hiệu Hệ thống có một camera chuyên dụng ghi hình các loạiphương tiện giao thông trên đường, sau đó chuyển về trung tâm xử lý, và pháthiện các phương tiện cố tình vượt đèn đỏ, chạy sai làn đường, chạy quá tốc độquy định
Nhằm mục đích giải quyết những yêu cầu cấp bách của hệ thống giaothông trên, tôi chọn đề tài: “Nhận dạng và phân tích ảnh để giám sát tốc độphương tiện giao thông” với mong muốn sẽ giải quyết được phần nào vấn đềcủa hệ thống giao thông công cộng hiện nay
2 Mục đích nghiên cứu
Đề tài tập trung nghiên cứu các vấn đề sau:
Ứng dụng các phương pháp xử lý ảnh trong việc nhận dạng và bámđuổi đối tượng
Tìm các phương pháp nhận dạng, bám đuổi và ước lượng tốc độ xe ứngdụng trong hệ thống giám sát giao thông
Trang 103 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Đề tài tập trung nghiên cứu các vấn đề sau:Hình ảnh và video thu nhận được từ camera giao thông
Các phương pháp xác định và phân loại phương tiện giao thông
Các phương pháp theo dõi xe trong khoảng xét vi phạm
Các thuật toán ước lượng tốc độ của phương tiện tham gia giao thông
4 Phương pháp nghiên cứu
Trong luận văn này sẽ lần lượt nghiên cứu các vấn đề sau:
- Thu thập các tài liệu và phân tích, chọn lọc các thông tin liên quanđến nội dung nghiên cứu của đề tài
- Khảo sát thực trạng giao thông ở nước ta hiện nay
- So sánh và lựa chọn hợp lý các giải pháp kỹ thuật nhằm nâng cao chấtlượng hình ảnh thu nhận được
- Phương pháp phát hiện xe trong hình ảnh thu nhận được và theo dõi
xe đó trong khoảng thời gian nhất định
- Tính toán tốc độ xe di chuyển và phân loại tốc độ xe
5 Bố cục đề tài
Ngoài phần mở đầu, kết luận và tài liệu tham khảo, kết cấu luận văngồm 4 chương như sau:
Chương 1: TỔNG QUAN HỆ THỐNG XỬ LÝ ẢNH VÀ HỆ THỐNG
GIÁM SÁT GIAO THÔNG
Trong chương này sẽ giới thiệu tổng quan về xử lý ảnh, hệ thống xử lýảnh và ứng dụng xử lý ảnh vào hệ thống giám sát giao thông
Chương 2: CÁC PHƯƠNG PHÁP ỨNG DỤNG TRONG XỬ LÝ
ẢNH GIAO THÔNG
Trong chương này sẽ trình bày các phương pháp sử dụng để xác định
và phân loại phương tiện tham gia giao thông, phương pháp theo dõi phươngtiện tham gia giao thông và xác định tốc độ của xe tham gia giao thông
Trang 11Chương 3: THUẬT TOÁN VÀ CHƯƠNG TRÌNH PHÁT HIỆN,
THEO DÕI VÀ XÁC ĐỊNH TỐC ĐỘ CỦA PHƯƠNG TIỆN THAM GIAGIAO THÔNG
Trong chương này sẽ xây dựng các thuật toán phát hiện, theo dõi và xácđịnh tốc độ của phương tiện tham gia giao thông Sau đó thực hiện đánh giáhiệu suất và phân tích các kết quả thu được
Chương 4: KẾT QUẢ THỰC HIỆN
Chương này trình bày các kết quả đạt được trong luận văn và phươngpháp tổng hợp kết quả thu được
6 Tổng quan tài liệu nghiên cứu
Tài liệu nghiên cứu được tham khảo là những bài báo, các luận vănthạc sỹ từ các trường đại học của các quốc gia khác trên thế giới, cùng với cáctrang web tìm hiểu Luận văn chắc chắn không tránh khỏi những sai sót, rấtmong nhận được sự góp ý của Hội đồng để luận văn trở thành một công trìnhthực sự có ích
Trang 12CHƯƠNG 1
GIỚI THIỆU HỆ THỐNG GIÁM SÁT GIAO THÔNG
Ngày nay, xử lý ảnh đã đạt được nhiều thành tựu và là một lĩnh vực vôcùng quan trọng trong xử lý thông tin và tín hiệu bằng máy tính Các chươngtrình ứng dụng như: Nhận dạng mặt người, nhận dạng vân tay trong điều trahình sự, xử lý ảnh vệ tinh, kiểm soát giao thông, xử lý ảnh chụp cắt lớp,chuẩn đoán tế bào trong y học, các chương trình nhận dạng chữ viết… đã đemlại nhiều ứng dụng tiện ích cho con người, đặc biệt là ứng dụng cho hệ thống
xử lý giao thông Do đó, trong chương này sẽ giới thiệu tổng quan về xử lýảnh, hệ thống xử lý ảnh và ứng dụng trong hệ thống giám sát giao thông
1.1 XỬ LÝ ẢNH VÀ CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH
1.1.1 Xử lý ảnh là gì?
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóngvai trò quan trọng nhất Với sự phát triển của khoa học máy tính, xử lý ảnh và
đồ hoạ phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống
Xử lý dữ liệu bằng đồ họa đề cập đến những ảnh nhân tạo, các ảnh này đượcxem xét như là một cấu trúc dữ liệu và được tạo ra bởi các chương trình Xử
lý ảnh bao gồm các phương pháp và kỹ thuật để biến đổi, để truyền tải hoặc
mã hóa các ảnh tự nhiên Mục đích của xử lý ảnh gồm:
Thứ nhất: Biến đổi ảnh và làm đẹp ảnh; Thứ hai: Tự động nhận dạngảnh hay đoán nhận ảnh và đánh giá các nội dung của ảnh
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vàonhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận
Hình 1.1 Quá trình xử lý ảnh
XỬ LÝ ẢNH Ảnh
Ảnh “Tốt hơn”
Kết luận
Trang 13Các quá trình xử lý ảnh được tiến hành theo sơ đồ sau:
Hình 1.2 Quy trình xử lý ảnh
Thu nhận ảnh (Image Acquisition): Ảnh có thể thu nhận qua
camera Thường ảnh thu nhận qua camera là tín hiệu tương tự (loại cameraống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã sốhóa (như loại CDD – Change Couple Device) là loại photodiot tạo cường độsáng tại mỗi điểm ảnh Camera thường dùng là loại quét dòng, ảnh tạo ra códạng 2 chiều Chất lượng ảnh thu được dựa vào thiết bị thu, vào môi trường(ánh sáng, phong cảnh) Ảnh có thể thu nhận từ vệ tinh qua các bộ cảm ứng(sensor), hay ảnh, tranh được quét qua scanner
Số hóa (Digitalizer): Quá trình số hóa là để biến đổi tín hiệu tương
tự sang tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng tử hóa, trước khichuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại
Phân tích ảnh: Quá trình phân tích ảnh thực chất bao gồm nhiều
công đoạn nhỏ Trước hết là việc tăng cường ảnh (Image Enhancement) đểnâng cao chất lượng hình ảnh Do những nguyên nhân khác nhau: Có thể dothiết bị thu nhận ảnh, do nguồn ánh sáng hay do nhiễu, ảnh có thể bị suy biến
Do vậy cần tăng cường và khôi phục ảnh (Image Restoration) lại ảnh để làmnổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống với trạng
Trang 14thái gốc-trạng thái trước khi ảnh bị biến dạng Giai đoạn tiếp theo là pháthiện các đặc tính như biên (Edge Detection), phân vùng ảnh (ImageSegmentation), trích chọn các đặc tính (Feature Extraction),…
Nhận dạng: Nhận dạng ảnh là quá trình liên quan đến các mô tả đối
tượng mà người ta muốn đặc tả nó Nhận biết và đánh giá các nội dung củaảnh là sự phân tích một hình ảnh thành những phần có nghĩa để phân biệt đốitượng này với đối tượng khác Dựa vào đó ta có thể mô tả cấu trúc của hìnhảnh ban đầu
Quyết định: Tùy theo mục đích của ứng dụng, sẽ là giai đoạn nhận
dạng hay các quyết định khác
1.1.2 Các vấn đề cơ bản trong xử lý ảnh
Điểm ảnh (Picture Element): Ảnh trong thực tế là một ảnh liên tục
về không gian và độ sáng Để xử lý bằng máy tính (số), ảnh cần phải được sốhóa Số hóa ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểmphù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám) Khoảngcách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệtđược ranh giới giữa chúng Mỗi điểm như vậy gọi là điểm ảnh (PEL: PictureElement) hay gọi tắt là Pixel Trong khuôn khổ ảnh hai chiều, mỗi pixcel ứng
với cặp tọa độ (x,y)
Định nghĩa: Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y)với độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểmảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về khônggian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong
ma trận được gọi là một phần tử ảnh
Độ phân giải của ảnh (Resolution): Độ phân giải của ảnh là mật độ
điểm ảnh được ấn định trên một ảnh số được hiển thị Khoảng cách giữa cácđiểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của
Trang 15ảnh Việc lựa chọn khoảng cách thích hợp giữa các điểm ảnh tạo nên một mật
độ phân bổ , đó chính là độ phân giải và được phân bố theo trục x và y trongkhông gian hai chiều
Mức xám của ảnh: Một điểm ảnh có hai đặc trưng cơ bản là vị trí
của điểm ảnh và độ xám của nó Mức xám của điểm ảnh là cường độ sáng của
nó được gán bằng giá trị số tại điểm đó
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (mức
256 là mức phổ dụng Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu
255)
Ảnh đen trắng: là ảnh có 2 màu đen, trắng (không chứa các màu khác)với mức xám ở các điểm ảnh có thể khác nhau
Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô
là 0 hoặc 1
Ảnh màu: Trong khuôn khổ lý thuyết 3 màu (Red, Blue, Green) để tạonên thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó cácgiá trị màu: 28*3 = 224 ≈ 16,7 triệu màu
Ảnh số và quan hệ giữa các điểm ảnh
Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp, dùng để mô tảảnh gần với ảnh thật
Một ảnh số giả sử được biểu diễn bằng hàm f(x, y) Tập con các điểmảnh là S; cặp điểm ảnh có quan hệ với nhau ký hiệu là p, q Chúng ta nêu một
số các khái niệm sau:
Các lân cận của điểm ảnh (Image Neighbors): Giả sử có điểm ảnh p tạitoạ độ (x, y) p có 4 điểm lân cận gần nhất theo chiều đứng và ngang (có thểcoi như lân cận 4 hướng chính: Đông, Tây, Nam, Bắc)
Trang 16{(x-1, y); (x, y-1); (x, y+1); (x+1, y)} = N4(p)
Trong đó: số 1 là giá trị logic; N4(p) tập 4 điểm lân cận của p
1.2 HỆ THỐNG GIÁM SÁT GIAO THÔNG ỨNG DỤNG CÔNG NGHỆ XỬ LÝ ẢNH
1.2.1.Cấu trúc tổng thể hệ thống giám sát giao thông dùng công nghệ xử lý ảnh
Ứng dụng công nghệ xử lý ảnh trong giám sát giao thông là dựa vào sự
hỗ trợ tính toán của máy tính thực hiện các thuật toán xử lý ảnh để trích lọc racác thông tin cần thiết từ chuỗi các ảnh thu được bởi camera
Mô hình chung của hệ thống giám sát giao thông bằng công nghệ xử lýảnh được minh họa như hình:
Hình 1.3 Mô hình hệ thống giám sát giao thông dựa trên
công nghệ xử lý ảnh
Trang 17Một hệ thống giám sát giao thông như vậy bao gồm một số các bướcnhư tiền xử lý ảnh, phát hiện đối tượng trong vùng quan sát của camera, táchđối tượng ra khỏi ảnh nền, nhận dạng đối tượng và bắt bám đối tượng Môhình chung có thể minh họa như sau:
Hình 1.4 Sơ đồ dòng mô tả các tiến trình xử lý của hệ thống
Hệ thống bao gồm các thành phần: camera giám sát, camera chụp hình,mạng truyền thông, video server, phần mềm xử lý ảnh và cơ sở dữ liệu
Camera quan sát có nhiệm vụ ghi lại hình ảnh quá trình giao thôngsau đó truyền theo thời gian thực về trung tâm điều hành Camera giám sátđược lắp đặt ở độ cao khoảng từ 12m trở lên, vùng quan sát có chiều dài tốithiểu 30m Các thông số lắp đặt trên nhằm đảm bảo trong điều kiện giaothông bình thường (không tắc đường) hình ảnh các xe không bị chồng lấp lênnhau, với camera có tốc độ ghi 24hình/s, ta có thể ghi được tối thiểu 24 khung
Trang 18hình của xe chạy tốc độ 100km/h
(27m/s) khi nó đi qua vùng quan
sát Hình ảnh của camera giám
sát được xử lý để xác định tốc độ
và quỹ đạo của từng xe trong
dòng giao Trên cơ sở đó phát
hiện các tình huống vi phạm luật
như chạy quá tốc độ, chuyển làn
ở độ cao khoảng 5m, ngược
chiều với hướng chuyển động
của xe, vị trí và thời điểm ghi hình của camera này được điều khiển bởi phầnmềm giám sát
Để truyền tín hiệu video chất lượng cao cần mạng truyền thông cóbăng thông lớn, ngoài ra khoảng cách từ vị trí đặt camera về trung tâm thườngrất xa nên cáp quang là phương tiện truyền dẫn phù hợp nhất để kết nốicamera và các hệ thống tại trung tâm
Số lượng camera được kết nối với trung tâm thường rất nhiều nên cầnmột hệ thống lưu trữ có dung lượng ổ đĩa cứng lớn, ngoài ra còn cần đến cácthiết bị lưu trữ dự phòng ra băng từ, đĩa quang Hệ thống chuyển mạch hoạtđộng ở tốc độ cao, thuận tiện cho người sử dụng Các màn hình lớn có thểđồng thời hiển thị hình ảnh từ nhiều camera
Hình 1.5 Hệ thống giám sát giao thông bằng xử lý ảnh
Trang 19 Cơ sở dữ liệu dùng lưu các số liệu về hệ thống giao thông trong đó cókết quả của phần mềm xử lý ảnh Các số liệu này sẽ được sử dụng cho cácchức năng điều khiển, điều hành và giám sát giao thông.
Phần mềm giám sát giao thông bằng xử lý ảnh (TrafficSP) có nhiệm
vụ tính toán tốc độ và quỹ đạo các xe chạy qua vùng quan sát Trên cơ sở đóphát hiện các xe vi phạm luật giao thông và cung cấp thông tin về vị trí củachúng trong vùng giám sát, giúp điều khiển camera chụp hình ghi được hìnhảnh rõ ràng của xe vi phạm Đồng thời cảnh báo người điều hành, ghi nhậnlưu trữ, xử lý thông tin về các tình huống vi phạm luật
1.2.2 Các thành phần chính trong phần mềm xử lý ảnh
Thu nhận ảnh và tiền xử lý ảnh: video giao thông truyền từ camera
giám sát về Video Server qua mạng cáp quang, từ đây hình ảnh được chuyểntiếp đến các thành phần lưu trữ, hiển thị và phần mềm xử lý ảnh qua mạngcục bộ Module tiền xử lý thực hiện các phép lọc ảnh và chuyển đổi cần thiết
để nâng cao chất lượng của ảnh và đưa ảnh về định dạng thuận lợi cho cácphép xử lý tiếp Một trong số các chức năng của bước tiền xử lý ảnh là ảnhmàu ban đầu được chuyển về ảnh xám sau đó vùng ảnh không cần quan tâmđược cát bỏ, phần còn lại được đưa tới đầu vào của các bước xử lý tiếp theo
Khởi tạo và cập nhật ảnh nền: Ảnh cần xử lý được chia thành 2
phần: ảnh nền (Background) và ảnh tiền cảnh (Forceground) Trong ảnh chụpquá trình giao thông, ảnh nền chứa các đối tượng không chuyển động trong đóquan trọng nhất là mặt đường, ảnh tiền cảnh chứa các xe chuyển động Nhưvậy ảnh của các xe có thể được tách ra bằng cách thực hiện phép trừ nền Nếuảnh nền tham chiếu hoàn toàn trùng khớp với ảnh nền hiện tại thì hiệu củaphép trừ chính là ảnh của các xe Nhưng trong thực tế, do ảnh hưởng của ánhsáng, thời tiết mà ảnh nền có thể thay đổi theo thời gian và không còn đồngnhất với ảnh nền tham chiếu Khi sự khác nhau này vượt quá giới hạn cho
Trang 20phép sẽ dẫn đến sai số trong phép tách ảnh tiền cảnh Vấn đề đặt ra là phảicập nhật ảnh nền tham chiếu để đảm bảo sự đồng nhất giữa ảnh nền thamchiếu và ảnh nền hiện tại.
Module phát hiện chuyển động: có nhiệm vụ xác định có hay
không các đối tượng chuyển động trong một khung hình, sau đó tách ảnh đốitượng chuyển động khỏi ảnh nền
Module phát hiện, phân loại, ghi nhận các tình huống vi phạm luật giao thông: Thực hiện giám sát quá trình di chuyển của xe, phân tích
quỹ đạo chuyển động của xe để phát hiện các tình huống vi phạm luật giaothông Khi phát hiện xe vi phạm một trong các lỗi: chạy quá tốc độ và chuyểnlàn trái phép phần mềm sẽ ghi các thông tin về hành vi vi phạm vào cơ sở dữliệu, cảnh báo người điều hành bằng cách đánh dấu vào ảnh của xe vi phạmđồng thời hiển thị hành trình của xe vi phạm trên màn hành Các ảnh từ haicamera chụp được trong quá trình vi phạm sẽ được lưu lại làm căn cứ xử lýlái xe Thông tin lưu trong cơ sở dữ liệu sẽ cho biết xe vi phạm lúc nào, ở đâu
và vi phạm lỗi gì?
1.3 TỔNG QUAN VỀ XỬ LÝ VIDEO
1.3.1 Khái niệm về video
Video hay còn gọi là chuỗi ảnh (Image Sequence) tượng trưng cho thôngtin hình ảnh Đó là một chuỗi các hình ảnh truyền liên tục theo thời gian
Trong đó:
x, y R: là tọa độ của điểm ảnh (thông tin về không gian)
t R: thông tin về thời gian
Dựa trên công thức trên ta thấy ảnh tĩnh là một trường hợp đặc biệt củavideo Khi đó nó là một chuỗi các ảnh không thay đổi theo thời gian
Trang 21f(x,y,t1)= f(x,y,t2); i,j R, x,y R (1.2)
Video là tập hợp các khung hình, mỗi khung hình là một ảnh Shot (lia)
là đơn vị cơ sở của video Một lia là một đơn vị vật lý của dòng video, gồmcác chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thaotác camera đơn
Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các lialiên quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữnghĩa hoặc một tình tiết
Hình 1.6 Cấu trúc phân đoạn video
Khi phim được chiếu, các khung hình lần lượt được hiển thị ở tốc độnhất định Tốc độ thường thấy ở các định dạng video khác nhau là 30 và 25hình/s Như vậy một giờ video sẽ có số khung hình tương ứng là 108000 hoặc
là 90000 Dù là video ở định dạng nào thì nó cũng có dung lượng rất lớn vànếu xử lý với tất cả các khung hình thì thật không hiệu quả
Phân đoạn là quá trình phân tích và chia nội dung hình ảnh video thànhcác đơn vị cơ sở gọi là các lia (shot) Việc lấy mẫu chính là chọn gần đúngmột khung video đại diện cho mỗi lia (hoặc nhiều hơn tùy theo mức độ phứctạp của nội dung hình ảnh của lia) và được gọi là các khung-khóa
Khung – khóa là khung hình đại diện mô tả nội dung chính của shot.Quá trình phân đoạn dữ liệu video tiến hành phân tích, phát hiện sựchuyển đổi từ lia này sang lia khác hay chính là sự phát hiện ranh giới giữacác lia (đó chính là đo sự khác nhau giữa các khung hình liền kề)
Trang 221.3.2 Một số thuộc tính đặc trưng của video
Video có 4 đặc trưng chính đó là: Color (màu), Texture (kết cấu), Shape (hình dạng), Motion (chuyển động)
Color: Màu là một thuộc tính quan trọng của ảnh Biểu đồ màu, biểu
diến sự phân bố màu, là một đặc trưng màu phổ biến nhất hiện nay Biểu đồmàu không phụ thuộc vào sự quay, dịch chuyển ảnh cũng như chiều nhìn ảnh.Tính hiệu quả của nó lại phụ thuộc vào hệ màu và phương pháp định lượngđược dùng Có một vấn đề với biểu đồ màu là nó không biểu diễn thông tin vềkhông gian phân bố các điểm ảnh, do đó hai ảnh có cùng biểu đồ màu có thể
có nội dung rất khác nhau
Hình 1.7 Bốn khung hình khác nhau song có cùng một biểu đồ màu
Texture: Đây là một đặc trưng quan trọng của bề mặt, nơi xảy ra việc
lặp lại mẫu cơ bản Có hai dạng biểu diễn texture phổ biến: biểu diễn dạng matrận đồng thời và biểu diễn Tamura Ma trận đồng thời mô tả hướng vàkhoảng cách giữa các điểm ảnh, nhờ đó các thống kê có nghĩa có thể đượctrích chọn Ngược lại, người ta thấy rằng entropi và momen chênh lệchnghịch đảo lại có khả năng phân biệt tốt nhất Biểu diễn Tamura được thúcđẩy nhờ các nghiên cứu về tâm lý trong việc thu nhận trực giác của con người
và nó bao gồm các đại lượng đo tính thô, độ tương phản, hướng, tính trơn,tính cân đối và độ ráp Các đặc trưng Tamura rất hấp dẫn trong việc hiểu nộidung ảnh vì nó biểu đạt trực quan Ngoài ra còn có một số các dạng biểu diễnkhác như trường ngẫu nhiên Markov, biến đổi Gabor, biến đổi gợn sóng,
Shape: Các đặc trưng hình dáng có thể được biểu diễn sử dụng phân
tích hình dáng truyền thống như bất biến momen, mô tả Fourier, mô hình học
Trang 23tự động quay lui và các thuộc tính hình học Các đặc trưng này có thể đượcphân chia thành đặc trưng toàn cục và đặc trưng cục bộ Đặc trưng toàn cục làđặc trưng thuộc tính thu được từ toàn bộ hình dáng ảnh, chẳng hạn như chu
vi, tính tròn, mô men trung tâm, hướng trục chính Đặc trưng cục bộ là đặctrưng thu được từ việc thao tác với một phần của ảnh, không phụ thuộc vàotoàn bộ ảnh
Motion: Motion là thuộc tính quan trọng của video Thông tin về
chuyển động có thể được sinh ra bằng các kỹ thuật ghép khối hoặc luồng ánhsáng Các đặc trưng chuyển động như mô men của trường chuyển động, biểu
đồ chuyển động hoặc là các tham số chuyển động toàn cục có thể được tríchchọn từ vectơ chuyển động Các đặc trưng mức cao phản ánh di chuyểncamera như quét camera (pan), nghiêng (tilt), phóng to (zoom out), thu nhỏ(zoom in) cũng có thể được trích chọn
1.3.3 Các phương pháp xử lý trên video số
Video số có nhiều thông tin trực quan hơn ảnh số Lý do chính là dovideo số có chứa thông tin về chuyển động trong khi ảnh số chỉ là ảnh chụpmột cảnh tĩnh Các chuỗi ảnh động luôn hàm chứa các thông tin về chuyểnđộng, các chuyển động này là một tín hiệu nhạy cảm đối với thị giác conngười Con người có thể dễ dàng nhận biết được các đối tượng ngay khichúng chuyển động chậm thậm chí chúng rất khó thấy khi đứng yên Vì thếcác phương pháp xử lý video số cũng khác so với các phương pháp xử lý ảnh
số Vận động là thông tin quan trọng trong xử lý video số bởi vì vận độngmang rất nhiều thông tin về mối quan hệ không gian và thời gian giữa các đốitượng trong ảnh Các phương pháp cơ bản trong xử lý video số là phát hiệnchuyển động và ước lượng chuyển động Phát hiện chuyển động thường được
áp dụng trong các hệ quan sát (phát hiện đối tượng chuyển động hay đứngyên), còn ước lượng chuyển động thường được sử dụng trong nén video số
Trang 24Ngoài ra còn có các phương pháp xử lý khác được áp dụng vào mức tiền xử
lý như lọc nhiễu…các phương pháp này áp dụng trên từng frame giống nhưtrong xử lý ảnh số
Sơ nét về chuyển động: Chuyển động theo các khái niệm trong vật lý
là sự thay đổi vị trí giữa vật này và vật kia Tức là khi xét tới sự chuyển độngthì ta phải xét là nó chuyển động so với các gì Khi xét tới chuyển động tathường đặt nó vào một hệ quy chiếu quán tính Một vật có thể đứng yên trên
hệ quy chiếu này nhưng lại chuyển động khi xét nó với hệ quy chiếu khác Ví
dụ khi ta đứng yên thì có thể coi là ta đứng yên so với trái đất, nhưng khi đưavào hệ quy chiếu gắng với mặt trời thì ta lại chuyển động Điều này có ýnghĩa rất quan trọng khi ứng dụng vào camera động Chuyển động trong thực
tế là chuyển động 3D nhưng khi con người tiếp nhận thì nó trở thành chuyểnđộng 2D Nói chung hình ảnh mà mắt người nhận được đều là 2D và phéptoán chuyển đổi ảnh 3D thành ảnh 2D mà mắt con người cảm nhận được làphép chiếu phối cảnh
Hình 1.8 Phép chiếu phối cảnh của một đoạn thẳng
Chuyển động qua thế giới thực 3D qua phép chiếu phối cảnh sẽ biếnthành chuyển động trong mặt phẳng 2D Tuy nhiên con người nhận biếtchuyển động qua sự thay đổi độ sáng của điểm ảnh Do đó có những chuyểnđộng mà con người không có cảm nhận được như là chuyển động của quả địa
Trang 25cầu đồng màu Từ đó, ta có phương pháp phát hiện chuyển động đầu tiên đó
là so sánh sự khác biệt theo thời gian
Chúng ta xác định độ sai khác Dk, k-1 giữa frame thứ k và thứ k-1 như sau:
Dk, k-1 = Fk – Fk-1 (1.3)
Trong đó: Fk là frame tại thời điểm k
Nếu camera tĩnh, sự thay đổi ánh sáng rất nhỏ và nhiễu không đáng kểthì một điểm được coi là chuyển động nếu độ khác biệt của nó lớn hơn 0 vàngược lại sẽ đứng yên
Tuy nhiên trong thực tế các điều kiện trên khó có thể xảy ra Do đó đểloại bỏ các điểm mà chúng ta phát hiện sai do nhiễu gây ra, ta có thể dùngmột ngưỡng T thích hợp
Với Mk,k-1 được gọi là mặt nạ chuyển động ở thời điểm k, nếu bằng 1 thìđiểm đó được coi là chuyển động và bằng 0 thì điểm đó là đứng yên T làngưỡng thích hợp có thể là một giá trị cụ thể được xác định trong quá trìnhthực nghiệm hoặc dựa trên các thuật toán
Hình 1.9 Kết quả của phương pháp so sánh sự khác biệt
Ưu điểm của phương pháp này là đơn giản và dễ cài đặt do đó tốc độ sẽnhanh Tuy nhiên nhược điểm của nó là những vùng thật sự chuyển động
Trang 26nhưng do đồng màu nên sẽ được hiểu là đứng yên và những vùng thật sựđứng yên thì lại cho là chuyển động.
Phương pháp trừ nền
Phương pháp này cũng dựa trên sự so sánh giữa 2 ảnh, nhưng khôngphải là 2 ảnh liên tiếp trong chuỗi ảnh mà là giữa các ảnh trong chuỗi ảnh vớimột ảnh tham chiếu gọi là ảnh nền Ảnh nền là ảnh thu được khi không có đốitượng chuyển động nào hết Gọi B là ảnh nền thu được, ta có độ khác biệtgiữa ảnh nền và ảnh thứ k trong chuỗi ảnh
Nếu nhiễu ít và không có sự thay đổi của ánh sáng thì điểm có tọa độ(x,y) được xem là tĩnh nếu Dk(x,y) =0 và ngược lại Tuy nhiên trong thực tếluôn có nhiễu vì vậy ta phải dùng ngưỡng để hạn chế nhiễu
(1.7)Nếu α là một hằng số được gọi là tỉ lệ học phản ánh mức độ cập nhậtnền nhanh hay chậm
Trang 27Hình 1.10 Bóng ma trong phương pháp trừ nền
Phương pháp trừ nền cho kết quả tốt hơn phương pháp so sánh sự khácbiệt khi xử lý cac đối tượng đồng màu, tuy nhiên nó có một nhược điểm khiảnh nền chứa một đối tượng đứng yên, sau đó đối tượng này chuyển động thìphương pháp trên sẽ phát hiện ra 2 đối tượng chuyển động chứ không phải là
1 Đối tượng bị phát hiện sai này gọi là bóng ma Để giải quyết vấn đề trênngười ta phải sử dụng ảnh nền không có đối tượng chuyển động nào trong đóhết hoặc có thể dựa vào các thuật toán tạo ảnh nền
Trang 28CHƯƠNG 2
TỔNG QUAN CÁC PHƯƠNG PHÁP ỨNG DỤNG
TRONG XỬ LÝ ẢNH GIAO THÔNG
Phát hiện và phân loại các đối tượng chuyển động là một lĩnh vực quantrọng trong nghiên cứu thị giác máy tính Lĩnh vực này rất quan trọng do thếgiới quan sát được của chúng ta là động và ta liên tiếp bắt gặp những cảnhvideo chứa đựng một số lượng lớn các đối tượng chuyển động Để phân tích,phát hiện và theo dõi những đối tượng này từ một chuỗi các ảnh video là mộtthách thức quan trọng nhất mà các chuyên gia thị giác máy tính phải đối mặt.Trong chương này chúng ta sẽ trình bày vấn đề và các giải pháp có thể củamỗi nhiệm vụ con trong nhiệm vụ phân tích cảnh động Các hệ thống này cóứng dụng trong các lĩnh vực giám sát người, hệ thống bảo vệ, giám sát giaothông,…
2.1 BÀI TOÁN PHÂN LOẠI ĐỐI TƯỢNG
Đầu vào của bài toán phân loại đối tượng chuyển động là các vết đốitượng, các đặc trưng của đối tượng đã được phát hiện thông qua khối xử lýphát hiện đối tượng Cụ thể là hình bao, diện tích, trọng tâm, biểu đồ màucủa vùng đối tượng chuyển động được phát hiện
Đầu ra của bài toán phân loại đối tượng chuyển động là thông tin về lớpđối tượng chuyển động được phát hiện Cụ thể: đối tượng thuộc lớp nào(người, phương tiện, …) và thông tin về các thuộc tính của đối tượng tronglớp đó
2.1.1 Phân loại đối tượng là gì
Phân loại đối tượng là quá trình phân lớp đối tượng chuyển động thuộclớp sự vật nào (người, phương tiện, …) Các vùng chuyển động phát hiệnđược (trong bước phát hiện đối tượng chuyển động) trong video tương ứng
Trang 29với các đối tượng khác nhau như người bộ hành, xe cộ, … Nhận biết kiểu(loại) của một đối tượng phát hiện được để theo dõi tin cậy và phân tích hànhđộng của nó một cách chính xác là rất quan trọng Module này là phần thứhai trong mô hình xử lý hình ảnh Hiện tại, có hai cách tiếp cận chủ yếu:
- Phương pháp dựa trên hình dạng (shape)
- Phương pháp dựa trên sự chuyển động (motion)
Các phương pháp dựa trên hình dạng sử dụng thông tin không gian haichiều của đối tượng trong khi đó các phương pháp dựa trên sự chuyển động
sử dụng các đặc trưng thuộc thời gian đã được theo dõi của các đối tượng chogiải pháp phân loại
a Phân loại dựa trên hình dạng (Shape- based Classification)
Các đặc trưng thông thường được sử dụng trong việc phân loại dựa trênhình dạng là hình bao, diện tích, hình chiếu, và gradient của các vùng đốitượng phát hiện được
Cách tiếp cận sử dụng độ dài đường viền hình chiếu của đối tượng vàthông tin về diện tích để phân loại các đối tượng phát hiện được vào ba nhóm:người, xe cộ, và các loại khác Phương pháp xuất phát từ giả thuyết người nhỏhơn các phương tiện (xe cộ) và có các hình dạng phức tạp Độ phân tán(dispersedness) được sử dụng như độ đo phân loại và nó được định nghĩadưới dạng diện tích và độ dài (chu vi) đường viền như sau:
Area
Perimeter ess
Trang 30vào của mạng nơron là độ phân tán, diện tích và tỉ lệ bề ngoài của vùng đốitượng và độ phóng đại của camera Giống như phương pháp trước, việc phânloại được thực hiện tại mỗi khung hình Các kết quả được giữ trong một lưu
đồ (histogram) để cải thiện sự nhất quán thời gian của việc phân loại
b.Phân loại dựa trên chuyển động (Motion- based Classification)
Một vài phương pháp chỉ sử dụng các đặc trưng chuyển động thuộcthời gian của đối tượng nhằm nhận biết lớp của chúng Thông thường, chúngđược dùng để phân biệt các đối tượng linh động (non-rigid) (ví dụ: người) vớicác đối tượng không linh động (ví dụ: xe cộ) Phương pháp đề cập trong dựatrên sự tự tương đồng mang tính thời gian của một đối tượng chuyển động.Bởi vì một đối tượng thể hiện sự tiến triển mang tính chu kỳ của chuyểnđộng, các độ đo sự tự tương đồng của nó cũng chỉ ra một chuyển động mangtính chu kỳ Phương pháp khai thác đầu mối này để phân loại đối tượngchuyển động sử dụng tính chu kỳ
Sự phân tích luồng quang học cũng có ích để phân biệt các đối tượnglinh động và không linh động (rigid và non-rigid) A.J.Lipton đề xuất mộtphương pháp sử dụng luồng quang học cục bộ phân tích các vùng đối tượng.Các đối tượng linh động như người được trông đợi sẽ có luồng thặng dư(residual) trung bình cao trong khi đó các đối tượng không linh động như xe
cộ sẽ có luồng thặng dư thấp Theo đó, luồng thặng dư sinh ra bởi chuyểnđộng của người sẽ có một tính chu kỳ Bằng cách sử dụng phương pháp này,chuyển động của người, vì vậy người, có thể được phân biệt với các đối tượngkhác như xe cộ
Hai cách tiếp cận thông thường được đề cập ở trên, gọi tên là phân loạidựa trên hình dạng và phân loại dựa trên chuyển động có thể được kết hợpmột cách có hiệu quả cho việc phân loại đối tượng chuyển động Hơn nữa,Stauffer đề xuất một phương phương pháp dựa trên ma trận thời gian đồng sự
Trang 31kiện (co-occurrence matrix) để phân loại một cách phân cấp cả các đối tượng
và hành vi Bằng cách sử dụng thêm các đặc trưng như màu và vận tốcphương pháp này được mong đợi sẽ cho kết quả phân loại chính xác hơn
Tóm lại, phân loại đối tượng trong các hình ảnh video là một vấn đề đốitượng tương đối khó Mỗi phương pháp có ưu và nhược điểm riêng phù hợpvới từng hoàn cảnh, bài toán khác nhau Để đạt được hiệu quả tốt, ta cần phântích bài toán, hoàn cảnh cụ thể và lựa chọn phương pháp thích hợp Trong bàitoán theo dõi giám sát giao thông tôi lựa chọn phương pháp phân loại dựa trênhình chiếu
2.1.2 Một số phương pháp phân loại phổ biến
a Phương pháp dựa trên hình dạng (Shape- based)
Phần này trình bày một phương pháp đơn giản hơn dựa trên sự tổnghợp của sự chênh lệch thời gian( temporal differencing) và đối sánh ảnhmẫu( image template matching) cho phép đạt hiệu quả cao trong việc theo dõitrong môi trường nhiễu và cho phép phân loại tốt Do đó sử dụng bộ lọcKalman hoặc các cách tiếp cận xác suất khác để giải quyết nhược điểm này
Hai phương pháp cơ bản cho theo dõi mục tiêu trong các ứng dụng theo
dõi đối tượng là chênh lệch thời gian (temporal differencing)- DT và đối sánh
sự tương quan mẫu Trong cách tiếp cận đầu, các khung hình video phân tách
Trong cách tiếp cận sau, mỗi ảnh video được quét cho vùng mà có sự tươngquan tốt nhất với một ảnh mẫu Một cách độc lập, các phương pháp này cónhững thiếu sót quan trọng
Theo dõi DT sẽ không thể nếu có sự chuyển động đáng kể của camera,
trừ khi áp dụng một thuật toán làm ổn định ảnh Nó cũng sai nếu mục tiêu bịchồng chéo hoặc ngừng chuyển động Đối sánh sự tương đồng mẫu thườngđòi hỏi sự xuất hiện của đối tượng mục tiêu còn lại hằng số Phương pháp này
Trang 32không hiệu quả trong việc thay đổi kích cỡ đối tượng, định hướng hoặc thậmchí thay đổi điều kiện chiếu sáng.
Tuy nhiên, các thuộc tính theo dõi của hai phương pháp này bổ sungcho nhau Khi mục tiêu là cố định, thì đối sánh mẫu thí hiệu quả nhất trong
khi DT thì sai Và khi mục tiêu di chuyển, DT sẽ thành công nhưng đối sánh
mẫu có xu hướng bị “trôi đi”
Đó chính là mục đích cho việc kết hợp hai phương pháp Ý tưởng là sử
dụng DT để dò tìm các mục tiêu di động và đào tạo (training) thuật toán đối
sánh mẫu Những mục tiêu này sau đó được theo dõi sử dụng đối sánh mẫu
được hướng dẫn bởi giai đoạn DT Sự kết hợp này, ngăn ngừa sự đòi hỏi bất
cứ sự lọc mang tính dự đoán nào trong tiến trình theo dõi bởi vì việc theo dõi
đã được chỉ dẫn bởi việc dò tìm chuyển động Mô hình đơn giản này đưa ramột kết quả đáng ghi nhận
Phần này mô tả một hệ thống cho việc theo dõi các mục tiêu một cáchhiệu quả vào hai loại: “người” và “xe cộ” cho một ứng dụng theo dõi video
ngoài trời Việc theo dõi mục tiêu dựa trên hai nguyên lý: (a) Tính nhất quán
thời gian (temporal consistency) cái mà cung cấp một cách hiệu quả cho việc
phân loại các mục tiêu di động đồng thời loại bỏ sự nhiễu (hỗn loạn) nền, và(b) sự kết hợp của việc dò tìm chuyển động với đối sánh mẫu dựa trên ảnh(image- based) cung cấp một giản đồ theo dõi đối tượng khá hiệu quả Phânloại mục tiêu dựa trên một ứng dụng đơn giản của việc đánh giá khả năng lớnnhất sau khi tính toán một hình đơn giản dựa trên độ đo cho mỗi mục tiêu
Cấu trúc tổng quát của phương pháp
Hệ thống này gồm ba thành phần chính thể hiện trong hình 2.1 Trongphần đầu tiên, tất cả các đối tượng chuyển động được dò tìm sử dụng mộtthuật toán chênh lệch thời gian (temporal differencing) Chúng được mô tảnhư những vùng chuyển động (motion region) Mỗi vùng được phân loại tại
Trang 33mỗi khung hình thời gian sử dụng một độ đo phân loại dựa trên ảnh based) Các phân loại cho mỗi vùng chuyển động đơn lẻ được ghi lại qua mộtkhoảng thời gian, và một tiêu chuẩn đánh giá có khả năng lớn nhất MLE(Maximum Likelihood Estimation) được dùng để phân loại đúng mỗi đốitượng Khi đối tượng đã được phân loại nó có thể được dùng như các mẫutraining cho tiến trình theo dõi.
(image-Hình 2.1 Tổng quan của một hệ thống xác định và theo dõi
Đối tượng chuyển động được dò tìm trong một luồng video sử dụngphương pháp chênh lệch thời gian Các mục tiêu sau đó được phân loại bằngmột độ đo phân loại Sau đó các mục tiêu này được theo dõi bằng một thuậttoán theo dõi (trình bày ở phần theo dõi)
Phân loại đối tượng
Có hai thành phần chính cho việc phân loại các mục tiêu: toán tử xác
Trang 34định độ đo ID(x) được sử dụng cho việc phân biệt các loại mục tiêu (trong
trường hợp này, một độ đo dựa trên ảnh (image- based) rất đơn giản được sửdụng), và khái niệm của nhất quán thời gian Nếu một mục tiêu tồn tại vượtquá một khoảng thời gian, nó sẽ là một ứng viên tốt cho việc phân loại Nếukhông, nó sẽ được coi là hỗn loạn nền (background clutter) Vào mỗi thời
điểm, nó được phân loại dựa trên ID(x) Những sự phân loại này được thu
thập cho tới khi có một quyết định thống kê cho việc phân loại của mục tiêu.Một phiên bản của MLE được sử dụng để tạo một quyết định phân loại
Nhất quán thời gian (Temporal Consistency)
Khó khăn chính đối với việc phân loại là trong bất cứ khung đơn nào,thể hiện của một vùng chuyển động nào đó có thể không biểu hiện được đặcđiểm đúng của nó Ví dụ, một phương tiện bị chồng chéo một phần có thểtrong giống người, hoặc một vài nền hỗn loạn có thể trong giống một phươngtiện Để khắc phục vấn đề này, một cách tiếp cận đa giả thuyết (multiplehypothesis) được sử dụng
năng (potential taget) P n(i) R n(i)từ các khung hình khởi đầu Những vùng
lại như một giả thuyết phân loại X (i) cho mỗi vùng:
X(i) {ID(P n(i))} (2.2)Mỗi vùng của các mục tiêu tiềm năng này phải được quan sát trong cáckhung hình đến sau để quyết định nó tồn tại hay không, và để tiếp tục phânloại chúng Vì vậy cho các khung hình mới, mỗi vùng chuyển động trước
tiến trình này, bất cứ mục tiêu tiềm năng trước P n1(i)mà không phù hợp (đốisánh) với các vùng hiện tại sẽ được coi là khoảng đệm và bị loại bỏ khỏi danh
Trang 35sách, và bất cứ vùng chuyển động hiện tại R n nào mà không được đối sánh sẽđược coi là các mục tiêu tiềm năng mới Tại mỗi khung hình, các phân loạimới của chúng (dựa trên toán tử độ đo) được dùng để cập nhật giả thuyếtphân loại:
X(i) {X(i)} {ID(P n(i))} (2.3)Theo cách này, thống kê của một mục tiêu tiềm năng có thể được tạotrong một khoảng thời gian cho tới khi quyết định phân loại chính xác
Độ đo phân loại.
Để phân loại các mục tiêu trong các ứng dụng theo dõi đối tượng sẽ rấtcần thiết tìm một độ đo phân loại mà không đòi hỏi tính toán nhiều, nó cóhiệu quả đáng kể cho số lượng nhỏ điểm ảnh trên mục tiêu, và bất biến vớiđiều kiện ánh sáng hoặc điểm nhìn Bởi vì các mục tiêu cần chú ý nhất làngười và phương tiện, nên bộ phân loại cần dò tìm hai nhóm đối tượng này
Độ đo được dựa trên tri thức là: người thường nhỏ hơn phương tiện, và cóhình dạng phức tạp hơn
Một cách tiếp cận bi-variate được dùng, với diện tích tổng của mục tiêu(đối tượng) trên 1 trục, và độ phân tán của nó trên trục khác Độ phân tán(dispersedness) dựa trên các tham số hình dạng của mục tiêu đơn giản vàđược cho bởi:
Area
Perimeter ess
Dispersedn (2.4)Trong đó Dispersedness là độ phân tán, Perimeter là độ dài, Area làdiện tích tổng của đối tượng
Một cách rõ ràng, một người, với hình dạng phức tạp hơn của nó, sẽ có
độ phân tán lớn hơn một phương tiện xem hình 2.2 Hình 2.3 chỉ sự phân bốcủa một mẫu học (training sample) của hơn 400 mục tiêu Ngoài ra, nó cũngchỉ ra một phân đoạn tuyến tính (linear segmentation) và một phân đoạn dựa
Trang 36trên khoảng cách Mahalanobis (Mahalanobis distance- based cái mà cung cấp một phương pháp phân đoạn tốt hơn cho mục đích phân loại.
segmentation)-Hình 2.2 Các giá trị thông thường của độ phân tán cho người và xe cộ
Hình 2.3 Dữ liệu phân loại bi- viriate mẫu training qua 400 ảnh Cả phân
cụm tuyến tính và Mahalanobis đều được biểu diễn Phân loại mục tiêu
Trong thực thi này, một ứng dụng đơn giản của MLE được áp dụng đểphân loại mục tiêu Một lưu đồ phân loại (classification histogram) được tínhtoán cho mỗi vùng chuyển động tại mỗi thời điểm và nếu mục tiêu vẫn còn tồntại cho thời gian tclass, đỉnh của lưu đồ được dùng để phân loại mục tiêu Hơnnữa, tại mỗi thời điểm thời gian sau tclass, đối tượng có thể được phân loại lại
Trang 37Một lợi ích của phương pháp này là nếu một đối tượng bị chồng chéotạm thời, nó sẽ không ảnh hưởng bất lợi tới kết quả phân loại cuối cùng Hình2.4 chỉ ra một tình huống trong đối một đối tượng bị phân loại sai bởi vì bịchồng chéo một phần, nhưng sau khi qua một khoảng thời gian, những số liệuthống kê phân loại sẽ phân loại lại nó một cách chính xác.
Một lợi ích xa hơn của phương pháp này là nó hiệu quả với nền hỗnloạn (background clutter) như lá cây đang thổi trong gió Những tác động nàyxuất hiện như những chuyển động rất ngắn ngủi và không bền vững Dườngnhư những chuyển động này sẽ không thể hiện đủ lâu đề được phân loại Nếu
nó tiếp tục tồn tại, nó cũng không chắc sẽ bị phân loại sai một cách nhất quáncho một khoảng thời gian dài
Hình 2.4 Quá trình phân loại, phải sau một vài khung hình đối tượng mới
được xác định đúng
b Phương pháp phân loại dựa trên chuyển động
Trang 38Hình 2.5 Các đường viền của mục tiêu được sử dụng cho việc trích rút các
đặc trưng chuyển động
Hệ thống trích rút các đặc trưng chuyển động từ các đường viền đích(Hình 2.5) Có hai phương pháp cho việc thu được các đường viền từ các ảnhđen trắng Phương pháp đầu tiên là đo đạc đường viền hoạt động, trong đómột đường viền của một mục tiêu được tìm kiếm như một đường cong C, cái
mà làm giảm tối thiểu hàm số:
) ( 0
) ( ]
g
Trong đó số hạng đầu tiên là một hàm số hình học, số hạng thứ hai là
một số hạng làm tối thiểu hoá diện tích, được biết như lực baloon Hàm g() là
một hàm chỉ thị cạnh dương phụ thuộc vào ảnh, nó lấy các giá trị nhỏ dọc cáccạnh và các giá trị lớn hơn ở nơi nào khác
Trong phương pháp thứ hai áp dụng bộ dò tìm cạnh Canny Các cạnhthừa thu được từ bộ dò tìm cạnh Canny sau đó được loại trừ bởi bộ lọc hìnhthái học (morphological filter) Các thực nghiệm cho thấy các đường viền thuđược từ thuật toán đầu tiên thì sạch hơn những thứ thu được từ phương phápthứ hai, nhưng sự trích rút chúng đòi hỏi thời gian xử lý lớn hơn Khi sử dụngphương pháp thứ hai trong một số hệ thống, kết quả thực nghiệm cho thấyviệc phân loại mục tiêu không được hiệu quả
Các đặc trưng phục thuộc thời gian tác động đáng kể tới lượng thôngtin cho sự toàn vẹn của một đối tượng Ví dụ tính chu kỳ của dáng đi của
Trang 39người rất hữu ích cho việc phân biệt một người đang đi với một chiếc ô tôđang chuyển động Tuy nhiên, các ràng buộc thời gian thực cho phép chúng talàm việc ít hơn, đơn giản hơn, các đặc trưng phụ thuộc thời gian Sử dụng mộttìm kiếm toàn diện chúng ta sẽ tìm được một tập con tối ưu tám đặc trưngđược dựa trên các thuộc tính hình học của hình elip đều (Hình 2.6 (a)) vàkhung hình sao (Hình 2.6 (b)) được tạo bằng cách kết nối trung điểm của khốicủa đối tượng chuyển động với các điểm đường viền tương ứng với các cựcđại cục bộ của hàm đo khoảng cách giữa đường viền với tâm khối Các chứcnăng sử dụng cho mô tả của các đặc tính thời gian của chuyển động bao gồm,
ví dụ: độ nghiêng của trục nằm ngang của elip (ví dụ: góc <DOX trong hình(a)) và góc giữa “các chân” của khung hình sao (góc <ACB trong hình (b))
Hệ thống tính các số đo trong suốt 24 khung hình liên tiếp và sử dụng thôngtin này cho việc khởi tạo vector phân loại
(a) (b)
Hình 2.6 (a) Elip vừa khớp (fitted elipse) (b) Khung hình sao (c) Biều
đồ luồng phân loại
c Phương pháp phân loại kết hợp các đặc trưng dựa trên bề ngoài
và chuyển động.
Dữ liệu từ bộ
dò tìm
Bộ lọc tương đồng
Các đặc trưng chuyển động
Các đặc trưng hình dạng và bề ngoài
Bộ lọc chung
Kết quả phân loại
Tầng phân loại đầu tiên
Tầng phân loại thứ 2
(c)