Trong luận văn, các thuật toán đưa ra là sự kế thừa thành tựu, kết quả nghiên cứu của các thế hệ đi trước, đồng thời có những bước cải tiến nhằm giúp cho những thuật toán và giải pháp đư
Trang 2MỤC LỤC
PHẦN MỞ ĐẦU 4
Chương 1: KHÁI QUÁT VỀ VIDEO VÀ CAMERA GIÁM SÁT 6
1.1 Tổng quan về Video 6
1.1.1 Video tuần tự 6
1.1.1.1 Tín hiệu về video tuần tự 6
1.1.1.2 Các chuẩn video tương tự 7
1.1.1.3 Các thiết bị video tương tự 8
1.1.2 Video số 8
1.1.2.1 Tín hiệu video số 8
1.1.2.2 Các chuẩn video số 9
1.1.2.3 Nhược điểm của video số 10
1.1.2.4 Ưu điểm của video số 10
1.2.1 Các thế hệ hệ thống Camera giám sát 11
1.2.2 Giám sát dưới sự trợ giúp của Camere nhờ các kỹ thuật xử lý ảnh 12
1.2.2.1 Dò tìm đối tượng chuyển động 13
1.2.2.2 Phân loại đối tượng 21
1.2.2.3 Phát hiện lửa 23
1.2.2.4 Theo dõi đối tượng 24
1.1.2.5 Ước lượng chuyển động 25
Chương 2 MỘT SỐ KỸ THUẬT TĂNG CƯỜNG TÍNH NĂNG CHO CAMERA GIÁM SÁT 32
2.1 Phát hiện và theo vết đối tượng chuyển động 32
2.1.1 Phát hiện đối tượng chuyển động 34
2.1.1.1 Dò tìm cận cảnh 37
2.1.1.2 Cấp độ điểm ảnh sau xử lý 43
2.1.1.3 Tìm kiếm những miền được kết nối 52
2.1.1.4 Cấp độ miền sau xử lý 52
2.1.1.5 Rút trích đặc điểm của đối tượng 52
2.1.2 Theo vết đối tượng 54
2.1.2.1 Kết nối đối tượng dựa theo sự tương xứng 55
2.1.2.2 Xử lý nghẽn mạch 60
2.1.2.3 Dò tìm những đối tượng còn lại và đối tượng bị gỡ bỏ 62
Trang 32.2 Phân loại đối tượng 65
2.2.1 Phân lọai dựa theo mẫu hình chiếu 66
2.2.1.1 Rút trích hình chiếu của đối tượng 67
2.2.2 Cơ sở dữ liệu hình chiếu khuôn mẫu 67
2.2.3 Sự phân loại theo hệ mét 70
2.2.4 Sự thống nhất theo thời gian 73
2.3 Phát hiện cháy 75
2.3.1 Dò tìm màu sắc 78
Chương 3 THỰC NGHIỆM 85
3.1 Chương trình phát hiện chuyển động 85
3.1.1 Giới thiệu bài toán: 85
3.1.2 Các thuật toán áp dụng: 86
3.1.3 Một số hình ảnh minh hoạ: 90
3.2 Chương trình thực nghiệm giám sát trực quan: 91
3.2.1 Giới thiệu bài toán: 91
3.2.2 Các thuật toán áp dụng: 91
3.2.3 Một số hình ảnh minh hoạ: 93
KẾT LUẬN 94
TÀI LIỆU THAM KHẢO 96
Trang 4MỞ ĐẦU
Với sự ra đời của nhiều phương tiện kỹ thuật hiện đại như là máy ảnh số, máy quay số, các máy thu hình, máy vi tính thì lượng thông tin con người thu được ngày càng nhiều Con người không chỉ muốn tiếp thu thông tin một cách thụ động mà phải biết xử lý nó, làm cho nó hữu ích hơn Do đó con người đã tiến hành nghiên cứu các phương pháp xử lí trên thông tin trực quan này để chúng ta
có thể tiếp nhận tối đa lượng thông tin trực quan này Việc xử lý ảnh số đã ra đời vào những năm 1960 với nhiều hướng khác nhau như là nén ảnh, nhận dạng
Thêm vào đó, với sự phát triển của khoa học máy tính đã cho ra đời những thế hệ máy tính có tốc độ xử lý cao và các thiết bị thu nhận hình ảnh chất lượng tốt đã tạo ra những lợi thế trong việc phân tích xử lý những thông tin trong các đoạn video, giúp cho chúng ta có thể đưa ra được những thuật toán xử
lý trong thời gian thực Từ những điều kiện thuận lợi đó đã có một số lượng đáng kể những nghiên cứu về những thuật toán liên quan đến xử lý video số, những thuận toán giúp dò tìm, theo dõi, phân loại đối tượng chuyển động
Xét thấy việc nghiện cứu về lĩnh vực này có khả năng áp dụng thực tiển rất cao, chẳng hạn như phục vụ trong lĩnh vực an ninh công cộng và thương mại
(Kiểm tra nhằm phát hiện và ngăn ngừa tội phạm tại ngân hàng, cửa hàng, sân bay, bãi đậu xe…; Tuần tra đường cao tốc và đường sắt nhằm phát hiện tai nạn; Theo dõi tài nguyên và rừng nhằm phát hiện lửa); Giúp khai thác dữ liệu hình ảnh thông minh (Đo lường dòng lưu thông, sự tắc nghẽn đường bộ và thành tích thể thao; Tổng hợp sức tiêu thụ ở những trung tâm mua sắm và giải trí; Đếm những loài vật đang bị đe dọa) Giúp cũng cố luật (Đo tốc độ xe cộ, phát hiện các trường hợp vượt đèn đỏ và lấn đường sai luật); Áp dụng trong lĩnh vực An ninh quân sự ( Tuần tra biên giới quốc gia; Đo dòng người tị nạn; Giám sát những hiệp ước hòa bình; Bảo đảm an ninh vòng ngoài; Hỗ trợ sự chỉ huy và kiểm soát chiến trường) Đó là lý do để tôi lựa chọn đề tài:
“Một số kỹ thuật xử lý ảnh tăng cường tính năng cho camera giám sát”
Trang 5Mục tiêu đề tài:
Hiểu được những hoạt động của đối tượng động trong một cảnh quay bằng việc sử dụng hình ảnh vừa là một vấn đề thách thức vừa là một lĩnh vực phong phú hứa hẹn nhiều ứng dụng, vì thế, nó thu hút sự chú ý của nhiều nhà nghiên cứu, viện và những công ty thương mại Mục tiêu của luận văn khi nghiên cứu vấn đề này là tạo ra một hệ thống giám sát bằng hình ảnh có khả năng phát hiện đối tượng chuyển động trong thời gian thực, phân loại, kiểm tra
và phân tích hoạt động của đối tượng Trong luận văn, các thuật toán đưa ra là
sự kế thừa thành tựu, kết quả nghiên cứu của các thế hệ đi trước, đồng thời có những bước cải tiến nhằm giúp cho những thuật toán và giải pháp đưa ra có tính
áp dụng thực tiễn cao hơn như có khả năng thích nghi với điều kiện tự nhiên (sự thay đổi cường độ ánh sáng đột ngột, không đưa ra những cảnh báo đối với những chuyển động mang tính qui luật như cành cây đung đưa trước gió, sự chuyển đổi ban ngày và ban đêm…); trong các thuật toán phân loại đối tượng đã đưa ra những cải tiến để giúp cho việc phân loại đối tượng một cách chính xác; Ngoài ra luận văn còn chú trọng việc phân tích hành vi của đối tượng chuyển động, đề xuất những phân tích ở mức cao về đối tượng chuyển động
Bố cục đề tài:
Ngoài phần mở đầu và phần kết luận, luận văn được bố cục thành 3 chương: Chương 1: Tổng quan về video và camera giám sát, trong chương này giới thiệu một cách tổng quan về video, sự khác nhau giữa video tương tự và video số
Chương 2: Một số kỹ thuật tăng cường tính năng cho camera giám sát Trong đó phân tích chi tiết về các kỹ thuật liên quan đến xử lý ảnh động video, như là phát hiện đối tượng chuyển động, theo vết đối tượng, phân loại đối tượng
và phát hiện cháy
Chương 3: Thực nghiệm, trong chương này đưa ra 2 chương trình phát hiện chuyển động và thực nghiệm giám sát trực quán áp dụng các thuật toán được nêu ra ở trong chương 2
Trang 6Chương 1 KHÁI QUÁT VỀ VIDEO VÀ CAMERA GIÁM SÁT
1.1 Tổng quan về Video
Video hay còn gọi là chuỗi ảnh( image sequence ) tượng trưng cho thông tin hình ảnh Đó là một chuỗi các hình ảnh truyền liên tục theo thời gian
) , , (x y t
f
S (1.1)
trong đó :
x,yR: là tọa độ của điểm ảnh (thông tin về không gian)
tR: thông tin về thời gian
Dựa trên công thức trên ta thấy ảnh tĩnh là một trường hợp đặc biệt của Video Khi đó nó là một chuỗi các ảnh không thay đổi theo thời gian
) , , ( ) , , (x y t1 f x y t2
f với i,jR; x,yR (1.2)
Video thường được thu, lưu trữ, và chuyển đổi ở dạng tuần tự (analog) nên chúng ta sẽ bắt đầu từ video tuần tự
1.1.1 Video tuần tự
1.1.1.1 Tín hiệu về video tuần tự
Tín hiệu video tuần tự được xem như là tín hiệu điện 1 chiều theo thời gian f(t) và được lấy mẫu theo chiều dọc
Việc lấy mẫu theo chu kỳ này được gọi là quét( scanning ) Các phương pháp quét thường được sử dụng nhất là quét liên tục (progressive scanning) và quét xen kẽ (interlace scanning)
Quét liên tục(progressive scanning)
Hình1.1: Quét liên tục
Trang 7Các dòng quét bắt đầu từ A đến B, tiếp tục đến C và cứ thế cho đến D rồi quay trở lại D
o Mỗi ảnh hay còn được gọi là frame là dữ liệu được lấy mẫu theo thời gian
o Mỗi ảnh này được quét liên tục từng dòng ngang và từ trên xuống dưới với tốc độ là t giây
o Phương pháp quét này thường được dùng trong công nghiệp máy tính với tốc độ t = 1/72 giây
là field ) và quét các dòng chẵn trong khoảng t rồi chuyển qua quét các dòng
lẻ Vì thế tần số quét sẽ giảm đi một nữa
Một vài thông số quan trọng của tín hiệu video là :
1.1.1.2 Các chuẩn video tương tự
Component Analog Video: chuẩn video này sử dụng các thành phần màu RGB hoặc là YCrCb( YIQ hoặc là YUV )
Trang 8 Composite Video:
o NTSC ( National Television Standards Committee ): xuất hiện vào năm 1952, hiện tại được sử dụng ở Bắc Mỹ và Nhật Có 262.5 dòng trên 1 field hay là 525 dòng trên 1 frame, 60 field trên 1 giây và có tỉ lệ co là 4:3
o PAL ( Phase Alternating Line ) và SECAM ( SEquential Color And Memory ): được phát triển vào những năm 1960 và ngày nay thường được sử dụng ở Châu Âu Ở Việt Nam cũng dùng chuẩn này Các thông số kỹ thuật: 625 line trên 1 frame, 50 field trên 1 giây
1.1.1.3 Các thiết bị video tương tự
Các thiết bị video tương tự có thể được chia làm 3 loại: loại dành cho truyền thông, loại có chất lượng chuyên nghiệp, loại dành cho người tiêu dùng
Video được quay bởi máy quay thông thường và được lưu trong băng hoặc được quay bởi các máy quay dùng trong phim trường và tạo thành phim (24 frame/giây )
Hầu hết tín hiệu video tương tự được lưu dựa trên kỹ thuật từ ngoại trừ đĩa laser là dùng kỹ thuật quang
o Độ phân giải theo chiều dọc ( vertical resolution ): thông số này có liên quan đến số dòng quét trên 1 frame
o Tỉ lệ co ( aspect ratio ): tỉ lệ giữa chiều rộng và chiều cao của frame
1.1.2 Video số
1.1.2.1 Tín hiệu video số
Tín hiệu video số được lưu trữ dưới dạng số, do đó chúng được lấy mẫu
và lượng tử hóa Tín hiệu video số là một thông tin 3 chiều gồm 2 chiều không gian và 1 chiều thời gian hay còn được gọi là chuỗi ảnh số với mỗi ảnh số là một ảnh được lấy mẫu và lượng tử hóa
Trang 9Hình 1.3: chuỗi ảnh
1.1.2.2 Các chuẩn video số
Việc trao đổi giữa các ứng dụng và các sản phẩm video số đã đưa ra các chuẩn video số Các chuẩn này bao gồm :
Chuẩn nén: dùng để trao đổi thông tin trong dạng nén của video
Chuẩn các độ phân giải hiển thị: được dùng trong công nghiệp máy tính
Chuẩn studio số: được dùng trong ngành công nghiệp tivi
Chuẩn về giao tiếp mạng được dùng trong công nghiệp truyền thông
Trang 10Hình 1.5: Các chuẩn về ảnh và video số nén
1.1.2.3 Nhược điểm của video số
Nhược điểm của video số đó là nó đòi hỏi khối lượng lưu trữ lớn và băng thông rộng để truyền tải Chúng ta hãy thử làm một phép tính: với tín hiệu TV chất lượng tốt ta cần 1440 điểm ảnh trên một dòng, 1050 dòng cho một frame độ sáng, 720 điểm trên một dòng và 525 dòng trên một frame sắc màu Bởi vì mỗi giây có 30 frame và 8 bit/ pixel nên kết quả cuối cùng là xấp xĩ 545 Mps Đây là một yêu cấu quá lớn, do đó hiện nay người ta đang nghiên cứu các phương pháp nén video để giảm kích thước khi truyền tải
1.1.2.4 Ưu điểm của video số
Tuy có nhược điểm về yêu cầu bộ nhớ lớn nhưng video số lại có nhiều ưu điểm quan trọng Video tuần tự cung cấp cho chúng ta một số rất giới hạn các hoạt động tương tác như là : chọn kênh, chỉnh tới lui hay là quay chậm trên băng video Ngoài ra, để hiển thị tín hiệu theo chuẩn NTSC trên một hệ máy dùng chuẩn PAL ta cần có một bộ chuyển đổi tín hiệu đắt tiền, với tín hiệu số ta không cần phải chuyển đổi các tín hiệu; ngoài ra ta còn có thể chỉnh sửa, tạo các hiệu ứng đẹp trên tín hiệu video số Video số không chỉ có vai trò giải trí mà nó còn cung cấp cho chúng ta nhiều thông tin quan trọng trong nhiều lĩnh vực như
là các ảnh giám sát quân sự, điều khiển giao thông, rút trích thông tin từ các dữ liệu ảnh và video
Trang 111.2 Giám sát camera và Video
1.2.1 Các thế hệ hệ thống Camera giám sát:
Hệ thống theo dõi bằng hình ảnh đã được sử dụng để giám sát những vùng
an ninh nhạy cảm Lịch sử của việc giám sát bằng hình ảnh đã trải qua 3 thế hệ
hệ thống được gọi là 1GSS, 2GSS và 3GSS [36]
Những hệ thống giám sát thế hệ thứ 1 (1 GSS, 1960-1980) được xây dựng dựa trên các hệ thống con tương tự cho sự thu nhận, truyền và xử lý hình ảnh Chúng mở rộng tầm mắt con người trong việc nhận thức về không gian bằng cách chuyển những thông tin đầu ra từ nhiều máy quay phim giám sát nhiều vùng tới màn hình ở phòng kiểm soát trung tâm Những hệ thống này có nhiều mặt hạn chế như là yêu cầu băng thông rộng, khó lưu trữ và phục hồi những sự kiện vì yêu cầu số lượng băng ghi hình lớn, khó khăn trong việc truy tìm những
sự kiện trực tuyến và công việc chủ yếu dựa vào thao tác của con người
Hệ thống giám sát đời thứ 2 (2GSS, 1980-2000) đã được lai tạo theo ý nghĩa là sử dụng cả 2 hệ thống con là tương tự và kỹ thuật số để giải quyết những hạn chế của thế hệ máy trước Họ đã sử dụng những phương pháp xử lý hình ảnh kỹ thuật số tiên tiến, chúng giúp ích cho người điều hành bằng cách lọc bớt những hình ảnh không xác thực Hầu hết công việc của 2 GSS đều tập trung vào tìm ra những sự kiện thực
Những hệ thống thế hệ máy thứ 3 (3GSS, 2000-) cung cấp những hệ thống
kỹ thuật số end-to-end Sự thu nhận và xử lý hình ảnh ở cấp độ cảm biến, truyền thông cấp độ 1 Thông qua các mạng băng thông rộng di động và cố định không đồng nhất, và hình ảnh lưu trữ ở máy chủ được hưởng lợi từ cơ sở hạ tầng số giá thành thấp
Không giống như những thế hệ trước, một vài công đoạn trong quá trình xử
lý hình ảnh của 3GSS được phân phối về hướng cấp độ cảm biến do sử dụng những camera thông minh Đó là những camera có khả năng số hoá và nén những tín hiệu hình ảnh analog thu nhận được và trình bày những thuật toán
Trang 12phân tích hình ảnh như dò tìm chuyển động và bề mặt nhờ sự giúp đỡ của những thiết bị tin học số được đính kèm
Mục tiêu cuối cùng của 3GSS là cho phép dữ liệu hình ảnh được sử dụng trong hệ thống báo động trực tuyến nhằm hỗ trợ một cách hiệu quả cho người điều hành và cho các cuộc điều tra thực tế; để đạt được mục tiêu này, 3GSS sẽ cung cấp những hệ thống thông minh có khả năng tạo ra những báo động chính xác trong phức hợp những sự kiện, điều khiển những thiết bị lưu trữ được phân phối và truy tìm dữ liệu hình ảnh dựa trên nội dung
Việc tạo ra những hệ thống theo dõi bằng hình ảnh thông minh đòi hỏi phải
có những thuật toán nhanh, chính xác và mạnh để dò tìm, phân loại, theo dõi và phân tích hoạt động của những đối tượng di chuyển Bắt đầu từ 2GSS, một số lượng đáng kể những nghiên cứu đã được cống hiến cho sự phát triển của những
thuật toán thông minh này
1.2.2 Giám sát dưới sự trợ giúp của Camere nhờ các kỹ thuật xử lý ảnh
Video số có nhiều thông tin trực quan hơn là ảnh số Lý do chính là video
số có chứa thông tin về chuyển động trong khi ảnh số chỉ là ảnh chụp một cảnh tĩnh Các chuỗi ảnh động luôn hàm chứa các thông tin về chuyển động, các chuyển động này là một tín hiệu nhạy cảm đối với thị giác con người Con người
có thể dễ dàng nhận biết được các đối tượng ngay khi chúng chuyển động thậm chí chúng rất khó thấy khi đứng yên Vì thế các phương pháp xử lí video số cũng khác so với các phương pháp xử lí ảnh số Vận động là thông tin quan trọng trong xử lí video số bởi vì vận động mang rất nhiều thông tin về mối quan
hệ không gian và thời gian giữa các đối tượng trong ảnh Các phương pháp cơ bản trong xử lí video số là phát hiện chuyển động và ước lượng chuyển động Phát hiện chuyển động thường được áp dụng trong các hệ quan sát (phát hiện đối tượng di chuyển hoặc là đứng yên), còn ước lượng chuyển động thường được áp dụng trong nén video số Ngoài ra còn có các phương pháp xử lí khác được áp dùng vào mức tiền xử lí như là lọc nhiễu các phương pháp này áp dụng trên từng frame giống như trong xử lí ảnh số
Trang 131.2.2.1 Dò tìm đối tượng chuyển động
a Sơ nét về chuyển động
Chuyển động theo các khái niệm trong vật lý là sự thay đổi vị trí giữa vật này và vật kia, tức là khi xét tới sự chuyển động thì ta phải xét là nó chuyển động so với cái gì Khi xét tới chuyển động ta thường đặt nó vào một hệ quy chiếu quán tính, một vật có thể đứng yên trên hệ quy chiếu này nhưng lại chuyển động khi xét nó với hệ quy chiếu khác Ví dụ khi ta đứng yên thì có thể coi là ta đứng yên so với hệ quy chiếu gắn với trái đất, nhưng khi đưa vào hệ quy chiếu gắn với mặt trời thì ta lại chuyển động Điều này có ý nghĩa rất quan trọng khi ứng dụng vào camera động Chuyển động trong thực tế là chuyển động 3D nhưng khi con người tiếp nhận thì nó trở thành chuyển động 2D Nói chung hình ảnh mà mắt người nhận được đều là 2D Và phép toán chuyển đổi ảnh 3D thành ảnh 2D mà mắt con người cảm nhận được là phép chiểu phối cảnh
Hình 1.6: Phép chiếu phối cảnh của một đoạn thẳng
Chuyển động trong thế giới thực 3D qua phép chiếu phối cảnh sẽ biến thành chuyển động trong mặt phẳng 2D Tuy nhiên con người nhận biết chuyển động qua sự thay đổi độ sáng của điểm ảnh Do đó có những chuyển động mà con người không có cảm nhận được như là chuyển động của quả cầu đồng màu
Từ đó ta có phương pháp phát hiện chuyển động đầu tiên đó là so sánh sự khác biệt theo thời gian
Trang 14Mỗi một ứng dụng của việc xử lý ảnh thông minh đều đáp ứng cho những nhu cầu khác nhau, do vậy nó có những yêu cầu xử lý khác nhau Tuy nhiên chúng có một điểm chung: những đối tượng di chuyển
Hình 1.7: Một sơ đồ chung cho những thuật toán xử lý hình ảnh thông minh
Vì vậy, việc xác định những vùng tương ứng với những đối tượng di chuyển như là con người và xe cộ trong cảnh quay là một bước cơ bản đầu tiên của hầu hết mọi hệ thống quan sát bởi vì nó tạo ra một sự tập trung chú ý và đơn giản hoá quá trình xử lý ở những bước phân tích sâu hơn Do sự thay đổi không ngừng của tự nhiên như thay đổi đột ngột của ánh sáng và thời tiết, những chuyển động lặp đi lặp lại (lá cây chuyển động trong gió) tạo nên sự lộn xộn, việc dò tìm chuyển động là một khó khăn trong việc xử lý một cách chính xác
Những kỹ thuật sử dụng thường xuyên trong việc dò tìm đối tượng động
là việc trừ nền, những phương pháp thống kê, so sánh sự khác biệt và luồng quang học Những kỹ thuật này được mô tả dưới đây
b Phương pháp so sánh sự khác biệt
Chúng ta xác định độ sai khác D K,K1giữa frame thứ k và thứ k-1 như sau:
1 1
,K K K
trong đó: F k là frame tại thời điểm k
Nếu camera tĩnh, sự thay đổi ánh sáng rất nhỏ và nhiễu không đáng kể thì một điểm được coi là chuyển động nếu độ khác biệt của nó lớn hơn 0 và ngược lại sẽ đứng yên Tuy nhiên trong thực tế các điều kiện trên khó có thể xảy ra
Trang 15Do đó để loại bỏ các điểm mà chúng ta phát hiện sai do nhiễu gây ra, ta có thể
dùng một ngưỡng T thích hợp Với M k,k+1 được gọi là mặt nạ chuyển động ở thời điểm k, nếu bằng 1 thì điểm đó được coi là chuyển động và bằng 0 thì điểm
đó là đứng yên T là ngưỡng thích hợp có thể là một giá trị cụ thể được xác định trong quá trình thực nghiệm hoặc dựa trên các thuật toán Độc giả có thể tham khảo một thuật toán xác định ngưỡng ở phụ lục B của [1]
frame thứ k frame thứ k-1
mặt nạ chuyển động
Hình 1.8: Kết quả của phương pháp so sánh sự khác biệt
Ưu điểm của phương pháp này là đơn giản và dễ cài đặt do đó tốc độ sẽ nhanh Tuy nhiên nhược điểm của nó là những vùng thật sự chuyển động nhưng
do đồng màu nên sẽ được hiểu là đứng yên và nhưng vùng thật sự đứng yên thì lại cho là chuyển động
Để khắc phục nhược điểm trên ta có một thuật toán so sánh khác biệt cải tiến:
Bước 1: Tạo một cấu trúc Pyramid Gaussian trong đó mổi frame được đặc trưng bởi nhiều độ phân giải khác nhau Bắt đầu xử lí ở mức phân giải thấp nhất
Bước 2: Với mỗi điểm ở mức phân giải hiện tại, tính toán độ khác biệt chuẩn hóa:
N y x r
k
c r y x f
r y x f r y x f k y x f y
x FDN
,
2 ,
,
) , , (
) , , ( ) , , ( ) , , ( )
,
Trang 16N: là các điểm trong lân cận của x
f ( x, y, r) : là gradient của mật độ ảnh tại điểm (x, y)
f ( x, y, k ) : là frame ở thời điểm k c: là hằng số
Nếu độ khác biệt chuẩn hóa này cao hơn độ khác biệt ở độ phân giải trước thì thay thế độ khác biệt trước đó bằng độ khác biệt ở mức hiện tại Nếu không thì vẫn giữ nguyên giá trị trước đó
Bước 3 : Lặp lại bước 2 cho tất cả độ phân giải
Bước 4 : Lấy ngưỡng với sự khác biệt chuẩn hóa ở mức phân giải cao nhất
c Phương pháp trừ nền
Trừ nền là một kỹ thuật đặc biệt được sử dụng rộng rãi trong việc phân đoạn động của những cảnh quay tĩnh (34) Công việc này nhằm cố gắng xác định những vùng chuyển động bằng việc loại bỏ từng điểm ảnh một của bức ảnh
từ một hình nền tham chiếu được tạo ra bởi việc chuẩn hoá những hình ảnh theo thời gian trong giai đoạn đầu Những điểm ảnh có sự khác biệt trên ngưỡng được xếp là những điểm ảnh cận cảnh Sau khi hoàn thành một bản đồ về những điểm ảnh cận cảnh, một vài thao tác sau xử lý hình thái như làm mịn, làm co giãn và kéo gần được thực hiện để hạn chế ảnh hưởng của tiếng ồn và làm nổi bật những vùng được dò tìm Hình nền tham chiếu được cập nhật mới theo thời gian để phù hợp với sự thay đổi không ngừng của cảnh vật
Có nhiều phương pháp khác nhau trong tiến trình trừ nền cơ bản dựa vào việc xác định miền cận cảnh, duy trì hình nền và kết quả hình ảnh sau xử lý Trong (20) Heikkila và Silven sử dụng phiên bản đơn giản của tiến trình này, một điểm ảnh ở vị trí (x, y) trong hình ảnh hiện tại được đánh dấu như là một điểm cận cảnh nếu
, ( , ) |
được thoả mãn nơi là một ngưỡng đã được xác định trước Hình nền Bt được cập nhật bằng việc dùng một chương trình lọc đáp ứng xung bất định (Infinite Impulse Response (IIR)) như sau:
Trang 17t t
Phương pháp trên cũng dựa trên sự so sánh giữa 2 ảnh, nhưng không phải
là 2 ảnh liên tiếp trong chuỗi ảnh mà là giữa các ảnh trong chuỗi ảnh với một ảnh tham chiếu gọi là ảnh nền Ảnh nền là cảnh thu được khi không có đối tượng chuyển động nào hết Gọi B là ảnh nền thu được, ta có độ khác biệt giữa ảnh nền và ảnh thứ k trong chuỗi ảnh
B F
Nếu nhiễu ít và không có sự thay đổi của ánh sáng thì điểm có tọa độ (x,y) được xem là tĩnh nếu Dk(x,y) = 0 và ngược lại Tuy nhiên trong thực tế luôn có nhiễu vì vậy ta phải dùng ngưỡng để hạn chế nhiễu
T y x D neu y
x
0
) , ( 1
) ,
Với Mk là mặt nạ chuyển động, điểm (x,y) được xem là chuyển động khi
Mk(x,y) = 1 và đứng yên khi Mk(x,y) = 0
Trong thực tế ảnh nền luôn luôn biến đổi do sự thay đổi độ sáng do gió, các đám mây bay qua vì thế ta phải luôn cập nhập nền lại Gọi Bk là nền ở thời điểm k Ta có nền ở thời điểm k + 1 được cập nhật như sau:
, (
0 ) , ( )
, ( ) 1 ( ) , (
* )
, (
1
y x M neu y
x B
y x M neu y x F y
x B y
x B
k k
k k
k k
(1.9) Với là một hằng số được gọi là tỉ lệ học phản ánh mức độ cập nhật nền nhanh hay chậm
Trang 18Đối tượng bị phát hiện sai này được gọi là bóng ma Để giải quyết vấn đề trên người ta phải sử dụng ảnh nền không có đối tượng chuyển động nào trong
đó hết hoặc có thể dựa vào các thuật toán tạo ảnh nền
Ngoài ra còn một hướng tiếp cận mới trong phương pháp trừ nền đó là dựa trên mô hình xác suất thống kê Ý tưởng chính ở đây là đưa ra một mô hình thống kê cho nền Thường có hai mô hình thống kê chính đó là đơn phương thức ( unimodal ) và đa phương thức ( multimodal ) Trong mô hình đơn phương thức mỗi điểm được mô hình với phân phối xác suất đơn thường là phân phối Gaussian η( x, y, μk, Σk ), trong đó μk là giá trị trung bình và Σk là ma trận phương sai của phân phối ở frame t Những điểm mà màu quan sát được đủ gần ( hay còn gọi là khớp ) với phân phối nền thì được phân thành điểm nền hay là điểm đứng yên và ngược lại là điểm chuyển động Vì nền luôn luôn thay đổi nên
ta phải cập nhập lại mô hình nền như sau:
T t t t
t
t t
t
d d
d
*
*
* ) 1 (
*
* ) 1 (
Trang 19Đối với mô hình nền đa phương thức (multimodal), chúng ta cần đến nhiều phân phối xác suất độc lập với nhau để mô hình mỗi điểm ảnh Mỗi phân phối được gán với một trọng số đặc trưng cho mức độ ưu tiên của chúng Chỉ một vài phân phối đầu tiên với trọng số lớn mới được dùng để mô hình cho nền Một phân phối mới của sự quan sát sẽ được cập nhập vào mô hình nền nếu như
nó không khớp bất cứ phân phối nào đặc trưng cho mô hình nền, ngược lại nó trọng số của các phân phối sẽ được cập nhập lại như sau:
m i w
W
i t
i t i
t
, 1
, 1 ,
1
) 1 (
) 1 (
Nhiều phương pháp áp dụng đặc trưng thống kê của những điểm ảnh đơn
lẻ tiến bộ hơn đã được phát triển nhằm vượt qua những thiếu sót của phương pháp trừ nền cơ bản Những phương pháp thống kê này chủ yếu xuất phát từ phương pháp trừ nền nhằm giữ lại và cập nhật một cách đầy đủ số liệu thống kê trong quá trình xử lý ảnh nền Những điểm ảnh cận cảnh được xác định bằng việc so sánh số liệu thống kê của mỗi điểm ảnh với số liệu thống kê của ảnh nền
Phương pháp này đang trở nên phổ biến do độ tin cậy của nó về những cảnh quay có âm thanh, sự thay đổi về cường độ chiếu sáng và bóng râm
Hệ thống W4 (17) sử dụng một mẫu nền thống kê mà ở đó, mỗi điểm ảnh được mô tả bằng những giá trị cường độ lớn nhất (N) và nhỏ nhất (M) của chúng, và bằng sự khác biệt lớn nhất về cường độ được nhận thấy (D) giữa bất
kỳ hai khung liên tiếp nhau trong suốt giai đoạn thử đầu tiên khi trong cảnh không có một đối tượng di chuyển nào Một điểm ảnh trong bức ảnh hiện thời It được phân vào nhóm điểm ảnh cận cảnh nếu nó thoả mãn:
) , ( ) , ( ) , (x y I x y D x y
M t or N(x,y) I t(x,y) D(x,y) (1.12) Sau bước khởi đầu, người ta áp dụng việc làm mịn đơn lẻ về hình thái để xác định những điểm ảnh cận cảnh nhằm loại bỏ từng điểm ảnh bị nhiễu một
Trang 20Nhằm phóng to những khu vực được làm mịn bằng kích cỡ thật của chúng, một chuỗi hoạt động làm mịn và làm co giãn được thực hiện trong bản đồ điểm ảnh cận cảnh Những vùng nhỏ cũng được loại bỏ sau khi áp dụng việc kết nối những chi tiết tương tự nhau để tìm ra những khu vực này Những số liệu thống
kê của những điểm ảnh cận cảnh nằm trong những khu vực tĩnh của hình ảnh hiện tại được cập nhật với nhiều tư liệu hình ảnh mới
Là một ví dụ của những phương pháp thống kê, Stauffer and Grimson [44] mô tả một mẫu phức hợp hình nền có khả năng thích ứng trong việc theo dõi đúng thời điểm Trong quá trình hoạt động của chúng, mỗi điểm ảnh được chuẩn hoá một cách riêng biệt bởi sự pha trộn các độ lệch chuẩn (Gaussians) được cập nhật trực tuyến bằng những dữ liệu hình ảnh đưa vào Nhằm xác định một điểm ảnh là điểm ảnh nền hay điểm ảnh cận cảnh, người ta đánh giá những phân phối chuẩn (Gaussian distributions) của mẫu chọn của điểm ảnh đó Trong luận văn này có bổ sung mẫu này vào trong hệ thống và những chi tiết của nó được trình bày trong chương tới
e Phương pháp dựa trên Optical Flow
Phương pháp luồng quang học sử dụng các vector luồng của những đối tượng di chuyển theo thời gian để xác định vùng chuyển động của một bức ảnh Chúng có thể xác định sự chuyển động trong một chuỗi hình ảnh ngay cả từ một camera di động Tuy nhiên, phần lớn các phương pháp luồng quang học thường phức tạp về mặt tính toán và không thể sử dụng đúng lúc mà không có một phần cứng đặc biệt (49)
Đây là một phương pháp phức tạp và đòi hỏi các phần cứng đắt tiền để chạy real-time nên chúng ta chỉ nói khái quát về nó Các chuyển động của đối tượng trong 3D được gây ra chuyển động 2D trong mặt phẳng ảnh được gọi là Optical Flow Optical Flow tương ứng với sự cảm nhận chuyển động của mắt người
Trang 21Hình 1.10: Hình ảnh các xe và Optical Flow của chúng
Optical Flow được ứng dụng nhiều trong nhận dạng hoạt động Khi đó mỗi vận động được mô hình hóa bằng mô hình chuyển động là tổ hợp tuyến tính của các vận động cơ bản Các vận động cơ bản này là các Optical Flow được học trong quá trình huấn luyện
1.2.2.2 Phân loại đối tượng
Những vùng di động trong video có thể tương ứng với nhiều đối tượng khác nhau trong đời thực như là người đi đường, xe cộ, tiếng ồn, vv Việc nhận biết loại đối tượng dò tìm được để kiểm tra độ tin cậy và phân tích họat động của nó một cách chính xác là một việc quan trọng Hiện nay, có hai giả thuyết chủ yếu trong việc phân loại đối tượng động Đó là phương pháp dựa trên hình dạng và dựa trên chuyển động (49) Phương pháp dựa trên hình dạng sử dụng thông tin không gian 2D của đối tượng trong khi phương pháp dựa trên chuyển động sử dụng những đặc tính được kiểm tra theo thời gian của đối tượng cho giải pháp phân loại
Những đặc điểm được sử dụng rộng rãi trong phương thức phân loại dựa trên hình dạng là đường chữ nhật, khu vực, hình chiếu và độ dốc của những vùng đối tượng được dò tìm
a Phân loại dựa trên hình dạng
Giả thuyết được trình bày trong (29) sử dụng độ dài đường viền hình chiếu của đối tượng và thông tin về khu vực để phân loại đối tượng được xác định vào trong 3 nhóm: người, xe cộ và những thứ khác Phương pháp này dựa trên giả định là con người thường nhỏ hơn và có nhiều hình dạng phức tạp hơn
Trang 22so với xe cộ Dispersedness được sử dụng như là một sự phân loại theo hệ mét
và nó được xác định dựa trên chiều dài của đường viền (chu vi) và vùng của đối tượng như sau:
Area
Perimeter ess
tỉ lệ co (acspect ratio) của miền đối tượng và độ phóng đại của máy quay Giống như phương pháp trứơc, sự phân loại được thực hiện ở mỗi khung hình và kết quả được giữ trong một biểu đồ để nâng cao tính xác thực theo thời gian của việc phân loại
Saptharishi và cộng sự đưa ra một lược đồ phân loại sử dụng mạng lưới hậu tuyến tính nơron được huấn luyện với Differential Learning nhằm nhận biết hai loại: xe cộ và người (41) Papageorgiou và đồng sự giới thiệu một phương pháp tận dụng sự phân loại máy học véctơ hỗ trợ (Support Vector Machine) được huấn luyện bởi những đặc tính được truyền theo dạng sóng của đối tượng trong những hình ảnh video từ một mẫu cơ sở dữ liệu nhàm chán (38) Phương pháp này được
sử dụng để nhận biết những vùng di động tương ứng với nhóm người Một phương pháp phân loại khác được đưa ra bời Brodsky và cộng sự (11), sử dụng công cụ phân loại Radial Basis Function (RBF) Công cụ này có cấu trúc tương tự như một mạng truyền thông 3 lớp Đầu vào của công cụ phân loại là hình ảnh gradient được bình thường hóa của những vùng đối tượng được xác định
b Phân loại dựa theo chuyển động
Một vài phương pháp trên lý thuyết chỉ dùng những đặc tính chuyển động theo thời gian của đối tượng để nhận biết loại của những đối tượng đó (8, 51,
Trang 2328) Nhìn chung, người ta sử dụng tính năng này để phân biệt những đối tượng linh động (người) với những đối tượng không linh động (xe cộ) Phương pháp đưa ra trong (8) được dựa trên sự giống hệt nhau theo thời gian của đối tượng động Là một đối tượng phô bày những hoạt động tiến triển tuần hoàn, sự đo lường sự giống hệt nhau của chúng cũng thể hiện một chuyển động tuần hoàn Phương pháp khai thác đựoc điểm này phân loại đối tượng di động dựa vào tính chu kỳ
Phân tích luồng quang học cũng hữu ích để phân biệt đối tượng linh động
và không linh động A J Lipton đề xuất một phương pháp tận dụng việc phân tích luồng quang học cục bộ của miền đối tượng được dò tìm (28) Người ta cho rằng những đối tượng linh động như người sẽ biểu lộ mạnh một luồng dư trung bình trong khi những đối tượng không linh động như xe cộ sẽ biểu lộ ít hơn Cũng như vậy, luồng dư tạo ra bởi vận động của con người sẽ mang tính chu kỳ Bằng việc sử dụng đặc tính này, người ta có thể phân biệt con người với những đối tượng khác như xe cộ
1.2.2.3 Phát hiện lửa
Có rất ít những tài liệu nghiên cứu về việc sử dụng hình ảnh để dò tìm lửa trong số những tài liệu về máy tính Hầu hết những phương pháp đã đưa ra đều khai thác màu và những chuyển động của lửa
Healey và cộng sự sử dụng một mô hình chỉ dựa trên những đặc tính màu sắc của lửa Rõ ràng phương pháp này đưa ra những báo động không chính xác do
có những vùng có màu như lửa Một phương pháp có sử dụng thông tin chuyển động cũng như đặc tính màu được chấp nhận do Philps và đồng sự trình bày (23)
Gần đây, Liu và Ahuja (30) đã trình bày một phương pháp xác định mẫu quang phổ theo không gian và thời gian của lửa để tìm ra sự có mặt của nó trong phim Mẫu quang phổ được trình bày dựa trên mật độ xác suất của những điểm ảnh có màu lửa Mẫu không gian mô tả cấu trúc không gian của một vùng lửa và mẫu thời gian nắm bắt những biến đổi của cấu trúc không gian theo thời gian
Trang 241.2.2.4 Theo dõi đối tượng
Theo dõi đối tượng là một việc làm khó khăn nhưng cần thiết Việc làm này khơi gợi sự thích thú đối với những người nghiên cứu về lĩnh vực máy tính Mục tiêu của việc theo dõi này là nhằm thiết lập nên một sự tương ứng của những đối tượng và những phần của đối tượng với những khung liền nhau của một đoạn phim
Nó là một khâu quan trọng trong hầu hết những ứng dụng dò tìm vì nó cung cấp dữ liệu tương đồng theo thời gian về những đối tượng chuyển động Những dữ liệu này được sử dụng nhằm tăng cường việc xử lý ở cấp độ thấp như
là phân đoạn chuyển động và nhằm rút ra được những dữ liệu ở cấp độ cao hơn như phân tích hoạt động và nhận biết hành vi Việc theo dõi là một công việc làm khó ứng dụng trong những trường hợp quan sát một nhóm đối tượng đông đúc do phân đoạn đối tượng không chính xác Những vấn đề phổ biến của việc phân đoạn không chính xác là bóng kéo dài, tắc nghẽn toàn phần và tắc nghẽn từng phần của đối tượng này với đối tượng kia và với những phần tử không chuyển động trong cảnh quay Vì vậy, việc đương đầu với bóng tối trong việc dò tìm chuyển động và việc giải quyết tắc nghẽn ở cả giai đoạn phân đoạn và giai đoạn theo dõi là những việc quan trọng trong quá trình theo dõi đối tượng
Theo dõi đối tượng có thể được phân loại dựa theo mục đích nhu cầu ứng dụng hoặc dựa theo những phương pháp được sử dụng cho những giải pháp của
nó Việc theo dõi toàn phần thường thích hợp với việc dò tìm hình ảnh ở không gian bên ngoài trong khi theo dõi từng phần của đối tượng thì cần thiết cho việc
dò tìm bên trong môi trường và những áp dụng tìm hiểu hành vi ở cấp độ cao hơn
Có hai phương pháp phổ biến trong việc theo dõi đối tượng toàn phần (2): một dựa trên sự kết nối tương ứng và một thực hiện việc theo dõi bằng cách tận dụng sự dự đoán vị trí hoặc ước lượng chuyển động Mặt khác, những phương pháp theo dõi từng phần của đối tượng (thường là con người) sử dụng phương thức dựa trên mô hình để xác định và theo dõi những phần của cơ thể Một vài mô hình
Trang 25như là người cứng đơ, mô hình người bằng giấy các tông (25), kiểu đường viền (chu vi hai chiều) 2D và thể tích 3 chiều (3D)
W4(17) kết nối những phương pháp ước lượng chuyển động với việc kết nối tương ứng để theo dõi đối tượng Nó cũng có thể theo dõi từng phần của con người như là đầu, tay, thân mình, chân bằng cách sử dụng mô hình người bằng giấy các tông (25), thể hiện những vị trí liên quan nhau và kích thước từng bộ phận cơ thể Nó giữ đặc điểm bên ngoài của từng đối tượng để kết nối ngay cả trong những trường hợp kết hợp (merge) và tách rời (split)
Amer [2] trình bày một mô hình dựa trên lựa chọn không tuyến tính để theo dõi toàn thể đối tượng Nó hợp nhất những đặc tính của đối tượng như là kích cỡ, hình dạng, khối tâm và chuyển động bằng cách lựa chọn và và quyết định sự kết nối cuối cùng với đối tượng tương ứng Phương pháp này cũng xác định sự phân chia và hợp nhất đối tượng và xử lý tắc nghẽn
Stauffer và cộng sự [45] sử dụng một thuật toán kiểm tra đa giải thuyết ước lượng truyến tính Thuật toán này kết hợp kích cỡ và vị trí của đối tượng để gây dựng và gìn giữ một bộ lọc Kalman để ước lượng chuyển động bộ lọc Kalman mở rộng cũng đựoc dùng để dự đoán đường đi và xử lý tắc nghẽn trong công trình của Rosales và Sclaroff [40]
Là một ví dụ của hệ thống kiểm tra từng phần của cơ thể dựa trên mô hình, Pfinder (52) sử dụng một mô hình thống kê đa lớp màu sắc và hình dáng
để kiểm tra đầu, tay của con người trong thực tế
1.1.2.5 Ước lượng chuyển động
Như đã nói, thông tin về chuyển động rất quan trọng trong xử lí và nén video Nén ảnh là các phương pháp nhằm làm giảm số bit cần thiết để đặc trưng video Trong khi đó các kỹ thuật xử lí video là các phương pháp biến đổi trên chuỗi ảnh như là nâng cao chất lượng chuỗi ảnh Việc phân lớp như trên có ý quan trọng trong việc đưa ra đích của việc ước lượng chuyển động tức là liên quan đến việc chọn mô hình xử lí sao cho phù hợp Ví dụ như trong nén video
Trang 26thì các tham số chuyển động được ước lượng đều dẫn đến một việc là đạt được
tỉ lệ nén cao nhất Do đó các chuyển động được tính toán không cần phải giống với các chuyển động thật của điểm ảnh miễn là ta đạt được một tỉ lệ bit tối thiểu
Tuy nhiên, trong xử lí video thì các chuyển động thật của các điểm ảnh lại là điều ta quan tâm Để phát triển một thuật toán ước lượng chuyển động thì theo Janusz Konrad ta cần có 3 yếu tố sau: Mô hình, tiêu chuẩn và chiến thuật tìm kiếm
a Các mô hình chuyển động
Có 2 mô hình cần thiết trong ước lượng chuyển động: mô hình chuyển động ( là cách để đặc trưng vận động trong một chuỗi ảnh ) và mô hình quan sát ( là mô hình mà có sự liên quan của các tham số chuyển động với mật độ ảnh ) Trong mô hình chuyển động ta lại có mô hình chuyển động theo không gian và theo thời gian
Mô hình chuyển động theo không gian
Hầu hết các chuyển động đều là sự kết hợp của phép chiếu các chuyển động của đối tượng trong cảnh 3D và chuyển động của camera
Trong khi chuyển động của camera ảnh hưởng đến chuyển động của toàn bộ hay hầu hết các điểm ảnh thì chuyển động của đối tượng chỉ ảnh hưởng tới các điểm tương ứng với hình chiếu của đối tượng Trong luận văn này nghiên cứu trên camera tĩnh vì thế sẽ không đi sâu nghiên cứu chuyển động của camera Nói chung chuyển động phụ thuộc rất nhiều yếu tố như là các phép chiếu, mô hình của đối tượng 3D Ta xét trường hợp đơng giản nhất là chuyển động tịnh tiến của đối tượng 3D Khi đó vector vận tốc tức thời của điểm x trong mặt phẳng ảnh sẽ là
b
b x
Trong đó các tham số b = (b1, b2)T = (v1,v2)T phụ thuộc vào góc quay của camera và các tham số trong chuyển động tịnh tiến 3D Mô hình tịnh tiến 2D này ứng dụng rất nhiều trong thực tế đặc biệt là trong nén video vì nó đưa ra một xấp
Trang 27xỉ gần đúng với hầu hết ảnh trong tự nhiên Khi chuyển động của vật thể 3D có thêm các chuyển động affine thì ta có mô hình chuyển động affine với 6 tham số:
x b b
b b b
b x
4 3 2
Mô hình chuyển động theo thời gian:
Quỹ đạo của một điểm ảnh riêng biệt được vẽ trong không gian (x, y, t) của một chuỗi ảnh có thể được xem như là tùy ý bởi vì chúng phụ thuộc vào vận động của đối tượng Trong trường hợp đơn giản nhất, quỹ đạo của chúng là tuyến tính Giả sử chúng ta có vận tốc vt(x) giữa thời gian t = tk-1 và thời gian τ (τ > t ) là một hằng số, một quỹ đạo tuyến tính có thể được trình bày như sau:
) ( ) ( ) )(
( ) ( ) ( x t v x t x t d, x
Trong đó d t,(x) v t(x)( t)là một vector dịch chuyển được đo theo hướng thời gian Cho nên đối với chuyển động tuyến tính, nhiệm vụ của chúng ta là tìm
2 thành phần của vector vận tốc v hay vector dịch chuyển d của mỗi điểm x
Một sự mở rộng trong tự nhiên của mô hình quỹ đạo tuyến tính là mô hình đường cong bậc 2 Khi đó ta có thêm một đại lượng mới là gia tốc của một điểm
2
) )(
( 2
1 ) )(
( ) ( ) ( x t v x t a x t
Trong đó gia tốc at là đạo hàm của vận tốc vt Các mô hình trên đòi hỏi 2 (đối với tuyến tính) hoặc 4 (đối với bậc 2) tại mỗi điểm x Để giảm gánh nặng tính toán, mô hình tham số theo không gian có thể kết hợp với các mô hình trên
Vùng hỗ trợ
Tập điểm x mà trong đó các mô hình không gian và thời gian áp dụng được gọi là vùng hỗ trợ Sự lựa chọn của một mô hình và vùng hỗ trợ là một trong các
Trang 28yếu tố quyết định đến tính chính xác của ước lượng các tham số chuyển động Thông thường khi cho một mô hình chuyển động, vùng hỗ trợ càng nhỏ thì việc xấp xỉ càng tốt hơn, bởi vì với vùng hỗ trợ lớn thì chuyển động có thể phức tạp
và do đó ta phải có mô hình chuyển động phức tạp hơn Thông thường vùng hỗ
trợ (R) có thể thuộc 1 trong 4 loại sau:
1 R là toàn bộ ảnh: Một mô hình chuyển động được áp dụng cho toàn bộ
ảnh Mô hình này thích hợp cho việc ước lượng chuyển động của camera
2 R là một điểm ảnh: Mô hình này áp dụng cho một điểm ảnh Trong trường
hợp này ta thường sử dụng mô hình không gian tịnh tiến kết hợp với mô hình tuyến tính hoặc bậc 2
3 R là một khối điểm hình chữ nhật: Các mô hình vận động sẽ được áp dụng
trên một khối điểm ảnh hình chữ nhật Trong trường hợp đơn giản nhất, các khối này không phủ lên nhau và hợp của chúng sẽ bao phủ toàn bộ ảnh Trong trường hợp này mô hình chuyển động không gian tịnh tiến kết hợp với mô hình chuyển động thời gian tuyến tính được xem là mô hình hiệu quả nhất và đã được áp dụng trong các chuẩn nén video như là MPEG-1, MPEG-2
4 R là một vùng bất kì: Các mô hình vận động sẽ áp dụng trên các điểm thuộc vào R Ở đây vùng R sẽ tương ứng với các đối tượng Kĩ thuật này đã
được áp dụng trong chuẩn nén MPEG-4
Mô hình quan sát
Khi chuyển động được ước lượng ( và được quan sát bằng mắt người ) dựa trên sự thay đổi của cường độ sáng, màu hoặc cả hai, các mối quan hệ giả định giữa các tham số chuyển động và mật độ ảnh đòng một vai trò rất quan trọng Giả thuyết hợp lý và thường thấy là cường độ sáng vẫn không đổi theo quỹ đạo chuyển động (đối tượng không thay đổi độ sáng khi di chuyển)
Đối với các ảnh được lấy mẫu theo thời gian điều này có nghĩa là
)) ( ( )) ( ( k k1 k1
k x t I x t
Sử dụng công thức trong mô hình chuyển động theo thời gian với t = tk-1, τ =
tk và giả thuyết rằng chúng ta lấy mẫu ảnh theo không gian, ta có:
Trang 29) ( )
(n I 1 n d
Tuy nhiên chúng ta không thể sử dụng công thức trên để tìm d trong thực tế
vì nhiễu q Công thức trên được viết lại như sau:
) ( ) ( )
(n I 1 n d q n
Do đó d được tính bằng cách tối thiểu hàm lỗi giữa Ik(n) và Ik-1(n-d)
b Tiêu chuẩn ước lượng
Có rất nhiều tiêu chuẩn ước lượng tùy thuộc vào yêu cầu của bài toán Trong nén ảnh thì lỗi dự đoán của bộ ước lượng là rất quan trọng Còn trong phép nội suy bù đắp chuyển động thì lỗi nội suy cực đại lại là mối quan tâm Ngoài ra tùy thuộc vào khả năng xử lí mà việc ước lượng chuyển động thực hiện trên đó Nói chung các tiêu chuẩn ước lượng đều có mục đích chung là cực tiểu hóa hàm lỗi:
I k k được gọi là ước lượng bù đắp chuyển động của Ik(n)
c Chiến thuật tìm kiếm
Một khi mô hình chuyển động đã được xác định và kết hợp với một tiêu chuẩn ước lượng, bước cuối cùng là phát triển một chiến lược hiệu quả cả về tính phức tạp và chất lượng lời giải để ước lượng các tham số chuyển động
Đối với một số ít các tham số vận động yêu cầu không gian trạng thái nhỏ thì chiến lược thường dùng nhất khi tối thiểu hàm lỗi là so khớp Trong hướng này, các ước lượng bù đắp chuyển động Ik-1( n – d(n) ) cho các ứng viên chuyển động d được so sánh với ảnh gốc Ik(n) trong vùng hổ trợ của mô hình vận động Ứng viên nào khớp nhất đối với tiêu chuẩn đã đưa sẽ được chọn để ước lượng Ngoài ra ta còn có nhiều phương pháp ước lượng nữa mà chúng ta sẽ không nói tới: kỹ thuật dựa trên gradient, thuật toán độ tin cậy cao nhất được chọn đầu tiên
Trang 30d Phát hiện sự thay đổi bóng tối và ánh sáng
Những thuật toán phát hiện chuyển động được mô tả bên trên hoạt động tốt trong và ngoài môi trường và đã được sử dụng cho việc giám sát trong một thời gian dài Tuy nhiên, nếu không có biện pháp chăm sóc đặc biệt, phần lớn những thuật toán này dễ bị ảnh hưởng bởi cả sự thay đổi cục bộ (quá sáng và quá tối) và toàn diện (mặt trời bị/không bị mây che) Bóng tối làm cho những phương pháp dò tìm chuyển động không thể phân đoạn những đối tượng động
và làm cho việc xử lý ở cấp độ cao hơn, như là phân loại đối tượng hoạt động, không chính xác Những phương pháp được đề cập trên lý thuyết phần lớn dùng thông tin nổi (15) hoặc thông tin chìm (21, 35, 6, 53, 26) để thích ứng với bóng tối và sự thay đổi bất ngờ về ánh sáng
Horprasert và cộng sự giới thiệu một phương pháp trừ nền và phát hiện bóng tối mới (21) Trong phương pháp của họ, mỗi điểm ảnh được đại diện bằng một kiểu màu tách ánh sáng khỏi những thành phần đồng nhất Một điểm ảnh cụ thể được sắp xếp vào 4 nhóm khác nhau (nền, nền tối hoặc bóng tối, nền sáng và đối tượng động cận cảnh) bằng cách tính độ méo của ánh sáng và sự đồng nhất giữa hình nền và điểm ảnh hiện tại giống như (21), phương pháp được mô tả bởi McKenne và đồng sự trong (35) sử dụng thông tin gradient và đồng nhất để thích ứng với bóng tối Họ tận dụng sự quan sát một khu vực khi nó chuyển dần vào bóng tối và kết quả là một sự thay đổi đáng kể về cường độ mà không có sự thay đồi về tính đồng nhất họ cũng sử dụng thông tin gradient trong những vùng chuyển động để bảo đảm độ tin cậy của phương pháp này trong những trường hợp mơ hồ
Phương pháp được trình bày trong (6) chấp nhận một lược đồ dò tìm bóng tối dựa trên hai phương pháp thể nghiệm: a) giá trị cường độ điểm ảnh nằm trong vùng tối có xu hướng giảm trong hầu hết các trường hợp khi so sánh với hình nền, (b) tỷ lệ giảm cường độ thay đổi nhẹ nhàng giữa những điểm ảnh gần nhau và hầu hết rìa bóng tối đều không rõ ràng
Trang 31Một phương pháp hiệu quả để xử lý bóng tối là dùng hình nổi như đã trình bày trong hệ thống W4S (15) Trong W4S, hình nổi được tạo ra bởi một thiết bị real-time rẻ tiền là SVM Nó sử dụng hai hoặc nhiều hình ảnh để đếm một dãy hình ảnh bằng việc dùng hình không gian đơn giản Với sự giúp đỡ của lọat thông tin cung cấp bởi SVM, W4S có khả năng thích ứng với bóng tối, sự thay đổi về ánh sáng và những trường hợp tắc nghẽn Trong một vài hệ thống, sự thay đổi ánh sáng toàn bộ được xác định bằng việc đếm những điểm ảnh cận cảnh và nếu như tổng số điểm ảnh đó vượt quá vài ngưỡng (ví dụ như 50% tổng kích thước ảnh), hệ thống được xác lập lại để thích ứng với sự thay đổi ánh sáng đột ngột (37,55)
Trang 32Chương 2 MỘT SỐ KỸ THUẬT TĂNG CƯỜNG TÍNH NĂNG CHO
CAMERA GIÁM SÁT
2.1 Phát hiện và theo vết đối tượng chuyển động
Hình 2.1 sẽ cho ta thấy một cái nhìn tổng quan về hệ thống phát hiện , phân loại và lần theo vết một đối tượng trên đoạn video trong thời gian thực Hê ̣ thống đươ ̣c đề nghi ̣ sử dụng trong hình có thể phân biê ̣t những đối tượng cận cảnh đứng yên và nhất thời với những đối tượng nền tĩnh trong các cảnh quay đô ̣ng, hệ thống này có thể phát hiê ̣n và phân biê ̣t những đối tượng còn sót la ̣i và những đối tượng đươ ̣c xóa đi , có thể phân loại các đối tượng được phát hiệ n thành những nhóm khác nhau như: người, nhóm người và xe cộ , có thể lần vết và phát sinh ra những thông tin về quỹ đa ̣o , ngay cả cho những trường hợp bi ̣ che khuất , và có thể phát hiê ̣n ra hỏa hoa ̣n trong những hình ảnh video Trong chương này mô tả các mô hình trên máy tính được sử dụng trong phương pháp được nêu ra trong luận văn
để đạt được mục tiêu nêu trên
Hê ̣ thống đưa ra đươ ̣c giả đi ̣nh là đang làm viê ̣c trong thời gian thực như
là một phần của hê ̣ thống giám sát dựa trên hình ảnh Độ phức tạp và thậm chí là những yếu tố bất biến của thuật toán được dùng là rất quan trọng đối với kết quả thể hiê ̣n trong thời gian thực Vì vậy, kết quả thể hiê ̣n trong thời gian thự c thi trên máy tính cũng như chất lượng có ảnh hưởng đến quyết đi ̣nh cho ̣n lựa thuâ ̣t toán hình ảnh trên máy tính cho những vấn đề khác nhau Thêm vào đó , hê ̣ thống này chỉ được dùng cho những camera tĩnh và những hình ảnh vào từ các camera Pan /Tilt/Zoom, những loa ̣i máy này không hỗ trơ ̣ chế đô ̣ ảnh thay đổi tùy ý
Trang 33Hình 2.1: Sơ đồ khối hệ thống
Hê ̣ thống này được khởi đô ̣ng bằng cách đưa hình ảnh từ mô ̣t camera tĩnh giám sát một khu vực nào đó vào Hầu hết các phương pháp đều có tác dụng đối với các hình ảnh màu và đơn sắc Bước thứ nhất của phương pháp này là ph ân biê ̣t các đối tượng cận cảnh với nền tĩnh Để đa ̣t được điều này , chúng ta sử dụng một sự kết hơ ̣p giữa viê ̣c trừ nền tương ứng với các phương pháp hâ ̣u xử lý hình ảnh cấp độ thấp để tạo ra một bản đồ điểm ảnh ở mỗi khung hình Sau đó nhóm các vùng liên thông với nhau trên bản đồ để rút ra những đặc điểm của từng đối tượng như : khung bao quanh , diện tích, tâm điểm của mô ̣t khối vâ ̣t và hình đồ thông số màu sắc
Thuâ ̣t toán phân loa ̣i đối t ượng mới mẻ đươc đưa ra sử dụng bản đồ điểm ảnh thuộc từng khu vực có liên thông với nhau để tạo ra mộ t cái bóng cho đối tượng đó Cái bóng này và tâm điểm của đối tượng được dùng để phát ra một tín hiê ̣u từ xa Tín hiệu này sẽ được tăng giảm tỉ lệ , giữ bình thường và được so
Trang 34sánh với những tín hiệu được ghi tên sẵn tron g mô ̣t cơ sở dữ liê ̣u mẫu để xem nó thuô ̣c loa ̣i đối tượng nào Kết quả thu được của bước lần theo dấu vết được dùng
để có được sự đồng nhất về thời gian trong bước phân loại
Thuâ ̣t toán lần vết đối tượng này sử dụng các đă ̣ c điểm đối tượng thu đươ ̣c cùng với mô ̣t lược đồ sắp xếp các điểm tương đồng để lần theo dấu vết đối tượng từ khung hình này sang khung hình khác Hình đồ thông số màu sắc của đối tượng có được từ bước trước đó được dùng để sắp xếp sự tương đồng của các đối tượng sau khi bị che khuất Kết quả thu được của bước lần theo vết này
là thông tin quỹ đạo của đối tượng và thông tin này sẽ được dùng để tính toán chiều đi và tốc đô ̣ của các đối tượng tr ong cảnh quay đó
Sau khi thu thâ ̣p các thông tin về đă ̣c điểm đối tượng như : chủng loa ̣i, quỹ
đa ̣o, kích thước và tốc độ , các phương pháp xử lý cao cấp có thể được áp dụng cho những dữ liê ̣u này Mô ̣t cách sử dụng khả thi khác là phát sinh báo động trong thời gian thực bằng cách đi ̣nh nghĩa trước những sự kiê ̣n như : “mô ̣t người
di chuyển theo hướng d với tốc đô ̣ s làm phát sinh báo động a 1” hay “mô ̣t chiếc
xe ở ta ̣i đi ̣a điểm l lâu hơn t giây gây ra báo đô ̣ng a 2” Mô ̣t cơ hô ̣i khác mà chúng ta có thể sử dụng dữ liệu thu được từ đối tượng trên hình là tạo ra một chỉ mục trên các dữ liệu hình được lưu trữ , dùng cho viê ̣c tìm kiếm nhanh offline (ngoại tuyến ) Cả việc phát sinh báo động lẫn việc gán chỉ mục cho hình ảnh đều
là những đòi hỏi quan trọng của một hệ thống giám sát bằng hình ảnh để tăng thời gian phản hồi đối với các sự kiê ̣n pháp lý
Phần còn la ̣i của chương này trình bày các mô hình và phương pháp trên máy tính dùng cho viê ̣c phát hiê ̣n và lần theo vết đối tượng Phương pháp phân loa ̣i đối tượng này sẽ được giải thích trong phần tới
2.1.1 Phát hiện đối tượng chuyển động
Phân biê ̣t các đối tượng cận cảnh với cái nền tĩnh là vấn đề nghiên cứu vừa quan tro ̣ng vừa khó khăn Hầu hết bước đầu tiên của những hê ̣ thống giám sát bằng hình ảnh đều là phát hiện các đối tượng cận cảnh Điều này vừa ta ̣o ra
mô ̣t tiêu điểm chú ý cho các mức xử lý cao hơn như lần theo vết , phân loa ̣i và
Trang 35hiểu được các hành vi , vừa giảm đáng kể thời gian tính toán vì chỉ có những điểm ảnh thuô ̣c về đối tượng cận cảnh mới cần được xử lý Những thay đổi trong cảnh quay đô ̣ng trong cá c khoảng thời gian ngắn và dài như : các chuyển
đô ̣ng lă ̣p đi lă ̣p la ̣i (như lá rơi ), sự phản chiếu ánh sáng , những cái bóng , tiếng máy camera và những thay đổi độ sáng đột ngột , khiến cho việc phát hiê ̣n đối tượng nhanh và đán g tin câ ̣y càng trở nên khó khăn Vì vậy, quan tro ̣ng là cần phải có sự tập trung cần thiết cho bước phát hiện đối tượng để có được một hệ thống giám sát bằng hình ảnh nhanh chóng , mạnh mẽ và đáng tin cậy
Hình 2.2 cho thấ y biểu đồ hê ̣ thống phương pháp phát hiê ̣n đối tượng Phương pháp này dựa trên mô ̣t quy trình gồm 6 giai đoa ̣n để “rút trích” được đối tượng cùng với những đă ̣c điểm của chúng trong hình video Bướ c đầu tiên là khởi đô ̣ng cảnh nền Có một số kỹ thuật khác nhau được sử dụng để mô phỏng cảnh nền trong luận văn này Để đánh giá chất lượng của những mô hình cảnh nền khác nhau dành cho viê ̣c phát hiê ̣n đối tượng và để so sánh kế t quả thể hiện vào thời gian th ực thi, chúng ta tiến hành 3 trong số các mô hình này , đó là: trừ nền thích ứng, so sánh sự khác biệt thời gian, và mô hình hỗn hợp Gaussian trực tuyến thích ứng Cảnh nền liên quan tới hệ thống được phân lập và sự kết hợp giữa nó với các module khác được giữ ở mức tối thiểu để làm cho toàn bộ hệ thống phát hiê ̣n hoa ̣t đô ̣ng mô ̣t cách uyển chuyển cùng với bất kỳ 1 trong các mô hình nền này
Bước tiếp theo trong phương pháp phát hiê ̣n này là p hát hiện những điểm ảnh cận cảnh bằng cách sử dụng mô hình nền và hình ảnh hiện thời từ video Quá trình phát hiện ở cấp độ điểm ả nh này phụ thuô ̣c vào mô hình nền đang sử dụng
và nó được dùng để cập nhật mô hình nề n để phù hợp với những thay đổi cảnh quay đô ̣ng Do tiếng ồn của camera và những tác đô ̣ng môi trường , bản đồ điểm ảnh trên nền phát hiện được cũng có tiếng ồn Những hoa ̣t đô ̣ng hâ ̣u xử lý ở cấp
đô ̣ điểm ảnh được thực hiê ̣n để loa ̣i bỏ tiếng ồn trong các điểm ảnh trên nền
Trang 36Hình 2.2: Sơ đồ hệ thống dò tìm đối tượng
Khi chúng ta có những điểm ảnh cận cảnh đã được lo ̣c , ở bước kế tiếp , những vùng liên thông được phát hiê ̣n bằng cách sử dụng mô ̣t thu ật toán ghi tên thành phần liên thông và những hình tứ giác chuyển động của các đối tượng sẽ đươ ̣c tính toán Những vùng được ghi tên có thể bao gồm những vùng lân câ ̣n nhưng không dính liền nhau , do những ha ̣n chế trong trong quá trình phân đoạn cận cảnh Vì vậy, thực nghiê ̣m cho thấy hiê ̣u quả khi ta “trô ̣n” các vùng những vùng được phân lập (nhưng vẫn có phần chồng chéo lên nhau ) đó la ̣i với nhau Tương tự như vâ ̣y , mô ̣t số vùng tương đối nhỏ do tiếng ồ n môi trường ta ̣o ra cũng bị loại bỏ ở bước hậu xử lý ở cấp độ vùng này
Trang 37Ở bước cuối cùng của quá trình phát hiện , nhiều đă ̣c điểm đối tượng đươ ̣c rút trích ra từ hình ảnh hiện thời bằng cách sử dụng bản đồ điểm ảnh cận cảnh Những đă ̣c điểm này là : diê ̣n tích , tâm điểm của khối đối tượng , và hình đồ thông số màu sắc của những vùng tương ứng với đối tượng
2.1.1.1 Dò tìm cận cảnh
Trong luận văn này sử dụng mô ̣t sự kết hợp giữa mô hình cận cảnh với các phương pháp hậu xử lý hình ảnh ở cấp độ thấp để tạo ra một bản đồ điểm ảnh cận cảnh và rút trích các đặc điểm đối tượng ở mỗi khung hình video Nhìn chung, các mô hình nền có 2 giai đoạn riêng biê ̣t trong quy trì nh của chúng: khởi
đô ̣ng và câ ̣p nhâ ̣t Các phần tiếp theo sẽ mô tả cơ chế khởi động và cập nhật cùng với các phương pháp phát hiện vùng cận cảnh đươ ̣c sử dụng trong 3 mô hình nền đã thử nghiê ̣m trong hê ̣ thống được đưa ra Viê ̣c so sánh thử nghiê ̣m giữa thời gian thực thi trên máy tính với chất lượng phát hiê ̣n của các mô hình này được trình bày trong phần sau
a Mô hi ̀nh loại bỏ nền tương ứng
Viê ̣c tiến hành thuâ ̣t toán trừ nền đươc nêu ra ở đây mô ̣t phần được ta ̣o cảm hứng từ việc nghiên cứu được trình bày trong [10] và các tác phẩm trên hình video trắng đen lấy từ một camera tĩnh Phương pháp loa ̣i bỏ nền này sẽ khởi đô ̣ng một nền tham chiếu với mô ̣t số khung được đưa v ào từ video Sau đó
nó trừ đi giá trị cường độ của mỗi điểm ảnh trong bức ảnh hiện thời ra khỏi giá trị tương ứng trong bức ảnh nền tham chiếu Sự khác nhau được lo ̣c với mô ̣t ngưỡng thích hợp trên mỗi điểm ảnh để loa ̣i bỏ các điểm ảnh tiếng ồn thường xuyên thay đổi Bức ảnh nền tham chiếu và giá tri ̣ ngưỡng được câ ̣p nhâ ̣t bằng một bô ̣ lo ̣c IIR để phù hợp với những thay đổi cảnh quay đô ̣ng
Cho In(x) đại diê ̣n cho giá tri ̣ cường đô ̣ ở cấp đô ̣ xám tại vị trí điểm ảnh
(x) và tại thực thể thời gian n của chuỗi ảnh video I, có giá trị từ 0 đến 255 Cho
Bn(x) là giá trị cường độ nền tương ứng cho vị trí điểm ảnh (x) được ước tính theo thời gian từ các ảnh video I0 tớ i In-1 Như lược đồ trừ nền chung cho thấy ,
Trang 38mô ̣t điểm ảnh ta ̣i vi ̣ trí (x) trong hình ảnh video hiê ̣n thời sẽ thuô ̣c về cận cảnh
nếu nó thỏa:
) ( ) ( ) (x B x T x
trong đó T n (x) là một giá trị ngưỡng thích ứng được ước tính, sử dụng các chuỗi ảnh từ I0 tớ i In-1 Công thứ c 2.1 đươ ̣c sử dụng để phát sinh mô ̣t bản dồ điểm ảnh cận cảnh Bản đồ này đại diện cho các vùng cận cảnh như là mô ̣t mảng nhi ̣ phân , trong đó 1 tương ứng với mô ̣t điểm ảnh cận cảnh và 0 là một điểm ảnh nền
Nền tham chiếu B n (x) được khởi ta ̣o bằng hình ảnh video đầu tiên I 0,
B 0 =I 0, và hình ảnh ngưỡng được khởi tạo bằng một giá trị được định nghĩa trước nào đó (ví dụ như 15)
Vì hệ thố ng đăt ra là sẽ được sử dụng trong các môi trường ngoài trời cũng như trong nhà nên mô hình nền cần phải tự điều chỉnh để thích nghi với những thay đổi đô ̣ng như sự thay đổi ánh sáng toàn cục (sự thay đổi giữa ngày
và đêm) và sự câ ̣p nhâ ̣t nền trong mô ̣t khoảng thời gian dài (đâ ̣u xe trước mô ̣t tòa nhà ) Vì thế nền tham chiếu và các hình ảnh ngưỡng được cập nhật động bằng những hình ảnh mới Các vị trí điểm ảnh được phát hiện như là một phầ n của cận cảnh (x Є FG) và các vị trí điểm ảnh được phát hiện như là một phần của nền (x Є BG) sẽ có lược đồ cập nhật khác nhau
B
BG x x I x
B x
B
n n
n n
n
), ( ) 1 ( ) (
), ( ) 1 ( ) ( )
BG x x B x I x
T x
T
n
n n
n n
), (
), ) ( ) ( )(
1 ( ) ( )
mô ̣t giá tri ̣ thời gian cục bô ̣ trung bình quan trọng của chuỗi hình ảnh đến và hình ảnh ngưỡng là giá trị thời gian cục bộ trung bình quan trọng của γ lần khác nhau của những hình ảnh đến và nền Các giá trị α, β, γ được xác đi ̣nh qua thực nghiê ̣m bằn g cách xem xét mô ̣t số video clip trong nhà và ngoài trời
Trang 39Cơ chế câ ̣p nhâ ̣t dành cho nền đưa ra ở đây khác với việc cập nhật nền truyền thống và phần được trình bày trong [10] vì đó là cập nhật nền cho tất cả các loại điểm ả nh (x Є FG hoă ̣c x Є BG) Ở các phương pháp trừ nền điển hình , hình nền tham chiếu được cập nhật chỉ dành cho các điểm ảnh thuộc về nền (x Є BG) Điều này cho phép chúng thay đổi để phù hơ ̣p với tiếng ồn lă ̣p đi lă ̣p la ̣i tránh khỏi phải “trộn” các đối tượng đang di chuyển trong cảnh quay với nền Tuy nhiên, để khuếch tán những thay đổi trong cảnh quay trong quãng thời gian dài tới nền, các vùng trong nền tương ứng với các vùng đối tượng cận cảnh cũng cần đươ ̣c câ ̣p nhâ ̣t
Điểm khó khăn trong viê ̣c câ ̣p nhâ ̣t này là cho ̣n giá tri ̣ đúng cho β Nếu nó quá nhỏ, các đối tượng cận cảnh sẽ được “trộn” với nền tham chiếu sớm và điều này dẫn tới một sự phân đoạn không chính xác ở cá c khung hình sau Tương tự, viê ̣c phát hiê ̣n các đối tượng dừng sẽ là không thể Nếu nó quá lớn , vâ ̣t thế có thể không bao giờ được khuếch tán vào ảnh nền , vì thế, mô hình nền sẽ không phù hợp với những thay đổi cảnh quay tr ong thời gian dài Ở trường hợp cực
đa ̣i, khi β = 1.0, công thức 2.2 sẽ tương đương với lược đồ cập nhật được trình bày trong [10]
Hình 2.3 trình bày một phát hiện vùng cận cảnh mẫu Hình thứ nhất là nền tham chiếu đươ ̣c ước tính của khu vực được quan sát Hình thứ 2 được chụp ở
mô ̣t bước sau và gồm 2 đối tượng cận cảnh (2 người) Hình thứ 3 cho thấy mô ̣t bản đồ điểm ảnh cận cảnh đươ ̣c phát hiê ̣n bằng cách dùng phương pháp trừ nền
a)nền ước tính b)hình hiện thời c) vùng được phát hiện
Hình 2.3 Hình mẫu của phương pháp trừ nền tương ứng
Trang 40b Mô hi ̀nh hỗn hợp Gaussian tương ứng
Stauffer and Grimson [44] đã giới thiê ̣u mô ̣t mô hình hỗn h ợp nền trực tuyến thích ứng Mô hình này có thể xử lý tốt các thay đổi ánh sáng , những chuyển đô ̣ng lă ̣p đi lă ̣p la ̣i , tiếng ồn, đưa vào hoă ̣c xóa bỏ các đối tượng ra khỏi cảnh quay, và những đối tượng chuyển động chậm Điều thôi thúc ho ̣ đưa ra mô hình này là vì mô hình nền không thể xử lý các tiếng ồn trong hình ảnh , sự thay đổi ánh sáng và các bề mă ̣t hỗn hợp cho mô ̣t điểm ảnh đă ̣c biê ̣t cùng mô ̣t lúc Vì
vâ ̣y, họ sử dụng một hỗn hợp các ph ân tán Gaussian để mô tả mỗi điểm ảnh trong mô hình Vì những đặc điểm khá hứa he ̣n của mô hình này hệ thống giám sát đưa ra bổ sung và tích hợp mô hình này bằng hình ảnh của mình
Trong mô hình này , các giá trị của mỗi điểm ảnh (ví dụ như hướng đối với các giá trị xám hay vector cho các ảnh màu ) trong suốt khoảng thời gian được xem như mô ̣t “tiến trình điểm ảnh” và bản ghi gần đây nhất của mỗi điểm ảnh , {X1….Xt}, được mô hình hóa bằng mô ̣t hỗn hợp phân tán Gaussian K Khi đó,
xác suất quan sát giá trị điểm ảnh hiện thời trở thành :
X P
1
, ,
)
Với wi, t là một ước tính về trọng lượng (phần nào của dữ liê ̣u đươ ̣c tính
cho Gaussian này ) của Gaussian thứ i (G i,t ) trong hỗn hơ ̣p vào thời điểm t, μi, t ,
là giá trị trung bình của G i, t , và Σ i, t là ma trận hiệp biến của G i, t và η là 1 hàm
mâ ̣t đô ̣ xác suất Gaussian
) ( ) ( 2 1
2
1 2
1
) 2 (
1 )
, ,
T t
X n
I k t k
2
Công thức 2.6 giả định rằng các thành phần màu đỏ , xanh lá, xanh biển là
đô ̣c lâ ̣p và có cùng sự thay đổi