Thuật toán phát hiện chuyển động

MỞ ĐẦU Lĩnh vực xử lý tín hiệu, cụ thể là xử lý hình ảnh đã phát triển từ lâu với đa dạng các lĩnh vực như tăng cường chất lượng ảnh, tách thành phần nền, dự đoán, theo dõi chuyển động,

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐÀO NGỌC ANH

THUẬT TOÁN PHÁT HIỆN CHUYỂN ĐỘNG

LUẬN VĂN THẠC SĨ

HÀ NỘI - 2010

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐÀO NGỌC ANH

THUẬT TOÁN PHÁT HIỆN CHUYỂN ĐỘNG

Chuyên ngành: Kỹ thuật điện tử

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGÔ DIÊN TẬP

HÀ NỘI - 2010

Trang 3

LỜI CẢM ƠN

Trước hết em xin gửi tới PGS TS Ngô Diên Tập lời cảm ơn chân thành

và sâu sắc đã trực tiếp hướng dẫn, chỉ bảo tận tình trong suốt quá trình em làm Luận văn Thạc sĩ

Em cũng xin chân thành cảm ơn các thầy cô giáo trong Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội đã hết lòng dạy bảo, giúp đỡ em trong suốt quá trình học, giúp em có những kiến thức và kinh nghiệm quý báu trong chuyên môn và cuộc sống Những hành trang đó là một tài sản vô giá nâng bước cho em tới được với những thành công trong tương lai

Cuối cùng, em xin cảm ơn những người thân trong gia đình và các bạn đã giúp đỡ, động viên em hoàn thành Luận văn Thạc sĩ này

Hà nội, ngày 8 tháng 10 năm 2010

Trang 4

LỜI CAM ĐOAN

Tôi là Đào Ngọc Anh, học viên Cao học K15, khoa Điện tử - Viễn thông, trường Đại học Công nghệ, xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Hà Nội, ngày 08 tháng 10 năm 2010

Học viên

Đào Ngọc Anh

Trang 5

MỤC LỤC

Trang

Chương 1 THUẬT TOÁN PHÁT HIỆN CHUYỂN ĐỘNG 1

1.1 Bộ lọc Kalman 1

1.2 Mô hình hỗn hợp nền thích nghi thời gian thực 7

1.2.1 Phương pháp mô hình hóa hỗn hợp nền thích nghi 9

1.2.2 Ước lượng mô hình nền 12

1.3 Mô hình không tham số thích nghi 13

1.3.1 Mô hình nền cơ bản 16

1.3.2 Ước lượng độ rộng lõi 17

1.3.3 Giảm các phát hiện sai 18

1.3.4 Cập nhật nền 20

1.3.5 Phát hiện vùng tối 22

1.4 Mô hình từ điển thích nghi thời gian thực 22

1.4.1 Mô hình nền và phát hiện nền 24

1.4.2 Phát hiện vật thể từ nền 29

1.4.3 So sánh mô hình sử dụng từ điển với các mô hình khác 29

1.4.4 Mô hình nền sử dụng từ điển phân lớp 31

1.5 Mô hình từ điển hai lớp thích nghi thời gian thực 32

1.5.1 Mô hình từ điển cơ bản 32

1.5.2 Thuật toán tách nền 34

Chương 2 THƯ VIỆN CHƯƠNG TRÌNH XỬ LÝ ĐỒ HỌA OPENCV 35

2.1 Kiến trúc của thư viện 35

2.1.1 Cấu trúc dữ liệu khởi thủy 36

2.2 Thư viện người dùng đồ họa mức cao 46

2.3 Các khái niệm cần thiết trong cài đặt mô hình nền sử dụng từ điển 52

2.3.1 Không gian nhớ 52

2.3.2 Dãy đối tượng liên kết 53

2.3.3 Đường bao 58

Trang 6

2.3.4 Theo dõi chuyển động 62

Chương 3 CÀI ĐẶT MÔ HÌNH NỀN SỬ DỤNG TỪ ĐIỂN HAI LỚP 68

3.1 Cấu trúc dữ liệu 68

3.2 Giải thuật thực hiện mô hình hóa nền sử dụng từ điển hai lớp thích nghi 70

3.2.1 Pha khởi tạo mô hình nền M 71

3.2.2 Pha tối ưu mô hình nền M đã xây dựng 72

3.2.3 Pha tách nền, cập nhât mô hình M và H đồng thời 72

3.3 Phân tích thông tin chuyển động 73

3.4 Kết quả 73

KẾT LUẬN 76

Trang 7

DANH MỤC HÌNH VẼ

Trang

Hình 1 Sự kết hợp giữa phân bố đã biết với kết quả phép đo thu được 5

Hình 2 Giá trị cường độ sáng theo thời gian 14

Hình 3 Histogram của giá trị cường độ sáng 14

Hình 4 So sánh kết quả sau khi hạn chế các phát hiện sai 20

Hình 5 Kết quả phát hiện chuyển động 22

Hình 6 Giá trị cường độ sáng theo thời gian và cách  được sử dụng 26

Hình 7 Biểu diễn giá trị màu trong không gian màu RGB 27

Hình 8 Mô hình phân tách giá trị màu đề xuất 28

Hình 9 Các thành phần chính trong thư viện OpenCV 36

Hình 10 Quan hệ kế thừa giữa các cấu trúc trong OpenCV 37

Hình 11 Ảnh lối vào và biểu diễn kết quả sau khi tách đường bao 58

Hình 12 Quá trình cập nhật vệt theo thời gian 63

Hình 13 Các vệt mẫu chuyển động của 2 đối tượng 63

Hình 14 Tính độ chuyển vết của chuyển động 64

Hình 15 Tách các chuyển động cục bộ trong ảnh 66

Hình 16 Tổ chức dữ liệu lưu trữ từ điển 68

Hình 17 Chương trình mô phỏng quá trình nhận dạng chuyển động 74

Trang 9

MỞ ĐẦU

Lĩnh vực xử lý tín hiệu, cụ thể là xử lý hình ảnh đã phát triển từ lâu với đa dạng các lĩnh vực như tăng cường chất lượng ảnh, tách thành phần nền, dự đoán, theo dõi chuyển động, nhận dạng đối tượng,… Với sự phát triển mạnh mẽ trong công nghệ phần cứng máy tính và sự hỗ trợ của các hệ thống mô phỏng, thư viện

mã nguồn mở thư viện xử lý đồ họa đã cho phép thực hiện nhiều thuật toán phức tạp đòi hỏi số lượng tính toán lớn được nghiên cứu, đánh giá, cải tiến và áp dụng trong thực tế Trong đó, các phương pháp phát hiện chuyển động là một lớp ứng dụng liên quan tới khá nhiều các kĩ thuật trong xứ lý ảnh như tăng cường chất lượng ảnh, mô hình hóa nền – tách nền, theo dõi chuyển động, dự đoán chuyển động,…

Do thời gian nghiên cứu và khuôn khổ nội dung Luận văn có hạn nên chúng

ta sẽ đi vào tập trung nghiên cứu các thuật toán phát hiện chuyển động dựa trên việc mô hình hóa nền được trình bày chủ yếu trong chương 1 Các phương pháp

mô hình hóa sẽ được trình bày theo thứ tự phát triển tăng dần Thứ nhất là mô hình sử dụng bộ lọc Kalman để dự đoán trong việc ước lượng nền thích nghi Thứ hai là mô hình nền hỗn hợp thích nghi sử dụng K phân bố Gauss để mô hình hóa nền có các chuyển động nhỏ, phức tạp với các tham số mô hình Thứ

ba là mô hình nền không tham số sử dụng các ước lượng hàm lõi cho phép thích nghi tốt với thay đổi của môi trường, loại bỏ các yếu tố tham số của mô hình Thứ tư là mô hình nền sử dụng từ điển cho phép mô hình hóa nền phức tạp trong khoảng thời gian dài và thích nghi thời gian thực Và cuối cùng là mô hình cải tiến của mô hình nền sử dụng từ điển nhằm tăng tốc độ xử lý khung hình và khắc phục vấn đề thích nghi với thay đổi nhỏ trong thời gian dài của mô hình trước đó

Tiếp đó, ở chương 2 sẽ đi tìm hiểu thư viện xử lý đồ họa mã nguồn mở OpenCV Chúng ta chủ yếu đề cập tới các khái niệm, nguyên mẫu hàm cần thiết cho việc xây dựng chương trình thực hiện mô hình hóa nền sử dụng từ điển như: khởi thủy cấu trúc dữ liệu, các hàm xử lý đồ họa người dùng mức cao, các thuật toán xử lý hình ảnh phổ biến…

Cuối cùng, ở chương 3 sẽ mô tả quá trình, kết quả xây dựng chương trình, những lưu ý cụ thể khi cài đặt Chương trình nguồn thu được có thể dùng để nghiên cứu thuật toán hoặc sử dụng trong các ứng dụng thương mại liên quan tới nhận dạng chuyển động

Trang 10

Chương 1 THUẬT TOÁN PHÁT HIỆN CHUYỂN ĐỘNG

1.1 Bộ lọc Kalman

Được giới thiệu năm 1960, bộ lọc Kalman đã được chú ý đặc biệt trong lĩnh vực xử lý tín hiệu Bộ lọc Kalman,với các điều kiện ràng buộc, cho phép chúng ta xây dựng một mô hình trạng thái với cực đại xác suất trước mà không cần giữ giá trị của nhiều giá trị đo trước đó Thay vì phải lưu lại các giá trị này, chúng ta chỉ cập nhật mô hình trạng thái hệ thống và chỉ giữ lại mô hình để sử dụng ở bước tiếp theo[6]

Trước khi tìm hiểu chi tiết về ý nghĩa thực tế của bộ lọc này, chúng ta hãy phân tích các giả thiết cũng là điều kiện ràng buộc khi sử dụng của bộ lọc Có 2 giả thiết quan trọng về mặt lý thuyết khi xây dựng bộ lọc Kalman đó là:

 Hệ thống được mô hình hóa là tuyến tính Có nghĩa là trạng thái của

hệ thống tại thời điểm k có thể được mô hình hóa như là tích của một số ma trận (ta sẽ không định nghĩa tường minh các ma trận này) với trạng thái tại thời điểm (k-1)

 Ồn trong phép đo là ồn trắng và có phân bố Gauss Nghĩa là ồn sẽ không tương quan trong miền thời gian và biên độ của nó có thể được mô hình hóa thông qua giá trị trung bình và phương sai

Ý nghĩa của phép “cực đại hóa xác suất trước của các phép đo đã thực hiện” có nghĩa là một mô hình mới được xây dựng sau khi thực hiện một phép

đo được tính toán dựa trên mô hình trước đó với độ không chắc của nó và phép

đó mới cũng cùng với độ không chắc chắn của nó Và mô hình nào được tìm ra

có xác suất cao nhất thì được gọi là mô hình được chọn Với mục đích này, bộ lọc Kalman với 2 điều kiện ràng buộc là cách tốt nhất để kết hợp dữ liệu từ các nguồn khác nhau hoặc từ cùng một nguồn tại các thời điểm khác nhau Khi có thông tin mới thì chúng ta quyết định thay đổi trên cơ sở thông tin đã có và thông tin mới sử dụng phép lấy trung bình theo trọng số giữa các giá trị này Giả sử ta thực hiện 2 phép đo xác định vị trí của x Do có ồn nên chúng ta

có 2 kết quả đo không chắc chắn – theo quan điểm Gauss – là x1 và x2 Bởi vì có

độ không chắc chắn Gauss trong phép đo nên chúng có giá trị trung bình và với phương sai chuẩn ζ1 và ζ2 Phương sai ở đây mang thông tin về độ không

Trang 11

chắc chắn của phép đo Phân bố xác suất mô tả của phép đo là hàm phân bố Gauss

Trong trường hợp này i = 1,2 Chúng ta kì vọng rằng mật độ xác suất cho giá trị của x cho bởi hai phép đo này sẽ tỉ lệ với Như ta

đã biết thì tích của 2 phân bố Gauss là một phân bố Gauss tương đương với giá trị trung bình và phương sai chuẩn được tính như sau:

Do phân bố Gauss cực đại tại giá trị trung bình, mà ta có thể xác định giá trị này một cách dễ dàng thông qua việc tính đạo hàm của p12(x) theo x và cho đạo hàm này bằng 0

Vì hàm phân bố xác suất p(x) luôn khác 0 nên biểu thức trên tương đương với biểu thưc trong dấu ngoặc bằng 0 Giải biểu thức đó theo x cho ta mối quan

hệ hết sức quan trọng:

Như vậy, giá trị trung bình là trung bình theo trọng số của hai giá trị trung bình của hai phép đo; với trọng số xác định độ không chắc chắn liên quan giữa 2 phép đo Nếu độ không chắc chắn ζ2 của phép đo thứ 2 đặc biệt lớn thì giá trị trung bình thu được sẽ gần với giá trị trung bình của x1 với độ chính xác hơn

Với giá trị trung bình có được, chúng ta thay vào trong biểu thức xác suất p12(x) và tính được độ không chắc chắn tương ứng là:

Trang 12

Công thức này nói lên rằng: chúng ta có thể tạo ra một phép đo mới với giá trị trung bình và độ không chắc chắn tương ứng bằng cách kết hợp các phép

đo trước đó Tính chất này của hai phép đo Gauss có nghĩa là: nếu chúng ta có

M phép đo thì có thể kết hợp hai phép đo đầu, sau đó kết hợp phép đo thứ 3 với kết quả hai phép đo đó và cứ như vậy đến hết Cuối cùng ta sẽ thu được kết quả

là phép đo tương đương của M phép đo đó mong muốn

Giả sử với mỗi phép đo có , chúng ta có thể tính trạng thái của ước lượng hiện tại như sau:

Khi đó sẽ thu được dạng biểu thức đệ quy đơn giản hơn:

Ở phần trước, chúng ta nói đến là việc thực hiện nhiều phép đo đối với một đối tượng x cố định mà chưa đề cập đến vấn đề là đối tượng đó có thể

Trang 13

chuyển động trong quá trình đo Trường hợp này chúng ta sẽ gọi là pha dự đoán Trong suốt pha dự đoán này, chúng ta sử dụng các thông tin đã biết để dự đoán

về kết quả phép đo mới mà hệ thống sẽ diễn ra

Trong thực tế, pha dự đoán được hoàn thành ngay sau khi một phép đo mới được thực hiện nhưng trước khi phép đo mới được đưa vào ước lượng trạng thái hệ thống Ví dụ như khi chúng ta đo vị trí của một ô tô tại thời điểm t và sau

đó là (t+dt) Nếu ô tô đó đang chuyển động với vận tốc v thì chúng ta không thể kết hợp phép đo đó một cách trực tiếp Đầu tiên, chúng ta cần tiến tịnh tiến mô hình của chúng ta về phía trước dựa trên cơ sở những thông tin đã biết tại thời điểm t vì thế chúng ta có một mô hình không chỉ của hệ thống tại thời điểm t mà

cả (t+dt) ngay trước khi thông tin mới được kết hợp Theo cách này, thông tin mới nhận được tại thời điểm (t+dt) phù hợp với cả mô hình cũ và mô hình tại thời điểm (t+dt) của hệ thống

Có 3 loại chuyển động mà chúng ta sẽ xét đến:

 Chuyển động tự thân của đối tượng: đây là loại chuyển động mà chúng ta

có thể xác định trạng thái hệ thống trực tiếp từ lần đo trước Nếu chúng ta

đã đo hệ thống tại vị trí x với tốc độ v tại thời điểm t thì sau đó tại thời điểm (t+dt) chúng ta kì vọng hệ thống sẽ ở vị trí (x+v*dt)

 Chuyển động được điều khiển: là loại chuyển động do tác động của các

yếu tố bên ngoài Ví dụ phổ biến nhất của loại vận động này là chúng ta biết về yếu tố tác động gây ra vận động đó Ví dụ như hệ thống rô-bốt với phần điểu khiển là hệ thống ra lệnh cho nó Rõ ràng trong trường hợp này, nếu rô-bốt đã ở vị trí x và chuyển động với vận tốc v tại thời điểm (t+dt) thì chúng ta kì vọng nó sẽ di chuyển không chỉ tới (x+v*dt) mà có thể xa hơn

 Chuyển động ngẫu nhiên: là các chuyển động mà chúng ta không biết

hoặc không điều khiển được Như giả thiết trước kia thì chuyển động ngẫu nhiên ở đây cũng có phân bố Gauss hay ít nhất là có thể được mô hình hóa bởi phân bố này

Như đã cấp ở trên, để thêm yếu tố chuyển động vào trong mô hình thì chúng ta cần một bước cập nhật trước khi có thể thêm kết quả phép đo mới Bước cập nhật này sẽ đòi hỏi thông tin đã có về chuyển động của đối tượng cùng với các thông tin mà chúng ta có hoặc biết khác - mang hàm ý điều khiển được

Trang 14

và thêm tính ngẫu nhiên của sự kiện để xác định trạng thái có thể xảy ra của hệ thống từ phép đo trước

Chúng ta đã có một nhận xét là: Nếu độ không chắc chắn của phép đo mới

là lớn thì phép đo đó không có nhiều ý nghĩa và không được giữ lại trong kết quả Còn nếu phép đo đầu có phương sai lớn và sau đó là một phép đo chính xác hơn thì chúng ta tin rằng đó là kết quả của phép đo mới Khi cả hai phép đo có cùng độ chắc chắn – phương sai – thì giá trị mới là đáng tin cậy

Hình 1 Sự kết hợp giữa phân bố đã biết với kết quả phép đo thu được

Ý tưởng về cách cập nhật nhạy với độ không chắc chắn có thể được tổng quát hóa thành rất nhiều các biến trạng thái Ví dụ như khi theo dõi chuyển động của vật thể trong đoạn video thì đối tượng có thể di chuyển theo nhiều hướng Thông thường có thêm các thông khác như vật tốc mà đối tượng được theo dõi… Chúng ta sẽ mô hình hóa các mô tả về trạng thái tại thời điểm k bằng hàm trạng thái tại thời điểm (k-1):

Trong đó, là véc-tơ n chiều của các thành phần trạng thái và F là ma trận chuyển kích thước nxn Véc-tơ uk cho phép thêm vào các điều khiển mong muốn, là véc-tơ c chiều như là nguồn điều khiển B là ma trận nxc liên quan tới lối vào điều khiển wk là biến ngẫu nhiên để mô tả yếu tố ngẫu nhiên của hệ thống Giả thiết rằng thành phần wk có phân bố Gauss N(n,Qk) với ma trận hiệp phương sai kích thước nxn

Thông thường, chúng ta tiến hành thực hiện phép đo zk có thể là trực tiếp hoặc gián tiếp trên biến trạng thái xk Chúng ta có thể tóm tắt bằng phép đo véc-

tơ m chiều của phép đo zk như sau:

Giá trị đã đo

Giá trị biết ở hiện tại Giá trị đã biết trong quá khứ

Trang 15

Với Hk là ma trận mxn và vk là sai số phép đo có phân bố Gauss N(0,Rk) với Rk là ma trận hiệp phương sai mxm

Giả sử trạng thái của đối tượng được mô tả bằng 2 biến vị trí x và y, hai biến tốc độ theo 2 hướng là vx và vy 4 biến đơn này có thể được biểu diễn dạng véc-tơ trạng thái xk cùng với dạng ma trận chuyển phù hợp như sau:

và

Tuy nhiên, khi sử dụng máy quay để thực hiện phép đo trạng thái của đối tượng thì chúng ta thường chỉ đo giá trị vị trị

Khi đó cấu trúc của H sẽ là:

Trong trường hợp này, chúng ta có thể không tin rằng vận tốc của đối tượng là hằng số nên sẽ gán một giá trị Qk để phản ảnh yếu tố này Ta chọn Rktrên cơ sở ước lượng độ chính xác của phép đo vị trí của đối tượng thu được sử dụng các kĩ thuật phân tích ảnh trong luồng video

Bây giờ ta sẽ thay các biểu thức trên vào dạng tổng quát của biểu thức cập nhật Trước hết, chúng ta đi tính ước lượng trước của trạng thái , ước lượng ngay trước khi nhận được giá trị mới Khi đó ta có:

Kí hiệu để chỉ sai số tự tương quan trong ước lượng tự tương quan tại thời điểm k thu được từ các giá trị tại thời điểm k-1

Trang 16

Biểu thức này tạo nên cơ sở cho phần dự đoán của ước lượng cho ta biết thông tin mà ta kì vọng dựa trên những thông tin đã biết Hệ số nhân Kalman K hay hệ số trộn cho ta biết trọng số của thông tin mới so với những thứ chúng ta

đã biết:

Hệ số K cho phép chúng ta có thể tính một cách tối ưu các giá trị được cập nhật xk và Pk với mỗi phép đo mới

1.2 Mô hình hỗn hợp nền thích nghi thời gian thực

Phương pháp chung để tách các vùng chuyển động theo thời gian thực từ chuỗi các ảnh có liên quan tới việc tách nền hay xác định ngưỡng sai khác giữa một ước lượng của ảnh không có đối tượng chuyển động với ảnh hiện tại Có nhiều đề xuất liên quan tới vấn đề này đã được đưa ra cùng với các mô hình nền khác nhau trong việc sử dụng và cập nhật mô hình Trong phần này, chúng ta đi nghiên cứu về việc mô hình hóa mỗi điểm ảnh như là hỗn hợp của nhiều thành phần mà mỗi thành phần được biểu diễn bằng một phân bố Gauss và sử dụng phép xấp xỉ để cập nhật [ 2 ] Phân bố Gauss của mô hình hỗn hợp thích nghi sau

đó được ước lượng để xác định ra thành phần gần nhất từ quá trình xử lý nền Mỗi một điểm ảnh được phân nhóm trên cơ sở phân bố Gauss đặc trưng cho nó sao cho việc biểu diễn cho nền hiệu quả nhất Kết quả sẽ cho ta một mô hình ổn định, thời gian thực sử dụng để theo dõi chuyển động ngoài trời với sự thay đổi

về độ sáng, có các đối tượng chuyển động và các thay đổi xét trong thời gian dài

Trước kia, do những hạn chế trong tính toán đã giới hạn các ứng dụng xử

lý video thời gian thực phức tạp Kết quả là phần lớn các hệ thống đều chậm được đưa vào ứng dụng hoặc khả năng ứng dụng thực tế khá hạn chế Ngày nay, với sự phát triển của máy tính cho phép các nhà nghiên cứu có thể xây dựng các

mô hình mạnh mẽ, phức tạp hơn đối với việc phân tích thời gian thực luồng dữ liệu Phương pháp nghiên cứu mới này cho phép các nhà nghiên cứu có thể bắt đầu nghiên cứu việc mô hình hóa các quá trình trong thế giới thực dưới nhiều điều kiện khác nhau

Trang 17

Một hệ thống tốt sẽ có thể làm việc với các vị trí đặt máy quay, các điều kiện ánh sáng thay đổi, có vật thể chuyển động trong thời gian mô hình hóa nền,… Đây chính là điều mà các phương pháp trước kia vẫn chưa giải quyết được Hầu hết các nhà nghiên cứu đi mô hình hóa nền không thích nghi nên cần các thiết lập khá tỉ mỉ để việc mô hình có thể hoạt động được Nếu không có các thông số phù hợp thì sai số nền sẽ được tích lũy theo thời gian và sẽ làm cho các phương pháp này chỉ hoạt động trong thời gian ngắn hoặc không có khả năng thích nghi với các thay đổi

Một phương pháp cơ bản cho mô hình hóa nền thích nghi là trung bình hóa các ảnh theo thời gian tạo nên một nền được xấp xỉ với nền thực tế khi không có các đối tượng chuyển động Tuy vậy, phương pháp này sẽ không hiệu quả khi có các đối tượng chuyển động liên tục khiến cho nền ít được xuất hiện, các đối tượng chuyển động chậm, đa nền,… Đã có nhiều phương pháp đưa ra để xử lý vấn đề thay đổi về độ sáng của nền: Ridder [ 3 ] đã mô hình hóa mỗi điểm ảnh với một bộ lọc Kalman giúp cho hệ thống xử lý tốt hơn với những thay đổi đó Mặc

dù phương pháp này có một ngưỡng thích nghi cho mỗi điểm ảnh nhưng vẫn thích nghi chậm và không xử lý được các trường hợp đa nền Pfinder [7] sử dụng

mô hình thống kê nhiều lớp cho các đối tượng được theo dõi, nhưng mô hình nền vẫn chỉ sử dụng một phân bố Gauss cho mỗi điểm ảnh Với quá trình khởi tạo trong phòng trống, hệ thống cho kết quả tốt Nhưng lại không hoạt động trong điều kiện ngoài trời

Để giải quyết các vấn đề tồn tại ở trên, thay vì mô hình hóa giá trị của tất

cả các điểm ảnh theo một kiểu phân bố nào đó, chúng ta chỉ đơn giản mô hình hóa các giá trị điểm ảnh như là một hỗn hợp các phân bố Gauss Trên cơ sở tính

cố định và sai khác của mỗi phân bố trong tập, chúng ta có thể xác định được các phân bố nào thuộc màu nền Các giá trị điểm ảnh không phù hợp với phân

bố nền thì được coi như là thuộc vật thể cho tới khi có một phân bố Gauss chứa chúng Hệ thống này thích nghi tốt với các thay đổi ánh sáng, các thành phần chuyển động lặp lại, các đối tượng chuyển động,… Các đối tượng chuyển động chậm sẽ mất nhiều thời gian hơn để được sáp nhập vào nền bởi vì màu của chúng có một phương sai lớn hơn nền Các phương sai lặp lại được cập nhật, một mô hình cho phân bố nền được duy trì hoặc có thể được thay thế bởi một phân bố khác Mô hình có 2 tham số quan trọng là α – hằng số học hay hằng số thích nghi – và T là lượng thông tin sẽ được lấy như nền

Trang 18

1.2.1 Phương pháp mô hình hóa hỗn hợp nền thích nghi

Với mỗi điểm ảnh ở một vùng có độ sáng nhất định thì chỉ cần một phân

bố Gauss là có thể mô hình hóa được giá trị điểm ảnh với các giá trị nhiễu thay đổi Nếu chỉ có sự thay đổi về độ sáng thì một phân bố Gauss đơn thích nghi là

đủ Trong thực tế, thì các giá trị của điểm ảnh thường có độ sáng khác nhau Chính vì vậy, chúng ta cần sử dụng hỗn hợp các phân bố Gauss thích nghi để xấp xỉ quá trình này Tại mỗi thời điểm, tham số của Gauss lại được cập nhật và được ước lượng sử dụng các giá trị thu được để tìm ra thành phần nào gần với quá trình nền nhất Các giá trị điểm ảnh không phù hợp với phân bố Gauss nền – điểm ảnh thuộc vật thể - sẽ được nhóm lại thành các thành phần liên kết Các thành phần liên kết này được theo dõi từ khung hình này tới khung hình khác sử dụng bộ theo dõi đa giả thiết

Chúng ta xét các giá trị của mỗi điểm ảnh theo thời gian như là một quá trình điểm ảnh Quá trình này là một chuỗi theo thời gian các giá trị của điểm ảnh Tại thời điểm t, tất cả các thông tin đã biết về điểm ảnh {x0,y0}, là lịch sử của nó

{X1,X2, Xt} = {I(x0,y0,i) với 1 ≤ i ≤ t}

Trong đó, I là chuỗi ảnh

Giá trị của mỗi điểm ảnh được biểu diễn bằng số đo của độ chói của nó Với một nền tĩnh và độ sáng cố định, giá trị này gần như là cố định Nếu chúng

ta giả thiết rằng nhiễu Gauss độc lập xuất hiện trong quá trình lấy mẫu có thể mô

tả bởi một phân bố Gauss trung tâm tại giá trị trung bình của điểm ảnh Tuy vậy, trong hầu hết các chuỗi video thì độ sáng thay đổi, cảnh nền thay đổi và có các đối tượng chuyển động Nếu ánh sáng thay đổi trong một nền cố định thì nó cần một phân bố Gauss để theo dõi sự thay đổi này Nếu một đối tượng đứng yên được thêm vào nền thì sẽ không được coi như là một thành phần của nền cho tới khi nó tồn tại đủ lâu Điều này dẫn tới nó được coi như vật thể trong suốt thời gian dài Việc tích lũy các sai số trong việc ước lượng vật thể, kết quả làm cho việc theo dõi chuyển động không hiệu quả Các yếu tố này cũng có nghĩa là kết quả phát hiện gần với thời điểm hiện tại đóng vai trò quan trọng trong việc ước lượng các tham số Gauss hơn so với trong quá khứ Khi có các thay đổi do các đối tượng chuyển động thì sự cố định về màu của các đối tượng chuyển động được sử dụng làm căn cứ để phân biệt với các đối tượng đứng yên Thường thì chúng ta sẽ cần nhiều thông tin để mô tả cho phân bố của nền do tính lặp lại

Trang 19

trong khi các giá trị điểm ảnh của các đối tượng khác nhau thường có màu khác nhau

Các giá trị của điểm ảnh {X1, Xt} được mô hình hóa bằng một hỗn hợp K phân bố Gauss Xác suất xảy ra giá trị điểm ảnh hiện tại là

Trong đó, K là số lượng phân bố; ωi,t là ước lượng của các hệ số của phân

bố Gauss trong hỗn hợp tại thời điểm t – phần chia dữ liệu được mô tả cho phân

bố Gauss thứ i; μi,t là giá trị trung bình của Gauss thứ i trong tập tại thời điểm t

Σi,t là ma trận phương sai của phân bố Gauss thứ i trong hỗn hợp tại thời điểm t

Từ đó phân bố của giá trị thu được gần nhất của điểm ảnh có thể được đặc trưng bởi một hỗn hợp các phân bố Gauss Mỗi một giá trị điểm ảnh mới thông thường sẽ được biểu diễn bởi một trong số các thành phần của mô hình hỗn hợp

và được dùng để cập nhật mô hình này

Nếu quá trình điểm ảnh có thể được được xem như là một quá trình dừng thì một phương thức chuẩn cho việc cực đại hóa tính gần đúng của dữ liệu thông qua xác định kì vọng cực đại Tuy vậy, mỗi quá trình điểm ảnh lại khác nhau theo thời gian khi các yếu tố bên ngoài thay đổi Vì thế nên chúng ta sử dụng quy tắc học chuẩn để bổ sung các dữ liệu mới

Trang 20

Do mỗi một điểm ảnh có một mô hình hỗn hợp biểu diễn cho nó nên việc cài đặt thuật toán EM trên cửa sổ dữ liệu mới nhận được sẽ khá tốn tài nguyên Thay vào đó chúng ta cài đặt ước lượng K thành phần được cập nhật liên tục Với mỗi giá trị ảnh mới Xt sẽ được kiểm tra xem có tồn tại trong K phân bố Gauss đã có không Sự phù hợp ở đây được định nghĩa là giá trị điểm ảnh nằm trong khoảng 2,5 giá trị độ lệch chuẩn của phân bố đã có Ngưỡng lấy mẫu này

có thể bị nhiễu do một vài hiệu ứng Nếu không tìm ra phân phối nào phù hợp thì phân bố xác suất nhỏ nhất sẽ được thay thế bằng phân bố của điểm ảnh hiện tại cùng với giá trị trung bình, phương sai khởi tạo lớn và một trọng số thấp

Trọng số của K phân bố tại thời điểm t là ωk,t có thể được điều chỉnh theo công thức:

Trong đó, α là tốc độ học – như đã nói ở phần trên Mk,t = 1 cho mô hình phù hợp và 0 cho các mô hình còn lại Sau khi tiến hành ước lượng, các hệ số được chuẩn hóa 1/ α được hiểu là hằng số thời gian, xác định tốt độ các tham số phân bố thay đổi ωk,t đóng vai trò như phép lấy trung bình thông qua sử dụng bộ lọc thông thấp nhân quả các xác suất thu được mà giá trị phù hợp với mô hình k trong khoảng thời gian từ 1 đến t Điều này tương đương với xác định kì vọng của giá trị này với một cửa sổ mũ trên các giá trị đã có

Tham số μ, ζ cho các phân bố không phù hợp là không đổi Các tham số cho các phân bố phù hợp được cập nhật theo công thức

Trong đó,

Các thông số này cũng có tác dụng như bộ lọc thông thấp nhân quả như

đã trình bày ở trên ngoại trừ chỉ có dữ liệu phù hợp với mô hình mới được nhóm vào trong ước lượng

Một trong những đặc điểm nổi bật của phương pháp này là khi một thành phần mới được hiểu như là nền thì nó sẽ không làm phá vỡ mô hình nền hiện có Màu nền gốc được giữ lại trong tập cho đến khi nó trở thành xác suất thứ thường xảy ra nhất – ít xảy ra nhất trong K xác suất hiện có - thì một màu mới được thiết lập Vì vậy, nếu một đối tượng là đứng yên trong khoảng thời gian đủ dài

Trang 21

nó sẽ trở thành nền và khi nó di chuyển trở lại thì phân bố mô tả nền trước đây vẫn tồn tại với cùng giá trị μ, ζ2 nhưng ω sẽ thấp hơn và sẽ sớm được đưa trở lại nền

1.2.2 Ước lượng mô hình nền

Khi các tham số của mô hình nền hỗn hợp thay đổi, chúng ta sẽ xác định được các phân bố Gauss nào tạo nên quá trình nền Khi một đối tượng mới xuất hiện, thông thường nó sẽ không phù hợp với các phân bố đã có và kết quả là tạo

ra một phân bố mới hoặc làm tăng phương sai của phân bố đã có Ngoài ra, phương sai của các đối tượng chuyển động được coi có giá trị lớn hơn của các điểm ảnh nền cho tới khi đối tượng này dừng lại Để mô hình hóa nó, chúng ta cần một phương thức để quyết định phần nào của mô hình hỗn hợp có thể biểu diễn tốt nhất quá trình nền

Đầu tiên, các phân bố Gauss được sắp xếp theo giá trị ω/ζ Giá trị này tăng cả khi phân bố tăng và khi phương sai giảm Sau khi dự đoán lại các tham

số của mô hình, ta có đủ căn cứ để sắp xếp và tìm ra các phân bố phù hợp để tạo các phân bố Bởi vì chỉ có các giá trị liên quan tới mô hình phù hợp mới thay đổi Thứ tự được thiết lập sẽ là các phân bố gần với nền nhất ở đầu, tiếp đó là các các phân bố ít gần hơn ở cuối cùng và có thể được thay thể bởi các phân bố mới

Từ đó, B phân bố đầu tiên được chọn như là mô hình hóa của nền:

Với T là số đo phần dữ liệu nhỏ nhất được coi như là nền Việc này sẽ thiết lập các phân bố tốt nhất cho tới khi một phân bố mới được thiết lập Nếu giá trị T được chọn là nhỏ, mô hình nền thường là đơn-mốt Trong trường hợp này, chỉ có các phân bố thường xảy ra nhất mới được giữ lại Nếu chọn T lớn thì một phân bố đa-mốt sẽ được tạo ra do các yếu tố nền chuyển động lặp lại Kết quả là hiệu ứng trong suốt cho phép nền được chấp nhận với hai hay nhiều hơn các màu khác nhau

Phương pháp được mô tả ở trên cho phép chúng ta phát hiển ra các điểm ảnh thuộc vật thể trong mỗi một khung hình mới trong khi cập nhật các thông tin quá trình của mỗi điểm ảnh Các điểm ảnh tìm được có thể được nhóm vào một vùng thông qua thuật toán tìm thành phần liên kết được trình bày trong “Robot

Trang 22

Vision” của B K P Horn Đây là một cách hiệu quả để xác định toàn bộ vật thể, đối tượng chuyển động được đặc trưng không chỉ qua vị trí của nó mà còn là kích thước, mô-men hay các thông tin hình dạng khác Các đặc tính này không chỉ hữu dụng trong các bước xử lý sau này mà còn đặc biệt hỗ trợ rất nhiều trong việc theo dõi quá chuyển động

1.3 Mô hình không tham số thích nghi

Trong phần này chúng ta sẽ xây dựng một mô hình không tham số có thể

xử lý các tình huống nền có ồn và không hoàn toàn tĩnh – như chứa các chuyển động nhỏ như cành cây rung rinh Mô hình ướng lượng xác suất của các giá trị cường độ của điểm ảnh dựa trên cơ sở các mẫu cường độ mỗi điểm ảnh Mô hình thích nghi nhanh với các thay đổi môi trường cho phép phát hiện nhạy với vật chuyển động Chúng ta cũng tìm ra bằng cách mà mô hình có thể sử dụng thông tin màu để chặn các phát hiện sai ở vùng tối Thuật toán này có thể ứng dụng cho cả ảnh mức xám và ảnh màu

Nếu giả thiết nền là tĩnh hoàn toàn thì giá trị cường độ của điểm ảnh có thể được mô hình hóa bằng một phân bố chuẩn N(μ,ζ2

) Nếu thêm các yếu tố nhiễu theo thời gian thì có thể được mô hình hoá bằng phân bố chuẩn trung bình 0 N(0,ζ2

) Mô hình phân bố chuẩn này cho các giá trị cường độ của một điểm ảnh

là mô hình cơ bản cho rất nhiều kĩ thuật tách nền Ví dụ, một kĩ thuật tách nền đơn giản nhất là tính ảnh trung bình của nền khi không có các đối tượng chuyển động, tách khung hình mới từ ảnh này và lấy mẫu kết quả

Mô hình cơ bản có thể thích nghi với các thay đổi chậm bằng cách cập nhật liên tục mô hình bằng bộ lọc thích nghi đơn giản Trong hầu hết các ứng dụng hoạt động ngoài trời thì nền thường chứa các thành phần không tĩnh hoàn toàn Chính điều này là nguyên nhân làm các giá trị cường độ điểm ảnh thay đổi theo thời gian Ví dụ: một điểm ảnh có thể là ảnh của bầu trời trong một khung hình nhưng lại là lá cây trong khung hình khác hay cành cây trong khung hình thứ ba,

Trang 23

Hình 2 Giá trị cường độ sáng theo thời gian

Hình 3 Histogram của giá trị cường độ sáng

Hình 3 mô tả histogram mức sáng của điểm ảnh theo thời gian 30 giây với

900 khung hình Giản đồ histogram này cho thấy phân bố cường độ sáng là mốt vì thế nên mô hình phân bố chuẩn không thể mô tả được điểm ảnh này

đa-Trong một số mô hình công trình nghiên cứu về việc tách chuyển động từ chuỗi các ảnh lối vào, một tập gồm 3 phân bố chuẩn đã được sử dụng để mô hình giá trị điểm ảnh trong ứng dụng theo dõi lưu lượng phương tiện giao thông Cường độ sáng của điểm ảnh được mô hình hóa như là tổng theo trọng số của các phân bố chuẩn biểu diễn: phân bố đường – giao thông, vùng tối và các phương tiện giao thông Thuật toán EM được sử dụng để học và cập nhật các tham số của mô hình Mặc dù trong trường hợp này, cường độ sáng của điểm ảnh được mô hình hóa bằng 3 phân bố nhưng vẫn là phân bố đơn được sử dụng cho nền – thành phần đường giao thông

Trong mô hình hỗn hợp nền thích nghi thời gian thực [ 2 ], được trình bày ở phần 1, thì độ sáng của điểm ảnh được mô hình hóa bằng hỗn hợp của K phân

bố Gauss để mô hình hóa các thành phần thay đổi của nền như là chuyển động

Trang 24

của lá cây hay các chuyển động nhỏ khác khi làm việc ở ngoài trời Xác suất điểm ảnh nhận giá trị cường độ sáng xt tại thời điểm t xác định bởi:

Trong đó, ωj là trọng số, μj là giá trị trung bình, là phương sai cho phân bố thứ j K phân phối được sắp xếp theo và chỉ có B phân phối đầu tiên được sử dụng như là mô hình của nền Trong đó B được ước lượng như sau:

Việc tách nền được thực hiện bằng cách đánh dấu các điểm có phương sai lớn hơn 2,5 lần phương sai chuẩn của mọi B phân phối đã xác định như là thuộc vật thể

Trong trường hợp khi nền thay đổi với tần suất lớn, mô hình này gặp phát hiện sai Ví dụ: histogram cường độ sáng trong 30 giây thể hiện rằng phân bố cường độ sáng nằm trên một dải rộng các mức xám (điều này cũng đúng cho trường hợp ảnh màu) Tất cả các thay đổi này diễn ra trong thời gian ngắn (chỉ

cỡ 30 giây) Việc mô hình hóa thay đổi nền với một số ít các phân bố Gauss sẽ không còn chính xác Hơn nữa, phân bố nền rất rộng sẽ cho kết quả phát hiện kém bởi vì phổ mức xám sẽ bị chiếm hầu hết bởi mô hình nền

Một yếu tố quan trọng khác là mô hình nền thay đổi nhanh như thế nào để thích nghi với các thay đổi Qua trở lại giản đồ histogram ở trên, với cùng một điểm ảnh được quan sát trong 9 khoảng thời gian bằng nhau - mỗi khoảng gồm

100 khung hình, ta nhận thấy rằng phân bố cường độ sáng thay đổi đột ngột trong những thời gian ngắn Sử dụng nhiều các phân bố trong thời gian ngắn sẽ cho phép chúng ta thu được độ nhạy phát hiện tốt hơn Tuy nhiên, chúng ta phải đối mặt với sự đánh đổi là: nếu mô hình nền thích nghi quá chậm với thay đổi của môi trường thì sẽ thu được một mô hình không chính xác – có độ nhạy phát hiện thấp Mặc khác, nếu mô hình thích nghi quá nhanh thì sẽ dẫn tới vấn đề: mô hình sẽ tự tương thích với các đối tượng của chính chúng, cũng giống như trường hợp trên cũng sẽ dẫn tới kết quả không chính xác

Trang 25

Mục tiêu của chúng ta là đi mô hình hóa quá trình nền không cần tham số

Mô hình hướng tới hướng tới ở phần này sẽ thích nghi nhanh với các thay đổi của nền và phát hiện các đối tượng với độ nhạy cao Mô hình này giữ các mẫu cho mỗi điểm ảnh của khung hình và dự đoán xác suất một điểm ảnh mới nhận được có giá trị thuộc nền Mô hình sẽ ước lượng các xác suất một cách độc lập cho các khung hình

1.3.1 Mô hình nền cơ bản

Trong phần này, chúng ta sẽ mô tả mô hình nền cơ bản và quá trình tách nền Mục tiêu của mô hình là bắt được toàn bộ các thông tin gần nhất về các chuỗi ảnh và liên tục cập nhật thông tin này để bắt nhanh các thay đổi của nền

Do phân bố cường độ sáng của các điểm ảnh thay đổi nhanh vì thế nên chúng ta phải ước lượng các hàm mật độ của phân bố tại mỗi thời điểm để tìm ra thông tin nhằm cải thiện độ nhạy phát hiện

Giả sử x1,x2,…xN là các mẫu gần của các giá trị cường độ sáng cho một điểm ảnh Sử dụng các mẫu này, hàm mật độ xác suất của điểm ảnh sẽ có giá trị cường độ sáng xt tại thời điểm t có thể được ước lượng mà không cần tham số nào khác sử dụng bộ ước lượng lõi K như sau:

Nếu chúng ta chọn hàm ước lượng lõi K là hàm chuẩn N(0,Σ) trong đó Σ biểu diễn băng thông hàm lõi thì mật độ có thể được ước lượng như sau:

Nếu chúng ta giả thiết sự độc lập giữa các kênh màu khác nhau sẽ có cùng một độ rộng băng lõi khác nhau cho kênh màu thứ j thì:

Và khi đó ước lượng mật độ được đơn giản còn

Trang 26

Sử dụng ước lượng này, điểm ảnh có thể được xác định là thuộc vật thể nếu Pr(xt) nhỏ hơn giá trị ngưỡng toàn cục – có thể được điều chỉnh sao cho tỉ lệ cảnh báo sai là nhỏ nhất Trong thực tế, biểu thức ước lượng trên có thể được tính theo cách rất nhanh là thiết lập bảng tra cứu các giá trị đã tính cho các giá trị hàm lõi với các giá trị cường độ sáng khác nhau, (xt - xi) và độ rộng băng hàm lõi Hơn nữa, một biểu thức thành phần của tổng trong biểu thức ước lượng thường được đủ lớn hơn giá trị ngưỡng Điều này cho phép chúng ta xây dựng một thuật toán rất nhanh trong việc ước lượng giá trị xác suất

Ước lượng mật độ sử dụng hàm lõi chuẩn là một cách tổng quát hóa của

mô hình hỗn hợp Gauss, trong đó mỗi một mẫu trong N mẫu được xem như chính là một phân bố Gauss N(0,Σ) Điều này cho phép chúng ta ước lượng hàm mật độ chính xác hơn và chỉ phụ thuộc vào các thông tin gần với hiện tại của chuỗi (ảnh) Đồng thời, chúng ta đã bỏ đi được các sai số không thể tránh được trong việc ước lượng các tham số, việc thường đòi hỏi một lượng lớn dữ liệu yêu cầu cả điều kiện chính xác và đồng đều(không có trọng số)

1.3.2 Ước lượng độ rộng lõi

Có ít nhất hai nguyên nhân tạo ra sự thay đổi trong giá trị cường độ sáng của điểm ảnh Thứ nhất, đó là sự thay đổi nhanh của giá trị cường độ sáng giữa các đối tượng khác nhau ( bầu trời, cành cây, lá cây,…) tại các thời điểm khác nhau Thứ hai, trong các khoảng thời gian ngắn đó thì các điểm ảnh cùng thuộc một đối tượng nhưng lại có phương sai cường độ sáng cục bộ liên quan tới độ

mờ, độ nhiễu của ảnh Độ rộng băng lõi, Σ, sẽ phản ảnh phương sai cục bộ liên quan tới tính cục bộ của ảnh và không có tỉnh nhảy đột ngột Phương sai cục bộ này khác tùy thuộc vào mỗi ảnh và thay đổi theo thời gian Đồng thời nó cũng khác nhau tùy thuộc vào mỗi kênh màu và đòi hỏi các độ rộng băng khác nhau cho mỗi kênh màu trong việc tính lõi

Để ước lượng băng thông lõi cho kênh màu thứ j của điểm ảnh đang xét, chúng ta cần tính độ lệch tuyệt đối trung vị giữa 2 giá trị cường độ sáng liên tiếp của điểm ảnh Khi đó, giá trị trung vị m của cho mỗi cặp liên tiếp của mẫu được tính độc lập trên mỗi kênh Nếu chúng ta giả thiết

Trang 27

phân bố cục bộ theo thời gian là N(μ,ζ2) thì độ lệch là N(0,ζ2) Vì vậy độ lệch chuẩn của phân bố thứ nhất có thể được ước lượng bằng:

Từ giải thiết các giá trị độ lệch là nguyên, phép nội suy tuyến tính được sử dụng để thu được các giá trị xấp xỉ chính xác hơn

1.3.3 Giảm các phát hiện sai

Ở môi trường ngoài trời với nền thay đổi, có 2 nguyên nhân làm cho việc phát hiện trở nên không chính xác Thứ nhất, là do các nhiễu ngẫu nhiên thường

có tính chất giống nhau trên toàn bộ ảnh Thứ hai, đó là các chuyển động nhỏ xảy ra ở nền nhưng không được biểu diễn trong mô hình nền Nó có thể do do sự chuyển động của các đối tượng như cành cây chuyển động nhanh trong quá trình khởi tạo mô hình Phát hiện sai cũng có thể do chất lượng các máy quay dùng trong ứng dụng Loại này thường chỉ tác động tới các vùng nhất định của ảnh nên không thể triệt dễ dàng bằng các sử dụng các bộ lọc nhiễu toàn cục bởi vì nó chỉ tác động tới một số vùng có tính chất nhất định của ảnh

Như vậy, sau giai đoạn phát hiện vật thể thì chúng ta cần tiến hành giảm các phát hiện sai do các dao động nhỏ hoặc không thể mô hình hóa trong nền Nếu một phần của nền di chuyển tới các vị trí điểm ảnh khác thì nó sẽ không được hiểu như nền – được phát hiện như là vật thể Tuy nhiên, đối tượng này có một xác suất cao là một phần của phân bố nền tại điểm ảnh gốc Giả thiết rằng

có một sự đổi chỗ nhỏ có thể diễn ra giữa khung hình liên tiếp, chúng ta quyết định rằng: nếu điểm ảnh được phát hiện được tạo ra bởi đối tượng nền thông qua việc xác định phân bố nền trong các lân cận của điểm phát hiện thì đó là nền Cho xt là giá trị thu được của một điểm ảnh x, được phát hiện như là điểm ảnh thuộc nền ở trong phần trước – quá trình tách nền – tại thời điểm t Chúng ta định nghĩa xác suất hoán đổi điểm ảnh là xác suất cực đại mà giá trị nhận được thuộc về phân bố nền của các điểm trong lân cận N(x) của x

với y thuộc lân cận N(x) của x Trong đó By là mẫu nền cho điểm ảnh y, ước lượng xác suất

được tính sử dụng ước lượng hàm lõi trong công thức tính Pr(xt) đã đề cập ở 1.3.1 Bằng cách lấy mẫu PN cho các điểm ảnh phát hiện, chúng ta có thể loại bỏ các phát hiện sai cho các chuyển động nhỏ trong nền Tuy nhiên, cũng đồng

Trang 28

nghĩa với việc sẽ loại bỏ cả các phát hiện đúng Điều này thường diễn ra với ảnh mức xám Để loại bỏ trường hợp này, chúng ta cần thêm một điều kiện ràng buộc rằng toàn bộ đối tượng phát hiện được phải di chuyển từ vị trí cũ gần đó chứ không phải một vài điểm ảnh Chúng ta định nghĩa xác suất hoán đổi thành phần PC là xác suất thành phần liên kết được phát hiện C đã hoán đổi từ vị trí gần đó Xác suất được ước lượng bởi

Đối với các thành phần liên kết là đối tượng chuyển động thực sự thì xác suất mà thành phần này hoán đổi từ nền sẽ rất nhỏ Vì vậy, điểm ảnh được phát hiện x sẽ được xem như là nền chỉ khi PN(x) > th1 và PC(x) > th2 Trong đó, ngưỡng th1 được thiết lập bằng giá trị ngưỡng được sử dụng trong quá trình tách nền trước và được điều chỉnh sao cho tỉ lệ phát hiện sai là nhỏ nhất Giá trị ngưỡng th2 dùng để phân biệt giữa thành phần chuyển động thực sự và thành phần khác

Trang 29

Hình 4 So sánh kết quả sau khi hạn chế các phát hiện sai

Hình (4.a) biểu diễn ảnh ban đầu Kết quả sau khi phát hiện nền thể hiện ở ảnh (4.b) Trong ví dụ này, nền không được cập nhật trong vài giây và máy quay hơi thay đổi vị trí một chút trong thời gian này vì thế nên chúng ta thấy có rất nhiều các phát hiện sai ở các đường biên Hình (4.c) hiển thị kết quả sau khi đã giảm các điểm ảnh phát hiện sai với xác suất hoán đổi lớn Chúng ta nhận thấy rằng đã loại bỏ hầu hết các nhiễu chỉ còn lại các điểm ảnh có nhiễu ngẫu nhiên không tương quan với nền là bị phát hiện sai Tuy nhiên, một số các điểm phát hiện đúng cũng bị loại bỏ Kết quả cuối cùng ở hình (4.d) là khi chúng ta đã thêm ràng buộc về xác suất hoán đổi thành phần Kết quả này cho kết quả tốt hơn mọi kết quả trước đó

1.3.4 Cập nhật nền

Trong các phần trước, chúng ta đã phân tích cách để phát hiện các vùng vật thể thông qua các mẫu trước đó như là mô hình của nền Mẫu này chứa N giá trị cường độ trong cửa sổ trên miền thời gian với kích thước W Ước lượng độ rộng băng lõi đòi hỏi tất cả các mẫu phải liên tục với nhau trong miền thời gian

Ví dụ N=W hoặc cặp N/2 mẫu của các giá trị cường độ liên tục trong khoảng thời gian W

Mẫu này cần được cập nhật liên tục để thích nghi với những thay đổi trong nền Việc cập nhật được thực hiện theo kiểu FIFO – vào trước ra trước Nghĩa là: các mẫu, các cặp cũ nhất sẽ được thay thế bởi các mẫu, cặp mới trong

mô hình Mẫu mới được chọn ngẫu nhiên trong khoảng W/N khung hình

Với một mẫu điểm ảnh mới, có 2 cơ chế khác nhau khi cập nhật nền đó là:

 Cập nhật chọn lọc: thêm mẫu mới vào mô hình chỉ khi nó được

phân lớp như là mẫu nền

 Cập nhật mù: luôn thêm mẫu mới vào mô hình

Tùy theo mỗi cách mà phát sinh các nhược điểm khác nhau Cơ chế thứ nhất nâng cao các đích phát hiện từ đó các điểm ảnh đích sẽ không được thêm vào mô hình Điều này đòi hỏi phải có một quyết định khi cập nhật: là điểm ảnh thuộc nền hay không Cũng có nghĩa là việc quyết định sai điểm ảnh trước sẽ ảnh hưởng tới quyết định phát hiện của điểm ảnh sau đó và có thể rơi vào tình trạng dead-lock (không thoát ra để tìm ra kết quả được) Lấy ví dụ như trường hợp cành cây có thể là chuyển động hay đứng yên cố định trong một thời gian dài tại một vị trí mới thì nó vẫn sẽ được phát hiện như là vật thể Cơ chế thứ hai

Trang 30

không bị hiện tượng dead-lock vì không phải tiến hành quyết định khi cập nhật

Nó cho phép các giá trị cường độ được thêm vào mô hình mà không quan tâm là thuộc nền hay không Điều này dẫn tới việc phát hiện sai khi chúng trở thành một thành phần nền sai của mô hình Hiệu ứng này có thể giảm khi chúng ta tăng cửa sổ thời gian của các mẫu được lấy, khi nhỏ hơn tỉ lệ các điểm ảnh phát hiện sẽ được bao hàm trong mẫu Nhưng khi chúng ta tăng cửa sổ thời gian thì nhiều lỗi phát hiện sai sẽ xảy ra bởi vì việc thích nghi với những thay đổi là chậm và các sự kiện ít xảy ra thường không được lặp lại trong mẫu

Mục đích của chúng ta vẫn là xây dựng một mô hình nền có khả năng thích nghi tốt với những thay đổi của nền để có thể phát hiện nhạy hơn và có tỉ

lệ lỗi phát hiện sai thấp Kết quả này có thể đặt được bằng cách kết hợp kết quả của hai mô hình nền (theo thời gian ngắn và theo thời gian dài) như là một cách

để đặt được quyết định tốt hơn khi cập nhật và loại bỏ các nhược điểm đã trình bày ở phần trên Hai mô hình được thiết lập để lưu trữ theo các tiêu chí khác nhau

 Mô hình theo thời gian ngắn: là mô hình gắn với hiện tại của nền Nó

thích nghi với các thay đổi nhanh cho phép phát hiện rất nhạy Mô hình này bao gồm N các giá trị mẫu gần nhất của nền Mẫu được cập nhật sử dụng cơ chế cập nhật chọn lọc và việc quyết định cập nhật dựa vào mặt nạ M(p,t) Trong đó, M(p,t) =1 nếu điểm ảnh p sẽ được cập nhật tại thời điểm t và ngược lại là giá trị 0 Mặt nạ này được điều khiển bởi kết quả cuối cùng là sự kết hợp của hai mô hình Mô hình này sẽ chứa hai loại phát hiện sai: liên quan tới các sự kiện ít xảy ra không được mô hình hóa và liên quan tới việc quyết định phát hiện/cập nhật sai do các thay đổi của nền

 Mô hình theo thời gian dài: mô hình này biểu diễn ổn định hơn nền và

chỉ thích nghi với các thay đổi chậm Mô hình này chứa N mẫu lấy trong cửa sổ thời gian lớn hơn Các mẫu này sử dụng cơ chế cập nhật

mù vì thế mọi mẫu mới đều được thêm vào mô hình không quan tâm tới quyết định khác Mô hình này sẽ có nhiều phát hiện sai hơn bởi vì

nó không mang thông tin gần với nền hiện tại và giá trị điểm ảnh phát hiện có thể nằm trong số các mẫu đã có Mô hình chỉ thích nghi với các thay đổi có tốc độ chậm hơn W/N

Việc tính vùng giao giữa kết quả phát hiện của hai mô hình sẽ hạn chế các lỗi phát hiện Chỉ có các lỗi phát hiện do các sự kiện không được mô hình hóa

Trang 31

Theo thời gian, các sự kiện này cũng sẽ được thích nghi trong mô hình theo thời gian dài và lỗi sẽ được giảm dần Tuy vậy, điều này cũng sẽ làm giảm tỉ lệ phát hiện đúng trong mô hình đầu tiên và thứ hai bởi vì mô hình theo thời gian dài thích nghi tốt với các đối tượng nếu chúng đứng yên hoặc chueyern động chậm

Để giải quyết vấn đề này, tất cả các điểm ảnh được phát hiện trong mô hình theo thời gian ngắn phải là lân cận của các điểm ảnh được phát hiện bởi sự kết hợp của cả hai mô hình trong kết quả cuối cùng

1.3.5 Phát hiện vùng tối

Phát hiện trong các vùng tối như là vùng có các đối tượng gây rất nhiều khó khăn Thông tin màu rất hữu dụng trong việc giảm các phát hiện trong vùng tối bằng cách tách thông tin màu từ thông tin độ sáng Giả sử có 3 biến màu R,

G và B có sắc độ lần lượt là r,g,b với và Căn cứ vào đặc tính này sẽ làm giảm độ nhạy với các thay đổi về cường độ sáng trong các vùng tối

Hình 5 Kết quả phát hiện chuyển động

So sánh kết quả của hình (5.b) là phát hiện sử dụng không gian màu RBG

và hình (5.c) là phát hiện sử dụng không gian sắc độ thì thấy kết quả cải thiện rõ rệt

1.4 Mô hình từ điển thích nghi thời gian thực

Như đã trình bày ở phần 1.2, mô hình MOG [ 2 ] đã được sử dụng để mô hình các nền phức tạp, không tĩnh Tuy nhiên, MOG cũng có một vài nhược điểm: Các nền có mức độ thay đổi lớn sẽ khó để có thể mô hình hóa với một vài phân bố Gauss dẫn tới rất nhạy với thay đổi – được đề cập tới trong [ 1 ] Thêm vào đó, việc phụ thuộc vào tốc độ học để thích nghi với sự thay đổi của môi trường thì MOG đối mặt với một số điều mâu thuẫn: Với một tốc độ học thấp thì

Trang 32

sẽ tạo ra một mô hình lớn nên khó có thể phát hiện một thay đổi đột ngột của mô trường Nếu mô hình thích nghi quá nhanh thì một đối tượng vật thể sẽ được hiểu như là nền và kết quả là tỉ lệ phát hiện sai tăng lên

Để khắc phục các vấn đề này, một kĩ thuật không tham số trong việc ước lượng hàm mật độ xác suất tại một điểm từ rất nhiều mẫu sử dụng ước lượng phân bố nhân được phát triển [ 1 ] Điều này cho phép thích nghi nhanh với các thay đổi của nền để xử lý và phát hiện các vật thể với độ nhạy cao Tuy vậy, các

kĩ thuật không tham số này khó có thể được sử dụng trong thực tế vì cần các khoảng thời gian dài cho việc lấy mẫu nền Điều này cũng dẫn đến một hệ quả là đòi hỏi một dung lượng lưu trữ lớn cho thuật toán hoạt động Để khắc phục điều này, chúng ta sẽ phát triển các mô hình nền có độ nén cao để khắc phục điều này

Các kĩ thuật xử lý dựa trên cơ sở điểm ảnh giả thiết rằng chuỗi theo thời gian của các điểm ảnh là độc lập với các điểm ảnh khác Điều này trái ngược với một số nhà nghiên cứu dựa trên khái niệm liên quan tới vùng điểm trong ảnh hoặc khung hình để tách một ảnh bằng lọc phân lớp cấp thấp thu được tại mỗi mức Thuật toán tách nền sử dụng từ điển (codebook) [4] được tạo nên từ các giá trị mẫu theo thời gian mà không cần tới các tham số Các nền hỗn tạp có thể được mô hình hóa bằng nhiều từ mã (codeword) Ưu điểm nổi bật của thuật toán này là:

 Một mô hình đơn giản có khả năng thích nghi có thể bắt được các cấu trúc nền thay đổi trong một khoảng thời gian dài với dung lượng

Trang 33

1.4.1 Mô hình nền và phát hiện nền

Trong thuật toán xây dựng mô hình nền sử dụng từ điển, mỗi điểm ảnh sẽ ứng với một từ điển chứa một hoặc nhiều hơn các từ mã Các mẫu ứng với mỗi điểm sẽ được phân nhóm thành tập từ mã dựa trên độ sai khác màu và giới hạn cường độ sáng Không phải mọi điểm ảnh đều có cùng số từ mã mà phụ thuộc vào tính chất thay đổi của chúng Việc phân nhóm dựa trên các từ mã không liên quan tới các tham số như một số phương pháp đã trình bày ở phần 1.3[1] Toàn

bộ đặc tính của nền được mã hóa dựa trên cơ sở điểm ảnh Việc phát hiện nền dựa trên sự sai khác giữa ảnh hiện tại với mô hình nền theo 2 tiêu chí: màu và độ sáng Nếu một điểm ảnh tới thỏa mãn hai điều kiện: (1) độ sai khác màu giữa nó

và từ mã nào đó nhỏ hơn ngưỡng phát hiện; (2) độ sáng của nó nằm trong khoảng độ sáng cho phép của từ mã đó thì khi đó nó là điểm thuộc nền; còn không sẽ là điểm ảnh thuộc vật thể

1.4.1.1 Khởi tạo từ điển mô hình hóa nền

Trước khi đi vào chi tiết về Thuật toán khởi tạo từ điển mô hình hóa nền thì chúng ta cũng cần lưu ý rằng các vấn đề đề cập ở đây theo quan điểm ảnh màu nhưng cũng có thể được sử dụng cho ảnh mức xám với một vài thay đổi thích hợp

Giả sử: X là chuỗi đào tạo cho một điểm ảnh bao gồm N véc-tơ RGB: X={x1,x2,…,xN} Và L={c1,c2,…,cL} biểu diễn từ điển với L từ mã ứng với điểm ảnh đó Mỗi điểm ảnh sẽ có một kích thước từ điển khác nhau phụ thuộc vào phương sai mẫu của nó

Với mỗi từ mã ci với i=1 L gồm véc-tơ RBG vi=(Ri,Gi,Bi) và tập 6 biến auxi=<Imin,Imax,fi,,pi,qi> cụ thể như sau:

 Imin, Imax là độ sáng nhỏ nhất và lớn nhất của tất cả các điểm ảnh được đại diện bởi từ mã hiện tại

 f là tần số từ mã lặp lại – cũng được hiểu là số lần đã xuất hiện từ trước tới hiện tại

  là khoảng thời gian dài nhất mà từ mã không được sử dụng cho tới thời điểm xét

 p, q lưu lại thời điểm đầu tiên và cuối cùng truy nhập tới từ mã.

Trang 34

Trong khoảng thời gian học nền, mỗi giá trị điểm ảnh tới xt, mẫu tại thời điểm t, sẽ được so sánh với từ điển để tìm ra từ mã cm(nếu có) phù hợp với nó –

m là chỉ số của từ mã trong từ điển Chúng ta sử dụng từ mã này như là sự xấp

xỉ việc mã hóa mẫu Để xác định từ mã nào là phù hợp nhất thì chúng ta dựa trên

độ sai khác màu và giới hạn độ sáng

Thuật toán khơi tạo từ điển

 brightness( I, <Imin,Imax> ) đúng

iii Nếu C rỗng hoặc không tìm thấy thì L=L+1 Tạo mới từ mã cLvới:

 vL = (R,G,B)

 auxL = <I,I,1,t-1,t,t>

iv Nếu tìm thấy thì cập nhật từ mã cm gồm vm=(Rm,Gm,Bm)

và auxm = <Imin,Imax,fm,,pm,qm> như sau:

 vm =

 auxm = <min{I,Im},max{I,Imax},fm+1,max{m,t-qm},pm,t>

3 Với mỗi từ mã ci với i=1, L cập nhật i = max{i , N-qi+pi-1}

Hai điều kiện tìm kiếm thỏa mãn khi màu xt và cm là đủ gần xét trong không gian màu – sẽ được đề cập chi tiết ở phần sau - và độ sáng xt nằm giữa giới hạn sáng cho phép cm Thay vì tìm điểm gần nhất thì chúng ta chỉ tìm điểm thỏa mãn đầu tiên Giá trị ε1 là ngưỡng lấy mẫu

Từ điển thu được từ bước trước như là từ điển phẳng – không có độ ưu tiên giữa các từ mã Nó chứa tất cả các từ mã biểu diễn cho chuỗi điểm ảnh đào tạo và chứa cả các đối tượng vật thể chuyển động diễn ra trong quá trình đó và nhiễu Trong bước lọc theo thời gian, chúng ta lọc từ điển bằng cách tách các từ

Trang 35

mã chứa các đối tượng chuyển động với các từ mã nền thực sự Chính điều này cho phép có sự xuất hiện của các vật thể chuyển động ngay trong thời gian học nền – mô hình hóa nền Nền thực sự chứa cả các điểm tĩnh và các điểm nền chuyển động gần như tuần toàn(diễn ra trong khoảng chu kì giới hạn) Việc tách này làm được chính là nhờ tham số  được định nghĩa như là khoảng thời gian lớn nhất mà từ mã không được sử dụng trong suốt giai đoạn học Ví dụ: một điểm ảnh trên cành cây được lấy mẫu cường độ sáng thay đổi theo thời gian Với

từ điển của điểm ảnh này, từ mã biểu diễn thông tin màu bầu trời sẽ có  nhỏ cỡ khoảng 15, mang màu lá cây là 100 và màu xanh của nhân vật trong ảnh là 280

Giả sử M, TM là mô hình nền hay từ điển sau giai đoạn lọc này và giá trị ngưỡng lọc tương ứng Thông thường, TM được chọn bằng N/2 – trong đó N là

số mẫu trong giai đoạn học

M = {cm|cm ϵ C và m ≤ TM}

Hình 6 Giá trị cường độ sáng theo thời gian và cách  được sử dụng

Các từ mã có giá trị  lớn sẽ được loại bỏ theo công thức trên Mặc dù nó

có thể có tần số f lớn nhưng  lớn nghĩa là thuộc về sự kiện của vật thể gần như đứng yên trong suốt chu kì f Nói cách khác, với các từ mã có giá trị f nhỏ và nhỏ cũng có thể là một sự kiện nền ít gặp trong một chu kì gần như tuần hoàn Chúng ta có thể sử dụng  như là một đặc điểm để phân biệt từ mã của nền thực

sự với từ mã của vật thể chuyển động Nếu TM=N/2 thì tất cả các từ mã sẽ phải lặp lại ít nhất sau N/2 khung hình Qua kết quả thí nghiệm cho thấy rằng kết quả của việc kết hợp giữa điều kiện f và  cũng giống như chỉ xét với  Cũng dựa trên rất nhiều các thử nghiệm trên các đoạn video cho thấy rằng: trung bình chỉ

có 6,5 từ mã là có thể mô hình hóa được 5 phút của đoạn video quay ngoài trời với tốt độ khung hình 30 khung/giây Ngược lại, trong môi trường trong nhà thì chỉ cần 1 cho đến 2 từ mã Chính vì lý do này nên mô hình nền đạt được tỉ lệ nén

Trang 36

cao, cho phép mô hình hóa nền trong một khoảng thời gian dài với dung lượng nhớ giới hạn

Để giải quyết vấn đề thay đổi cường độ sáng cục bộ hoặc toàn cục như các vùng tối, sáng thì các thuật toán thường sử dụng các màu được chuẩn hóa Những kĩ thuật này thường làm việc kém với các khu vực tối của ảnh Các điểm ảnh tối có độ không chắc chắn cao hơn các điểm ảnh sáng; như vậy độ không chắc chắn có mối liên hệ với độ sáng Độ sáng nên được sử dụng như là một nhân tố trong việc so sánh tỉ lệ màu Chính độ không chắc chắn này làm cho việc phát hiện trong các vùng tối là không ổn định Việc phát hiện sai có xu hướng tập trung vào các vùng tối

Sau đây, chúng ta quan sát các giá trị điểm ảnh thay đổi theo thời gian dưới độ sáng thay đổi

Hình 7 Biểu diễn giá trị màu trong không gian màu RGB

Hình trên (7.b) mô tả phân bố giá trị các điểm ảnh trong không gian RBG

từ chuỗi ảnh của bảng màu trong hình (7.a) Trong chuỗi thu được, cường độ sáng thay đổi theo thời gian bằng các tăng hoặc giảm cường độ sáng của đèn làm các điểm ảnh sáng hoặc tối đi Các giá trị điểm ảnh có phân bố kéo dài và có

xu hướng tụ về điểm gốc (0,0,0)

Giới hạn quyết định (từ mã)

(điểm ảnh nhận được)

Trang 37

Hình 8 Mô hình phân tách giá trị màu đề xuất

Trên cơ sở thu được, chúng ta phát triển một mô hình miêu tả trong hình 8 bằng cách tách độ sai khác màu và độ sáng Đặc trưng của mô hình này là các giá trị điểm ảnh nền nằm dọc theo trục chính của từ mã cùng với giới hạn giá trị cao thấp của độ sáng, từ đó độ sai khác màu có mỗi quan hệ mật thiết với giá trị

độ sáng Khi chúng ta có một điểm ảnh nhận được xt=(R,B,G) và một từ mã ci với vi=(Ri,Gi,Bi) ta xác định được:

Độ sai khác màu δ có thể được tính bởi công thức:

Phép đo độ sai khác màu có thể được hiểu như là phiên bản có trọng số của độ sáng trong không gian màu được chuẩn hóa Điều này tương đương với thay đổi tỉ lệ theo quan điểm hình học(việc chuẩn hóa) véc-tơ từ mã với độ sáng của điểm ảnh lối vào Bằng cách này, chúng ta đã đưa độ sáng vào trong phép độ sai khác màu và loại bỏ sự không ổn định của các màu được chuẩn hóa

Để cho phép sự thay đổi độ sáng khi tách nền, chúng ta lưu trữ 2 giá trị thống kê Imin, Imax là độ sáng nhỏ nhất và lớn nhất của tất cả các điểm được biểu diễn bởi từ mã này Giá trị độ sáng có thể thay đổi trong khoảng giới hạn mức tối và mức sáng Giá trị đó là [Ilow,Ihi] được định nghĩa như sau:

Trong đó, α<1 và β>1 Thường thì α nằm trong khoảng 0,4 tới 0,7; β trong khoảng 1,1 đến 1,5 Chính khoảng [Ilow,Ihi] tạo nên khoảng ổn định trong suốt quá trình cập nhật từ mã

Trang 38

Hàm logic về độ sáng được định nghĩa như sau:

1.4.2 Phát hiện vật thể từ nền

Việc tách vật thể với mô hình nền tương đối đơn giản sau quá trình khởi tạo từ điển Không giống như MOG [ 2 ] hay các mô hình không tham số [ 1 ] cần phải tính các xác suất thì thuật toán này việc đó là không cần thiết Thay vì đi ước lượng xác suất dựa trên các mẫu gần nhất trong quá trình đào tạo thì chúng

ta chỉ đơn giản là đi tính khoảng cách từ mẫu tới vùng giá trị trung bình gần nhất Việc này có thể được tiến hành nhanh chóng và hiệu quả Giả sử quá trình tách nền một điểm ảnh tới x là BGS(x) Khi đó ta định nghĩa BGS(x) như sau:

1 ; trong đó R, G, B là 3 thành phần màu của x

2 Tìm từ mã cm trong M phù hợp với x dựa trên 2 điều kiện:

1.4.3 So sánh mô hình sử dụng từ điển với các mô hình khác

Mô hình tách nền sử dụng từ điển có một khác biệt so với mô hình hỗ tạp các phân bố Gauss thích nghi MOG [2] và mô hình không tham số sử dụng ước lượng mật độ xác suất hàm lõi [ 1 ] ở một số điểm như sau:

 Khác với MOG, chúng ta không giả thiết rằng nền là các quá trình Gauss đa-mốt Nếu giả thiết này đúng, nếu có thể, thì MOG sẽ nhận các tham số chính xác Nhưng điều này không phải lúc nào cũng đúng vì phân bố nền

có thể rất khác nhau

Trang 39

 Cũng khác so với mô hình không tham số, chúng ta không lưu trữ các mẫu gốc trong suốt quá trình làm việc với mô hình nền Chính do số lượng mẫu lớn nên chúng ta không thể lưu được toàn bộ trong một thời gian dài Trong khi đó thì mô hình sử dụng từ điển lại khá đơn giản, nhỏ gọn có thể sử dụng trong thời gian dài với không gian nhớ giới hạn

 Mô hình sử dụng từ điển làm việc tốt với tình huống đa-nền và cũng không giới hạn về số nền Nó có thể mô hình các cây có chuyển động trong một thời gian dài hơn so với các mẫu gốc của mô hình không tham

 MOG sử dụng các biến RGB gốc và không căn cứ vào độ sáng và màu MOG không mô hình hóa phương sai, thường lớn và là nguyên nhân gây

ra sai khác về độ sáng Điều này chỉ có ích cho các trường hợp có độ sáng xác định Mô hình không tham số thì sử dụng các màu được chuẩn hóa và

độ sáng – hai giá trị này chưa chắc đã liên quan tới nhau Để đối phó với vấn đề độ sáng thay đổi mô hình này sẽ tính độ sáng đồng thời với độ sai khác màu dựa trên giá trị RGB

Đặc điểm Mô hình MOG Mô hình không tham số Mô hình từ điển

Biểu diễn

mô hình

Hồn hợp các phân bố Gauss

Trang 40

Không gian

màu

Chỉ làm việc với RGB

Màu chuẩn hóa ( độ sáng r, g, b )

RBG hoặc mức xám

Mô hình theo thời gian ngắn (N mẫu)

Mô hình theo thời gian dài (N mẫu)

Mô hình theo thời gian ngắn

và dài

Mô hình phân lớp và phát hiện

sử dụng mô hình đệm

1.4.4 Mô hình nền sử dụng từ điển phân lớp

Việc sử dụng mô hình hóa phân lớp và phát hiện cho phép phát hiện các vật thể trên nền mới trong pha phát hiện chuyển động – sau khi đã có được mô hình nền của quá trình khởi tạo Nếu không, thì rất dễ các vật thể sẽ bị trộn với các vật thể đứng yên khác nền xác định từ trước đó Sau khi thực hiện xong quá trình khởi tạo từ điển thì chúng ta tiến hành thêm một bước là cập nhật mô hình Việc này thực hiện được dựa trên một mô hình đệm H với 3 tham số TH, Tadd,

Tdelete Chu kỳ TH cho phép lọc các từ mã ứng với các điểm ảnh tới được lưu trong từ điển H, giống như mô hình nền xây dựng ở phần trên Tham số Tadd là khoảng thời gian lặp lại để từ mã có thể được thêm vào mô hình nền như là nền xét trong thời gian ngắn Giả sử rằng mô hình đã thu được trong quá trình đào tạo là mô hình vĩnh cửu Nếu từ mã không được lặp lại trong khoảng thời gian

Tdelete thì sẽ được loại bỏ khỏi từ điển Từ đó, ta có thể chia điểm ảnh tới có thể thuộc 1 trong 4 loại sau: (1) nền tìm thấy trong nền vĩnh cửu, (2) nền trong mô hình nền xét thời gian ngắn, (3) vật thể tìm thấy trong mô hình đệm và (4) vật thể không thuộc các nhóm trên Chính khả năng thích nghi này cho phép chúng

ta bắt được các thay đổi của môi trường trong suốt quá trình sử dụng từ điển

Định dạng
Số trang	86
Dung lượng	1,57 MB