KHẢO SÁT MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN TIỀN CẢNH BẰNG MÔHÌNH NỀN THỐNG KÊ Nguyễn Văn Căn Trường Đại học Kỹ thuật - Hậu cần CAND nguyenvancan@gmail.com TÓM TẮT - Mô hình nền hiện đang đượ
Trang 1KHẢO SÁT MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN TIỀN CẢNH BẰNG MÔ
HÌNH NỀN THỐNG KÊ
Nguyễn Văn Căn
Trường Đại học Kỹ thuật - Hậu cần CAND
nguyenvancan@gmail.com
TÓM TẮT - Mô hình nền hiện đang được sử dụng để phát hiện các đối tượng chuyển động trong video thu từ máy camera.
Nhiều phương pháp đã được phát triển trong những năm gần đây Mục đích của bài viết này cung cấp một cuộc khảo sát mở rộng
và cập nhật của các nghiên cứu gần đây, các sáng chế liên quan đến mô hình nền thống kê; đưa ra sự đánh giá so sánh giữa các phương pháp Trước hết phân loại các phương pháp thống kê thành các chuyên mục Sau đó, các phân tích các phương pháp ban đầu và thảo luận những thách thức tiềm ẩn trong chuỗi video Phân loại những cải tiến tương ứng của chúng trong các chiến lược
sử dụng Đưa ra những tình huống quan trọng của chúng yêu cầu cần xử lý Đưa ra một số hướng nghiên cứu hứa hẹn cho tương lai
Mô hình nền cơ bản: sử dụng giá trị trung bình [10] hoặc bình quân [11] hoặc phân tích lược đồ xám cho toàn thời
gian [12]
Mô hình nền thống kê: sử dụng một Gauss đơn[13] hoặc một hỗn hợp Gauss[14] hoặc một tính toán mật độ lõi
[15] Các biến thống kê được sử dụng để phân loại các điểm ảnh là điểm tiền cảnh hay là nền
Mô hình nền mờ: sử dụng một giá trị trung bình mờ[16] hoặc hỗn hợp mờ loại 2 của Gauss[17] Phát hiện tiền
cảnh được sử dụng tích hợp Sugeno [18] hoặc tích hợp Choquet[19] Phát hiện tiền cảnh có thể thực hiện bằng logic
mờ tham khảo trong [335]
Phân cụm nền: mỗi điểm ảnh trong khung hình có thể được phân cụm theo thời gian xuất hiện Các điểm ảnh đang
xem xét được xếp loại và ghép vào cụm theo một tiêu chí đặt ra Cách tiếp cận phân cụm có sử dụng thuật toán K-mean[361] hoặc sử dụng Codebook [362]
Mô hình nền mạng nơ ron: Mô hình nền được biểu diễn bằng trị trung bình của các hệ số của một mạng nơ ron
được đào tạo trên N khung sạch Mạng huấn luyện như thế nào để phân loại mỗi điểm ảnh là nền hoặc tiền cảnh
Mô hình nền Wavelet: Mô hình nền được định nghĩa trong vùng thời gian, sử dụng hệ số biến đổi wavelet rời rạc
(DWT) [336]
Ước tính nền: Nền được ước tính bằng cách sử dụng bộ lọc Mỗi điểm ảnh của ảnh hiện tại lệch đáng kể so với giá
trị dự đoán được khai báo là nổi trên nền Bộ lọc này có thể là lọc Wiener [20], lọc Kalman[21] hoặc lọc Tchebychev[22]
Bảng 1 Tổng quan các phương pháp mô hình nền
Mô hình nền cơ bản Trung bình (11)
Trung vị (13)Lược đồ xám toàn thời gian (13)
Wren và cộng sự (1997) [13]
Stauffer và Grimson (1999) [14]
Elgammal và cộng sự (2000) [15]
Mô hình nền logic mờ Giá trị trung bình chạy mờ (5)
Hỗn hợp Gauss mờ loại 2 (3) Sigari và cộng sự (2008) [16]El Baf và cộng sự (2008) [17]
Sự phân cụm nền K trung bình (11)
CodeBook (35) Bultler và cộng sự (2003) [361]Kim và cộng sự (2005) [362]
Mô hình nền mạng nơ ron Mạng nơ ron hồi quy tổng hợp (1)
Mạng nơ ron tự tổ chức (9) Culibrk và cộng sự (2006)[332]Maddalena và Petrosino (2007) [333]
Trang 2Mô hình nền Wavelet Biến đổi Wavelet rời rạc Biswas và cộng sự [336]
Tính toán nền Lọc Wiener (1)
Lọc Kalman (19)Lọc Tchebychev (3)
Tất cả các phương pháp tiếp cận này đều sử dụng cách trừ nền và thông qua các bước và trường hợp sau: Mô hìnhhóa nền, khởi tạo nền, duy trì nền, phát hiện tiền cảnh, chọn kích thước các đặc trưng (điểm ảnh, một khối hoặc mộtcụm), chọn các kiểu đặc trưng (đặc trưng màu sắc, đặc trưng đường biên, đặc trưng stereo, đặc trưng chuyển động vàđặc trưng đường vân) Phát triển phương pháp trừ nền, tất cả các lựa chọn này xác định là phương pháp mạnh mẽ tớicác tình huống quan trọng trong dãy video [5,20]: nhiễu ảnh làm chất lượng ảnh nguồn kém (NI), Camera jitter(CJ),camera tự dịch chuyển (CA), ngụy trang (C), khẩu độ nổi trên nền (FA), các đối tượng chuyển động trên nền (MO),chèn thêm vào nền (IB), đối tượng đi bộ (WFO), đối tượng ngủ (SFO) và bóng (S) Khác nhau chính đến từ các nềnđộng và sự thay đổi ánh sáng
- Các nền động thường xuất hiện ở các cảnh ngoài trời Hình 1 chỉ ra bốn kiểu ví dụ: Camera jitter, cây cối cử
động, nước gợn sóng và bề mặt nước Cột bên trái chứa ảnh gốc và cột bên phải chứa mặt nạ nền thu được bằngMOG[14] Trong mỗi trường hợp có một số lượng lớn các phát hiện sai
- Ánh sáng thay đổi xuất hiện trong các cảnh trong nhà và ngoài trời Hình 2, chỉ ra một cảnh trong nhà mà trong
đó chúng ta có thể quan sát sự thay đổi ánh sáng dần dần Điều này gây ra các phát hiện sai trong MOG[14] Hình 3,ánh sáng trong trường hợp thay đổi đột ngột tương ứng với đèn on/off Mỗi điểm ảnh trong ảnh bị ảnh hưởng bởi sựthay đổi này có thể dẫn đến phát hiện sai (xem hình 3c)
a) Dãy ảnh camera rung[229]
b) Dãy cây cối [34]
c) Dãy nước phun [34]
d) Dãy sóng nước [34]
Hình 1. Minh họa nền động cảnh ngoài trời
Trang 3Cột đầu tiên chứa cảnh gốc bao gồm các nền động Cột thứ hai chứa mặt nạ tiền cảnh thu được bởi MOG[14].
Hình 2 Minh họa nền theo ánh sáng dần dần
Từ trái qua phải: ảnh đầu tiên diễn tả cảnh trong nhà với ánh sáng thấp Ảnh thứ hai diễn tả cùng cảnh với ánh sángtrung bình trong khi đó ảnh thứ ba diễn tả cảnh với ánh sáng cao Ánh thứ tư chỉ ra mặt nạ điểm nổi trên nền thu đượcvới MOG[14] Dãy này được gọi là "Time of Day" lấy từ tập dữ liệu Wallflower [20]
Hình 3 Minh họa nền thay đổi ánh sáng đột ngộtTrong hình 3 Từ trái qua phải: ảnh thứ nhất diễn tả cảnh trong nhà với ánh sáng bật đèn Ảnh thứ hai chỉ ra cùngcảnh đó nhưng với ánh sáng tắt Ảnh thứ ba chỉ ra mặt nạ tiền cảnh thu được với MOG[14] Dãy này được gọi là
"Chuyển đổi ánh sáng" lấy từ tập dữ liệu Wallflower[20]
Các tiêu chuẩn khác nhau của tập dữ liệu [26-31] nhằm để đánh giá sức mạnh của các phương pháp giảm trừ nềngiải quyết các tình huống quan trọng với các đặc tính không gian, thời gian khác nhau nhằm mục đích thu được sựphân đoạn tốt Thách thức này phải được thực hiện trong bối cảnh của ứng dụng thời gian thực chạy trên máy tính và
do vậy hai thông số cần phải tính đến: thời gian tính toán nhỏ (CT) và yêu cầu bộ nhớ nhỏ (MR) Thực hiện là tính toán
sử dụng phân tích ROC[32] hoặc PDR[33] hoặc đo tương tự[34] Các phương pháp đánh giá thực hiện khác được giảthiết và so sánh trong[35, 36] Cần chú ý 2 điểm sau: (1) Mô hình thường sử dụng là thống kê với sức mạnh giải quyếtcác tình huống quan trọng (2) Có nhiều phát triển gần đây liên quan đến mô hình thống kê như mô hình MOG và pháttriển của nó: GMM[37], TLGMM[38], STGMM[39], SKMGM[40], TAPPMOG[41], và S-TAPPMOG[42] Tiếp theophân loại theo mô hình thống kê và phân loại các cải tiến theo chiến lược sử dụng Những thách thức gặp phải trongdãy video và đánh giá một vài lĩnh vực của chúng cảnh báo sai sót khi sử dụng tập dữ liệu Walflower [20]
Bài báo này là sự mở rộng và cập nhật sự khảo sát hỗn hợp Gauss đối với mô hình nền [48] và học không gian conđối với mô hình nền [334] Phần 2, mô hình nền thống kê và phân loại Phần 3, khảo sát các mô hình tổng hợp đầu tiên
và những cải tiến liên quan Phần 4, khảo sát phân loại mô hình thứ 2 Phần 5, khảo sát phân loại thứ ba Phần 6, khảosát sự thực hiện trong môi trường nền động và ánh sáng thay đổi kèm với sự phức hợp điểm ảnh Sau đó, so sánh đánhgiá được trình bày trong phần 7 Cuối cùng, kết luận và những phát triển trong tương lai
2 TỔNG QUAN VỀ MÔ HÌNH NỀN THỐNG KÊ
Các công cụ thống kê cung cấp một khung làm việc tốt đối với mô hình nền và nhiều phương pháp đã được pháttriển theo hướng này Chúng được phân loại thành các nhóm sau:
- Nhóm thứ nhất: giả thiết là quá trình diễn biến theo thời gian của các giá trị mật độ điểm ảnh có thể được mô
hình bởi một Gauss đơn[13] Tuy nhiên, không thể thực hiện mô hình hóa đối với các nền động khi mà ở đó có cây cốirung, nước gợn sóng Để giải quyết vấn đề này, hỗn hợp Gauss (MOG) đã được sử dụng để mô hình hóa nền động[14]
Mô hình này có một vài bất lợi Nền có sự biến đổi nhanh không thể tính toán mô hình được với một số ít Gauss(thường là 3 đến 5), gây ra vấn đề đối với phát hiện sự nhạy cảm Do vậy, kỹ thuật không tham số đã được phát triển đểước tính xác suất nền ở mỗi điểm ảnh từ nhiều ví dụ sử dụng ước tính mật độ lõi (KDE) [15] nhưng nó tiêu tốn nhiềuthời gian Trong [165], học không gian con sử dụng phân tích thành phần chính (SL-PCA) được áp dụng trên N ảnh đểxây dựng mô hình nền, với việc diễn tả bằng ảnh trung bình và ma trận chiếu bao gồm các p vector riêng quan trọng
Trang 4đầu tiên của PCA Bằng cách này, phân khúc nền trước được thực hiện bằng cách tính toán sự khác biệt giữa các hìnhảnh đầu vào và tái thiết của nó.
Bảng 2 Tổng quan về mô hình nền thống kê tiên tiến
Phân loại thứ nhất Gauss đơn ( SG) (33)
Hỗn hợp Gauss (MOG) (217) Wren (1997) [13]Stauffer, Grimson (1999) [14]
- Nhóm thứ hai: sử dụng mô hình hỗ trợ vector theo nhiều cách khác nhau: Lin và cộng sự [180] sử dụng thuật
toán SVM để khởi tạo nền trong khung cảnh ngoài trời Wang và cộng sự [183, 184] sử dụng SVR trong trường hợpcảnh sát giao thông, nơi thay đổi chiếu sáng (TD) xuất hiện Tavakkoli và cộng sự [186-189] áp dụng SVDD để đốiphó với nền động (MB)
- Nhóm thứ ba: Tổng hợp và phát triển các mô hình thuộc nhóm thứ nhất như là tổng hợp Gaussian đơn (SGG)
[190-192], hỗn hợp chung Gaussian (MOGG) [193-195] và học không gian con sử dụng phân tích thành phần độc lập(SL-ICA) [198, 200], gia tăng ma trận hệ số không âm (SL-INMF) [202, 203] hoặc gia tăng thứ hạng Tensor-(R1, R2,R3) (SL-IRT) [204, 205] Tổng hợp Gauss đơn (SGG) giảm bớt hạn chế của Gauss đơn và sau đó cho hiệu suất tốt hơntrong trường hợp thay đổi nguồn sáng (TD) và bóng tối (S) Các MOGG được phát triển để mạnh mẽ hơn đối với hìnhnền động (MB) Phương pháp học không gian con là mạnh mẽ hơn đối với thay đổi chiếu sáng (LS)
Bảng 2 cho thấy một tổng quan về các mô hình nền thống kê Cột đầu tiên biểu thị tổng quan, cột thứ hai là tên củatừng phương pháp Từ viết tắt tương ứng của họ được ghi trong ngoặc đơn đầu tiên và số lượng giấy tờ được tính chomỗi phương pháp trong ngoặc đơn thứ hai Cột thứ ba cung cấp cho các tên của tác giả đã thực hiện các ấn phẩm chínhcủa phương pháp tương ứng và ngày công bố có liên quan Có thể thấy rằng MOG với 217 bài báo liên quan bởi vì nó
là cơ sở phát triển thuật toán mạnh mẽ nhất
Nội dung của các phương pháp ban đầu cho mỗi nhóm đã phân loại được trình bày cơ bản, những cải tiến liên quancủa chúng được nhóm thành: cải tiến nội tại (khởi tạo, duy trì và phát hiện tiền cảnh) và những cải tiến bên ngoài(sửdụng công cụ bên ngoài để thực hiện)
3 LOẠI THỨ NHẤT 3.1 Gauss đơn (SG)
Wren và cộng sự [l3] đề xuất mô hình nền độc lập tại mỗi vị trí pixel (i,j) Mô hình này dựa trên lý tưởng lắp đặtmột hàm mật độ xác suất Gauss trên các giá trị điểm ảnh cuối cùng n Để tránh lắp đặt pdf từ đầu ở mỗi khung thờigian mới t +1, trung bình và phương sai được cập nhật như sau:
µt+1=(1-α)µ)µt + α)µXt+1
σt +12 =(1−α )σt2+ α( Xt+1− μt+1)( Xt+1− μt+1)Tvới Xt+1 là giá trị điểm ảnh hiện tại, µt là giá trị trung bình trước đó, t là biến trước đó và α)µ là tỷ lệ học Phát hiệntiền cảnh được thực hiện: nếu |µt+1-Xt+1|<T, điểm ảnh được phân loại là nền, ngược lại điểm ảnh được phân loại là tiềncảnh
Cải tiến: Mdeioni và cộng sự [43] thực hiện trong không gian màu HSV (Hue Saturation Value) thay vì RGB Lợi
thế mô hình không gian mà HSV là mạnh hơn đối với sự thay đổi ánh sáng dần dần (TD) bởi vì nó phân tách cường độ
và thông tin màu sắc Hơn nữa, HSV cho phép loại bỏ một phần ngụy trang Zhao và cộng sự [44] cũng sử dụng HSVđánh dấu các bản phân phối tương ứng với H và S khác nhau một cách tự nhiên rất nhiều và sự phân bố của V là ổn
Trang 5định nhất Vì vậy, các thành phần H và S chỉ được sử dụng khi chúng được ổn định Kết quả [44] cho thấy hiệu suất tốthơn trong sự hiện diện của những thay đổi dần dần chiếu sáng (TD) và bóng tối (S).
Bàn luận: Gauss đơn (SG) là phù hợp với cảnh trong nhà, nơi có sự thay đổi ánh sáng vừa phải.
3.2 Hỗn hợp Gauss (MOG)
Trong bối cảnh của hệ thống giám sát giao thông, Friedman và Russel [45] đề xuất mô hình mỗi điểm ảnh nền sửdụng một hỗn hợp ba Gaussian tương ứng với đường, xe và bóng Mô hình này được khởi tạo bằng cách sử dụng thuậttoán EM Sau đó, Gauss được thực hiện dán nhãn một cách phỏng đoán như sau: các thành phần đen nhất được dánnhãn là bóng tối, thành phần có phương sai lớn nhất được dán nhãn là xe và còn lại là đường Điều này vẫn đúng đốivới tất cả các quá trình thiếu thích ứng với những thay đổi theo thời gian Để phát hiện tiền cảnh, mỗi điểm ảnh được
so sánh với Gauss và được phân loại theo tương ứng Gaussian Việc duy trì được thực hiện bằng cách sử dụng thuậttoán EM gia tăng để xem xét thời gian thực Stauffer và Grimson [14] khái quát ý tưởng này bằng cách mô hình cácđặc trưng màu mỗi điểm ảnh {X1, , Xt} bởi một hỗn hợp K Gauss
µi,t và độ lệch chuẩn i,t, là hàm mật độ xác xuất Gauss:
Nhận xét:
- K xác định đa phương thức của nền và bằng bộ nhớ khả dụng và sức mạnh tính toán Stauffer và Grimson [14] đềxuất K từ 3 đến 5
- Việc khởi tạo trọng số, trung bình và ma trận hiệp biến được thực hiện bằng cách sử dụng thuật toán EM Stauffer
và Grimson [14] sử dụng thuật toán K-mean xem xét đối với thời gian thực
Một khi các tham số khởi được khởi tạo, phát hiện tiền cảnh đầu tiên có thể được thực hiện và sau đó các tham sốđược cập nhật Thứ nhất, Stauffer và Grimson [14] đã sử dụng như tiêu chí tỷ lệ rj=j/j và thế cho Gaussian K theo tỷ
lệ này Để hỗ trợ một điểm ảnh nền tương ứng với trọng số cao với một biến yếu do thực tế nền tăng hơn các đối tượng
di chuyển và giá trị của nó là thực tế không đổi Các bản phân phối Gaussian B đầu tiên vượt quá ngưỡng nhất định Tđược giữ lại cho phân phối nền:
B=argmin b( ∑i=1 b ω i , t>T) (4)Các phân bố khác được xem xét để diễn tả một phân bố tiền cảnh Theo đó, khi một khung hình mới xuất hiện ởthời điểm t+1, kiểm tra sự phù hợp được thực hiện cho mỗi điểm ảnh Điểm ảnh phù hợp với phân bố Gauss nếu như
sqrt ( ( Xt+1− μi, t)T ∑i , t−1( Xt+1− μi, t) ) < kσσi, t
(5)với k là hằng ngưỡng theo phương trình 2.5 Tiếp theo, hai trường hợp có thể xảy ra:
- Trường hợp 1: Một sự phù hợp được tìm thấy với một K Gauss Trong trường hợp này, phân bố Gauss được xácđịnh thì nó là nền, điểm ảnh được phân loại là nền, ngược lại điểm ảnh được phân loại tiền cảnh
Trang 6- Trường hợp 2: Không có sự phù hợp được chỉ ra với bất kỳ K Gauss Trong trường hợp này, điểm ảnh được phânloại là tiền cảnh.
Ở bước này, mặt nạ nhị phân được thiết lập Vì đó, để tạo sự phát hiện tiền cảnh tiếp theo, các tham số phải đượccập nhật Sử dụng kiểm tra phù hợp (5), hai trường hợp có thể xảy ra trong khi phát hiện tiền cảnh:
Trường hợp 1: Sự phù hợp được tìm thấy một K Gauss
- Đối với thành phần phù hợp, cập nhật được thực hiện như sau:
Một khi việc duy trì các thông số được thực hiện, phát hiện tiền cảnh có thể được thực hiện và tiếp tục Nghiên cứuđầy đủ về ý nghĩa và thiết lập các thông số có thể được tìm thấy trong [46, 47] [218] [289]
Cải tiến: Các MOG ban đầu thể hiện một số lợi thế Chẳng hạn, nó có thể làm việc mà không cần phải lưu trữ một
bộ quan trọng của dữ liệu đầu vào trong quá trình chạy Sự đa dạng của mô hình cho phép đối phó với nền đa phươngthức và thay đổi dần dần chiếu sáng Mặc dù mô hình này còn có một số nhược điểm: số Gauss phải được xác địnhtrước, cần thiết phải khởi tạo tốt, sự phụ thuộc của kết quả trên quy luật phân bố thực sự có thể là không Gauss và phụchồi lỗi chậm Những hạn chế khác như cần một loạt các bức ảnh đào tạo vắng mặt của đối tượng chuyển động và sốlượng bộ nhớ cần thiết trong bước này Để giảm bớt những hạn chế, nhiều cải tiến (217 bài báo) đã được đề xuất trongnhững năm gần đây Tất cả những cải tiến phát triển có thể được phân loại theo các chiến lược và một cuộc điều tra đầy
đủ hơn 100 bài báo trong giai đoạn 1999-2007 có thể được tìm thấy trong [48] Sự cải tiến các phương pháp được phânloại thành:
- Cải tiến nội tại: Những chiến lược (Bảng 3) bao gồm được chặt chẽ hơn trong ý nghĩa thống kê hoặc để giới thiệu
hạn chế về không gian và / hoặc thời gian trong các bước khác nhau của mô hình Ví dụ, một số tác giả [49-53] đề xuất
để xác định tự động và số lượng Gaussian động được mạnh mẽ hơn đối với nền động Cách tiếp cận khác sử dụng thuậttoán khác cho việc khởi tạo [54, 55] và cho phép sự hiện diện của các đối tượng tiền cảnh trong chuỗi đào tạo [56, 57,58] Để duy trì, tỷ lệ học là tập hợp tốt hơn [66, 67] hoặc thích ứng theo thời gian [60-62, 68-78] Để phát hiện tiềncảnh, cải tiến tìm thấy trong tài liệu được thực hiện bằng cách sử dụng một biện pháp khác nhau cho các kiểm tra sựphù hợp [53, 79-82], sử dụng Bản đồ bền bỉ điểm ảnh (PPM) [75, 76, 83], bằng cách sử dụng xác suất [84, 85], sử dụng
mô hình tiền cảnh [61,63,86], sử dụng một số kiểm tra so khớp[39,60] và sử dụng mô hình nền chiếm ưu thế nhất [87,
88, 89] Đối với kích thước đặc trưng, độ rộng khối [90, 91] hoặc dộ rộng cụm [92] thì phương pháp tiếp cận mạnh mẽhơn một điểm ảnh Đối với các loại đặc trưng, một số đặc trưng được sử dụng thay vì không gian RGB như đặc trưngmàu sắc khác nhau [93-99], đặc trưng biên[100,101], đặc trưng kết cấu [102], đặc trưng âm thanh [103,104], đặc trưngkhông gian [105], đặc trưng chuyển động [40] và đặc trưng video [106] Zheng và cộng sự [267, 268] kết hợp nhiềuđặc tính như độ sáng, độ kết tủa màu và thông tin lân cận Các sáng chế gần đây tiếp cận khối quan tâm khôn ngoan[352], đặc trưng kết cấu [353], đặc trưng chuyển động [354] và đặc trưng không gian[355] Tổng quan về các đặc trưngkhác nhau được sử dụng trong tài liệu được thể hiện trong Bảng 5
- Cải tiến bên ngoài: Một cách khác để nâng cao hiệu quả và mạnh mẽ của GMM ban đầu bao gồm việc sử dụng
các chiến lược bên ngoài (Bảng 4) Một số tác giả sử dụng trường ngẫu nhiên Markov (Markov Random Fields) 109], phương pháp tiếp cận phân cấp [110-113], phương pháp tiếp cận đa cấp [100, 114-118], nền phức hợp[119, 121],cắt giảm đồ thị[81], phương pháp tiếp cận nhiều lớp [122, 123], theo dõi thông tin phản hồi [128, 129] hoặc đặc tả sau
[107-xử lý [130-131] Gần đây các sáng chế quan tâm đến cách tiếp cận cắt giảm đồ thị [3576, 357]
Trang 7- Giảm thời gian tính toán: Tất cả các cải tiến bên trong và bên ngoài liên quan đến chất lượng của các phát hiện
tiền cảnh nhưng có một cách để cải thiện MOG ban đầu bao gồm trong việc giảm thời gian tính toán Nó được thựchiện bằng cách sử dụng vùng quan tâm [132] [287], sử dụng một tỷ lệ biến đổi thích ứng[133], chuyển đổi mô hìnhnền[134] [271], sử dụng các chiến lược lấy mẫu không gian [135] [216] [238] [272] hoặc sử dụng thực hiện phần cứng[136, 137] [271]
- Tăng cường phát hiện tiền cảnh: Tất cả những cải tiến trước đây quan tâm trực tiếp MOG ban đầu và kết quả
phát hiện tiền cảnh chỉ từ nó Nói cách khác các phương pháp cải thiện nhằm nâng cao kết quả của việc phát hiện tiềncảnh bằng cách sử dụng phối hợp với một phương pháp phân đoạn Nó đạt được bằng cách hợp tác với kỹ thuật nềnthống kê[138], với phân đoạn màu [139], và với phát hiện chuyển động dựa trên vùng[140] Các tác giả khác sử dụnghợp tác với luồng quang học[217], so khớp khối [247-248], mô hình dự báo [249], các mô hình kết cấu [251] [303], sựkhác biệt khung liên tiếp [258] [261-262] [279-280] [282] và trừ nền cơ bản [304-305] [330] Một sáng chế gần đâyquan tâm đây hợp tác với các số liệu thống kê lược đồ xám [358]
Bảng 6 và Bảng 7 chỉ ra tương ứng tổng quan về các tình huống quan trọng và hạn chế thời gian thực đối vớicác phiên bản khác nhau của MOG có thể giải quyết chúng tốt hơn so với bản gốc
Bảng 3 Cải tiến nội tại của MOG)
Bảng 4 Cải tiến bên ngoài của MOG
Trang 8Bảng 5 Cải tiến đặc trưng của MOG
Bảng 6 Những thách thức và các phiên bản của MOG
Trang 9Bảng 7 Những hạn chế thời gian thực và các phiên bản MOG
Bàn luận: Các hỗn hợp của Gaussian (MOG) thích nghi với cảnh ngoài trời, nơi có những biến đổi đa phương thức
chậm trong nền Đối với các nền động như máy ảnh rung, cây vẫy tay và gợn sóng nước, mô hình này gây ra phát hiệnsai
3.3 Ước tính mật độ lõi (KDE)
Để đối phó với các nền động như máy ảnh bị rung, cây đung đưa và mặt nước gợn sóng, Elgammal và cộng sự [15]
đề xuất ước tính hàm mật độ xác suất cho mỗi điểm ảnh bằng cách sử dụng ước lượng lõi K đối với N mẫu gần nhấtcủa giá trị cường độ {x1, x2, , xN} thực hiện liên tục trong một cửa sổ kích thước thời gian W như sau:
Nếu P(x) < T thì điểm ảnh được phần loại là tiền cảnh, ngược lại là nền (17)
Trong bước này, một mặt nạ nhị phân sẽ thu được Theo đó, tạo phát hiện tiền cảnh tiếp theo, các tham số phảiđược cập nhật Đối với điều này, Elgammal và cộng sự [15] sử dụng hai mô hình nền: ngắn hạn và dài hạn Hai môhình đạt được mục tiêu khác nhau:
- Mô hình ngắn hạn thích nghi một cách nhanh chóng cho phép phát hiện rất nhạy cảm Mô hình này bao gồm cácnền N giá trị mẫu gần đây nhất Các mẫu được cập nhật bằng cách sử dụng một cơ chế duy trì có chọn lọc, nơi mà cácquyết định dựa trên việc phân loại tiền cảnh
- Mô hình dài hạn bắt một đại diện ổn định hơn của cảnh nền và thích nghi với những thay đổi từ từ Mô hình nàybao gồm N mẫu ảnh lấy từ một cửa sổ lớn hơn nhiều trong thời gian Các mẫu được cập nhật bằng cách sử dụng một cơchế bảo trì không chọn lọc
Vì vậy, để kết hợp những lợi thế của mỗi mô hình và loại bỏ nhược điểm của nó, phát hiện tiền cảnh tiếp theo là thuđược bằng cách lấy giao điểm của việc phát hiện hai tiền cảnh đến từ các mô hình ngắn hạn và mô hình dài hạn Giaođiểm này giúp loại bỏ sự tồn tại sai tích cực phát hiện từ mô hình ngắn hạn và thêm phát hiện sai tích cực xảy ra trongcác kết quả mô hình dài hạn
Chỉ tích cực phát hiện sai rằng sẽ vẫn sẽ là sự kiện hiếm hoi không đại diện cho một trong hai mô hình Nếu sự kiệnhiếm hoi này vẫn còn thời gian trong cảnh sau đó mô hình lâu dài sẽ thích nghi với nó, và nó sẽ bị dập tắt từ kết quả
Trang 10sau đó Tham gia các giao lộ, không may, ngăn chặn tích cực thực sự trong mô hình kết quả đầu tiên có âm tính giảtrong lần thứ hai, bởi vì mô hình dài hạn thích nghi với tiền cảnh cũng như nếu họ cố định hoặc di chuyển chậm Đểgiải quyết vấn đề này, tất cả các điểm phát hiện bởi các mô hình ngắn hạn mà tiếp giáp với điểm ảnh phát hiện bởi sựkết hợp được bao gồm trong việc phát hiện tiền cảnh.
Cải tiến: KDE ban đầu có một số lợi thế Các mở rộng của mô hình cho phép đối phó với nền đa phương thức đặc
biệt trong những thay đổi nhanh (cây đung đưa, nước gợn sóng ) Mặc dù, mô hình này còn bộc lộ một số nhượcđiểm: N khung hình cần phải được lưu giữ trong bộ nhớ trong suốt quá trình phát hiện đó là chi phí bộ nhớ lớn khi Nlớn Thuật toán tiêu thụ quá nhiều thời gian do sự phức tạp ở mức O(N*N) Để giải quyết vấn đề này, những cải tiếnkhác nhau đã được đề xuất:
- Cải tiến bên trong: Những chiến lược này bao gồm việc thay đổi hàm hạt nhân [141-149] như thể hiện trong
Bảng 8 Để huấn luyện, một số tác giả đề xuất giảm số lượng các mẫu bằng cách xác định một kích thước thích hợp của
bộ đệm khung [143], bằng cách sử dụng một chương trình lấy mẫu đa dạng [150,151] hoặc bằng cách sử dụng mộttrình tự lấy mẫu lược đồ Monte Carlo [152] Một sáng kiến gần đây quan tâm đến liên tiếp xấp xỉ mật độ hạt nhânthông qua chế độ truyền thẳng[359] Hơn nữa, duy trì đệ quy [143-145,153,154,159] có thể được áp dụng để giảm thờigian tính toán Để phát hiện tiền cảnh, các lược đồ khác nhau có thể được sử dụng như trong [143, 146, 147, 153-155].Đối với kiểu đặc trưng, một số đặc trưng được sử dụng thay thế không gian RGB như các đặc trưng biên[156] và đặctrưng chuyển động[157] Để lựa chọn đặc trưng sử dụng, Parag và cộng sự [158] đề xuất một khung làm việc để chọnđặc trưng
- Cải tiến bên ngoài: Một vài tác giả (bảng 9) sử dụng trường ngẫu nhiên Markov[155,159], cách tiếp cận phân
cấp[160], nền phức hợp[161] và cắt khối[162]
- Tăng cường phát hiện tiền cảnh: Cách khác để cải tiến phương pháp này là tăng cường kết quả của phát hiện tiền
cảnh bằng việc sử dụng hợp tác với phương pháp phân đoạn khác Nó thực hiện được bằng việc kết hợp với sự khácnhau các khung liên tục[ơ163] hoặc sử dụng cách tiếp cận học không gian con sử dụng PCA [164]
Bảng 8 và cho biết tồng quan về cải tiến nội tại và cải tiến bên ngoài Bảng 10 và bảng 11 chỉ ra một tổng quan vềtình huống quan trọng và hạn chế thời gian thực đối với các phiên bản KDE khác nhau mà có thể làm cho chúng tốthơn phiên bản gốc
Bảng 8 Cải tiến nội tại của KDE
Bảng 9 Cải tiến bên ngoài KDE
Phương pháp Tác giả - tài liệuTrường ngẫu nhiên Markov Pahalawatta [159]
Cách tiếp cận phân cấp Orten [160]
Nền đa phương thức Tanaka [161]
Trang 11Bảng 10 Thách thức và các phiên bản của KDE
Tình huống quan trọng Tác giả - Tham khảo
2-1 Camera rung (jitter) Sheihk và Shah [155]
2-2 Camera thay đổi phù hợp Cvetkovic [147], Sung [347], Hwang [348]
3 Thay đổi ánh sáng dần dần Sheihk và Shah [155]
4 Thay đổi ánh sáng đột ngột Sung [48], Hwang và cs [49]
5-1 Chương trình mồi khi khởi tạo Martel-Brisson và Zaccarin [346]
5-2 Chương trình mồi khi duy trì Sheihk và Shah [155]
6 Sự ngụy trang Tavakkoli [142], Gu [345]
7 Bắt giữ tiền cảnh
8 Đối tượng nền chuyển động Elgammal [15], Cvetkovic [147]
9 Đối tượng nền thêm vào
10 Nền đa phương thức
11 Đối tượng tiền cảnh đi bộ
12 Đối tượng tiền cảnh ngủ
13 Phát hiện bóng hình Elgammal [15], Cvetkovic [147], Mao và
Shi [150, 151]
Bảng 11 Làm giảm thời gian thực và các phiên bản KDE
Làm giảm thời gian thực Tác giả - Tham khảoThời gian tính toán Elgammal [349], Sadeghi và CS [350]
Yêu cầu bộ nhớ Elgammal [349], Sadeghi và CS [350]
Bàn luận: KDE thích hợp hơn đối với cảnh ngoài trời khi mà các nền động xuất hiện, nhưng ít phù hợp hơn với sự
thay đổi ánh sáng
3.4 Học không gian con sử dụng PCA (SL-PCA)
Học không gian con cung cấp một khung làm việc tốt để đối phó với những thay đổi ánh sáng vì nó cho phép tínhthông tin không gian Oliver và cộng sự [165] đề xuất mô hình cho mỗi điểm ảnh nền bằng cách sử dụng một mô hìnhnền đặc trưng (eigenbackground)
Mô hình này bao gồm việc lấy mẫu N ảnh {I1, I2, IN) và tính toán ảnh nền trung bình µB và ma trận hiệp phương sai
CB
Ma trận hiệp biến này sau đó được chéo hóa bằng cách sử dụng phân hủy giá trị đặc trưng (eigenvalue) như sau:
LB= ΦBCBΦB T (18)
với là ma trận véc tơ đặc trưng của hiệp phương sai dữ liệu và L là ma trận véc tơ đặc trưng của hiệp phương sai dữ liệu và LB là ma trận chéo hóa của giá trị đặc trưng
Để giảm bớt, số chiều của không gian, chỉ có M vector đặc trưng (M <N) được lưu giữ trong phân tích thành phầnchính (PCA) Giá trị đặc trưng lớn nhất M có chứa trong ma trận ML và các vectơ M tương ứng với các giá trị đặctrưng lớn nhất M trong ma trận . là ma trận véc tơ đặc trưng của hiệp phương sai dữ liệu và L
Mỗi khi những hình ảnh nền đặc trưng được lưu trữ trong ma trận M thu được và cũng thu được giá trị trung bình
B, ảnh đầu vào It có thể được xấp xỉ bằng nền trung bình và tổng trọng số của các đặc trưng nền M.
Trong trục tọa độ không gian nền đặc trưng ảnh đầu vào It có thể được tính như sau: