Nghiên cứu một số phương pháp phát hiện chuyển động trong video và ứng dụng

Đỗ Năng Toàn tôi đãtiến hành nghiên cứu đề tài “Nghiên cứu một số phương pháp phát hiện đối tượng chuyển động trong video và ứng dụng” Trong khuôn khổ của luận văn này, mục tiêu của tôi

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

MỞ ĐẦU 1

Chương 1-TỔNG QUAN VỀ XỬ LÝ VIDEO VÀ PHÁT HIỆN ĐỐI TƯỢNG CHUYỂN ĐỘNG 3

1.1 Tổng quan về xử lý Video 3

1.1.1 Sơ lược về Video 3

1.1.2 Các dạng Video 4

1.1.2.1 Video tương tự 4

1.1.2.2 Video số 4

1.1.3 Các chuẩn video 4

1.2 Một số vấn đề cơ bản trong xử lý Video 9

1.2.1 Phát hiện đối tượng chuyển động trong Video 9

1.2.1.1 Phép trừ nền 10

1.2.1.2 Các phương pháp tĩnh 10

1.2.1.3 Sự khác biệt theo thời gian 11

1.2.1.4 Optical Flow 12

1.2.2 Phân loại đối tượng trong video 12

1.2.2.1 Phân loại dựa theo hình dạng 13

1.2.2.2 Phân loại dựa theo chuyển động 13

1.2.3 Phát hiện ánh sáng 14

1.2.4 Đánh dấu đối tượng 14

Chương 2-PHÁT HIỆN, ĐÁNH DẤU VÀ PHÂN LOẠI ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO 16

2.1 Phát hiện đối tượng 16

2.1.1 Phát hiện nổi trội 18

2.1.1.1 Mô hình trừ nền có khả năng thích ứng 18

2.1.1.2 Mô hình hỗn hợp Gaussian tương thích 20

2.1.1.3 Sự khác biệt theo thời gian 22

2.1.2 Bước hậu xử lý điểm ảnh 23

2.1.2.1 Phát hiện bóng và sự thay đổi ánh sáng đột ngột 24

2.1.3 Phát hiện các vùng liên tục 29

Trang 3

2.1.4 Bước hậu xử lý vùng 29

2.1.5 Trích rút các đặc trưng của đối tượng 30

2.2 Đánh dấu đối tượng 30

2.2.1 Tham chiếu tương tự với các đối tượng cơ bản 32

2.2.2 Điều khiển sự chồng chéo của các đối tượng 36

2.2.2.1 Phát hiện các đối tượng bị che khuất 37

2.2.2.2 Phát hiện các đối tượng tách ra 37

2.2.2.3 Lược đồ cơ sở tham chiếu tương ứng 37

2.2.3 Phát hiện các đối tượng dời đi và các đối tượng biến mất 39

2.3 Phân loại đối tượng 41

2.3.1 Phân loại dựa trên mẫu hình chiếu 41

2.3.2 Cơ sở dữ liệu mẫu hình chiếu 42

2.3.3 Ma trận phân loại 45

2.3.4 Sự bảo toàn theo thời gian 46

Chương 3- ỨNG DỤNG 48

3.1 Một số ứng dụng trong công nghệ phần mềm 49

3.1.1 Ứng dụng trong phần mềm nhúng (Embedded Software) 49

3.1.1.1 Khái niệm phần mềm nhúng 49

3.1.1.2 Mục đích của phần mềm nhúng 49

3.1.1.3 Tính chất của phần mềm nhúng 49

3.1.1.4 Lợi ích của phần mềm nhúng 49

3.1.1.5 Ứng dụng trong xử lý video 49

3.1.2 Xây dựng các phần mềm điều khiển 50

3.2 Cài đặt một số phương pháp phát hiện và đánh dấu đối tượng 50

3.2.1 Giao diện của chương trình 50

3.2.2 Các menu 51

3.2.3 Một số hình ảnh về phát hiện và đánh dấu đối tượng chuyển động 52

KẾT LUẬN 54

TÀI LIỆU THAM KHẢO 55

PHỤ LỤC 60

Trang 4

MỞ ĐẦU

Trong kỷ nguyên công nghệ thông tin hiện nay, với sự phát triển nhanh chóng củacác công nghệ chế tạo thiết bị phần cứng ngày càng hiện đại, tinh vi thì ngành côngnghệ phần mềm cũng không ngừng mở rộng để phù hợp với các yêu cầu của thực tế.Trong đó phải kể đến sự phát triển của các thiết bị thu nhận hình ảnh từ thế giới thực,chẳng hạn như các hệ thống giám sát bằng camera, song hành với nó là các vấn đề liênquan đến việc giám sát Thách thức chính cho công nghệ phần mềm trong lĩnh vực nàychính là việc xử lý các hình ảnh thu nhận được từ các hệ thống giám sát đó

Giám sát là một vấn đề được rất nhiều nhà nghiên cứu quan tâm đặc biệt bởinhững ứng dụng thiết thực của nó cho đời sống xã hội Chẳng hạn như các hệ thốnggiám sát các hành vi khả nghi của tội phạm, khủng bố ở các địa điểm nhạy cảm củacác chính phủ Hệ thống giám sát trong các viện bảo tàng, lưu trữ để chống trộm cắpcác di vật đang được trưng bày Hệ thống giám sát các hiện tượng bất bình thường, viphạm pháp luật, tai nạn ở các điểm giao thông Hệ thống giám sát phòng chống hỏahoạn Các hệ thống giám sát trong các siêu thị, cửa hàng, công ty để chống trộm cắp,

Hiện nay trên thế giới đã có nhiều công trình nghiên cứu về xử lý video và cũng

đã có nhiều ứng dụng đáng kể trong lĩnh vực này Tuy nhiên, so với yêu cầu thực tế thìnhư thế vẫn là chưa đủ

Ở Việt Nam, xử lý Video là một vấn đề còn khá mới mẻ Thực tế cho thấy rằng,khi xã hội phát triển càng mạnh, yêu cầu về các thiết bị công nghệ càng cao Như vậy,

xử lý video là một mảnh đất màu mỡ cho các trung tâm nghiên cứu, các công ty đầu tưvào Nhất là trong giai đoạn hệ thống nhúng đang phát triển và mở ra một kỷ nguyênmới cho ngành công nghệ phần mềm như hiện nay

Giám sát tự động là một hướng mới và có nhiều triển vọng trong sự phát triểntiếp theo của lĩnh vực nhận dạng và xử lý ảnh 2 chiều Đồng thời, đó cũng là mộthướng đi cho mảng phần mềm thiết kế chuyên dụng cho các thiết bị giám sát tự động.Việc phát hiện ra các đối tượng chuyển động trong video nhờ các kỹ thuật xử lý ảnh,trên cơ sở đó đoán nhận một số hành vi của đối tượng là một việc làm có ý nghĩa khoa

Trang 5

2học và thực tiễn Nhất là trong hoàn cảnh Việt Nam chưa có nhiều những nghiên cứu

và ứng dụng theo hướng này

Xuất phát từ thực tế đó, việc nghiên cứu và đưa ra các phương pháp để xử lývideo là vô cùng thiết thực Được sự hướng dẫn của PGS.TS Đỗ Năng Toàn tôi đãtiến hành nghiên cứu đề tài “Nghiên cứu một số phương pháp phát hiện đối tượng

chuyển động trong video và ứng dụng”

Trong khuôn khổ của luận văn này, mục tiêu của tôi là tìm hiểu các bước pháthiện, đánh dấu, phân loại các đối tượng chuyển động trong video và so sánh mẫu đểđưa ra kết luận tương ứng Sau khi nghiên cứu kỹ các phương pháp đã được đưa ra, tôitiến hành đánh giá ưu và nhược của mỗi phương pháp và mạnh dạn đưa ra một số biệnpháp khắc phục nhằm làm cho hệ thống hoạt động tối ưu nhất với hệ thời gian thực.Các vấn đề cần giải quyết trong phạm vi luận văn này bao gồm:

- Nghiên cứu tổng quan về video và phát hiện đối tượng chuyển động

- Nghiên cứu và đề xuất một số hướng khắc phục các nhược điểm trongviệc phát hiện, đánh dấu, phân loại các đối tượng chuyển động và tạo kho

cơ sở dữ liệu mẫu

- Cài đặt một số phương pháp phát hiện, đánh dấu các đối tượng chuyển động dựa theo các phương pháp đã nêu ở trên

Trang 6

Chương 1 - TỔNG QUAN VỀ XỬ LÝ VIDEO VÀ PHÁT HIỆN

ĐỐI TƯỢNG CHUYỂN ĐỘNG

1.1 Tổng quan về xử lý Video

1.1.1 Sơ lược về Video

Ngày nay, không ai có thể phủ nhận các thành tựu mà ngành công nghệ thông tinmang lại Trong đó, đa phương tiện là một khía cạnh quan trọng với nhiều ứng dụngthiết thực nhằm làm cho xã hội ngày càng phát triển hơn, văn minh hơn Nhưng với sựphát triển không ngừng như hiện nay của công nghệ thông tin, như thế vẫn là chưa đủ.Vẫn cần nhiều hơn nữa các nghiên cứu liên quan đến khía cạnh này Trong đó phải kểđến một lĩnh vực rất quan trọng của đa phương tiện, đó là Video và xử lý video

Video là sự tái tạo ảnh tự nhiên theo không gian và thời gian hoặc cả hai, thựcchất là một dãy ảnh liên tục theo thời gian nhằm mô phỏng sự chuyển động Việc dùngảnh liên tục để mô tả chuyển động theo thời gian đã xuất hiện gần 2 thế kỉ nay Năm

1834 nhà toán học William George Horner đã phát minh ra cách mô tả này Sau đó,hàng loạt các nghiên cứu khác được triển khai và đã có những ứng dụng đáng kể Năm

1887, khi Hannubal Good phát minh ra phim ảnh thì vấn đề ảnh chuyển động đượcquan tâm đặc biệt vì những lợi ích kinh tế mà nó mang lại Năm 1895, một hệ thốngcamera/Projector với các chuẩn phim (35mm chiều rộng, 24 khung hình trên giây)được phát triển bởi Louis Lumiére

Sự chuẩn hóa của video tương tự trong những năm đầu của thập niên 1950(NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh chuyển độngxuất hiện hầu như khắp nơi, với các thiết bị vô tuyến được dùng rộng rãi cho mục đíchgiải trí, các hệ thống ứng dụng công nghệ như phát hiện chuyển động tiếp tục đượcphát triển

Vào năm 1990, các tổ chức về chuẩn hóa như tổ chức ISO-IEC (InternationalOrganization for Standard – International Electrotechnical Commission) đã đưa rachuẩn MJPEG cho video kĩ thuật số, tổ chức chuẩn ITU-T (InternationalTelecommunication Union) đã đưa ra chuẩn H.261 và một số các chuẩn liên quankhác Đi kèm với nó là các thiết bị tin học giá rẻ đã tạo nên sự phát triển bùng nổ chocác ứng dụng đa phương tiện

Trang 7

1.1.2 Các dạng Video

1.1.2.1 Video tương tự

NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung hình, 30

khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi trường 262.5

dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung hình

trong một giây, quét cách dòng Khung gồm hai trường chẵn lẽ, mỗi trường bao gồm312.5 dòng

Trang 8

chuyển đổi mỗi frame của video nguồn từ miền thời gian xác định vào miền tần số.Một mô hình tri giác dựa theo một cách không chặt chẽ vào hệ thống trực quan của

Trang 9

5con người để loại bỏ thông tin có tần số cao, ví dụ như sự chuyển đổi một cách chínhxác theo cường độ và màu sắc Trong miền chuyển đổi, việc xử lý rút gọn các thông tinđược gọi là lượng tử Trong đó, lượng tử là một phương pháp làm giảm được mộtnhóm tỷ lệ lớn (với sự xẩy ra khác nhau của mỗi một nhóm) vào một nhóm nhỏ hơn,

và miền chuyển đổi này rất thuận tiện cho việc biểu diễn ảnh bởi các hệ số có tần sốcao, nó góp phần làm giảm các ảnh trên hơn là các hệ số khác với những đặc tính cógiá trị nhỏ với hệ số nén cao Các hệ số lượng tử này ngay sau đó được xếp dãy vàđóng gói vào đầu ra của các tuyến bit Gần như việc thi hành của tất cả các phần mềmcủa chuẩn MJPEG cho phép người dùng điểu khiển trên tỉ lệ nén (như là các tham biếntùy ý khác), cho phép người sử dụng để trao đổi ngoại tuyến đối với các tệp có kíchthước nhỏ hơn Trong các ứng dụng nhúng (miniDV, nó được sử dụng tương tự như sựpha trộn nén biến đổi cosine rời rạc), Các tham biến này được lựa chọn trước và thiếtlập cho ứng dụng

Chuẩn Video MPEG-1

MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ dạngnén thô các Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps (các tỉ lệ nén táchbiệt là 26:1 và 6:1) trên nhiều môi trường lưu trữ số khác nhau như VCD , DAT,Winchester, đĩa quang, cáp, vệ tinh số và truyền thanh số với ứng dụng chính là các hệthống đa phương tiện trực tuyến

Chuẩn MPEG-1 còn được gọi là ISO/IEC-11172 bao gồm các phần sau:

1 Các hệ thống (lưu trữ và đồng bộ hóa video, audio và các dữ liệu khác cùng nhau)

Không gian màu của MPEG-1

Trước khi mã hóa video thành MPEG-1, không gian màu được chuyển đổi thànhY‟CbCr (Y‟=Luma, Cb = Thành phần màu Blue, Cr = thành phần màu Red) Lumabao gồm độ sáng và độ phân giải được lưu trữ tách biệt nhau theo thành phần (màu,màu sắc, giai đoạn) và được phân biệt giữa các thành phần Red và Blue

Các đặc tính của MPEG-1

 Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán

bù chuyển động, dùng thuật toán mã hóa rời rạc cosine

Trang 10

 Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hóa linh hoạt

 Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau

 Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập

 Tìm nhanh xem như quét dòng bit mã hóa, chỉ hiển thị các khung được chọn

 Trễ mã hóa và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video đơn công

MPEG-1 chỉ xét các tín hiệu Video lũy tiến Sử dụng không gian màu (Y, Cr, Cb)

đã được thừa nhận theo kiến nghị CCIR 601 Trong SIF (Standard Input Format)MPEG kênh chính là 352 pixel x 240 dòng và 30 khung hình/s

Sau đây là một số ràng buộc đối với MPEG-1:

Bảng 1.2 Một số ràng buộc của MPEG-1

Tốc độ bit tối đa

Kích thước bộ đệm giải nén tối đa

MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi rộng cácứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps)

Các đặc tính chính

MPEG-2 được sử dụng rộng rãi như là định dạng của các tín hiệu vô tuyến kỹthuật số, các tín hiệu này có thể là tín hiệu vệ tinh, tín hiệu hữu tuyến, vô tuyến Nócũng định dạng cho phim ảnh và một số chương trình khác được lưu trên DVD hoặcmột số đĩa từ tương tự

MPEG-2 là một chuẩn quốc tế và còn có tên gọi khác là ISO/IEC

13818 Chuẩn MPEG-2 cho video tương tự như chuẩn MPEG-1 Chuẩn

Video MPEG-4

Trang 11

7MPEG-4 phát triển cho tốc độ bit rất thấp từ 4.8 đến 68 kbps, tuy nhiên sau đó đãnâng tốc độ lên đáng kể.

-Video: 5kbps đến 10 Mbps-Audio: 2kbps đến 64 kbpsDạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tượng khác nhau tạokhả năng thích nghi, linh động để cải thiện chất lượng của các dịch vụ như: tivi số, đồhọa trình diễn, World Wide Web, videophone và các mở rộng của chúng

MPEG-4 còn được gọi là chuẩn ISO/IEC 14496

Được thừa nhận thành tiêu chuẩn quốc tế tháng 7/2001

MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông tin đaphương tiện, không tập trung vào một ứng dụng cụ thể, không phải là một tiêu chuẩn

mã hóa thực sự cho Audio, Video hay multimedia

MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và nó đangđược phát triển

MPEG-7 cung cấp một tập hợp đầy đủ các công cụ chuẩn hóa để mô tả nội dungcủa đa phương tiện Cả người dùng và hệ thống tự động xử lý hệ âm thanh thực đềuthuộc phạm vi của MPEG-7

Ngoài ra, tổ chức chuẩn ITU-T (International Telecommunication Union) cũng đưa ra một số chuẩn cho Video như sau:

H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format) với cáctốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF (Quadrature) Vớitốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3 Mbps, QCIF là 9.35 Mbps.Tốc độ càng thấp thì càng giảm số khung hình/s

Tín hiệu video được phân thành các lớp, mỗi lớp đều có các header để định nghĩacác tham số được sử dụng bởi bộ mã hóa khi tạo dòng bit Lớp ảnh được phân thành

Trang 12

các nhóm khối GOB (Group of Block), các GOB bao gồm các MB (MacroBlock) MB

là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín hiệu Y và hai khối 8x8 của tín hiệu sắc

Lớp GOB luôn được kết hợp của 33 MB hợp thành ma trận 3x11 Mỗi MB có

một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối

Bảng 1.3 Mô tả kiểu CIF và QCIF

KiểuCIFQCIF

Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB Mỗi

header chứa dữ liệu là dạng ảnh và số khung Cấu trúc của một MB như sau:

MBA: Địa chỉ, MTYPE: Dạng Intra, Inter

MQUANT: Hệ số lượng tử, MVD: Vector chuyển động

CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu

IntraFrame: Trong khung, Khung I cho khả năng truy cập ngẫu nhiên, kiểu nén

intra tương tự như JPEG dựa trên mã hóa biến đổi cosine rời rạc cho từng MB

InterFrame: Liên khung, liên hệ với các khung I và P trước, MB đầu có thể bù

chuyển động (MC – Motion Compensation) hoặc không Cung cấp các tùy chọn cho

từng MB như lượng tử với các hệ số lượng tử và sử dụng bộ lọc bù chuyển động

Chuẩn Video H.263

H.263 là chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền trên mạng

điện thoại công cộng PSTN, được công nhận năm 1996 Giống như H.261, mã hóa

biến đổi cosine rời rạc cho các MB trong I Frame và biến đổi cosine rời rạc sai biệt dự

đoán trong P Frame, tốc độ tối thiểu

Ưu điểm:

 Chính xác sai biệt dự đoán với ½ điểm ảnh

 Không hạn chế vector chuyển động

 Mã hóa số học theo cú pháp

 Dự đoán thuận lợi với các khung P,…

Trang 13

H.263 là một chuẩn video codec được thiết kế một cách sáng tạo như định dạngnén tốc độ bit thấp cho các cuộc hội nghị thông qua video Nó là một thành viên trongnhóm H.26x của các chuẩn mã hóa video của ITU-T, được công nhận năm 1996

H.263 là một yêu cầu bắt buộc của video codec trong công nghệ ETSI 3GPP cho

hệ thống đa phương tiện nhỏ sử dụng giao thức IP (IMS), các dịch vụ gửi nhận thôngđiệp đa phương tiện (MMS),…

H.264 là một chuẩn để nén video, được hoàn thành vào tháng 5 năm 2003 Nótương tự như chuẩn ISO/IEC 14496 (MPEG-4) dành cho video

1.2 Một số vấn đề cơ bản trong xử lý Video

1.2.1 Phát hiện đối tượng chuyển động trong Video

Mỗi ứng dụng được thừa hưởng từ việc xử lý video thông minh những thứ nó cần

để giải quyết những yêu cầu khác nhau Tuy nhiên, chúng có một số điểm chung sau:các đối tượng chuyển động Như vậy, việc phát hiện các đối tượng chuyển động làbước đầu tiên của bất kỳ hệ thống xử lý video nào Khi tìm kiếm thấy các đối tượngchuyển động mới bắt đầu chuyển sang bước xử lý khác Thực tế thì các video thu được

từ camera có rất nhiều nhiễu, chẳng hạn như sự thay đổi của ánh sáng, sự thay đổi củathời tiết, lá rung,…Việc phát hiện đối tượng chuyển động gặp vấn đề khó khăn để xử

lý một cách chính xác Các công nghệ thường xuyên được sử dụng để phát hiện đốitượng chuyển động là phép trừ nền, các phương pháp tĩnh, sự khác biệt theo thời gian

và optical flow

Phát hiện đối tượng

Mô tả ngữ nghĩa

Sơ đồ 1.1: Sơ đồ chung cho các thuật toán xử lý video

Trang 14

1.2.1.1 Phép trừ nền

Phép trừ nền là một phần trong công nghệ phân đoạn chuyển động trong các cảnhtĩnh [34] Nó cố gắng phát hiện các vùng chuyển động bằng cách trừ điểm ảnh chođiểm ảnh từ ảnh hiện thời đến một ảnh nền cơ sở đã được tạo bởi trung bình các ảnhnền trong một khoảng thời gian của một chu kỳ khởi tạo Những ảnh mà ở đó có sựkhác biệt sau khi thực hiện trừ nền ở trên bước đầu được phân loại bằng sự nổi trội.Sau khi tạo một bản đồ các điểm nổi trội, một số phép toán hậu xử lý như: phép co,dãn, đóng khung được thực hiện để đơn giản hóa các tác động của nhiễu và làm tăngvùng phát hiện Nền cơ sở được cập nhật với các ảnh mới theo thời gian để thích ứngvới sự thay đổi của các cảnh động

Có nhiều hướng tiếp cận khác nhau về việc phối hợp dựa trên phép trừ nền trongphạm vi của việc phát hiện vùng nổi trội, duy trì nền và hậu xử lý

Heikkila và Silven [20] sử dụng một cách đơn giản phép phối hợp này, với mỗi

điểm ảnh được biểu diễn bởi một tọa độ (x,y) trong ảnh hiện thời I t sẽ được đánh dấu làđiểm nổi bật nếu

|I t (x,y) – B t (x,y)|> được thỏa mãn, trong đó,  là ngưỡng xác định trước Ảnh nền B T được cập nhật bởiviệc sử dụng phép lọc Infinite Impulse Respone (IIR) như sau :

1.2.1.2 Các phương pháp tĩnh

Hầu hết các phương pháp cải tiến đã được sử dụng đều phát triển dựa trên cácphương pháp trừ nền

Phương pháp W4 [17] sử dụng một mô hình nền tĩnh, ở đó mỗi pixel được biểu

diễn lại với giá trị nhỏ nhất (M) và giá trị lớn nhất (N) của nó về cường độ và sự sai khác cường độ lớn nhất (D) giữa các frame liên tiếp bất kỳ quan sát được trong suốt

chu kỳ khởi tạo huấn luyện mà ở đó cảnh không chứa các đối tượng chuyển động Một

điểm trong ảnh hiện thời I t được phân loại như là điểm nổi trội nếu nó thỏa mãn:

|M(x,y)-I t (x,y)|>D(x,y) hoặc |N(x,y)-I t x,y)|>D(x,y) (1.3)Sau khi thực hiện, phép toán co được áp dụng lặp lại cho các điểm nổi trội đãđược phát hiện để xóa bỏ một điểm nhiễu đậm đặc Trong khi tạo ra các vùng co để

Trang 15

11quản lý kích cỡ của chúng, một dãy các phép co và dãn được thực hiện trên bản đồđiểm nổi trội Cũng như thế, các vùng có kích thước nhỏ được loại trừ sau khi áp dụngđánh nhãn các thành phần liên tục để tìm vùng Trạng thái tĩnh của các điểm ảnh nềnthuộc về các vùng đứng yên của ảnh hiện thời được cập nhật với các ảnh dữ liệu mới.Một ví dụ khác của các phương pháp tĩnh, Stauffer và Grimson [44] đã miêu tảmột sự tương thích của mô hình pha trộn nền để đánh dấu thời gian thực Mọi điểmảnh thực sự được mô hình hóa bởi sự pha trộn của phương pháp Gaussians và đượccập nhật trực tuyến bởi dữ liệu ảnh đầu vào Các phân bố Gaussian sẽ đánh giá xemmột điểm sẽ thuộc về việc xử lý điểm nổi trội hay là thuộc về xử lý nền.

1.2.1.3 Sự khác biệt theo thời gian

Sự khác biệt theo thời gian cố gắng phát hiện các vùng chuyển động bằng cách sửdụng sự khác nhau giữa một điểm ảnh ở các frame liên tiếp nhau (hai hoặc ba) trongmột dãy video Phương pháp này có khả năng thích ứng cao với các cảnh động, tuynhiên, nó thường mắc một số lỗi trong việc phát hiện đối tượng chuyển động

Hình 1.1: Ví dụ về lỗi trong phương pháp khác biệt theo thời gian

(a)Một cảnh với hai đối tượng chuyển động, (b) Phương pháp dựa trên sự khác biệt theo thời gian bị lỗi khi phát hiện tất cả các điểm ảnh chuyển động của đối tượng bên trái Các vùng chuyển động được phát hiện đánh dấu bởi màu đỏ

Vùng màu đơn của người bên ảnh trái làm cho thuật toán khác biệt về thời gian bịlỗi trong việc trích ra tất cả các điểm ảnh của vùng chuyển động của con người Cũngvậy, phương pháp này lỗi khi phát hiện các đối tượng đã dừng lại trong cảnh Cácphương pháp bổ sung cần kế thừa để phát hiện các đối tượng đứng yên giúp cho việcthành công ở những bước xử lý cao hơn

Lipton [29] đã trình bày cách phối hợp giữa hai frame khác nhau, ở đó, các pixelthỏa mãn các biểu thức sau :

|I t (x,y) –I t-1 (x,y)|>

Trang 16

Để khắc phục các thiếu sót của hai frame khác nhau, trong một số trường hợp, baframe khác nhau có thể được sử dụng.

1.2.1.4 Optical Flow

Phương pháp Optical flow thực hiện bằng cách sử dụng các vector có hướng củacác đối tượng chuyển động theo thời gian để phát hiện các vùng chuyển động trongmột ảnh Chúng có thể phát hiện chuyển động trong các dãy video ngay cả các videothu được từ camera di chuyển, như vậy, hầu hết các phương pháp optical flow đượcước tính độ phức tạp và không thể sử dụng với thời gian thực mà không có các phầncứng chuyên biệt đi kèm [49]

1.2.1.5 Phát hiện sự thay đổi ánh sáng và bóng

Thuật toán này mô tả cho việc phát hiện chuyển động thực hiện tốt cho các môitrường bên trong và bên ngoài nhà và cũng được sử dụng cho giám sát theo thời gianthực trước đây

Như vậy, không cần sự đảm bảo đặc biệt nào, hầu hết các thuật toán đó dễ bị ảnhhưởng đến cả sự thay đổi của phần cục bộ (chẳng hạn bóng và ánh sáng) và của ánhsáng toàn cục (chẳng hạn như mây che khuất ánh sáng mặt trời) Các bóng là nguyênnhân việc bị lỗi ở các phương pháp phát hiện chuyển động trong việc phân đoạn cácđối tượng chuyển động và làm các mức cao hơn như phân chia các đối tượng khôngchính xác

Horprasert đưa ra một cách giải quyết về phép trừ nền và phương pháp phát hiệnbóng, với phương pháp đó, mỗi pixel được diễn tả bởi một mô hình màu phân biệt bởi

độ sáng từ các tín hiệu chứa màu sắc thành phần Mỗi điểm ảnh đã định rõ được phânchia vào bốn loại khác nhau (nền, nền bóng hoặc bóng, ánh sáng nền hoặc đối tượngchuyển động nổi trội) bằng cách tính toán sự chênh lệch của màu sắc và các tín hiệuchứa màu sắc giữa các điểm ảnh nền và ảnh hiện thời

1.2.2 Phân loại đối tượng trong video

Vùng chuyển động được phát hiện trong video có thể tương ứng với các đốitượng khác nhau trong thế giới thực như người, nhóm người, xe cộ, sự hỗn loạn,…Việc thừa nhận kiểu của đối tượng là rất quan trọng để xác nhận kiểu của đối tượngđược phát hiện để đánh dấu nó một cách chính xác và phân tích các hoạt động mộtcách đúng đắn Hiện nay, có hai hướng tiếp cận trong việc phân loại các đối tượng, đó

là các phương pháp shape-base và motion - base [49] (dựa theo hình dạng và dựa theochuyển động) Phương pháp Shape – base thường dùng cho các đối tượng trong khônggian hai chiều 2D còn phương pháp motion – base dùng để lần theo các dấu vết đặctrưng theo thời gian của các đối tượng cho giải pháp phân loại

Trang 17

1.2.2.1 Phân loại dựa theo hình dạng

Các đặc trưng chung chung sử dụng trong phân chia các đối tượng theo hình dạng

là tạo các hình chữ nhật bao quanh, tạo các vùng, hình chiếu và độ nghiêng của cácvùng chứa đối tượng được phát hiện

Hướng tiếp cận này sử dụng độ dài các đường nét của hình chiếu và vùng thôngtin để phân loại các đối tượng đã được phát hiện và đưa nó vào thành 3 nhóm: Người,

xe cộ và các đối tượng khác [29] Phương pháp này phụ thuộc vào các giả định, chẳnghạn như, nếu là con người thì sẽ nhỏ hơn xe cộ và có bóng phức tạp Mức độ rải rácđược dùng như là một ma trận phân loại và nó được định nghĩa trong các giới hạn củacác vùng của đối tượng và độ dài đường viền (chu vi) như sau:

nơ ron là mức độ rải rác, các miền, tỉ lệ tương quan của các vùng đối tượng và độphóng đại của camera Cũng như phương pháp trước, việc phân loại được thực hiệntrên mỗi frame và các kết quả được đưa vào biểu đồ để duy trì sự phân loại theo thờigian

Saptharishi đề xuất một sự phối hợp phân loại sử dụng chiều dài của việc huấnluyện của mạng nơ ron với việc “học” khác nhau để thừa nhận hai lớp: Xe cộ và conngười [41] Papageorgion đưa ra một phương pháp sử dụng sự phân loại của máy hỗtrợ véc tơ huấn luyện nhờ các đặc trưng biến đối sóng nhỏ của đối tượng trong các ảnhcủa video từ một cơ sở dữ liệu mẫu đơn giản [38] Phương pháp này được sử dụng đểthừa nhận các vùng chuyển động tương tự như con người

Một phương pháp khác được đưa ra bởi Brodsky [11] sử dụng phép phân loạiRadial Basis Function (RBF), phương pháp này như sau: có một kiến trúc tương tựnhư 3 tầng mạng nhân giống lại Đầu vào của phương pháp này là gradient ảnh của cácvùng đối tượng đã được phát hiện

1.2.2.2 Phân loại dựa theo chuyển động

Một số phương pháp trong một số bài viết chỉ sử dụng các đặc trưng chuyển độngtheo thời gian của các đối tượng để thừa nhận các lớp của chúng [8, 51, 28] Một cáchtổng quát, chúng được dùng để phân biệt các đối tượng cứng (như xe cộ) và khôngcứng (như người) Phương pháp này dựa trên cơ sở tính chất đặc biệt theo thời gian

Trang 18

của các đối tượng chuyển động Với đối tượng được đưa ra ở chu kỳ chuyển động, đặctính của nó đo được cũng như hiển thị một chu kỳ chuyển động Phương pháp nàykhai thác đầu mối này để phân loại các đối tượng chuyển động sử dụng chu kỳ.

Phân tích optical flow cũng là hữu ích để phân biệt các đối tượng “cứng” và đốitượng “mềm” A.J Lipton trình bày một phương pháp được sử dụng phân tích opticalflow cục bộ của các vùng đối tượng đã được phát hiện [28] Nó được mong đợi chocác đối tượng mềm như là con người và sẽ đưa ra giá trị flow trung bình, còn các đốitượng cứng như là xe cộ sẽ được đưa ra giá trị flow nhỏ Cũng vậy, phần còn lại trongchuyển động phát sinh của con người sẽ có chu kỳ Bằng cách sử dụng gợi ý này,chuyển động của con người và cả con người có thể được phân biệt với các đối tượngkhác như là xe cộ

mô hình thời gian nắm bắt sự thay đổi của các cấu trúc theo thời gian

1.2.4 Đánh dấu đối tượng

Đánh dấu là vấn đề có ý nghĩa và khó nên được các nhà nghiên cứu về máy tínhrất quan tâm Mục đích của đánh dấu là để thiết lập sự phù hợp của các đối tượng vàcác phần của đối tượng giữa các frame liên tiếp trong video Nó là một công việc có ýnghĩa trong hầu hết các ứng dụng giám sát từ việc nó cung cấp dữ liệu gắn kết theothời gian về các đối tượng chuyển động để dùng cho cả việc làm tăng khả năng của cácbước xử lý thấp như phân đoạn chuyển động và khả năng mở rộng dữ liệu ở mức caohơn như phân tích hoạt động và thừa nhận cách hành động Đánh dấu là một công việckhó khăn để ứng dụng trong các vị trí chồng chéo do các đối tượng phân đoạn khôngđúng Các vấn đề chung của việc phân đoạn không đúng là các bóng dài, các phầnriêng lẻ và tình trạng bị chồng chéo của các đối tượng với mỗi đối tượng khác và vớiphần tử đứng yên trong cảnh đó Như vậy, việc đối phó với bóng ở bước phát hiệnchuyển động và việc bắt được các phần bị che khuất ở cả bước phân đoạn và bướcđánh dấu là rất quan trọng cho sự đánh dấu đúng đắn

Trang 19

15Đánh dấu trong video có thể được phân biệt theo sự cần thiết của các ứng dụng

sử dụng nó hoặc theo các phương pháp sử dụng giải pháp của nó

Trang 20

Chương 2 - PHÁT HIỆN, ĐÁNH DẤU VÀ PHÂN LOẠI ĐỐI

TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO 2.1 Phát hiện đối tượng

Tổng quan về phát hiện, phân loại và đánh dấu đối tượng chuyển động trong video với thời gian thực được mô tả như sau

Sơ đồ 2.1: Sơ đồ khối hệ thống

Hệ thống này có thể phân biệt được các đối tượng thoáng qua hoặc đứng yên từ các đối tượng nền tĩnh trong các cảnh động; phát hiện và phân biệt các đối tượng di

Trang 21

17chuyển và biến mất; phân loại các đối tượng đã được phát hiện vào trong các nhómkhác nhau, như người, nhóm người, xe cộ,…; đánh dấu các đối tượng và tạo ra thôngtin về đường đi ngay cả các trường hợp bị che khuất và phát hiện ánh sáng trong hìnhảnh của video Trong phần này và phần sau, sẽ mô tả các mô hình tính toán tronghướng tiếp cận này để tiến gần tới các kết quả thực sự ở trên.

Hệ thống này được thừa nhận để làm việc với thời gian thực như là một phầntrong hệ thống giám sát video cơ sở Độ phức tạp tính toán và cả các nhân tố bất biếncủa thuật toán mà chúng ta dùng ở đây là rất quan trọng cho việc thực hiện trong thờigian thực Do đó, cách giải quyết ở đây là chọn ra thuật toán với thời gian chạy tối ưunhất Hơn nữa, việc sử dụng hệ thống này bị hạn chế chỉ với các camera tĩnh và videođầu vào từ các camera Pan/Tilt/Zoom

Hệ thống được khởi tạo bởi hình ảnh video từ camera tĩnh giám sát một vị trí.Hầu hết các phương thức có thể làm việc với cả hai loại ảnh video màu và ảnh videođen trắng Bước đầu tiên trong hướng tiếp cận này là phân biệt các đối tượng nổi trội

từ các nền tĩnh Để đạt được điều này, ta sử dụng một kết hợp giữa phương pháp trừnền và phương pháp hậu xử lý ảnh ở mức thấp để tạo ra một bản đồ điểm đặc trưngcho mọi frame Ta nhóm các vùng liên tục trong bản đồ đó để mở rộng các đặc trưngcho đối tượng riêng biệt như là tạo các đường bao, các miền, điểm trung tâm của khốihoặc biểu đồ màu (color histogram)

Điểm mới trong thuật toán phân loại đối tượng này là làm cho việc sử dụng bản

đồ các điểm đặc trưng thuộc về mỗi vùng đặc trưng để tạo ra một hình chiếu cho đốitượng đó Hình chiếu và điểm trung tâm của một khối của một đối tượng được sử dụng

để tạo ra một tín hiệu khoảng cách Tín hiệu này được co dãn, được làm trở lại bìnhthường và được so sánh với các nhãn tín hiệu trước đó trong cơ sở dữ liệu mẫu đểphân biệt kiểu của đối tượng Đầu ra của bước đánh dấu được dùng để đạt được sựthống nhất theo thời gian trong bước phân loại

Thuật toán đánh dấu đối tượng này tận dụng các đặc trưng của đối tượng đã đượctrích rút cùng với sự phối hợp phù hợp được xây dựng trong bước trước để làm chophù hợp với các đối tượng sau khi xảy ra trường hợp bị che khuất Đầu ra của bướcđánh dấu là thông tin về đường đi của đối tượng được dùng để tính toán hướng và tốc

độ của các đối tượng trong cảnh

Sau khi chắt lọc thông tin của các đặc điểm trên các đối tượng như loại, đường đi,kích cỡ và tốc độ với mức độ riêng biệt của các mức xử lý cao, có thể được áp dụngtrên các dữ liệu đó Một khả năng sử dụng thời gian thực là đặt cảnh báo bằng tiền

điều kiện với các vị từ như: "Một người di chuyển theo phương d với tốc độ lớn hơn s sinh ra cảnh báo a 1 ” hoặc “một cái xe dừng lại ở một vị trí l trong khoảng thời gian hơn t phút sinh ra cảnh báo a 2.” Một cách khác là ta có thể tạo ra một tham chiếu trên

dữ liệu video đã được lưu trữ cho việc tìm kiếm thông minh và độc lập Cả hai cách

Trang 22

trên đều là các điều kiện cần thiết của hệ thống giám sát để tăng thêm thời gian cần

thiết để giám định các sự kiện

2.1.1 Phát hiện nổi trội

Ta sử dụng phối hợp các mô hình nền và các phương pháp hậu xử lý ảnh mức

thấp để tạo ra bản đồ điểm nổi bật và trích rút các đặc trưng của đối tượng ở mỗi frame

của video Các mô hình nền nói chung có 2 giai đoạn phân biệt trong xử lý: Khởi tạo

và cập nhật

2.1.1.1 Mô hình trừ nền có khả năng thích ứng

Sự thực thi của thuật toán trừ nền này làm việc trên mức xám của ảnh video từ

một camera tĩnh [10] Phương pháp trừ nền này khởi tạo một nền tham khảo với một

số frame đầu tiên của video đầu vào Sau đó, nó trừ giá trị cường độ của mỗi điểm ảnh

trong ảnh hiện thời cho giá trị tương ứng trong ảnh nền tham khảo Sự khác nhau này

được lọc với một ngưỡng thích hợp cho từng điểm ảnh để giải thích nguyên nhân sự

thay đổi của các điểm ảnh nhiễu

Gọi I n(x) là biểu diễn của giá trị cường độ mức xám ở điểm ảnh có vị trí (x) và ở

trường hợp thứ n của dãy video I thuộc trong đoạn [0,255] Gọi B n(x) là giá trị cường

độ nền tương ứng cho điểm ảnh ở vị trí (x) ước lượng theo thời gian từ ảnh video I 0

đến I n-1 Một điểm ảnh ở vị trí (x) trong ảnh hiện thời thuộc thành phần nổi trội nếu nó

thỏa mãn

|I n (x) – B n (x)|>T n (x) Trong đó T n (x) là giá trị ngưỡng có khả năng thích hợp được khởi tạo cùng với

ảnh video đầu tiên I 0 , B 0 = I 0, và ảnh ngưỡng được khởi tạo bởi giá trị đã được xác

định trước

Vì hệ thống này sẽ được dùng cho cả trong và ngoài nhà nên mô hình nền cần tự

thích ứng với các thay đổi động như sự thay đổi toàn bộ ánh sáng (chuyển giữa ngày

và đêm) và cập nhật nền một thời gian dài (một cái xe đỗ trước một tòa nhà) Vì thế

nền cơ sở và các ảnh ngưỡng phải được cập nhật liên tục từ các ảnh đầu vào Sự phối

hợp cập nhật này là khác nhau đối với các vị trí điểm, chẳng hạn như một điểm x 

FG thì sẽ khác với x BG :

B(x)

n B(x)

Trang 23

T(x),

n

Trang 24

Trong đó ,

0.0,1.0  là các hằng số chỉ ra rằng có bao nhiêu thông tin từcác ảnh đầu vào được đẩy vào nền và các ảnh ngưỡng Nói cách khác, nếu mỗi điểmảnh nền được coi như là chuỗi các lần, các ảnh nền là một giá trị trung bình của trọng

số vùng theo thời gian của chuỗi các ảnh đầu vào và ảnh ngưỡng là giá trị trung bìnhcủa trọng số vùng của  lần khác nhau của các ảnh đầu vào và nền đó Các giá trị α, 

và  được định rõ qua thực nghiệm bởi các video clip ở cả bên trong và bên ngoài nhà

Ta cập nhật nền cho tất cả các kiểu của các điểm ảnh (x  FG, x  BG) Trong

các phương pháp trừ nền, ảnh nền nguồn chỉ được cập nhật cho các điểm ảnh thuộc

nền (x  BG).

Điểm tinh vi trong việc cập nhật này là chọn ra giá trị cho  Nếu nó quá nhỏ, cácđối tượng nổi bật sẽ dẫn đến sự phân đoạn sai lệch trong các frame sau Cũng từ đó mà

sẽ ít có khả năng phát hiện các đối tượng đã dừng lại Nếu nó quá lớn, các đối tượng

có thể không bao giờ được phổ biến đến ảnh nền, mô hình nền như thế sẽ không thíchhợp cho sự thay đổi thời hạn lâu dài của cảnh vật

(a)

(b)

Trang 25

(c) Hình 2.1 : Ví dụ về mô hình trừ nền có khả năng thích ứng

Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo, ảnh (c) thể

hiện bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng phép trừ nền.

2.1.1.2 Mô hình hỗn hợp Gaussian tương thích

Stauffer và Grimson [44] đã trình bày mô hình hỗn hợp nền trực tuyến tươngthích có thể giải quyết đơn giản sự thay đổi của ánh sáng, các chuyển động lặp đi lặplại, sự hỗn loạn, các đối tượng dời đi từ các cảnh và các đối tượng chuyển động chậm.Chuyển động của chúng ở mô hình nền đơn không thể điều khiển nhiễu, sự thay đổiánh sáng và sự đa dạng mặt ngoài nhận được từ ảnh đối với mỗi phần của điểm ảnh ởcùng một thời điểm

Trong mô hình này, các giá trị của một điểm ảnh riêng lẻ theo thời gian được coinhư là một „„xử lý điểm‟‟ và sự kiện gần đây của các điểm ảnh, {X1,…,Xt}, được môhình bởi hỗn hợp của phân phối Gaussian K Khả năng của việc quan sát giá trị củađiểm ảnh hiện thời trở thành:

Việc giải quyết trên K được quyết định bởi sự sẵn sàng của bộ nhớ và sức mạnh

của tính toán Ngoài ra, ma trận hợp nhất được thừa nhận là mẫu sau với hiệu quả tínhtoán

Trang 26

k,tk  I

Nó thừa nhận ba màu thành phần red, green, blue là độc lập và có cùng biến Thủtục cho việc phát hiện các điểm ảnh nổi trội cụ thể như sau Bước đầu của hệ thống,

các phân bố Gaussian K cho một điểm ảnh được khởi tạo với giá trị trung bình được

định nghĩa trước, sự khác biệt cao và trọng số ban đầu thấp Khi một điểm ảnh mớiđược phát hiện trong dãy ảnh, xác định rõ kiểu của nó, vector RGB của nó được đánh

dấu tương phản với các Gaussian K, cho đến khi một điểm tương ứng được tìm thấy.

Một điểm tương ứng được định nghĩa như là một giá trị điểm ảnh không vượt quáchuẩn  (=2.5) của một phân bố tiếp theo, các trọng số chu kỳ của các phân bố K ở thời điểm t, k,t được cập nhật như sau

Để phát hiện ra kiểu của điểm ảnh mới, các phân bố Gaussian K được sắp xếp

theo giá trị của  /  Danh sách đã sắp xếp của các phân bố này tương ứng với hầu

hết các nền có khả năng từ đỉnh tới đáy trong công thức (2.7), các xử lý điểm ảnh nền

thực hiện phân bố Gaussian tương ứng khi khởi tạo với giá trị trọng số ban đầu lớn và

sự cách biệt nhỏ

Trang 27

2.1.1.3 Sự khác biệt theo thời gian

Sự khác biệt theo thời gian làm cho việc sử dụng các mức độ khác nhau của điểmảnh giữa hai hoặc ba frame liên tiếp trong video để trích rút các vùng chuyển động Nó

là một hướng tiếp cận phù hợp cho sự thay đổi các cảnh động Như vậy, nó sai khitrích rút tất cả các điểm ảnh liên quan của một đối tượng nổi trội, nhất là khi đối tượng

đó có kết cấu thống nhất hoặc chuyển động chậm Khi một đối tượng dừng chuyểnđộng, phương pháp khác biệt theo thời gian sai khi phát hiện sự thay đổi giữa cácframe liên tiếp và để mất đối tượng Các thuật toán hỗ trợ đặc biệt được yêu cầu đểphát hiện các đối tượng dừng lại

Ta bổ sung thêm phương pháp sự khác biệt theo thời gian thêm 2 frame trong hệ

thống này Đặt I n (x) là giá trị cường độ của mức xám của pixel ở vị trí (x) và ở thời điểm n của dãy ảnh video I thuộc vào đoạn [0, 255] Sự phối hợp khác biệt theo thời

gian của 2 frame này đề nghị thừa nhận là một điểm ảnh đang chuyển động nếu nóthỏa mãn như sau

I(x) I (x)T(x)

nn 1n

Trang 28

Từ đó, nếu một đối tượng có các vùng màu sắc thống nhất, công thức 2.12 sai khi

phát hiện một trong số các điểm ảnh bên trong vùng đó nếu như đối tượng chuyển

động Ngưỡng của mỗi điểm ảnh, T, khởi tạo thiết lập một giá trị quyết định trước và

sau đó cập nhật như sau

Việc bổ sung thêm 2 frame khác nhau có thể được thực hiện bởi việc lợi dụng mô

hình các tham biến cập nhật của phương pháp trừ nền thể hiện trong công thức 2.2

Nếu α và  bằng 0, nền này chứa ảnh I n-1 và sự phối hợp trừ nền trở thành y hệt như

cách bổ sung thêm 2 frame khác nhau

2.1.2 Bước hậu xử lý điểm ảnh

Các nhân tố khác nhau là nguyên nhân gây nhiễu trong việc phát hiện sự nổi trội

như là

- Nhiễu Camera : Nhiễu này nguyên nhân do các thành phần thu nhận

được từ ảnh của camera Cường độ của các điểm tương tự như một gờ nằm giữa

hai đối tượng khác nhau về màu sắc trong một cảnh có thể bị nhập thành một

thuộc về màu của một đối tượng trong một frame và thành một màu khác trong

một frame khác

- Nhiễu do phản xạ : Khi một nguồn sáng, chẳng hạn như mặt trời, chuyển

động, nó làm cho một số phần trong cảnh nền phản xạ ánh sáng Hiện tượng

này làm cho các thuật toán phát hiện nổi trội sai và phát hiện phần phản xạ như

là các vùng nổi trội

- Nhiễu đối tượng có cùng màu với nền : Một số phần của các đối tượng

có thể có cùng màu sắc như nền cơ sở đằng sau chúng Sự tương đồng này là

nguyên nhân làm cho một số các thuật toán phát hiện các điểm ảnh đó như

không phải là điểm nổi bật và các đối tượng bị phân đoạn thiếu chính xác

- Sự thay đổi ánh sáng đột ngột và bóng : Bóng đổ từ các đối tượng được

phát hiện như điểm nổi bật bởi hầu hết các thuật toán phát hiện Ngoài ra, sự

thay đổi ánh sáng đột ngột làm cho các thuật toán sai khi phát hiện chính xác

các đối tượng thực sự nổi bật

Trang 29

2.1.2.1 Phát hiện bóng và sự thay đổi ánh sáng đột ngột

Hầu hết các thuật toán phát hiện nổi trội đều dễ bị ảnh hưởng bởi bóng và cácthay đổi đột ngột của ánh sáng, đó là nguyên nhân phân đoạn nổi trội không đúng Vớicác bước xử lý sau như phân loại đối tượng và đánh dấu yêu cầu có sự chính xác trongviệc phân đoạn đối tượng, Việc đối phó với bóng và các thay đổi đột ngột của ánh sáng

là rất quan trọng trong các hệ thống giám sát thông minh

Trong bài này, ta sử dụng phối hợp phát hiện bóng Ta làm rõ rằng các điểm ảnhtrong các vùng vector màu RGB ở trong cùng một hướng với các vector màu RGB củacác điểm ảnh nền tương ứng với một số lượng chênh lệch nhỏ và giá trị độ sáng củabóng điểm ảnh là nhỏ hơn độ sáng của các điểm nền tương ứng Để định nghĩa chính

thức điều này, ta đặt I x là màu RGB của một điểm ảnh của ảnh hiện thời ở vị trí x, và

ˆ

B x là màu RGB của điểm ảnh nền tương ứng Hơn nữa, đặt I x là vector mà được bắt

Trang 30

Trong đó τ là ngưỡng định nghĩa trước gần với một Phép nhân (.) được dùng để

ˆˆ

kiểm tra xem I x và B x có cùng hướng hay không Nếu phép nhân này (d x ) của I x và B x

gần đến một, nó chỉ ra rằng chúng hầu hết ở cùng một hướng với lượng khác biệt nhỏ

Lần kiểm tra thứ hai được thực hiện để bảo đảm rằng giá trị ánh sáng của I x là nhỏ hơn

B x Hình 2.5 thể thể hiện một ví dụ các vùng nổi trội với các bóng trước và sau khi xóa

bóng

Bên cạnh việc xóa bóng, việc phát hiện sự thay đổi ánh sáng đột ngột cũng là mộtyêu cầu cần thiết đáp ứng hệ thống giám sát thông minh để tiếp tục phát hiện và phântích đối tượng một cách chính xác Một sự thay đổi tổng thể có thể dẫn đến nhiềutrường hợp do mặt trời bị hoặc không bị che khuất bởi mây trong môi trường bênngoài hoặc do bật đèn trong nhà Cả hai sự thay đổi đó làm cho ánh sáng thay đổi độtngột trong cảnh mà mô hình nền tương thích không thể điều khiển được Hình 2.6 thểhiện một ví dụ các frame trước và sau khi ánh sáng thay đổi đột ngột Một thực tế chothấy rằng sự thay đổi ánh sáng tổng thể một cách đột ngột là nguyên nhân dẫn đến các

mô hình nền phân loại với tỷ lệ lớn (>50%) của các điểm ảnh trong cảnh như là điểmnổi trội Như vậy, trong một số tình huống, các đối tượng thông thường chuyển độngrất gần camera, giả định này quá đơn giản và sai lầm Theo đó, mục đích của sự phânbiệt thay đổi ánh sáng tổng thể từ chuyển động của một đối tượng lớn, ta làm một kiểmtra khác bằng cách dựa vào thực tế rằng trong trường hợp thay đổi ánh sáng tổng thể,

sự thay đổi về hình dáng và kích cỡ của các biên đối tượng trong một cảnh không thayđổi quá nhiều và đường bao xung quanh của các vùng nổi trội được phát hiện khôngphù hợp với các biên thực tế trong cảnh trong khi trong trường hợp chuyển động củamột đối tượng lớn thì đường bao các vùng nổi trội được phát hiện phù hợp với cácđường biên thực tế trong ảnh

Trang 32

vì thế mô hình nền được khởi tạo lại với các ảnh hiện thời và một số các ảnh được chophép Các ảnh có sóng cũng có thể được sử dụng thay cho các gradient để phân biệt sựthay đổi ánh sáng tổng thể một cách đột ngột.

Trang 33

( e)

Hình 2.7 : Phát hiện sự thay đổi ánh sáng thực sự

(a) Nền cơ sở ước lượng ; (b) gradient của nền ; (c) ảnh hiện thời ; (d) gradient của ảnh hiện thời ; ( e) sự khác biệt gradient.

Trang 34

2.1.4 Bước hậu xử lý vùng

Ngay sau bước loại bỏ nhiễu, một vài vùng tự tạo nhỏ còn lại làm cho việc phânđoạn đối tượng không đúng Để khử các vùng loại này, kích cỡ vùng trung bình ()trong giới hạn của các điểm ảnh được tính toán cho mỗi frame và các vùng có kích cỡ

Trang 35

nhỏ hơn một số thập phân (α) của kích cỡ vùng trung bình (Size(region)<α* ) bị xóa

khỏi bản đồ điểm nổi bật

Mặt khác, về các lỗi phân đoạn, một vài phần của các đối tượng được tìm thấy

không liên tục từ thân chính Để hiệu chỉnh nhược điểm này, các hộp bao xung quanh

của một vùng là độc lập với các vùng khác mà chúng được trộn lẫn cùng nhau và các

nhãn vùng được điều chỉnh

2.1.5 Trích rút các đặc trưng của đối tượng

Ngay khi ta phân đoạn các vùng, chúng ta trích rút các điểm đặc trưng của các

đối tượng tương ứng trong ảnh hiện thời Các điểm đặc trưng đó là kích thước (S),

điểm trung tâm của khối (C m ), lược đồ màu (H c) và đường viền các đốm màu của đối

tượng Việc tính toán kích thước của đối tượng là không quan trọng và ta chỉ đếm số

các điểm ảnh nổi bật mà được chứa trong hộp bao của đối tượng

Để tính toán điểm chính giữa của khối điểm, C m =(xC m ,yC m ), của một đối tượng

Trong đó n là số điểm ảnh trong O

Lược đồ màu, H c được tính toán trên các giá trị cường độ đơn sắc của các điểm

ảnh của đối tượng trong ảnh hiện thời Để giảm độ phức tạp tính toán của các phép

toán sử dụng cho H c , các giá trị màu được lượng tử hóa Đặt N là số khoảng cách (bin)

trong lược đồ, khi đó mọi khoảng cách bao gồm 255

giá trị màu

N

Lược đồ màu được tính toán bởi sự lặp đi lặp lại trên các điểm ảnh của O và tốc

độ tăng lên của giá trị lưu trữ của khoảng cách màu tương ứng trong lược đồ H c Với

mỗi đối tượng O, lược đồ màu đươc cập nhật như sau

c N c N i

Trong đó c i mô tả giá trị màu sắc của điểm ảnh thứ i Trong bước tiếp theo, lược

đồ màu sắc được chuẩn hóa cho phép thích hợp để so sánh với các lược đồ khác trong

các bước sau Lược đồ chuẩn hóa H c được tính như sau

Hi ˆ

c

2.2 Đánh dấu đối tượng

Trang 36

các phần của đối tượng trong các frame liên tục và để trích rút thông tin theo thời gian

Trang 37

sẽ không thể thực hiện Mặt khác, phân đoạn đối tượng nổi bật không đúng do cácbóng, sự phản xạ ánh sáng và các tình trạng bị chồng chéo làm cho việc đánh dấu làmột vấn đề nghiên cứu khó khăn.

Ta sử dụng một thuật toán đánh dấu mức đối tượng trong hệ thống này Tức là, takhông đánh dấu các phần đối tượng, như là các chi của người, nhưng ta đánh dấu đốitượng nguyên vẹn từ frame đến frame Các thông tin trích rút được ở mức này đều đầy

đủ cho hầu hết các ứng dụng giám sát thông minh

Hướng tiếp cận này sử dụng các đặc điểm của đối tượng như kích thước, tâm củakhối, hộp bao xung quanh và lược đồ màu sắc được trích rút từ các bước trước để xácminh sự liên hệ giữa đối tượng trong các frame liên tiếp [2] Hơn nữa, thuật toán nàyphát hiện đối tượng bị che khuất và phân biệt các đặc điểm của đối tượng sau khi chianhỏ các đối tượng bị che khuất Bằng cách phân tích thông tin về đường đi của đốitượng, hệ thống phát hiện này có thể phát hiện các đối tượng rời đi và biến mất rất tốt

Sơ đồ của hệ thống theo phương pháp đánh dấu này thể hiện trọng sơ đồ 2.2

Định dạng
Số trang	74
Dung lượng	3,62 MB