DÒ tìm đối TƯỢNG BẰNG PHƯƠNG PHÁP LOẠI bỏ nền NHÓM 1

Đây là phương pháp phát hiện tiền cảnh, hiểu đơn giản là ta sẽ tách 1 đối tượng trong ảnh ra khỏi hậu cảnh phía sau, nhằm mục đích hậu xử lý như nhận diện đối tượng, cử chỉ, chuyển động,

Trang 1

TRƯỜNG ĐẠI HỌC HỒNG ĐỨC KHOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

XỬ LÝ ẢNH

ĐỀ TÀI: NGHIÊN CỨU BÀI TOÁN DÒ TÌM ĐỐI TƯỢNG BẰNG

PHƯƠNG PHÁP LOẠI BỎ NỀN

Giáo viên: Nguyễn Đình Công Nhóm sinh viên thực hiện:

Phạm Bá Bằng Hoàng Văn Bình Nguyễn Thanh Chà Trịnh Xuân Cường Lớp: K24B-CNTT

K24C-CNTT

Thanh Hoá, tháng 1 năm 2022

Trang 2

MỤC LỤC

LỜI NÓI ĐẦU 3

I GIỚI THIỆU 4

1.1 Giới thiệu chung 4

1.2 Mục tiêu nghiên cứu 5

II THUẬT TOÁN CƠ BẢN 5

2.1 Giải thuật trừ nền 5

2.2 Phân ngưỡng ảnh 6

2.3 Thuật toán Otsu 6

III CÁC KỸ THUẬT TRONG QUÁ TRÌNH MÔ PHỎNG NỀN 8

3.1 Sử dụng phân biệt khung 8

3.2 Lọc trung bình 9

3.3 Chạy trung bình Gaussian 9

3.4 Các mô hình hỗn hợp nền 10

IV THỬ NGHIỆM 11

4.1 Đầu vào thử nghiệm 11

4.1.1 Đối với ảnh 11

4.1.2 Đối với video 12

4.2 Kết quả thử nghiệm 12

4.2.1 Đối với ảnh 12

4.2.2 Đối với video 13

4.3 Đánh giá 14

KẾT LUẬN 15

TÀI LIỆU THAM KHẢO 16

Trang 3

LỜI NÓI ĐẦU

Xử lý ảnh là một phân ngành trong xử lý số tín hiệu với tín hiệu

xử lý là ảnh Đây là một phân ngành khoa học mới rất phát triển trong những năm gần đây Xử lý ảnh gồm 4 lĩnh vực chính: xử lý nâng cao chất lượng ảnh, nhận dạng ảnh, nén ảnh và truy vấn ảnh

Sự phát triển của xử lý ảnh đem lại rất nhiều lợi ích cho cuộc sống của con người

Ngày nay xử lý ảnh đã được áp dụng rất rộng rãi trong đời sống như: photoshop, nén ảnh, nén video, nhận dạng biển số xe, nhận dạng khuôn mặt, nhận dạng chữ viết, xử lý ảnh thiên văn, ảnh y tế,

Background Subtraction hay Foreground Detection là một kỹ thuật trong Xử Lý Ảnh và Thị Giác Máy Tính Đây là phương pháp phát hiện tiền cảnh, hiểu đơn giản là ta sẽ tách 1 đối tượng trong ảnh ra khỏi hậu cảnh phía sau, nhằm mục đích hậu xử lý như nhận diện đối tượng, cử chỉ, chuyển động, tracking, … Trong khuôn khổ bài báo cáo này là giới thiệu một số kỹ thuật lọc đối tượng hiện nay

mà chúng em đã tìm hiểu được Chúng em sẽ giới thiệu chung về một số kỹ thuật lọc đối tượng sau đó có một số thử nghiệm nhỏ chạy trên công cụ Matlab

Chúng em cũng xin chân thành cảm ơn thầy Nguyễn Đình Công

đã hướng dẫn chúng em hoàn thành đề tài này

Chúng em xin chân thành cảm ơn !

Trang 4

I GIỚI THIỆU

1.1 Giới thiệu chung

Trước khi tìm hiểu một số thuật toán, chúng ta sẽ tìm hiểu một

số khái niệm cơ bản

Ảnh số (Digital Image) có thể được xem là một tập hợp các điểm ảnh thành phần (còn gọi là pixel) được cấu trúc thành một lưới toạ

độ về mặt không gian để mô tả hay biểu diễn các nội dung liên quan đến sự cảm nhận trực quan của thị giác Lưới toạ độ không gian của các điểm ảnh thường tổ chức thành dạng trục toạ độ hai chiều, biểu diễn vị trí vật lý của điểm ảnh Giá trị của mỗi điểm ảnh dùng để mô

tả thông tin về độ sáng chói, cường độ mức xám (gray-level), hay giá trị màu (color) của điểm ảnh đó Giá trị của mỗi điểm ảnh có thể là một giá trị đơn (ví dụ mô tả cường dộ xám của ảnh) hoặc có thể là một bộ gồm nhiều thành phần (ví dụ để mô tả các thành tố khác nhau của một màu) [1]

Một số loại ảnh như:

+ Ảnh nhị phân: 1 bit/pixel

+ Ảnh xám: 8 bits/pixel

+ Ảnh màu: 16-24 bit/pixel

+ RGB, YUV, HSL, YcbCr

Ảnh màu RGB và ảnh xám

Trong một bức ảnh được chia làm 3 phần là background, middle ground và foreground Trong đó background hay hậu cảnh là phần nền sau, ở xa bức ảnh nhất, chúng thường có kích thước nhỏ, màu sắc ít hơn và chứa ít chi tiết hơn Foreground hay tiền cảnh còn gọi là phần nền trước, chứa các đối tượng chủ thể của bức ảnh, nó gần với người xem nhất Middle ground hay trung cảnh, là phần ở giữa tiền cảnh và hậu cảnh

Trang 5

Video là một chuỗi các ảnh (khung hình hay frame), quan hệ thời gian giữa các khung hình biểu diễn ảnh động, được đồng bộ với nhau, được tạo ra bởi 1 chuẩn nén nào đó, như MPEG, XviD, H264,… Các định dạng phổ biến nhất là MP4, AVI, WMV, và mới nhất hiện nay là WEBM Để xử lý hình ảnh từ video thì phải decode ra thành những frame hình rồi mới xử lý

Video là một chuỗi các ảnh.

Background Subtraction hay Foreground Detection là một kỹ thuật trong Xử Lý Ảnh và Thị Giác Máy Tính Đây là phương pháp phát hiện tiền cảnh, hiểu đơn giản là ta sẽ tách 1 đối tượng trong ảnh ra khỏi hậu cảnh phía sau, nhằm mục đích hậu xử lý như nhận diện đối tượng, cử chỉ, chuyển động, tracking…

Phương pháp này dựa trên việc giả định hậu cảnh tĩnh (static background) và thường không áp dụng trong môi trường thực (ánh sáng tự nhiên, ngoài trời…) hoặc các thay đổi trên ảnh nền trong nhà (như màn hình TV) hoặc ngoài trời có mưa gió, thay đổi ánh sáng 1.2 Mục tiêu nghiên cứu

- Nghiên cứu bài toán dò tìm đối tượng bằng phương pháp loại bỏ nền

- Sử dụng công cụ Matlab để thử nghiệm một số thuật toán

II THUẬT TOÁN CƠ BẢN

2.1 Giải thuật trừ nền

Trừ nền là một cách tiếp cận được sử dụng rộng rãi để phát hiện các đối tượng chuyển động trong video từ camera tĩnh Cơ sở lý luận của phương pháp này là phát hiện các đối tượng chuyển động từ sự

Trang 6

khác biệt giữa hệ quy chiếu hiện tại và hệ quy chiếu, thường được gọi là "ảnh nền", hoặc "mô hình nền" Việc trừ nền hầu hết được thực hiện nếu hình ảnh được đề cập là một phần của luồng video Phép trừ nền cung cấp các dấu hiệu quan trọng cho nhiều ứng dụng trong thị giác máy tính, ví dụ theo dõi giám sát hoặc ước tính tư thế con người

Phép trừ nền thường dựa trên giả thuyết nền tĩnh thường không

áp dụng được trong môi trường thực Với các cảnh trong nhà, phản chiếu hoặc hình ảnh động trên màn hình dẫn đến thay đổi nền Tương tự, do gió, mưa hoặc sự thay đổi ánh sáng do thời tiết mang lại, các phương pháp nền tĩnh gặp khó khăn với các cảnh ngoài trời

2.2 Phân ngưỡng ảnh

Phân ngưỡng là kỹ thuật biến đổi ảnh đa cấp xám thành ảnh nhị phân Trong nhiều ứng dụng, ảnh nhị phân đóng vai trò quan trọng trong xử lý và nhận dạng đối tượng (nhận dạng ký tự, chữ viết tay, dấu vân tay, bài toán gán nhãn, các phép toán hình thái,…) Mục đích của kỹ thuật phân ngưỡng ảnh là tút gọn thông tin trong ảnh về dạng nhị phân (chỉ có 2 giá trị: đen và trắng) mà không làm mất mát nhiều thông tin của ảnh gốc Thông thường, kỹ thuật phân ngưỡng hình ảnh cần một tham số đầu vào là giá trị ngưỡng T Khi đó, thuật toán phân ngưỡng được thực hiện như sau:

L (i, j)={255 nếu L (i, j)>T 0 nếu L(i , j)≤ T

Trong đó: L(i,j) là giá trị pixel tại toạ độ i, j

T là ngưỡng để phân (T có giá trị từ 0 – 255)

2.3 Thuật toán Otsu

Việc xác định tự động tham số ngưỡng cho các ảnh khác nhau là rất cần thiết và có ý nghĩa quan trọng trong phân ngưỡng ảnh Thuật toán Otsu ra đời theo tên một nhà nghiên cứu người Nhật đã nghĩ ra

ý tưởng cho việc tính ngưỡng một cách tự động dựa vào giá trị điểm ảnh của ảnh đầu vào nhằm thay thế cho việc sử dụng ngưỡng cố định

Trang 7

Kỹ thuật Otsu là một trong những thuật toán hiệu quả nhất để xác định tự động giá trí ngưỡng thích nghi cho các ảnh được thu nhận trong các ngữ cảnh khác nhau Mặc dù vậy, thuật toán này yêu cầu ảnh đầu vào chỉ chứa hai thành phần chính (bi-class): đối tượng (foreground) và nền (background) Ý tưởng cơ bản thuật toán Otsu

đó là tìm giá trị ngưỡng tối ưu mà sau khi phân ngưỡng thì các điểm ảnh bên trong mỗi lớp sẽ gần nhau nhất có thể (mật độ các điểm ảnh trong mỗi lớp khá dày đặc), nói cách khác phương sai trung bình của các điểm ảnh bên trong mỗi lớp sẽ đạt giá trị cực tiểu (weighted within-class variance).[1]

Đầu tiên sử dụng lược đồ Histogram biểu diễn tần suất xuất hiện mức xám:

P i=∑

i=0

L−1 n i

(M N )

Trong đó: ni là số lượng điểm ảnh của giá trị i

L: 1, 2, 3, …256

po + p1 + p2 +…+ pL-1 = 1 Chọn một ngưỡng Tk = k, (0<k<L-1) để phân ảnh đầu vào thành

2 lớp C1 (tập hợp các điểm ảnh có giá trị ≤k) và C2 (tập hợp các điểm ảnh có giá trị lớn hơn k) Tỉ lệ lớp C1 với số lượng điểm ảnh k với tổng

số lượng điểm ảnh được ký hiệu P1(k), tương tự C2 ký hiệu là P2(k)

P i (k )=∑

i=0

k

P i

P2(k )= ∑

i=k +1

L−1

P i=1−Pi(k )

Sau đó ta tính giá trị trung bình m1 của lớp C1:

m1( k )=∑

i=0

k

iP(C i1)= 1

P1(k)∑

i =0

k

i P i

Tương tự tính m2:

m2( k )= ∑

i=k +1

L−1

iP(C i2)= 1

P2(k ) ∑

i=k+1 L−1

i P i

Trang 8

Theo Otsu, ta sẽ tính ngưỡng k¿ mà giá trị tại đó sự chênh lệch giữa hai đoạn (màu nền và màu ký tự) đạt giá trị cực đại, ký hiệu

σ B2(k¿

), được tính:

σ B2(k¿)= Max

0 ≤k ≤ L−1 σ B2(k)

Trong đó σ B là phương sai hai lớp C1 và C2 Ta có:

σ B=P1(m1−m g)2+P2(m2−m G)2

¿P1P2(m1−m2)2

¿(m G P−m)2

P1(1−P1)

Từ công thức trên ta suy ra:

σ B2(k )=[m G P1( k )−m( k)]2

P1(k )[1−P1(k )]

Trong đó: - mG là giá trị trung bình của ảnh

m G=∑

i=0

L−1

i P i hoặc m G=P1m1+P2m2

- mk là giá trị trung bình đến ngưỡng k

m k=∑

i=0

k

i P i

Nếu có nhiều giá trị σ B2 lớn nhất bằng nhau, ta sẽ chọn k có giá trị lớn nhất làm ngưỡng k*, sau đó ta thực hiện nhị phân biển số theo ngưỡng

g(x,y) = 1 if f(x,y) < k*

và g(x,y) = 0 if f(x,y) > k*

Trong đó: g(x,y) là đầu ra, f(x,y) là đầu vào

x, y là toạ độ của điểm ảnh

III CÁC KỸ THUẬT TRONG QUÁ TRÌNH MÔ PHỎNG NỀN

Giải thuật trừ nền là dùng ảnh chứa đối tượng để trừ đi ảnh chỉ

có nền, từ đó ta sẽ thu được đối tượng Vì vậy, chúng ta cần phải xác định được nền của ảnh hoặc video Như đã giới thiệu, video là một chuỗi các khung hình nối tiếp nhau, nên ta sẽ sử dụng các khung hình này để tìm ra nền Dưới đây là một số kỹ thuật dùng trong việc

Trang 9

mô phỏng nền của một video bằng cách sử dụng các frame hình của video

3.1 Sử dụng phân biệt khung

Một thuật toán phát hiện chuyển động bắt đầu bằng các phân đoạn nơi mà tiền cảnh hoặc đối tượng chuyển động đã được phân đoạn ra khỏi hậu cảnh Cách đơn giản nhất để thực hiện là lấy một ảnh như là nền và các khung ảnh thu được tại thời điểm t, ký hiệu là I(t) để do sánh với hậu cảnh, ký hiệu là B Ở đây ta sử dụng các phương pháp tính đơn giản, ta có thể tách đối tượng một cách tương đối dễ dàng bằng cách sử dụng kỹ thuật trừ ảnh (image subtraction) của Computer Vision cho mỗi điểm ảnh tại thời điểm t – I(t), lấy điểm giá trị điểm ảnh – ký hiệu P[I(t)] và trừ cho điểm ảnh tương ứng cùng

vị trí trên hậu cảnh, ký hiệu là P[B]

Ta có phương trình:

P[F(t)] = P[I(t) – P[B]

Hậu cảnh (nền) được giả định là một khung hình tại thời điểm t Hình ảnh khác biệt này – P[F(t)] sẽ chỉ hiển thị cường độ cho các điểm ảnh đã thay đổi trong 2 khung hình Vì vậy, ta thấy gần như hậu cảnh đã bị xoá đi Cách thực hiện này sẽ chỉ làm việc trong trường hợp các tiền cảnh, đối tượng là di chuyển và hậu cảnh là tĩnh (static background) Việc tạo ngưỡng ảnh sẽ được đưa vào hình ảnh khác biệt – P[F(t)] để tăng hiệu quả của việc trừ nền

| P[F(t)] – P[F(t+1)] | > Threshold

Có nghĩa rằng cường độ trong các điểm ảnh của hình ảnh khác biệt đã bị nhị phân hoá (bằng việc tạo ngưỡng) hay được lọc bằng giá trị của Nhị phân hoá (Ngưỡng nhị phân, giá trị T) Sự chính xác của phương pháp này phụ thuộc vào tốc độ di chuyển trong khung cảnh (scene) Các chuyển động nhanh hơn thì cần tạo ngưỡng cao hơn.[3]

3.2 Lọc trung bình

Để tính toán ảnh chỉ chứa nền, một loạt các ảnh trước đó sẽ được tính trung bình Để tính toán nền ở thời điểm t, ta có công thức

B (x , y ,t )=1

i=1 N

V (x , y ,t−i)

Trang 10

Trong đó N là số lượng ảnh trước đó dùng để tính trung bình Giá trị trung bình này là trung bình giá trị của các điểm ảnh trong ảnh được cho N phụ thuộc vào tốc độ Video – số lượng ảnh mỗi giây và lượng di chuyển của đối tượng trong ảnh Sau khi tính toán nền B(x,

y, t) ta có thể trừ nó từ ảnh V(x, y, t) tại thời điểm t và tạo ngưỡng nhị phân cho nó Sau đó, tiền cảnh sẽ như sau:

| V(x, y, t) – B(x, y, t) | > Th Trong đó Th là ngưỡng nhị phân, tương tự ta có thể sử dụng Median (trung tuyến) hay cho Mean (trung bình) để tính giá trị B(x, y, t) Nếu sử dụng cùng một ngưỡng cho tất cả các điểm ảnh với thời gian độc lập có thể giảm độ chính xác của 2 phương pháp trên.[3] 3.3 Chạy trung bình Gaussian

Chạy trung bình Gaussian (Running Gaussian Average) - đây là một phương pháp mà Wren et Al đề xuất phù hợp với một hàm mật

độ xác suất Gaussian - Gaussian probabilistic density function (pdf) trên n khung Để tránh chỉnh sửa pdf từ đầu mỗi khung giờ mới t, trung bình đang chạy được tính

Các pdf của mỗi điểm ảnh được đặc trừng bởi trung bình U t và phương sai σ B2 Một số điều kiện ban đầu có thể có:

U0=I0

σ02= (một số giá trị mặc định)

I t là giá trị cường độ của pixel tại thời điểm t Ví dụ, để khởi tạo phương sai, chúng ta có thể sử dụng phương sai theo x và y từ một cửa sổ nhỏ xung quanh mỗi pixel

Nền có thể thay đổi theo thời gian (ví dụ: do thay đổi ảnh sáng, hoặc không phải nền tĩnh) Để đáp ứng sự thay đổi đó, ở mọi khung hình t, giá trị trung bình và phương sai của mọi pixel phải được cập nhật, như sau:

U t=p I t+(1− p) U t−1

σ t2=d2p+(1−p ) σ t2−1

d=¿ ¿

Trong đó I t là giá trị cường độ của pixel tại thời điểm t

Trang 11

p là xác định định kích thức của cửa sổ tạm thời, thường

p = 0.01

d là khoảng cách Euclide giữa giá trị trung bình và giá trị pixel

Bây giờ ta có thể phân loại một pixel làm nền nếu cường độ dòng điện của nó nằm trong khoảng tin cậy nào đó của giái trị trung binh của phân phối:

if¿ ¿ ¿ > k -> (foreground)

if¿ ¿ ¿ ≤ k -> (background)

k là giá trị ngưỡng (thường k = 2.5) Giá trị lớn hơn của k cho phép nền động hơn Trong khi k tăng xác suất chuyển đổi từ hậu cảnh sang tiền cảnh do những thay đổi tinh vi hơn

Trong một biến thể của phương pháp này, phân phối của pixel chỉ được cập nhật nếu nó được phân loại là nền Điều này là để ngăn các đối tượng tiền cảnh mới được đưa vào mờ dần vào hậu cảnh Công thức cập nhật cho giá trị trung bình cũng được thay đổi tương ứng:

U t=M U t−1+(1−M)(It p+(1− p) U t −1)

M = 1 khi I t được coi là tiền cảnh và M = 0 khi I t được xem là hậu cảnh Khi M=1, nghĩa là pixel được phát hiện là tiền cảnh, giá trị trung bình sẽ giữ nguyên Do đó, một pixel, một khi nó đã trở thành nền trước, chỉ có thể trở thành nền trở lại khi giá trị ccường độ gần với giái trị trước khi chuyển sang nền trước.[3]

Tuy nhiên, phương pháp này có một số vấn đề là nó chỉ hoạt động nếu tất cả các pixel ban đầu là pixel nền Ngoài ra, nó không thể đối phó với những thay đổi nền dần dần: nếu một pixel được phân loại là nền trước trong một khoảng thời gian quá dài, cường độ nền ở vị trí đó có thể đã thay đổi (vì độ sáng đã thay đổi, …) Do đó, khi đối tượng nền trước biến mất, cường độ nền mới có thể không được nhận dạng như vậy nữa.[3]

3.4 Các mô hình hỗn hợp nền

Phương pháp hỗn hợp Gaussian tiếp cận bằng cách mô hình hoá mỗi pixel như một hỗn hợp của Gausian và sử dụng một phép gần

Trang 12

đúng để cập nhật mô hình Trong kỹ thuật này giả định rằng mọi giá trị cường độ của pixel trong video có thể được mô hình hoá bằng mô hình hỗn hợp Gaussian Một heuristic đơn giản xác định cường độ nào có thể là của nền Sau đó, các pixel không khớp với chúng được gọi là pixel tiền cảnh Các pixel tiền cảnh được nhóm lại bằng cách

xử dụng phân tích thành phần được kết nối 2D

Phép gần đúng K-mean được sử dụng để cập nhật Gaussian Nhiều cải tiến của phương pháp ban đầu này là do Stauffer và Grimson phát triền đã được đề xuất và có thể tìm thấy một cuộc khảo sát đầy đủ trong Bouwmans et al Một phương pháp tiêu chuẩn của nền thích ứng là tính trung bình các ảnh theo thời gian, tạo ra giá trị xấp xỉ nền tương tự như cảnh tĩnh hiện tại ngoại trừ trường hợp này xảy ra chuyển động.[3]

IV THỬ NGHIỆM

Với chương trình thử nghiệm trên Matlab, do một số hạn chế nên chúng em chỉ sử dụng một số thuật toán để tách đối tượng như thuật toán phân ngưỡng thủ công, thuật toán phân ngưỡng tự động Otsu

và giải thuật trừ nền

4.1 Đầu vào thử nghiệm

4.1.1 Đối với ảnh

Định dạng
Số trang	18
Dung lượng	2,31 MB