HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN II _____________ BÁO CÁO GIỮA KỲ MÔN HỌC: XỬ LÝ ẢNH Đề tài: PHÁT HIỆN ĐẶC TRƯNG VÀ
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN II
_
BÁO CÁO GIỮA KỲ
MÔN HỌC: XỬ LÝ ẢNH
Đề tài:
PHÁT HIỆN ĐẶC TRƯNG VÀ MÔ TẢ HÌNH DẠNG CỦA ĐỐI TƯỢNG TRONG ẢNH BẰNG THUẬT TOÁN HISTOGRAM OF ORIENTED GRADIENTS
(HOG)
PGS TS Lê Hoàng Thái
Giảng viên hướng dẫn:
Trang 2MỤC LỤC
Tóm tắt: 1
I GIỚI THIỆU CHUNG 1
1 Lịch sử phát triển 1
2 Một số ứng dụng 1
II TỔNG QUAN VỀ HOG 2
III PHƯƠNG PHÁP TIẾN HÀNH 2
1 Tiền xử lý 2
2 Tính toán Gradient 2
3 Các bước tính HOG 3
IV KẾT LUẬN 6
V ỨNG DỤNG THỰC TẾ VÀ KẾT QUẢ 6
VI NGUỒN VÀ TRÍCH DẪN 10
Trang 3Phát hiện đặc trưng và mô tả hình dạng của
đối tượng trong ảnh bằng thuật toán
Histogram of Oriented Gradients (HOG)
Nguyễn Thanh Tú Tóm tắt:
bài báo cáo này mô tả về khái quát về lịch sử phát triển, cách thức và quy trình xử lý của thuật toán Histogram of Oriented Gradients (HOG) trong việc phát hiện đặc trưng và đánh dấu các điểm mốc trên hình ảnh Bài viết tóm tắt dựa vào các nguồn thông tin trên internet bao gồm các diễn đàn, trang web, các bài báo khoa học trong và ngoài nước
1 Lịch sử phát triển:
Histogram of Oriented Gradients được sử dụng cho mục đích phát hiện đối tượng Khái niệm lần đầu tiên được định nghĩa bởi Robert K McConnell và được phổ biến rộng rãi khi được Navneet Dalal và Bill Triggs trình bày ở Hội nghị về Thị giác Máy tính và Nhận dạng Mẫu (CVPR) năm 2005
2 Một số ứng dụng:
Nhận dạng người hay Human Dectection là một ứng dụng phổ biến của HOG trong lĩnh vục thị giác máy tính (Computer Vision) Đây cũng là ứng dụng được Navneet Dalal & Bill Triggs (cha đẻ của thuật toán HOG) chọn để thực hiện nghiên cứu về Histogram of Oriented Gradients Trong bài báo được hai nhà khoa học công bố năm 2005, HOG được dùng để phân tích hơn 1800 ảnh người với một loạt các tư thế của chủ thể và bối cảnh khác nhau và kết quả cho thấy HOG thật sự là một thuật toán hiệu quả Ngay cả trong thời đại ngày ngay, khi mà những mô hình dựa trên Deep Learning bùng nổ mạnh mẽ, các
mô hình thuộc họ CNN (Inception Net, mobile Net, Resnet, Dense Net, Alexnet, Unet,…) chiếm ưu thế thì HOG vẫn là một trong những thuật toán điển đáng tham khảo cho người mới bước chân vào lĩnh vực nghiên cứu Thị giác Máy tính (Computer Vision)
Ngoài ra, HOG còn được sử dụng trong việc nhận diện gương mặt (Face Detection), nhận diện các vật thể khác hay tạo feature cho các bài toán phân loại ảnh,…
Trang 4II TỔNG QUAN VỀ HOG:
Điểm mấu chốt trong nguyên lý hoạt động của HOG là dựa trên hình dạng của một vật thể cục bộ được mô tả thông qua ma trận độ lớn Gradient (Gradient Magnitude) và ma trận phương Gradient (Gradient Direction) Hình ảnh sẽ được chia thành các lướt ô vuông, trên lưới xác định nhiều vùng cục bộ liền kề hoặc chồng lên nhau, một vùng cục gọi là Khối (Block) bao gồm nhiều ô cục bộ (4 ô
có kích thước 8x8 pixels) Sau đó biểu đồ histogram trên vùng cục bộ được chuẩn hóa theo Norm chuẩn bậc 2 hoặc Norm chuẩn bậc 1 Phép chuẩn hóa này nhằm tạo sự biến đổi tốt hơn đối với những thay đổi về ánh sánh và đổ bóng
1 Tiền xử lý:
Nhằm thuận tiện cho việc chia hình ảnh thành các khối (block) và các ô (cell) cho những bước tính toán sau này thì hình ảnh từ tập dữ liệu đầu vào nên được resize về một kích thước chung
Hình 1: Resize hình ảnh trong tập dữ liệu về một kích thước chung
2 Tính toán Gradient:
Áp dụng Mặt nạ Đạo hàm Rời rạc (Discrete Derivateive Mask) để tính các Gradient cả hai chiều ngang và dọc Sau đó sử dụng bộ lọc Sobel để tách các
ma trận có cường độ ảnh khác nhau
Đối với ảnh màu, Gradient của ba kênh (red, green, blue) được đánh giá Độ lớn của gradient tại một điểm ảnh là giá trị lớn nhất của cường độ gradient của ba kênh, và góc là góc tương ứng với gradient tối đa
Trang 5Hình 2: Kết quả sau khi thực hiện tính toán gradient
3 Các bước tính HOG:
i Chia hình ảnh thành các block có kích thước 16x16 pixels, mỗi block gồm
4 cell có kích thước 8x8 pixel
Hình 3: ảnh sau khi chia cell
Trang 6ii Tính toán đặc trưng HOG tại mỗi cell sử dụng không gian hướng 9 bin Tại mỗi cell xây dựng một ma trận 8x8 cường độ gradient và một ma trận 8x8 hướng gradient, vote trọng số của pixel vào biểu đồ Histogram of Gradients
Hình 4: Thực hiện đạo hàm thu được hai ma trận Gradient Magnitude và Gradient Direction
Hình 5: Vote trọng số của pixel vào Histogram of Gradients
Trang 7Hình 6: Thu được biểu đồ Histogram of Gradient gồm 9 bin tương ứng với một ô vuông trong lưới ô vuông
iii Chuẩn hóa vector histogram theo block 16x16 bằng cách thực hiện việc nối các vector histogram 1x9 lại với nhau thu được vector histogram tổng hợp 1x36 và chuẩn hóa norm bậc 2 trên vector này
iv Nói các vector 1x36 lại với nhau thành một vector lớn, đây chính là vector HOG đại diện cho toàn bộ hình ảnh
Hình 7: Kết quả thu được sau khi biểu diễn các vector Histogram trên các lưới ô vuông của ảnh gốc
Trang 8IV KẾT LUẬN:
Với một bức ảnh có kích thước lớn sẽ cho ra vector HOG đủ lớn để nhận ra các đặt trưng của vật thể từ đó phát hiện hình dạng của vật thể phục vụ cho việc hậu
xử lý sau này
Như đã trình bày ở trên, Histogram of Oriented Gradients (HOG) được ứng dụng trong nhiều việc liên quan đến Thị giác Máy tính Trong bài viết này, tác giả lấy ứng dụng trong việc nhận diện người (Human detection) làm ví dụ, chi tiết ứng dụng và cách thực hiện được trích nguồn từ bài viết “Thuật toán HOG (Histogram
of Oriented Gradients)” của tác giả Phạm Đình Khánh (Khoa học dữ liệu (phamdinhkhanh.github.io))
Trang 12VI NGUỒN VÀ TRÍCH DẪN:
2) Tìm hiểu về phương pháp mô tả đặc trưng HOG (Histogram of Oriented Gradients) – Hải Hà
- Anita Jindal, Rashmi Priya - International Journal of Engineering and Advanced Technology (IJEAT) ISSN: 2249 – 8958, Volume-9 Issue-2, December, 2019