Sử dụng GA trong việc tối ưu hóa tham số của bài toán nhận dạng vật thể... Giới thiệu bài toánBài toán nhận dạng đối tượng Bài toán nhận dạng đối tượng là bài toán nhận dạng các đối tượ
Trang 1Sử dụng GA trong việc tối ưu hóa tham số
của bài toán nhận dạng vật thể
Trang 2Nhóm thực hiện
Trần Việt Dũng – KHMT K52
Mai Đình Lợi – KHMT K52
Phú Quang Hiển – KHMT K52
Trang 3Nội dung trình bày
I Tổng quan
II Các nghiên cứu liên quan
Trang 4I Giới thiệu bài toán
Bài toán nhận dạng đối tượng
Bài toán nhận dạng đối tượng là bài toán nhận dạng các đối tượng có trong ảnh và gán nhãn cho chúng một cách chính xác
Trang 5I Giới thiệu bài toán
Đầu vào:
Bức ảnh chưa được dán nhãn cụ thể.
Đầu ra:
Ảnh đã được gán nhãn rõ ràng sử dụng mã màu
Các nhãn được gán sẽ chỉ thuộc tập nhãn mà chương trình đang xét
Trang 6I Giới thiệu bài toán
Các bước :
Trang 7Tiền xử lý
Ảnh đầu vào sẽ được phân vùng bằng thuật toán textons
để làm nổi bật lên các đặc trưng trước khi được đưa vào tính toán cho CRF
Trang 8Gán nhãn sử dụng CRF
Sử dụng một hàm để tính toán xác suất của một lớp trên ảnh thông qua việc tính toán kết hợp xác suất của các đặc trưng trên ảnh
Trang 9Gán nhãn sử dụng CRF
Xác định một bộ tham số hợp lý cho hàm CRF
Tính toán chính xác phân phối lớp trên bức ảnh
=>đề xuất một phương pháp tối ưu hóa tham số ứng dụng giải thuật di truyền
Trang 10Bộ dữ liệu mẫu
gồm 591 ảnh kích thước xấp xỉ 320 x 240,
đã được gán nhãn bằng tay và được chia làm 21 lớp vật thể : nhà, cỏ, cây, bò, cừu, bầu trời, máy bay, nước, khuôn mặt, ô tô, xe máy, hoa, biển hiệu, chim, sách, ghế, đường, chó, mèo, cơ thể, thuyền
Bộ ảnh này sẽ được chia làm 3 phần: 45% dữ liệu huấn luyện, 10% dữ liệu xác nhận và 45% dữ liệu kiểm tra
Trang 11Ứng dụng
Lĩnh vực tìm kiếm hình ảnh
Thị giác máy tính
Trang 12II Các nghiên cứu liên quan
Một số mô hình nhận dạng lớp vật thể
mô hình đặc trưng của Fergus [1]
mô hình hình dạng biến đổi của Berg [2]
mô hình vân bề mặt của Winn [3]
không một phương pháp nào cho phép phân vùng ở mức độ điểm ảnh
Ngược lại, một số tác giả khác chỉ tập trung giải
quyết bài toán phân vùng ảnh[4][5]
Trang 13II Các nghiên cứu liên quan
Nhận dạng và phân vùng các phần của một vật thể : như Winn[6], Kumar[7], Leibe[8]
áp dụng một mô hình toàn bộ hình dáng vật thể
không thể giải quyết được những trường hợp khi vật thể
không nằm toàn bộ trong ảnh, hoặc vật thể bị che khuât quá nhiều
Trang 14II Các nghiên cứu liên quan
Nghiên cứu tương tự với nghiên cứu trong tài liệu này được mô tả bởi He[12]
kết hợp những đặc trưng của từng vùng và toàn bộ ảnh với
mô hình hình dáng và ngữ cảnh trong một Trường Ngẫu Nhiên Có Điều Kiện
Nghiên cứu này áp dụng phương pháp lấy mẫu Gibbs cho việc học các tham số và suy luận nhãn
nó bị giới hạn về tập dữ liệu và số lượng các nhãn có thể được xử lý một cách hiệu
Trang 15II Các nghiên cứu liên quan
Phương pháp “Fully Connected CRFs”
Trang 16III Kế hoạch thực hiện
Hướng tối ưu hóa hàm CRF sử dụng GA
Ta xác định các hàm số có sẵn cho từng loại đặc trưng
một (phân phối màu, phân phối vân bề mặt, ….)
Sử dụng GA để tối ưu hóa các tham số này:
dụng 1 khung nào đó để chọn
Để có thể tối ưu cần chọn 1 hàm phù hợp rồi xác định ảnh hưởng của từng tham số đến kết quả, từ đó tối ưu hóa dần dần
Trang 17III Kế hoạch thực hiện
Chia làm 3 nhóm nghiên cứu hàm đặc trưng khác nhau của ảnh:
nhóm 1: Nhận dạng sử dụng texture + color
nhóm 2: Nhận dạng bằng shape + location
nhóm 3: cải thiện kết quả bằng cách áp dụng nhiều đặc trưng
Đưa ra 2 – 3 hướng cài đặt bài toán
Trang 18Tài liệu tham khảo
1 Fergus, R., Perona, P., Zisserman, A.: Object class recognition by unsupervised scale-invariant learning In: CVPR'03 Volume II (2003) 264 - 271
2 Berg, A.C., Berg, T.L., Malik, J.: Shape matching and object recognition using low distortion correspondences In: CVPR (2005)
3 Winn, J., Criminisi, A., Minka, T.: Categorization by learned universal visual
dictionary Int Conf of Computer Vision (2005)
4 Kumar, S., Herbert, M.: Discriminative ¯elds for modeling spatial dependencies in natural images In: NIPS (2004)
5 Borenstein, E., Sharon, E., Ullman, S.: Combining top-down and bottom-up
segmentation In: Proceedings IEEE workshop on Perceptual Organization in
Computer Vision, CVPR 2004 (2004)
6 Winn, J., Jojic, N.: LOCUS: Learning Object Classes with Unsupervised
Segmentation Proc of IEEE ICCV (2005)
7 Kumar, P., Torr, P., Zisserman, A.: Obj cut Proc of IEEE CVPR (2005)
Trang 19Tài liệu tham khảo
segmentation In:BMVC'03 Volume II (2003) 264-271
recognition as machine translation: Learning a lexicon for a ¯xed image vocabulary ECCV (2002)
segmentation, detection, and recognition In: CVPR (2003)
segmentation with performance analysis In: CVPR (2000)
conditional random fieldsfor image labeling Proc of IEEE CVPR (2004)
Connected CRFs with Gaussian Edge Potentials