1. Trang chủ
  2. » Thể loại khác

Sử dụng GA trong việc tối ưu hóa tham số của bài toán nhận dạng vật thể

19 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử dụng GA trong việc tối ưu hóa tham số của bài toán nhận dạng vật thể
Tác giả Trần Việt Dũng, Mai Đình Lợi, Phú Quang Hiển
Chuyên ngành Khoa học máy tính
Thể loại Bài thuyết trình
Định dạng
Số trang 19
Dung lượng 871,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sử dụng GA trong việc tối ưu hóa tham số của bài toán nhận dạng vật thể... Giới thiệu bài toánBài toán nhận dạng đối tượng Bài toán nhận dạng đối tượng là bài toán nhận dạng các đối tượ

Trang 1

Sử dụng GA trong việc tối ưu hóa tham số

của bài toán nhận dạng vật thể

Trang 2

Nhóm thực hiện

Trần Việt Dũng – KHMT K52

Mai Đình Lợi – KHMT K52

Phú Quang Hiển – KHMT K52

Trang 3

Nội dung trình bày

I Tổng quan

II Các nghiên cứu liên quan

Trang 4

I Giới thiệu bài toán

Bài toán nhận dạng đối tượng

Bài toán nhận dạng đối tượng là bài toán nhận dạng các đối tượng có trong ảnh và gán nhãn cho chúng một cách chính xác

Trang 5

I Giới thiệu bài toán

Đầu vào:

 Bức ảnh chưa được dán nhãn cụ thể.

Đầu ra:

 Ảnh đã được gán nhãn rõ ràng sử dụng mã màu

 Các nhãn được gán sẽ chỉ thuộc tập nhãn mà chương trình đang xét

Trang 6

I Giới thiệu bài toán

 Các bước :

Trang 7

Tiền xử lý

Ảnh đầu vào sẽ được phân vùng bằng thuật toán textons

để làm nổi bật lên các đặc trưng trước khi được đưa vào tính toán cho CRF

Trang 8

Gán nhãn sử dụng CRF

Sử dụng một hàm để tính toán xác suất của một lớp trên ảnh thông qua việc tính toán kết hợp xác suất của các đặc trưng trên ảnh

Trang 9

Gán nhãn sử dụng CRF

Xác định một bộ tham số hợp lý cho hàm CRF

Tính toán chính xác phân phối lớp trên bức ảnh

=>đề xuất một phương pháp tối ưu hóa tham số ứng dụng giải thuật di truyền

Trang 10

Bộ dữ liệu mẫu

gồm 591 ảnh kích thước xấp xỉ 320 x 240,

đã được gán nhãn bằng tay và được chia làm 21 lớp vật thể : nhà, cỏ, cây, bò, cừu, bầu trời, máy bay, nước, khuôn mặt, ô tô, xe máy, hoa, biển hiệu, chim, sách, ghế, đường, chó, mèo, cơ thể, thuyền

Bộ ảnh này sẽ được chia làm 3 phần: 45% dữ liệu huấn luyện, 10% dữ liệu xác nhận và 45% dữ liệu kiểm tra

Trang 11

Ứng dụng

Lĩnh vực tìm kiếm hình ảnh

Thị giác máy tính

Trang 12

II Các nghiên cứu liên quan

Một số mô hình nhận dạng lớp vật thể

 mô hình đặc trưng của Fergus [1]

 mô hình hình dạng biến đổi của Berg [2]

 mô hình vân bề mặt của Winn [3]

không một phương pháp nào cho phép phân vùng ở mức độ điểm ảnh

Ngược lại, một số tác giả khác chỉ tập trung giải

quyết bài toán phân vùng ảnh[4][5]

Trang 13

II Các nghiên cứu liên quan

Nhận dạng và phân vùng các phần của một vật thể : như Winn[6], Kumar[7], Leibe[8]

 áp dụng một mô hình toàn bộ hình dáng vật thể

 không thể giải quyết được những trường hợp khi vật thể

không nằm toàn bộ trong ảnh, hoặc vật thể bị che khuât quá nhiều

Trang 14

II Các nghiên cứu liên quan

Nghiên cứu tương tự với nghiên cứu trong tài liệu này được mô tả bởi He[12]

 kết hợp những đặc trưng của từng vùng và toàn bộ ảnh với

mô hình hình dáng và ngữ cảnh trong một Trường Ngẫu Nhiên Có Điều Kiện

 Nghiên cứu này áp dụng phương pháp lấy mẫu Gibbs cho việc học các tham số và suy luận nhãn

 nó bị giới hạn về tập dữ liệu và số lượng các nhãn có thể được xử lý một cách hiệu

Trang 15

II Các nghiên cứu liên quan

Phương pháp “Fully Connected CRFs”

Trang 16

III Kế hoạch thực hiện

Hướng tối ưu hóa hàm CRF sử dụng GA

Ta xác định các hàm số có sẵn cho từng loại đặc trưng

một (phân phối màu, phân phối vân bề mặt, ….)

Sử dụng GA để tối ưu hóa các tham số này:

dụng 1 khung nào đó để chọn

Để có thể tối ưu cần chọn 1 hàm phù hợp rồi xác định ảnh hưởng của từng tham số đến kết quả, từ đó tối ưu hóa dần dần

Trang 17

III Kế hoạch thực hiện

Chia làm 3 nhóm nghiên cứu hàm đặc trưng khác nhau của ảnh:

 nhóm 1: Nhận dạng sử dụng texture + color

 nhóm 2: Nhận dạng bằng shape + location

 nhóm 3: cải thiện kết quả bằng cách áp dụng nhiều đặc trưng

Đưa ra 2 – 3 hướng cài đặt bài toán

Trang 18

Tài liệu tham khảo

1 Fergus, R., Perona, P., Zisserman, A.: Object class recognition by unsupervised scale-invariant learning In: CVPR'03 Volume II (2003) 264 - 271

2 Berg, A.C., Berg, T.L., Malik, J.: Shape matching and object recognition using low distortion correspondences In: CVPR (2005)

3 Winn, J., Criminisi, A., Minka, T.: Categorization by learned universal visual

dictionary Int Conf of Computer Vision (2005)

4 Kumar, S., Herbert, M.: Discriminative ¯elds for modeling spatial dependencies in natural images In: NIPS (2004)

5 Borenstein, E., Sharon, E., Ullman, S.: Combining top-down and bottom-up

segmentation In: Proceedings IEEE workshop on Perceptual Organization in

Computer Vision, CVPR 2004 (2004)

6 Winn, J., Jojic, N.: LOCUS: Learning Object Classes with Unsupervised

Segmentation Proc of IEEE ICCV (2005)

7 Kumar, P., Torr, P., Zisserman, A.: Obj cut Proc of IEEE CVPR (2005)

Trang 19

Tài liệu tham khảo

segmentation In:BMVC'03 Volume II (2003) 264-271

recognition as machine translation: Learning a lexicon for a ¯xed image vocabulary ECCV (2002)

segmentation, detection, and recognition In: CVPR (2003)

segmentation with performance analysis In: CVPR (2000)

conditional random fieldsfor image labeling Proc of IEEE CVPR (2004)

Connected CRFs with Gaussian Edge Potentials

Ngày đăng: 15/12/2022, 20:31

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Fergus, R., Perona, P., Zisserman, A.: Object class recognition by unsupervised scale-invariant learning. In: CVPR'03. Volume II. (2003) 264 - 271 Khác
2. Berg, A.C., Berg, T.L., Malik, J.: Shape matching and object recognition using low distortion correspondences. In: CVPR. (2005) Khác
3. Winn, J., Criminisi, A., Minka, T.: Categorization by learned universal visual dictionary. Int. Conf. of Computer Vision (2005) Khác
4. Kumar, S., Herbert, M.: Discriminative ¯elds for modeling spatial dependencies in natural images. In: NIPS. (2004) Khác
5. Borenstein, E., Sharon, E., Ullman, S.: Combining top-down and bottom-up segmentation. In: Proceedings IEEE workshop on Perceptual Organization in Computer Vision, CVPR 2004. (2004) Khác
6. Winn, J., Jojic, N.: LOCUS: Learning Object Classes with Unsupervised Segmentation. Proc. of IEEE ICCV. (2005) Khác
7. Kumar, P., Torr, P., Zisserman, A.: Obj cut. Proc. of IEEE CVPR. (2005) Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w