Kết hợp đa đặc trưng trong mô hình crfs cho bài toán phân đoạn ảnh theo đối tượng

Trong khi đó, bài toán nhận dạng đối tượng chỉ ra được các đối tượng có trong hình, nhưng lại không chính xác đến từng pixel như trong bài toán phân đoạn ảnh mà chủ yếu xác định đối tượn

Trang 1

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN

Thành phố Hồ Chí Minh - 2010

Trang 2

Tôi cũng xin gởi lời cảm ơn sâu sắc đến anh Võ Đình Phong, người đã luôn theo sát tôi trong quá trình làm luận văn Những gợi ý, chỉ dẫn và phản biện của anh

vô cùng quý giá giúp tôi hoàn thành luận văn Tôi cũng xin cảm ơn các anh chị và bạn bè trong khoa công nghệ thông tin đã luôn giúp đỡ, trao đổi và thảo luận, cung cấp cho tôi nhiều thông tin và kiến thức hữu ích

Tôi cũng xin gởi lời cảm ơn quý thầy, cô trong khoa Công nghệ thông tin, Trường Đại Học Khoa Học Tự Nhiên TP.HCM, những người đã dày công dạy dỗ, truyền cho tôi rất nhiều tri thức cùng với những kinh nghiệm quý báu suốt những năm theo học tại trường

Và quan trọng nhất, con xin cảm ơn ba mẹ, những người vẫn luôn dành cho con những tình cảm yêu thương nhất, ba mẹ đã hỗ trợ con trong suốt thời gian học tập, đã động viên con mỗi khi khó khăn, giúp con có thêm tự tin thực hiện tốt công việc của mình

Xin chân thành cảm ơn!

Trang 3

MỤC LỤC

LỜI CÁM ƠN II MỤC LỤC III DANH MỤC HÌNH ẢNH V Danh sách các bảng VIII TÓM TẮT LUẬN VĂN IX Danh mục chữ viết tắt: XI

Chương 1: MỞ ĐẦU 1

1.1 Giới thiệu lĩnh vực và ý nghĩa của đề tài 1

1.1.1 Dẫn nhập 1

1.1.2 Lĩnh vực nghiên cứu của đề tài 3

1.1.3 Ý nghĩa lý luận và thực tiễn: 4

1.2 Các kết quả nghiên cứu liên quan 6

1.3 Phương pháp giải quyết đề xuất 8

1.4 Cấu trúc luận văn 10

Chương 2: TRƯỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN VÀ CỰC TIỂU HOÁ NĂNG LƯỢNG BẰNG GRAPH-CUT 13

2.1 Trường ngẫu nhiên có điều kiện 13

2.2 Cực tiểu hoá năng lượng 15

2.2.1 Tổng quan về cực tiểu hoá năng lượng 15

2.2.2 Cực tiểu hoá năng lượng bằng phương pháp graph cut 16

Chương 3: Mô hình CRFs cho bài toán phân đoạn ảnh theo đối tượng 24

3.1 Thế năng vân-bố cục 26

3.1.1 Texton hoá ảnh 27

Trang 4

3.1.2 Bộ lọc vân-bố cục 30

3.1.3 Thuật toán Joint Boosting 33

3.2 Thế năng màu sắc 36

3.3 Thế năng vị trí: 38

3.4 Mô hình CRF mức cao: 39

3.4.1 Phân đoạn ảnh không giám sát 39

3.4.2 Thế năng mức cao: 41

Chương 4: Kết quả thực nghiệm 43

4.1 Bộ dữ liệu 43

4.2 Độ đo 44

4.3 Bố trí thí nghiệm 44

4.4 Kết quả 45

4.4.1 Thí nghiệm với các kích thước từ điển khác nhau 45

4.4.2 Thí nghiệm với các mức độ kết hợp đặc trưng trong mô hình CRF đôi 46 4.4.3 Thí nghiệm kết hợp với kết quả phân đoạn ảnh không giám sát trong mô hình CRFs mức cao 48

Chương 5: Kết luận và hướng phát triển 52

5.1 Kết luận 52

5.2 Hướng phát triển 53

Tài liệu tham khảo 54

Trang 5

Danh mục chữ viết tắt:

CRF Conditional Random Fields

GMM Gaussian Mixture Models

Trang 6

DANH MỤC HÌNH ẢNH

Hình 1-1 Ví dụ về phân đoạn ảnh không giám sát (sử dụng thuật toán mean-shift [5]) 1Hình 1-2 – Ví dụ về bài toán nhận dạng đối tượng Sử dụng thuật toán trong [28] 2Hình 1-3 Ví dụ về bài toán phân đoạn ảnh theo đối tượng Hàng trên là ảnh đầu vào Hàng dưới là các ảnh kết quả với các màu sắc biểu diễn các đối tượng khác nhau 3Hình 1-4 Chương trình cắt dán ảnh tự động [4] 4Hình 1-5 Chương trình tổng hợp thông tin ngữ nghĩa 5Hình 1-6 Chương trình biên tập ảnh Bên trái: sau khi có kết quả phân đoạn ảnh, người dùng chọn người, thực đơn ngữ cảnh xuất hiện, xác định đây là vùng người Bên phải: kết quả khi người dùng nhấn nút xoá Vùng ảnh chứa người bị xoá [15] 5Hình 1-7 Mô hình chung của hệ thống phân đoạn ảnh theo đối tượng dùng trong luận văn 10Hình 2-1: Ví dụ về mô hình CRF đôi định nghĩa trên các biến ngẫu nhiên

, Mô hình bao gồm các thế năng đơn phân cho từng biến

và các thế năng liên kết giữa các biến kề nhau trong đó

Đồ thị factor thể hiện các biến liên quan trong từng thành phần 14Hình 2-2 Ví dụ về đồ thị (a) và đường cắt (b) Các cạnh nối giữa hai đỉnh đầu cuối với các pixel (màu đỏ và xanh) thể hiện thế năng đơn phân Các cạnh nối giữa các pixel (màu vàng) thể hiện thế năng liên kết Một đường cắt sẽ chia tập các pixel ra làm 2 phần, tương ứng với việc gán nhãn nhị phân 17Hình 2-3 Ví dụ đơn giản về phân đoạn ảnh 2D cho ảnh 3x3 Trọng số của các cạnh thể hiện bằng độ dày của cạnh đó trong hình Đầu tiên ảnh (a) sẽ được chuyển thành

đồ thị tương ứng (b), việc tìm ra đường cắt tối thiểu (c) tương ứng với sự phân đoạn ảnh tốt nhất (d) [38] 18Hình 2-4 Ví dụ về bước di chuyển (a) Nhãn ban đầu (b) “bước di chuyển đơn” sẽ thay đổi nhãn của một pixel (đánh dấu tròn) (c) “hoán đổi alpha-beta” thay đổi một

Trang 7

số pixel có nhãn alpha thành beta và ngược lại (d) “mở rộng alpha” thay đổi nhãn

của một số pixel thành alpha 20

Hình 2-5 Ví dụ về đồ thị cho ảnh 1 chiều Tập hợp các pixel trong ảnh là P = {p,q,r,s}, trong đó {q,r}có cùng nhãn, p có nhãn khác {q,r}, còn s có nhãn là khác cả 3 đỉnh trên Hai đỉnh phụ trợ là và được thêm vào để nối hai pixel láng giềng khác nhãn 22

Hình 3-1 Mô hình chung của hệ thống phân đoạn ảnh theo đối tượng dùng trong luận văn 24

Hình 3-2 Quá trình texton hoá ảnh Ảnh đầu vào được tích chập với một dãy các filter Kết quả trả về tại tất cảc pixel trong tất cả ảnh huấn luyện được gom nhóm để xây dựng bộ từ điển texton Cuối cùng từng pixel được gán một chỉ số texton tương ứng với nhóm gần nhất trong từ điển texton 28

Hình 3-3 Minh hoạ filter bank 17 chiều 29

Hình 3-4 Hình minh hoạ 17 filter response khi áp filter bank lên ảnh Ảnh trái trên là ảnh gốc 30

Hình 3-5 Phân tách bản đồ texton ra thành nhiều kênh Bản đồ texton gồm K texton được phân chia ra thành K kênh Ảnh integral được xây dựng cho từng kênh cho phép tính toán bộ lọc vân-bố cục với thời gian hằng số 31

Hình 3-6 Tính toán kết quả trả về và nắm bắt thông tin ngữ cảnh [15] 31

Hình 3-7 Nắm bắt thông tin bố cục 32

Hình 3-8 Minh hoạ các tính thế năng màu sắc 37

Hình 3-9 Minh họa về thế năng vị trí Màu trắng biểu hiện tần số xuất hiện cao Hình trên cho biết một số thông tin như cây và bầu trời thường nằm phía trên ảnh, đường nằm ở dưới ảnh Cỏ ít xuất hiện gần trung tâm mà xuất hiện nhiều ở phía dưới, ngược lại, mặt thường xuất hiện ở trung tâm ảnh 38

Hình 3-10 So sánh kết quả của ba thuật toán phân đoạn ảnh (b) thuật toán dựa trên đồ thị [23] , (c) thuật toán superpixel [21] (d) thuật toán mean-shift [5] 40

Hình 3-11 Minh hoạ hai cách tính thế năng mức cao Hình (a) ứng với công thức 4.26 Hình (b) ứng với công thức 4.27 42

Trang 8

Hình 4-1 Bộ dữ liệu MSRC Cột a-d là một số ảnh trong bộ dữ liệu Cột e là ảnh đã gán nhãn sẵn của các ảnh trong cột d 44Hình 4-2 Kết quả thí nghiệm hiệu năng của đặc trưng vân – bố cục với các kích thước từ điển texton khác nhau 45Hình 4-3 Một số kết quả trên tập dữ liệu MSRC Các cột lần lượt từ trái qua phải: ảnh đầu vào, ảnh kết quả dùng đặc trưng vân-bố cục, kết quả dùng thế năng đơn phân, ảnh kết quả dùng mô hình CRF đôi, ảnh groundtruth 47Hình 4-4 Một số kết quả trên tập dữ liệu MSRC Các cột lần lượt từ trái qua phải: ảnh đầu vào, ảnh kết quả dùng mô hình CRFs đôi, kết quả mô hình CRFs mức cao với tiền phân đoạn ảnh dùng thuật toán superpixel, kết quả dùng mô hình CRF mức cao với tiền phân đoạn ảnh dùng thuật toán mean-shift, ảnh groundtruth 48Hình 4-5 Minh họa kết quả phân đoạn ảnh khi áp dụng hai thuật toán superpixel và meanshift lên ảnh đầu vào và ảnh kết quả của mô hình CRFs mức cao Lần lượt từ trái qua phải: ảnh đầu vào, kết quả phân đoạn ảnh đầu vào dùng superpixel, kết quả phân đoạn ảnh kết quả dùng superpixel, kết quả phân đoạn ảnh đầu vào dùng mean-shift, kết quả phân đoạn ảnh kết quả dùng mean-shift 49Hình 4-6 Confusion matrix thể hiện kết quả của mô hình CRFs mức cao (mean-shift) 51Hình 4-7 Một số hình ảnh trong tập MSRC về đối tượng “bird” 51

Trang 9

Danh sách các bảng

Bảng 2-1.Trọng số các cạnh trong đồ thị mở rộng alpha 23Bảng 2-2 Trọng số các cạnh trong đồ thị mở rộng alpha 23Bảng 4-1 Hiệu năng chung của việc kết hợp các loại đặc trƣng khác nhau trong trong mô hình CRFs đôi 46Bảng 4-2 Hiệu năng cụ thể của từng lớp với các loại đặc trƣng khác nhau trong mô hình CRFs đôi 47Bảng 4-3 So sánh hiệu năng của mô hình CRFs đôi với hai mô hình CRFs mức cao

sử dụng superpixel và meanshift 48

Trang 10

Chương 1: MỞ ĐẦU

1.1 Giới thiệu lĩnh vực và ý nghĩa của đề tài

1.1.1 Dẫn nhập

Bài toán phân đoạn ảnh (image segmentation) và nhận dạng đối tượng (object

recognition) đều là những vấn đề kinh điển trong thị giác máy tính và nhận được sự quan tâm của cộng đồng nghiên cứu ngay từ những ngày đầu Tuy nhiên, nhiều tác giả xem xét hai vấn đề này như hai vấn đề riêng biệt nhau Mãi đến những năm gần đây, các nhà nghiên cứu mới tập trung vào việc kết hợp hai bài toán này

Các nghiên cứu thuần về phân đoạn ảnh tập trung vào việc phân chia một bức ảnh

thành các vùng không giao nhau Các pixel thuộc cùng một vùng sẽ có một số tính chất tương tự nhau về diện mạo như: màu sắc, độ sáng, và vân Việc phân đoạn ảnh này chỉ thể hiện các vùng khác nhau có diện mạo khác nhau, không chứa thông tin

ngữ nghĩa gì về các vùng này Dạng phân đoạn ảnh này còn được gọi là phân đoạn

ảnh không giám sát

Hình 1-1 Ví dụ về phân đoạn ảnh không giám sát (sử dụng thuật toán mean-shift [5])

Trang 11

Các nghiên cứu thuần về nhận dạng đối tượng tập trung vào việc xác định xem

trong bức ảnh cho trước có những đối tượng nào bằng cách đặt các ô hình chữ nhật xung quanh đối tượng cần nhận dạng

Hình 1-2 – Ví dụ về bài toán nhận dạng đối tượng Sử dụng thuật toán trong [28]

Bài toán phân đoạn ảnh chỉ quan tâm đến việc phân chia ảnh thành các vùng khác nhau mà không quan tâm đến ngữ nghĩa của từng vùng Trong khi đó, bài toán nhận dạng đối tượng chỉ ra được các đối tượng có trong hình, nhưng lại không chính xác đến từng pixel như trong bài toán phân đoạn ảnh mà chủ yếu xác định đối tượng bằng một khung hình chữ nhật Do đó, nhu cầu kết hợp hai bài toán này nhằm tận dụng ưu điểm của cả hai là rất cần thiết Bài toán kết hợp hai vấn đề trên gọi là bài

toán phân đoạn ảnh theo đối tượng (object segmentation)

Cụ thể hơn, cho trước một bức ảnh, thuật toán phân đoạn ảnh theo đối tượng sẽ tự động phân tách nó ra thành các vùng khác nhau và xác định ngữ nghĩa của từng

vùng Bài toán này còn được gọi là bài toán gán nhãn ảnh đa lớp (multi-class image

labeling) do việc phân đoạn ảnh tương đương với việc gán nhãn cho tất cả các pixel trong ảnh Giá trị nhãn của các pixel sẽ xác định lớp đối tượng mà pixel đó thuộc về (xem hình 1-3) Sự phân đoạn ảnh được thể hiện bằng các đường biên giữa các vùng có nhãn khác nhau Ví dụ, xem xét một bức ảnh chụp tại một thảo nguyên, thuật toán sẽ gán cho các pixel một số nhãn như: cỏ, thú, nước, bầu trời

Lưu ý rằng, khác với thuật toán phân đoạn ảnh thông thường, các thuật toán phân đoạn ảnh theo đối tượng đòi hỏi quá trình huấn luyện để rút ra mô hình cho các lớp cần gán nhãn Khái niệm “đối tượng” ở đây được hiểu như một tập hợp các pixel

Trang 12

gần nhau diễn tả một sự vật trong thế giới thực Các đối tượng này phải được định nghĩa trước, việc huấn luyện và thử nghiệm chỉ được tiến hành trên các đối tượng

đã định nghĩa này

Hình 1-3 Ví dụ về bài toán phân đoạn ảnh theo đối tượng Hàng trên là ảnh đầu vào Hàng dưới là các ảnh kết quả với các màu sắc biểu diễn các đối tượng khác nhau

1.1.2 Lĩnh vực nghiên cứu của đề tài

Lĩnh vực nghiên cứu của đề tài là gán nhãn ảnh (image labeling): từ một ảnh đầu

vào, áp dụng các thuật toán phù hợp để từ đó gán cho mỗi pixel trong ảnh một giá trị tương ứng gọi là nhãn

Nói hẹp hơn, trong bài toán phân đoạn ảnh đối tượng Ảnh đầu vào sẽ là một ảnh tĩnh Sau quá trình xử lý các pixel sẽ được gán nhãn tương ứng với đối tượng mà nó thuộc về Các nhãn này sẽ có giá trị nguyên và tương ứng với đối tượng được quy định trước Chẳng hạn, quy định nhãn 1 tương ứng với đối tượng, nhãn 0 tương ứng với phông nền Sau quá trình gán nhãn, pixel nào được gán nhãn 1 sẽ là pixel của đối tượng, pixel nào có nhãn 0 sẽ là pixel thuộc vùng nền

Trang 13

1.1.3 Ý nghĩa lý luận và thực tiễn:

Bài toán phân đoạn ảnh theo đối tượng là một bước phát triển tiếp theo của bài toán phân đoạn ảnh và bài toán nhận dạng đối tượng Mặt khác bài toán này còn là một thành phần quan trọng của một bài toán lớn hơn: hiểu nội dung ảnh Vấn đề truy vấn ảnh theo nội dung cũng được hưởng lợi từ kết quả này Ví dụ: người dùng có thể truy vấn như sau: “Tìm tất cả các bức ảnh có con ngựa đang uống nước”

Một số ứng dụng thực tiễn:

Tự động cắt dán ảnh: nhận vào một tập hợp các ảnh, chương trình sẽ tự động cắt

dán ảnh để tạo thành một bức ảnh tổng hợp lạ mắt [4]

Hình 1-4 Chương trình cắt dán ảnh tự động [4]

Tổng hợp ảnh ngữ nghĩa: Trong [19] người dùng sẽ cung cấp một số nhãn (cây,

đường, bầu trời) và vị trí của nó Chương trình sẽ tự động tìm trong cơ sở dữ liệu các bức ảnh phù hợp với yêu cầu Sau đó một bức ảnh mới sẽ được tạo thành từ các ảnh này với thành phần ảnh đã cung cấp

Trang 14

Hình 1-5 Chương trình tổng hợp thông tin ngữ nghĩa

Biên tập hình ảnh: kết quả của quá trình phân đoạn ảnh theo đối tượng cho phép

phần mềm biên tập ảnh xử lý tiếp [15] Chẳng hạn như tăng độ sáng của bầu trời Hay xóa vùng chứa người như trong hình 1-6

Hình 1-6 Chương trình biên tập ảnh Bên trái: sau khi có kết quả phân đoạn ảnh, người dùng chọn người, thực đơn ngữ cảnh xuất hiện, xác định đây là vùng người Bên phải: kết quả khi người dùng nhấn nút xoá Vùng ảnh chứa người bị xoá [15]

Trang 15

1.2 Các kết quả nghiên cứu liên quan

Như vậy, trong phần đầu của chương, luận văn đã giới thiệu sơ lược về bài toán phân đoạn ảnh theo đối tượng Phần tiếp theo của luận văn sẽ trình bày một số kế quả nghiên cứu có liên quan đến bài toán mà luận văn đang giải quyết

Cả hai bài toán nhận dạng đối tượng và phân đoạn ảnh đều là bài toán kinh điển trong lĩnh vực thị giác máy tính Tuy nhiên, nhiều tác giả lại xem xét như hai vấn đề riêng biệt Nhiều mô hình đã được đề xuất để giải quyết vấn đề nhận dạng đối tượng chẳng hạn như mô hình constellation của Fergus [25], mô hình deformable shape của Berg [2], và mô hình vân ảnh của Winn [13] Các mô hình này đều không phân đoạn chính xác đến từng pixel Ngược lại một số tác giả khác chỉ quan tâm đến tác

vụ phân đoạn ảnh [8][27]

Những công trình đầu tiên liên quan đến việc kết hợp phân đoạn ảnh và nhận dạng đối tượng có thể kể đến [3][12] Các công trình này chủ yếu nhằm xây dựng một mô hình hình dạng chung Tuy những phương pháp này đã có những kết quả khá tốt, nhưng chúng lại chỉ có thể xử lý một đối tượng trong một bức ảnh

Trong [27], tác giả xây dựng một bộ phân lớp có khả năng gán nhãn các vùng đã phân đoạn trước Tuy nhiên, do việc phân đoạn và gán nhãn bị tách làm 2 bước riêng biệt nên, kết quả phân đoạn không phù hợp với nhãn đối tượng [39] thực hiện hai bước trên cùng một lúc, tuy nhiên chỉ xử lý trên đối tượng là mặt người và chữ viết Konoshi và Yullie [10] chỉ sử dụng đặc trưng cục bộ nên không đạt được sự phù hợp về không gian

Mục đích của bài toán là phải phân đoạn ảnh theo rất nhiều đối tượng khác nhau

Do đó không thể xây dựng một mô hình riêng cho bất kỳ đối tượng nào mà phải xây dựng một mô hình chung cho rất nhiều đối tượng Điều này vô cùng khó khăn và nếu xây dựng được thì kết quả cũng không tốt Như đã biết, các đối tượng khác nhau trong thế giới thực có hình dạng rất khác nhau Mặt khác vẻ ngoài của đối tượng cũng khác nhau Có đối tượng nặng về vân ảnh (bò, cỏ), cũng có loại nặng về

Trang 16

cấu trúc (xe hơi, nhà) Ngay cả cùng loại đối tượng thì vẻ ngoài cũng có thể rất khác nhau (cùng là áo nhưng có thể có rất nhiều hoa văn khác nhau) Do đó cần phải tìm được loại đặc trưng phù hợp có thể áp dụng cho nhiều đối tượng khác nhau Đồng thời phải kết hợp thêm những thông tin khác bên cạnh thông tin thị giác thông thường để tăng độ chính xác

Đặc trưng cục bộ là phần hầu như không thể thiếu đối với bất kỳ bài toán phân đoạn

ảnh nào Đặc trưng cục bộ sẽ mô tả các thông tin về màu sắc, độ sáng, hướng,… của một pixel hay một vùng pixel Hai loại đặc trưng thường được dùng phổ biến là SIFT [7] và Texton [13]

Tuy nhiên như đã nói bên trên, trong bài toán phân đoạn ảnh theo đối tượng đặc trưng cục bộ không đủ để đưa ra một kết quả tốt Điều này là do nhiều đối tượng được tạo thành từ những bộ phận có vẻ ngoài không giống nhau (chẳng hạn như đối với đối tượng xe hơi thì kính và bánh xe sẽ có màu khác với màu sơn) Do đó, ngoài

đặc trưng cục bộ, cần phải thêm thông tin ngữ cảnh để có thể phân đoạn theo đối

tượng được tốt

Một trong những thông tin ngữ cảnh đáng lưu ý là mối quan hệ không gian giữa các đối tượng [10] [26] [34] Ví dụ như khi một vùng được xác định là “tree”, thì nhiều khả năng vùng đó sẽ nằm dưới vùng “sky” và nằm trên vùng “grass”

Thông tin về hình dạng đối tượng, hay thông tin về vị trí tương đối giữa các thành phần của một đối tượng cũng là một loại thông tin ngữ cảnh đáng quan tâm Đã được chứng minh tính hiệu quả trong [11][17]

Mô hình

Có nhiều cách để kết hợp các loại đặc trưng với nhau Trong số đó, một trong

những mô hình hiệu quả nhất cho bài toán này là mô hình trường ngẫu nhiên có

điều kiện (Conditonal Random Fields - CRFs) [18] đã được sử dụng trong rất nhiều

công trình như [10] [11] [26] [27][28] Mô hình CRFs là hướng tiếp cận phổ biến vì

nó có nhiều ưu điểm như:

Trang 17

 Có khả năng mô hình hóa xác suất có điều kiện

 Có khả năng kết hợp nhiều loại đặc trưng khác nhau

 Được giải quyết bằng các phương pháp dựa trên graph-cut vô cùng mạnh mẽ

Các mô hình CRFs có thể chia làm 2 loại, dựa vào mức độ phân chia ảnh:

Mức độ pixel là mức độ cơ bản nhất, hiển nhiên nhất Tuy nhiên, từng pixel lại chứa

rất ít thông tin về ngữ nghĩa Màu sắc và độ sáng của từng pixel không đủ để xác định nhãn đối tượng chính xác Tuy vậy cũng có nhiều giải pháp phân đoạn ảnh dựa trên pixel rất thành công nhờ tích hợp được nhiều loại thông tin như [10]

Mức độ superpixel hay segment: đây là mức độ được sử dụng tương đối phổ biến do

từng superpixel chứa lượng thông tin tương đối dồi dào Superpixel là một tập hợp gồm nhiều pixel được tạo ra từ quá trình phân đoạn ảnh ban đầu (over segmentation) Với giả thuyết rằng mỗi đối tượng gồm nhiều superpixel và mỗi superpixel chỉ thuộc về một đối tượng Một số công trình có thể kể đến như [11] [26]

Do hai mức độ trên đều có những điểm mạnh yếu riêng, nên nảy sinh nhu cầu kết hợp lại tiêu biểu như [24]

1.3 Phương pháp giải quyết đề xuất

Hầu hết các phương pháp phân đoạn ảnh theo đối tượng thực hiện bằng cách sử dụng thông tin diện mạo cục bộ (của pixel hay superpixel) cùng với độ trơn (smoothness) giữa các pixel hay superpixel láng giềng

Luận văn sẽ kết hợp cả hai mức, pixel và superpixel Trước hết xây dựng mô hình CRF dựa trên các pixel của ảnh (mô hình CRF truyền thống) Các đặc trưng dựa trên từng pixel được rút trích gồm:

Trang 18

- Đặc trưng vân-bố cục: tuy đặc trưng này chỉ được tính trên từng pixel nhưng

nó có thể chứa một lượng lớn thông tin gồm: vân ảnh, ngữ cảnh xung quanh đối tượng và bố cục của đối tượng Đặc trưng này dựa trên texton [16] và JoinBoost [29]

- Đặc trưng màu sắc: mô hình hoá phân bố màu sắc của các đối tượng Đặc

trưng này được tính bằng mô hình hỗn hợp Gaussian (Gaussian Mixture model – GMM)

- Đặc trưng vị trí: mô hình hoá vị trí tương đối của các đối tượng trong ảnh

Tuy nhiên, phương pháp trên chỉ tập trung vào rút trích đặc trưng trên từng pixel mà

bỏ qua nguồn thông tin dồi dào từng các thuật toán phân đoạn ảnh không giám sát vốn có thông tin về đường biên giữa các đối tượng khá chính xác Do đó, luận văn

sẽ đưa thêm thông tin này vào mô hình theo cách tương tự như trong [24]

Đóng góp của luận văn do đó gồm:

 Xây dựng đặc trưng vân – bố cục: đặc trưng có khả năng nắm bắt thông tin

về vân ảnh, thông tin ngữ cảnh xung quanh đối tượng, thông tin bố cục của các thành phần trong ảnh

 Áp dụng thông tin tiền phân đoạn ảnh vào mô hình CRFs truyền thống để nâng cao hiệu năng phân đoạn

Mô hình chung của hệ thống được tóm tắt qua hình 1-7 Các chương còn lại, đặc biệt là chương 3, sẽ giải thích rõ hơn các thành phần trong mô hình này

Trang 19

Hình 1-7 Mô hình chung của hệ thống phân đoạn ảnh theo đối tượng dùng trong

luận văn

1.4 Cấu trúc luận văn

Luận văn gồm 5 chương:

Chương 1 MỞ ĐẦU: Trong chương mở đầu này, luận văn đã giới thiệu tổng quan về bài toán phân đoạn ảnh theo đối tượng cùng với sự liên quan với hai bài toán truyền thống: phân đoạn ảnh và nhận dạng đối tượng Tiếp theo luận văn đã trình bày những thách thức, khó khăn trong bài toán phân đoạn ảnh theo đối tượng, những thách thức này chủ yếu là do sự đa dạng về màu sắc, hình dạng, và ngoại cảnh của các đối tượng Luận văn cũng giới thiệu được các hướng nguyên cứu có liên quan Từ đó đề xuất một mô hình phù hợp để giải quyết bài toán Mặt khác trong chương này, luận văn cũng trình bày được lí do, mục đích chọn đề tài, đối tượng và phạm vi nghiên cứu

Trang 20

Chương 2 KIẾN THỨC NỀN TẢNG: Trong chương này, luận văn sẽ trình

bày về mô hình trường ngẫu nhiên có điều kiện Đây là một mô hình xác suất vô

cùng mạnh mẽ và có thể được xem là “state of the art” trong các bài toán gán nhãn

Việc giải mô hình này dẫn đến nhu cầu phải cực tiểu một hàm năng lượng Vấn đề

tìm cực tiểu của một hàm số là một vấn đề kinh điển trong toán học và gần như không thể giải quyết trong trường hợp tổng quát Do đó, chỉ có thể giải bài toán này bằng phương pháp xấp xỉ bằng việc tìm ra một tối ưu cục bộ Các dạng hàm năng lượng thường dùng trong lĩnh vực thị giác máy tính có thể cực tiểu hoá bằng một

phương pháp dựa trên đồ thị gọi là graph-cut Phương pháp này có ưu điểm là thời

gian xử lý nhanh và cho ra kết quả gần với tối ưu toàn cục Một số cơ sở lý thuyết của việc cực tiểu hoá năng lượng dùng graph-cut sẽ được trình bày trong phần còn lại của chương

Chương 3 PHƯƠNG PHÁP TIẾN HÀNH: Chương này sẽ trình bày cụ thể các đặc trưng và mô hình sử dụng trong luận văn Cụ thể hơn luận văn sẽ sử dụng

hai mô hình: CRFs đôi (CRF truyền thống) và CRFs mức cao Mô hình CRFs đôi sẽ dựa vào các đặc trưng tính trên từng pixel và đặc trưng giữa các pixel láng giềng

Đặc trưng tính trên từng pixel là phần đóng góp chính trong việc gán nhãn cho từng pixel Đặc trưng giữa các pixel láng giềng sẽ bổ sung và làm chính xác hơn kết quả đạt được từ các đặc trưng tính trên từng pixel dựa trên nguyên lý: các pixel gần nhau nên mang nhãn giống nhau Mô hình CRFs mức cao phát triển từ mô hình

CRFs đôi với việc thêm vào đặc trưng rút ra từ các kết quả tiền phân đoạn ảnh

Việc thêm vào đặc trưng này dựa trên nhận xét rằng mô hình CRFs đôi cho ra kết quả với đường biên giữa các đối tượng không được tốt Trong khi đó, các thuật toán phân đoạn ảnh không giám sát dù không xác định được ngữ nghĩa của từng vùng, nhưng lại cho ra các phân đoạn ảnh có đường biên khá chính xác

Chương 4 KẾT QUẢ THỰC NGHIỆM: Trong chương này, luận văn thử nghiệm hai mô hình đã trình bày ở chương 3 với các loại đặc trưng khác nhau Qua các thử nghiệm, luận văn đã chứng tỏ rằng dù kết quả ban đầu chưa bằng một thuật

Trang 21

toán kinh điển được chọn làm baseline, nhưng với việc kết hợp các đặc trưng một các hợp lý trong mô hình CRFs đôi cho ra kết quả tốt hơn hẳn Ngoài ra, các thử nghiệm cũng chứng minh được ưu điểm của mô hình CRFs mức cao với việc hiệu năng và cảm nhận thị giác được cải thiện rõ rệt Đặc biệt, mô hình CRFs mức cao

đã đạt được hiệu năng tương đương với kết quả “state of the art” hiện nay

Chương 5 KẾT LUẬN: Trong chương cuối cùng này, luận văn sẽ tóm tắt lại những luận điểm đã nêu ở các chương trước, các kết quả đã đạt được, cũng như những đóng góp của luận văn Mặt khác, những định hướng nhằm phát triển, hoàn thiện mô hình trong luận văn cũng được thảo luận và đề xuất trong chương này

Trang 22

Chương 2: TRƯỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN

VÀ CỰC TIỂU HOÁ NĂNG LƯỢNG BẰNG

GRAPH-CUT

2.1 Trường ngẫu nhiên có điều kiện

Trường ngẫu nhiên có điều kiện (Conditional random fields - CRFs) là một mô hình

xác suất được đưa ra bởi Lafferty [18] vào năm 2001, trong ngữ cảnh bài toán xử lý ngôn ngữ tự nhiên Tuy nhiên, hiện nay mô hình này đã được ứng dụng trong nhiều lĩnh vực khác trong đó có thị giác máy tính

Cụ thể hơn, CRF định nghĩa một mô hình trên tập các biến ngẫu nhiên

và các biến quan sát được X Trong ngữ cảnh phân đoạn ảnh theo đối tượng, các biến quan sát được X thể hiện các đặc trưng rút trích được từ ảnh đầu vào, còn Y thể hiện nhãn của các pixel Từng biến ngẫu nhiên có thể được gán một giá trị từ tập giá trị rời rạc , tương ứng với các nhãn ngữ nghĩa chẳng hạn như: bầu trời, đường, cỏ, biển Một sự gán nhãn hay một sự phân đoạn ảnh được thể hiện bằng trong đó là không gian tất cả các sự gán

nhãn có thể Dạng tổng quát của mô hình CRF là:

(2.1) Trong đó, từng thành phần , được định nghĩa trên một tập con các biến ngẫu nhiên , và , thể hiện sự gán nhãn tương ứng với những biến

này Thành phần này còn được gọi là hàm thế năng (clique potential) Một cách

hình thức, thế năng , thể hiện sự ưu tiên cho việc gán nhãn khi quan sát được

Tổng của các thế năng được gọi là hàm năng lượng và ký hiệu là:

Trang 23

Hình 2-1: Ví dụ về mô hình CRF đôi định nghĩa trên các biến ngẫu nhiên

, Mô hình bao gồm các thế năng đơn phân cho từng biến và

các thế năng liên kết giữa các biến kề nhau trong đó

Đồ thị factor thể hiện các biến liên quan trong

Trang 24

Để xác định cách gán nhãn tốt nhất, cần phải tìm ra xác suất hậu nghiệm tối đa (maximum a posteriori - MAP) của việc gán biến ngẫu nhiên Y Điều này tương đương với tối thiểu hoá hàm năng lượng:

(2.5)

2.2 Cực tiểu hoá năng lượng

2.2.1 Tổng quan về cực tiểu hoá năng lượng

Nhiều vấn đề trong lĩnh vực thị giác máy tính có thể được phát biểu dưới dạng cực

tiểu hoá năng lượng (energy minimization), trong đó hàm năng lượng có dạng sau:

(3.1) Trong đó, tập tương ứng với tập các pixel, là nhãn của pixel , là tập hợp gồm tất cả các pixel láng giềng là hàm thế năng đơn phân (unary

potential) và là hàm thế năng liên kết (pairwise potential) Hàm năng lượng

này thường được rút ra trong ngữ cảnh của trường ngẫu nhiên có điều kiện Giá trị cực tiểu của hàm năng lượng tương ứng với xác suất hậu nghiệm tối đa của việc

gán nhãn x, tương ứng với phân đoạn ảnh tốt nhất

Hàm năng lượng thường mô hình hoá tính chất toàn cục nào đó của bức ảnh mà tính chất này không thể mô tả được bằng các tương quan cục bộ Vấn đề là trong trường

hợp tổng quát việc cực tiểu hoá hàm năng lượng E có độ phức tạp ngoài đa thức

(NP-hard problem) Do sự phức tạp của việc tìm ra lời giải tối ưu toàn cục, các nhà nghiên cứu tập trung vào các thuật toán xấp xỉ để tìm ra một lời giải “gần tối ưu”

Hai hướng tiếp cận chính là graph-cut và message passing

Một số công trình tiêu biểu theo hướng message passing có thể kể đến [14] [20][31] Hướng tiếp cận này có ưu điểm là mang tính tổng quát cao, tuy nhiên nó

Trang 25

có một số khuyết điểm Thứ nhất, nó thường tìm ra lời giải có năng lượng cao hơn phương pháp graph-cut (trong trường hợp có thể áp dụng graph-cut) Thứ hai nó không phải lúc nào cũng hội tụ mà có thể bị lặp Thứ ba là độ phức tạp của nó tăng lên nhanh chóng khi hàm thế năng định nghĩa trên những nhóm lớn

Dù cho graph-cut đã được giới thiệu từ những năm 1980 [6], chúng không được sử dụng rộng rãi trong một thời gian dài Sự thay đổi bắt đầu từ những năm 2000, khi một số bài báo chỉ ra rằng có thể sử dụng graph-cut cho bài toán cực tiểu hoá năng lượng [35][38] Những phương pháp này tương đối hiệu quả và dễ cài đặt, khiến chúng ngày càng trở nên phổ biến và được áp dụng thành công trong nhiều bài toán thị giác máy tính bao gồm phục hồi ảnh [37][38] , tổng hợp ảnh [32] và phân đoạn ảnh [35] Graph-cut trở thành một công cụ vô cùng mạnh mẽ cho các vấn đề cực tiểu hoá hàm năng lượng trong bài toán gán nhãn Các thuật toán graph-cut có ưu điểm là tìm ra các lời giải tối ưu toàn cục cho nhiều họ bài toán cực tiểu hoá năng lượng thường dùng trong thị giác máy tính [30] Hay thậm chí trong trường hợp không bảo đảm đó là lời giải tối ưu toàn cục, đó vẫn là lời giải rất tốt, cho ra năng lượng rất thấp [38]

2.2.2 Cực tiểu hoá năng lượng bằng phương pháp graph cut

Nguyên tắc cơ bản của phương pháp graph-cut là xây dựng một đồ thị đặc biệt dựa

trên hàm năng lượng cần cực tiểu hoá để cho đường cắt tối thiểu (minimum cut hay

min-cut) trên đồ thị cũng làm cực tiểu hoá năng lượng [6] Việc tìm ra min-cut lại một lần nữa có thể giải một cách hiệu quả bằng thuật toán dòng cực đại (max-flow) Các thuật toán này có độ phức tạp thấp, và do đó cho phép tính toán nhanh chi phí tối thiểu trong bài toán min-cut

2.2.2.1 Đường cắt tối thiểu

Gọi là một đồ thị có trọng số chứa một tập hợp các đỉnh V, và một tập

hợp các cạnh có hướng E kết nối giữa các đỉnh Có hai đỉnh đặc biệt gọi là đỉnh đầu

cuối (terminal) Trong ngữ cảnh các bài toán thị giác máy tính, thông thường các

Trang 26

đỉnh là các pixel và các đỉnh đầu cuối tương ứng với nhãn gán vào các pixel Để đơn giản, phần tiếp theo sẽ chỉ tập trung vào đồ thị có hai đỉnh đầu cuối Trong

trường hợp này, hai đỉnh được gọi là đỉnh đầu (source, s) và đỉnh cuối (sink, t)

Hình 3-1, minh họa một đồ thị diễn tả ảnh 3x3 với hai nhãn Các công trình khác nhau sử dụng các cấu trúc đồ thị khác nhau, tuy nhiên tất cả chúng đều dựa trên đồ thị tương tư như hình 3-1

Hình 2-2 Ví dụ về đồ thị (a) và đường cắt (b) Các cạnh nối giữa hai đỉnh đầu cuối với các pixel (màu đỏ và xanh) thể hiện thế năng đơn phân Các cạnh nối giữa các pixel (màu vàng) thể hiện thế năng liên kết Một đường cắt sẽ chia tập các pixel ra

làm 2 phần, tương ứng với việc gán nhãn nhị phân

Tất cả các cạnh trong đồ thị được gán một trọng số hay chi phí (cost) Lưu ý, trọng

số cho cạnh có hướng (p, q) có thể khác với cạnh ngược lại (q, p) Thông thường, có

hai loại cạnh trong đồ thị: cạnh n(t-links) và cạnh t(t-links) Cạnh n liên kết các cặp

pixel láng giềng có trọng số tương ứng với sự chênh lệch về diện mạo giữa các pixel, đây chính là thế năng liên kết trong hàm năng lượng 3-1 Cạnh t liên kết các pixel với các điểm đầu cuối (nhãn) Trọng số của cạnh t tương ứng với

độ tương thích giữa pixel với nhãn đó, trọng số này chính là thế năng đơn phân trong hàm năng lượng 3-1

Trang 27

Một đường cắt (cut) C trên đồ thị có hai đỉnh đầu cuối là một cách phân hoạch các đỉnh thành hai đồ thị con không giao nhau S và T trong đó đỉnh s nằm trong S và đỉnh t nằm trong T Nói cách khác một đường cắt là một tập hợp các cạnh

sao cho khi xoá các cạnh này khỏi đồ thị thì hai đỉnh đầu cuối s, t sẽ tách rời nhau

Chi phí cho đường cắt C ký hiệu là , là tổng trọng số các cạnh trong C Bài toán

đường cắt tối thiểu (min-cut) liên quan đến việc tìm ra đường cắt có chi phí nhỏ

nhất trong tổng số các đường cắt chia tách hai điểm đầu cuối Fork và Fulkerson

[38] chỉ ra rằng đường cắt tối thiểu có thể được tìm thấy dựa trên việc tính toán

dòng chảy cực đại (max-flow) giữa hai điểm đầu cuối Nói một cách dễ hiểu, dòng

chảy cực đại là tổng số lượng nước có thể gửi từ điểm đầu s, đến điểm cuối t, thông

qua hệ thống ống dẫn là các cạnh đồ thị Do đó bài toán đường cắt tối thiểu tương đương với bài toán dòng chảy cực đại và giá trị của dòng chảy cực đại bằng với chi phí của đường cắt tối thiểu Hình 3-2 mình họa graph-cut trong bài toán phân đoạn ảnh

Hình 2-3 Ví dụ đơn giản về phân đoạn ảnh 2D cho ảnh 3x3 Trọng số của các cạnh thể hiện bằng độ dày của cạnh đó trong hình Đầu tiên ảnh (a) sẽ được chuyển thành

đồ thị tương ứng (b), việc tìm ra đường cắt tối thiểu (c) tương ứng với sự phân đoạn

ảnh tốt nhất (d) [38]

Trang 28

Việc tìm ra đường cắt tối thiểu/dòng chảy cực đại trong trường hợp đồ thị chỉ có hai đỉnh đầu cuối là một vấn đề kinh điển và đã được giải tương đối tốt Tuy nhiên đối với bài toán có nhiều hơn hai nhãn, việc tìm ra năng lượng cực tiểu vẫn còn là một vấn đề khó Phần sau sẽ trình bày rõ hơn cách giải quyết bài toán nhiều hơn hai nhãn bằng phương pháp graph-cut

2.2.2.2 Thuật toán bước di chuyển

Các thuật toán cực tiểu hoá năng lượng bằng phương pháp xấp xỉ chủ yếu dựa trên

nguyên tắc tìm cực tiểu cục bộ của hàm năng lượng E tại f:

Một sự gán nhãn f’ “gần” f là một sự gán nhãn có thể đạt được từ f thông qua một

bước di chuyển “Bước di chuyển” sẽ thay đổi nhãn của một số pixel Nguyên lý

chung của phương pháp này tương tự như thuật toán leo đồi Tại mỗi bước, thuật toán sẽ tìm trong không gian các bước di chuyển, và chọn giải pháp có năng lượng

thấp nhất Bước di chuyển này gọi là bước di chuyển tối ưu Thuật toán gọi là hội tụ

khi không thể tìm ra một bước di chuyển có mức năng lượng thấp hơn Một số thuật toán như [6] sử dụng bước di chuyển đơn, nghĩa là chỉ thay đổi một pixel tại một thời điểm Cách di chuyển này rất dễ rơi vào một cực tiểu cục bộ có giá trị cao Do

đó kết quả của các phương pháp này thường có năng lượng cao Để tránh khuyết điểm này cần phải tìm ra một thuật toán có khả năng thay đổi nhãn của nhiều pixel cùng lúc

Từ nhận xét trên, dễ nhận ra rằng kích thước của không gian di chuyển là tính chất quan trọng của thuật toán Một bước di chuyển lớn (thay đổi nhiều nhãn một lúc) đồng nghĩa với hàm năng lượng thay đổi lớn hơn Điều này khiến cho thuật toán giảm bớt cơ hội bị kẹt tại cực tiểu địa phương và hội tụ nhanh hơn Hai thuật toán

tiêu biểu trong nhóm này là thuật toán hoán đổi alpha-beta (alpha-beta swap) và thuật toán mở rộng alpha (alpha expansion) [38]

Trang 29

Một bước di chuyển có thể được mã hoá bằng vector nhị phân , trong đó sẽ xác định cách biến đổi pixel i Hàm biến đổi sẽ nhận vào nhãn hiện tại và bước di chuyển t, và trả về nhãn mới , tương ứng

Thuật toán mở rộng alpha sẽ cho phép bất kỳ pixel nào hoặc là giữ nguyên nhãn

của nó hoặc là đổi sang nhãn alpha (xem hình 3.3(c)) Hàm di chuyển của thuật toán

mở rộng được biểu diễn như sau:

ế

Thuật toán hoán đổi alpha-beta chỉ tác động lên các pixel có nhãn hiện tại là alpha

hoặc beta Nó sẽ biến đổi các nhãn này thành alpha hoặc beta tuỳ theo vector di chuyển (xem hình 3.3(d)) Hàm di chuyển của thuật toán hoán đổi alpha-beta được biểu diễn như sau:

ế

ế (1.1)

Hình 2-4 Ví dụ về bước di chuyển (a) Nhãn ban đầu (b) “bước di chuyển đơn” sẽ thay đổi nhãn của một pixel (đánh dấu tròn) (c) “hoán đổi alpha-beta” thay đổi một

số pixel có nhãn alpha thành beta và ngược lại (d) “mở rộng alpha” thay đổi nhãn

của một số pixel thành alpha

Hai thuật toán trên đều cho kết quả khá tốt nhưng có một chút khác biệt Trong khi thuật toán hoán đổi alpha-beta có thể giải quyết các hàm năng lượng tổng quát hơn,

Trang 30

thì thuật toán mở rộng alpha lại hiệu quả hơn Phần sau sẽ trình bày chi tiết hơn về thuật toán mở rộng alpha do phù hợp với bài toán trong luận văn

Thuật toán mở rộng alpha có thể tóm tắt như sau:

1 Bắt đầu với một nhãn bất kỳ f

2 Đặt điều kiện dừng = true

3 Lặp cho từng nhãn alpha thuộc L

3.1 Tìm = arg min E(f’) trong số các f’ là một mở rộng alpha từ f

3.2 Nếu E( ) < E(f), đặt f := và điều kiện dừng = false

4 Nếu điều kiện dừng = false lặp lại bước 2

5 Trả về f

Nhìn chung, thuật toán trên khá đơn giản Chỉ có một bước cần phải lưu ý là bước

3.1 : cách tìm ra mở rộng alpha tốt nhất trong số các mở rộng alpha từ f Để thực

hiện bước này Boykov [38], xây dựng một đồ thị dựa trên f và alpha Ông

chứng minh được rằng một đường cắt trên đồ thị này tương đương với một mở rộng

alpha từ f và quan trọng là đường cắt tối thiểu trên đồ thị sẽ tương đương với bước

(1.2)

Định dạng
Số trang	61
Dung lượng	4,11 MB