1. Trang chủ
  2. » Tất cả

GA4CRF.v0.5_ngay.16.1.2011

13 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 303,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tuy nhiên, trong thực tế, số lượng lớp vật thể và đặc trưng của chúng là rất lớn hơn nữa chúng thường không có cấu trúc cụ thể, bởi vậy việc giải quyết triệt để bài toán này là rất khó k

Trang 1

Ứng dụng giải thuật di truyền để cải

thiện tham số của Trường Ngẫu Nhiên

Có Điều Kiện trong việc nhận dạng

lớp vật thể trong ảnh

Trần Việt Dũng, Mai Đình Lợi, Phú Quang Hiển

Trường Đại Học Bách Khoa Hà Nội Viện Công Nghệ Thông Tin Và Truyền Thông

Bộ Môn Khoa Học Máy Tính

Tóm Tắt Tài liệu này mô tả một hướng tiếp cận mới trong việc

tối ưu hóa các tham số của CRF trong các bài toán nhận dạng

vật thể sử dụng giải thuật di truyền Hướng tiếp cận này sẽ mở

ra phương pháp tối ưu các tham số này một cách hiệu quả với

chi phí thấp hơn Hướng tiếp cận này ứng dụng các kỹ thuật

của giải thuật di truyền như: lai ghép, chọn lọc, đột biến để

sinh ra bộ giá trị tốt nhất cho CRF Việc ứng dụng giải thuật di

truyền sẽ làm giảm bớt chi phí huấn luyện cho trường ngẫu

nhiên cũng như giảm bớt yêu cầu lớn về bộ dữ liệu huấn luyện.

1 Giới thiệu

Bài toán Tài liệu này tập trung vào việc tối ưu hóa tham số cho CRF để giải

quyết một bài toán cụ thể, từ đó chỉ ra hướng đi cho các bài toán tương tự Bài toán được giải quyết trong trường hợp này là bài toán tự động phát hiện, phân tích và nhận dạng lớp vật thể trong ảnh Rõ ràng hơn, hệ thống xử lý phải có khả năng phân tích, chia một bức ảnh cho trước thành các vùng cụ thể rồi gán nhãn chính xác cho các vùng này Tuy nhiên, trong thực tế, số lượng lớp vật thể và đặc trưng của chúng là rất lớn hơn nữa chúng thường không có cấu trúc cụ thể, bởi vậy việc giải quyết triệt để bài toán này là rất khó khăn, nên trong phạm vi của báo cáo này, chúng ta sẽ chỉ tập trung vào việc phân tích, gán nhãn một tập hữu hạn lớp vật thể (sẽ được mô tả ở phần tiếp theo) Ta sẽ không chỉ tập trung vào

sự chính xác của giải thuật mà còn vào tốc độ của nó vì hiệu năng có ảnh hưởng rất lớn trong việc xử lý một khối lượng lớn ảnh trong thực tế

Thông thường, nếu ta chỉ phân vùng nhận 1 phần nhỏ của ảnh thì dễ dẫn đến

sự mập mờ trong việc nhận dạng cả thực thể đó Ví dụ: khi ta nhận dạng được một cửa sổ trên một vật thể thì vật thể đó có thể là ô tô, máy bay hoặc 1 tòa nhà Để vượt qua được sự mập mờ về lớp vật thê này, ta cần phải phân tích một dải rộng hơn các đặc trưng như: các thành phần cấu trúc của vật thể (hình dáng), và tất cả những vùng xung quanh nó Để đạt được điều này, ta phải xây dựng một mô hình nhận dạng ảnh có khả năng tận dụng cả 3 đặc trưng chính:

Trang 2

diện mạo, hình dạng và ngữ cảnh quanh vật thể Và mô hình CRF là một mô hình hợp lý để xử lý bài toán này

Mô hình CRF được sử dụng để nhận biết phân phối xác suất của lớp vật thể trên một ảnh cho trước Ta sẽ sử dụng một hàm để tính toán xác suất của một lớp trên ảnh thông qua việc tính toán kết hợp xác suất của các đặc trưng trên ảnh Các đặc trưng được xem xét bao gồm: hình dáng – bề mặt, phân phối màu sắc, dạng của viền – cạnh và vị trí của vật thể trong ảnh Các bức ảnh sẽ được đưa qua một bước tiền xử lý để làm nổi bật lên các đặc trưng trước khi được đưa vào tính toán cho CRF

Để có thể xây dựng được mô hình CRF giải quyết bài toán hiệu quả, việc khó khăn nhất phải làm là xác định một bộ tham số hợp lý cho hàm CRF để có thể tính toán chính xác phân phối lớp trên bức ảnh Để giải quyết điều này, báo cáo

sẽ đề xuất một phương pháp tối ưu hóa tham số ứng dụng giải thuật di truyền

Bộ tham số của CRF sẽ được sản sinh, lại ghép và chọn lọc theo các kỹ thuật của giải thuật di truyền Báo cáo sẽ tập trung vào tối ưu hóa bộ tham số của một hàm xác suất duy nhất để đạt được kết quả tốt trong 1 bộ dữ liệu chuẩn

Những nghiên cứu liên quan Việc phân tích và gán nhãn cho ảnh đã được

nghiên cứu một cách độc lập trong nhiều năm gần đây, và rất nhiều tác giả đã tìm các giải quyết chúng một cách độc lập Ví dụ, việc nhận dạng lớp của vật thể

có thể được thực hiện bằng mô hình đặc trưng của Fergus i, mô hình hình dạng biến đổi của Berg ii hoặc mô hình vân bề mặt của Winn iii Tuy nhiên, không một phương pháp nào cho phép phân vùng ở mức độ điểm ảnh Ngược lại, một số tác giả khác chỉ tập trung giải quyết bài toán phân vùng ảnhiv,v

Việc nhận dạng và phân vùng các phần của một vật thể đã được giải quyết bởi một số tác giả khác như Winnvi, Kumarvii, Leibeviii Các các giải quyết được nêu trên cùng áp dụng một mô hình toàn bộ hình dáng vật thể và bởi vậy, các phương pháp ấy không thể giải quyết được những trường hợp khi vật thể không nằm toàn bộ trong ảnh, hoặc vật thể bị che khuât quá nhiều Hơn nữa, chúng chỉ

áp dụng được với những lớp vật thể được cấu trúc ở mức cao

Một bài toán nhận dạng tương tự với bài toán đang xét đã được xem xét bởi Duygulu trong Object recognition as machine translation: Learning a lexicon for a fixed image vocabularyix mà trong đó, một bộ phân loại được sử dụng để gán nhãn các vùng tìm thấy bởi một giải thuật phân vùng tự động Tuy nhiên, việc phân vùng này thường không liên quan tới ý nghĩa vật thể Khác với phương pháp trên, ta sẽ thực hiện việc phân vùng và gán nhãn trên cùng một mô hình thay vì thực hiện trên 2 bước riêng biệt Việc thực hiện chung như thế cũng đã được xem xét trong một tài liệu khác về Image parsing: Unifying segmentation,detection, and recognitionx, tuy nhiên tài liệu chỉ xem xét nhận dang chữ in và khuôn mặt với chi phí tính toán lớn Konishi và Yuillexi cũng thực hiện gán nhãn ảnh sử dụng một bộ phân tích một ngôi đơn giản, và bởi vậy không thể phân vùng một cách nhất quán trên toàn bộ không gian

Trang 3

Nghiên cứu tương tự với nghiên cứu trong tài liệu này được mô tả bởi Hexii đã kết hợp những đặc trưng của từng vùng và toàn bộ ảnh với mô hình hình dáng và ngữ cảnh trong một Trường Ngẫu Nhiên Có Điều Kiện Nghiên cứu này áp dụng phương pháp lấy mẫu Gibbs cho việc học các tham số và suy luận nhãn Bởi vậy,

nó bị giới hạn về tập dữ liệu và số lượng các nhãn có thể được xử lý một cách hiệu quả Một

Cơ sở lý thuyết CRF được giới thiệu lần đầu vào năm 2001 bởi Lafferty và

các đồng nghiệp CRF là mô hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp CRF là mô hình đồ thị vô hướng Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại Chính vì cách mô hình hóa như vậy, CRF

có thể giải quyết được vấn đề ‘label bias’

Định nghĩa CRF:Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận gía trị trong tập hữu hạn các trạng thái S Trong bài toán nhận biết các loại thực thể, X có thể nhận giá trị là các câu trong ngôn ngữ tự nhiên, Y là một chuỗi ngẫu nhiên các tên thực thể tương ứng với các câu này và mỗi một thành phần Yi của Y có miền giá trị là tập tất cả các nhãn tên thực thể (tên người, tên địa danh, )

Cho một đồ thị vô hướng không có chu trình G=(V,E), ở đây V là tập các đỉnh của đồ thị và E là tập các cạnh vô hướng nối các đỉnh đồ thị Các đỉnh V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một-một giữa một đỉnh và một thành phần của Yv của Y Ta nói (Y|X) là một trường ngẫu nhiên điều kiện (Conditional Random Field - CRF) khi với điều kiện X, các biến ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G:

(1.1)

Ở đây, N(v) là tập tất cả các đỉnh kề với v Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc tòan cục vào X Trong các bài toán xử lý dữ liệu dạng chuỗi, G đơn giản chỉ là dạng chuỗi G=(V={1,2,…m},E={(i,i+1)})

Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2, ,Yn) Mô hình đồ thị cho CRF có dạng:

Trang 4

Đồ thị vô hướng mô tả CRF Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn cấu trúc của một CRF Áp dụng kết quả của Hammerley-Clifford cho các trường ngẫu nhiên Markov, ta thừa số hóa được p(y|x) - xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu quan sát- thành tích của các hàm tiềm năng như sau:

(1.2)

Vì trong các bài toán xử lý dữ liệu dạng chuỗi đồ thị biểu diễn cấu trúc của một CRF có dạng đường thẳng như trong hình 5 nên tập C phải là hợp của E và V, trong đó E là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nói cách khác đồ thị con A hoặc chỉ gồm một đỉnh hoặc chỉ gồm một cạnh của G

Nguyên lý cực đại hóa Entropy :Lafferty xác định các hàm tiềm năng cho các

mô hình CRF dựa trên nguyên lý cực đại hóa Entropy Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối xác suất từ một tập các dữ liệu huấn luyện

Độ

đo Entropy điều kiện:Entropy là độ đo về tính đồng đều hay tính không

chắc chắn của một phân phối xác suất Độ đo Entropy điều kiện của một phân phối mô hình trên “một chuỗi trạng thái với điều kiện biết một chuỗi dữ liệu quan

sát” p(y|x) có dạng sau:

(2.1)

Các ràng buộc đối với phân phối mô hình :Các ràng buộc đối với phân phối

mô hình được thiết lập bằng cách thống kê các thuộc tính được rút ra từ tập dữ liệu huấn luyện Tập các thuộc tính là tập hợp các thông tin quan trọng trong dữ liệu huấn luyện Kí hiệu kì vọng của thuộc tính f theo phân phối xác suất thực nghiệm như sau:

Trang 5

Ở đây p~(x,y) là phân phối thực nghiệm trong dữ liệu huấn luyện Giả sử dữ

liệu huấn luyện gồm N cặp, mỗi cặp gồm một chuỗi dữ liệu quan sát và một

chuỗi nhãn D={(x i ,y i)}, khi đó phân phối thực nghiệm trong dữ liệu huấn luyện được tính như sau:

p~(x,y) =1/N * số lần xuất hiện đồng thời của x,y trong tập huấn luyện

Kì vọng của thuộc tính f theo phân phối xác suất trong mô hình

Phân phối mô hình thống nhất với phân phối thực nghiệm chỉ khi kì vọng của mọi thuộc tính theo phân phối xác suất phải bằng kì vọng của thuộc tính đó theo phân phối mô hình :

Phương trình thể hiện một ràng buộc đối với phân phối mô hình Nếu ta chọn n thuộc tính từ tập dữ liệu huấn luyện, ta sẽ có tương đương n ràng buộc đối với

phân phối mô hình

Nguyên lý cực đại hóa Entropy: Gọi P là không gian của tất cả các phân phối

xác suất điều kiện, và n là số các thuộc tính rút ra từ dữ liệu huấn luyện P’ là tập con của P, P’ được xác định như sau:

Trang 6

Các ràng buộc mô hình

P là không gian của toàn bộ phân phối xác suất Trường hợp a: không có ràng buộc; trường hợp b: có một ràng buộc C1, các mô hình p thỏa mãn ràng buộc nằm trên đường C1; trường hợp c: 2 ràng buộc C1 và C2 giao nhau, mô hình p thỏa mãn cả hai ràng buộc là giao của hai đường C1 và C2; trường hợp d: 2 ràng buộc C1 và C2 không giao nhau, không tồn tại mô hình p thỏa mãn cả 2 ràng buộc

Tư tưởng chủ đạo của nguyên lý cực đại hóa Entropy là ta phải xác định một phân phối mô hình sao cho “phân phối đó tuân theo mọi giả thiết đã biết từ thực nghiệm và ngoài ra không đưa thêm bất kì một giả thiết nào khác” Điều này có nghĩa là phân phối mô hình phải thỏa mãn mọi ràng buộc được rút ra từ thực nghiệm, và phải gần nhất với phân phối đều Nói theo ngôn ngữ toán học, ta phải

tìm phân phối mô hình p(y|x) thỏa mãn hai điều kiện, một là nó phải thuộc tập

P’ và hai là nó phải làm cực đại Entropy điều kiện (2.1)

Với mỗi thuộc tính fi ta đưa vào một thừa số langrange λi , ta định nghĩa hàm

Lagrange L ( p, λ ) như sau:

Phân phối p(y|x) làm cực đại độ đo Entropy H ( p) và thỏa mãn n ràng buộc

Ep(x,y) [f] = Ep[f] cũng sẽ làm cực đại hàm ),( λpL (theo lý thuyết thừa số Langrange) Ta suy ra:

Trang 7

Ở đây Z λ (x) là thừa số chuẩn hóa để đảm bảo = 1 với mọi x:

Hàm tiềm năng của các mô hình CRF :Bằng cách áp dụng nguyên lý cực đại

hóa Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng một hàm mũ

Ở đây fk là một thuộc tính của chuỗi dữ liệu quan sát và γk là trọng số chỉ mức

độ biểu đạt thông tin của thuộc tính fk

Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính trạng thái(kí hiệu là s) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G Thay các hàm tiềm năng vào công thức (1.2) và thêm vào đó một thừa sổ chuẩn hóa Z(x) để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương ứng với một chuỗi dữ liệu quan sát bằng 1, ta được:

Ở đây, x,y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; tk là thuộc

tính của tòan bộ chuỗi quan sát và các trạng thái tại ví trí i-1, i trong chuỗi trạng thái; sk là thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại ví trí i trong chuỗi trạng thái

Thừa số chuẩn hóa Z(x) được tính như sau:

Θ( λ1 , λ2 , … ,μ1 ,μ2) là các vector các tham số của mô hình, teta sẽ được ước lượng giá trị nhờ các phương pháp ước lượng tham số cho mô hình

2 Cơ sở dữ liệu ảnh

Bộ dữ liệu này gồm 591 bức ảnh kích thước xấp xỉ 320x240 pixel, được chia làm 21 lớp vật thể : nhà, cỏ, cây, bò, cừu, bầu trời, máy bay, nước, khuôn mặt, ô

tô, xe máy, hoa, biển hiệu, chim, sách, ghế, đường, chó, mèo, cơ thể, thuyền Mỗi lớp vật thể tương ứng với 1 mã màu riêng :

Trang 8

Mã màu của 21 lớp vật thể trong bài toán

Có 1 nhãn đặc biệt là rỗng dùng để chỉ các vật thể không thuộc 21 lớp đang xét

Bộ ảnh này sẽ được chia làm 3 phần: 45% dữ liệu huấn luyện, 10% dữ liệu kiểm tra và 45% dữ liệu cho việc chạy thử kết quả

Link download : http://research.microsoft.com/en-us/projects/objectclassrecognition/

Trang 9

3 Trường ngẫu nhiên có điều kiện cho bài toán nhận dạng lớp vật thể

Bài toán nhận dạng vật thể được phân làm 2 bài toán con

 Phân vùng các vật thể

 Gán nhãn vật thể

Có một số nghiên cứu đã kết hợp giải cùng 1 lúc cả 2 bài toán con(Tài liệu)

Các bài toán con đã được giải quyết bởi nhiều nhà nghiên cứu trên thế giới

Bài toán kết hợp phân vùng và gán nhãn ảnh có 2 hướng tiếp cận :

1 Phân vùng xong, sau đó gán nhãn trên ảnh đã phân vùng

2 Thực hiện đồng thời phân vùng + gán nhãn luôn cho 1 vùng

Nhóm sẽ nghiên cứu theo hướng thứ 2, nghiên cứu các đặc trưng : hình dạng, màu sắc, vị trí, cạnh biên cuả hình ảnh và kết hợp các đặc trưng đó để giải quyết bài toán nhận dạng ảnh, đồng thời tối ưu các tham số cho các hàm đặc trưng sử dụng giải thuật di truyền

Các nghiên cứu sơ bộ về từng hàm :

3.1.Hàm Shape :

3.2 Hàm Color :

3.3 Hàm Location :

3.4 Hàm Edge :

Mô tả cụ thể cách giải sử dụng CRF

B1 : Sử dụng thuật toán textons để phân vùng ảnh:

Ảnh đầu vào(bên trái) và ảnh sau sau khi phân vùng (bên phải)

Trang 10

B2 : Phân tích, áp dụng CRF cho các ô vuông thuộc 1 vùng ảnh từ đó đưa ra các nhãn

Sử dụng hàm CRF:

4 Đề xuất thuật toán tối ưu tham số

Ghi chú : phần này Dũng bổ sung chi tiết hơn

Ý tưởng

Bước 1: Sản sinh các bộ tham số gốc cho hàm CRF (thế hệ đầu tiên)

Bước 2: Tính toán hàm sinh tồn dựa vào độ chính xác của việc gán nhãn ảnh (Tính bằng trung bình xác suất của các nhãn đúng)

Bước 3: Kiểm tra điều kiện kết thúc (Đạt đến 1 giá trị của hàm sinh tồn chấp nhận được ~ việc tiến gần đến 100%)

Bước 4: Sản sinh thế hệ tiếp theo dựa vào việc lai ghép, đột biến

Bước 5: Quay về bước 2

Trang 11

Các hướng tối ưu hóa hàm CRF sử dụng GA

1 Ta xác định các hàm số có sẵn cho từng loại đặc trưng một (phân phối màu, phân phối vân bề mặt, ….)

2 Sử dụng GA để tối ưu hóa các tham số này:

- Bộ gene: 1 tập các giá trị tham số của các hàm đặc trưng

- Lai ghép: Lựa chọn các giá trị (cùng 1 vị trí) từ bố hoặc mẹ sử dụng

1 khung nào đó để chọn

- Đột biến: Sinh ngẫu nhiên 1 giá trị mới

3 Để có thể tối ưu cần chọn 1 hàm phù hợp rồi xác định ảnh hưởng của từng tham số đến kết quả, từ đó tối ưu hóa dần dần

Ngày đăng: 17/04/2022, 11:45

w