Đề tài này nghiên cứu cơ sở lý thuyết và các ứng dụng chính của kỹ thuật tra cứu ảnh theo nội dung và kỹ thuật biểu diễn và độ đo tương tự hiệu quả, trên cơ sở đó thử nghiệm phương pháp
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trang 3Từ những thực tế đó đặt ra vấn đề phải có những phương pháp tổ chức cơ sở
dữ liệu ảnh và xây dựng những kỹ thuật tra cứu, so sánh, tìm kiếm ảnh số hiệu quả Một trong những phương pháp được nhiều người quan tâm nghiên cứu hiện nay là
kỹ thuật "Tra cứu ảnh dựa theo nội dung" (Content Based Image Retrieval) Kỹ
thuật này cho phép trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh như
màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra
cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnh nổi tiếng như QBIC (IBM), Virage (Virage Inc.) Photobook (MIT) Visual SEEK (Columbia University) đã áp dụng thành công kỹ thuật này
Để giảm chi phí về không gian lưu trữ, thời gian so sánh các véc tơ đặc trưng và thời gian tra cứu, cần có kỹ thuật biểu diễn, trích rút và độ đo tương tự hiệu quả Đề tài này nghiên cứu cơ sở lý thuyết và các ứng dụng chính của kỹ thuật tra cứu ảnh theo nội dung và kỹ thuật biểu diễn và độ đo tương tự hiệu quả, trên cơ sở
đó thử nghiệm phương pháp cụ thể để xây dựng một phần mềm đọc vào một ảnh mẫu và qua mạng tìm kiếm những ảnh tương tự với ảnh mẫu trong một tập hợp các ảnh cho trước
Nội dung luận văn gồm 3 chương:
Chương 1: Tổng quan về tra cứu ảnh dựa vào nội dung
Chương 2: Kỹ thuật biểu diễn và độ đo tương tự hiệu quả
Chương 3: Xây dựng hệ thống tra cứu ảnh qua mạng
Trang 4Chương 1 TỔNG QUAN TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1 Giới thiệu
Với một số lượng ảnh quá lớn trên Internet công việc tìm kiếm trở nên vô cùng khó khăn Để giải quyết vấn đề này, các hệ thống tìm kiếm ảnh đã ra đời như: Yahoo, MSN, Google Image Search, Bing,…
Các kỹ thuật tra cứu ảnh được thực hiện chủ yếu theo hai hướng: kỹ thuật dựa vào văn bản mô tả ảnh, kỹ thuật dựa vào nội dung ảnh
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image Retrieval) gồm có 4 chức năng và có nhiều phương pháp truy vấn như :
Truy vấn bởi ảnh mẫu (QBE)
Truy vấn bởi đặc trưng (QBF)
Các truy vấn dựa vào thuộc tính
1.2 Trích rút đặc trưng
Trích rút đặc trưng là cơ sở của tra cứu ảnh dựa vào nội dung
1.2.1 Màu
Màu là đặc trưng trực quan quan trọng đầu tiên và đơn giản nhất cho đánh chỉ
số và tra cứu các ảnh Nó cũng là đặc trưng được sử dụng phổ biến nhất trong lĩnh vực tra cứu ảnh
Lược đồ màu
Lược đồ màu cung cấp một biểu diễn hiệu quả của nội dung màu của một ảnh nếu mẫu màu là duy nhất so với phần còn lại của tập dữ liệu Lược đồ màu là dễ dàng để tính toán và hiệu quả trong mô tả cả phân bố màu toàn cục và cục bộ trong ảnh Hơn nữa, nó mạnh với quay và dịch chuyển về trục quan sát và thay đổi chậm với tỷ lệ
và góc quan sát
Các màu trội
Ký hiệu mô tả đặc trưng lược đồ màu trội F được định nghĩa là một tập các cặp sau:
Trang 5 Các bất biến mômen
Các góc uốn
Các ký hiệu mô tả Fourier
Hình tròn, độ lệch tâm, và hướng trục chính
1.2.4 Thông tin không gian
Các vùng hoặc đối tượng với các đặc tính màu và kết cấu tương tự có thể được phân biệt dễ dàng bằng việc tận dụng các ràng buộc không gian Vị trí không gian của các vùng (hoặc các đối tượng) hoặc quan hệ không gian giữa nhiều vùng (hoặc
đối tượng) trong một ảnh thì rất hữu ích cho tìm kiếm các ảnh
1.3 Đánh chỉ số
Để thực hiện tra cứu ảnh dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn, các
kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng
Trang 6Các kỹ thuật đánh chỉ số nhiều chiều phổ biến đã có gồm thuật toán bucketing, cây k-d, cây k-d ưu tiên, cây tứ phân, cây K-D-B, cây hB, cây R-tree và các biến thể của nó cây R+ và R*
Với h(I) và h(M) tương ứng là 2 lược đồ màu của hai ảnh I và ảnh M
Độ đo Jensen-Shannon divergence (JSD)
d JSD (H,H’)=
' '
1.4.2 Độ đo tương đồng cho hình dạng
Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình
dạng đặc biệt
1.4.3 Độ đo tương đồng cho kết cấu ảnh
Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các véc tơ nhiều chiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữa các đặc trưng
của ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ liệu
1.4.4 Độ đo tương đồng cho đặc trưng phân đoạn
x y
x y
Trang 71.5.1 QBIC của IBM
QBIC hỗ trợ chính các truy vấn dựa vào các ảnh mẫu, các phác thảo và các bản vẽ được người sử dụng xây dựng, và các mẫu kết cấu và màu được lựa chọn
1.5.2 Virage
Virage hỗ trợ các truy vấn trực quan dựa trên màu, thành phần cấu tạo (bố cục
màu), kết cấu và cấu trúc (thông tin đường bao đối tượng)
Netra sử dụng thông tin màu, kết cấu, hình, và vị trí không gian trong các vùng
ảnh được phân đoạn để tìm kiếm và tra cứu các vùng tương tự từ cơ sở dữ liệu
1.6 Đánh giá hiệu năng tra cứu
Trang 8Để đánh giá hiệu năng của hệ thống tra cứu, người ta đưa ra hai số đo đó là độ triệu hồi (recall) và độ chính xác (precision)
Độ chính xác:
) q ( Q
) q ( R ) q ( Q precision
Độ triệu hồi :
) q ( R
) q ( R ) q ( Q
Với một truy vấn q, tập hợp các ảnh trong cơ sở dữ liệu thích hợp với truy vấn q
được ký hiệu là R(q) còn kết quả tra cứu của truy vấn q được ký hiệu là Q(q)
1.7 Kết luận chương 1
Trong chương này, chúng tôi đã giới thiệu một số khái niệm và kỹ thuật cơ bản về tra cứu ảnh dựa vào nội dung, bao gồm: trích rút đặc trưng, đánh chỉ số, độ tương tự giữa các ảnh, các hệ thống tra cứu ảnh, đánh giá hiệu năng tra cứu và trình bày một
số hệ thống CBIR
Trang 9Chương 2:KỸ THUẬT BIỂU DIỄN VÀ ĐỘ ĐO TƯƠNG TỰ HIỆU QUẢ
2.1 Giới thiệu
Động cơ chính của việc nghiên cứu phương pháp biểu diễn ảnh hiệu quả là: tra cứu độ tương tự trong cơ sở dữ liệu ảnh lớn sử dụng màu sắc Màu sắc trong một vùng sẽ được chia thành nhiều cụm nhỏ các màu Mô tả đặc trưng bao gồm biểu diễn màu và tỉ lệ của chúng trong vùng Phương pháp đo độ tương tự được sử dụng trong đồ án sử dụng độ đo khoảng cách lược đồ màu chính phương, nghĩa là màu sắc biểu diễn có thể được đánh chỉ số trong tọa độ không gian màu ba chiều (3D), điều này có thể giúp chương trình tránh được các vấn đề có thể sảy ra như đối với việc sử dụng lược đồ màu truyền thống Để tra cứu độ tương tự, mỗi màu biểu diễn trong ảnh truy vấn được kết hợp để đưa ra kết quả cuối cùng Hiệu quả đánh chỉ số
sẽ được đưa ra nhằm tăng tốc độ tra cứu Thực nghiệm cho thấy rằng phương pháp miêu tả kết hợp này sẽ cho hiệu quả tra cứu cao hơn so với phương pháp lược đồ màu truyền thống
2.2 Một số kỹ thuật tra cứu ảnh dựa vào đặc trưng màu
2.2.1 Các không gian màu
Một không gian màu chỉ rõ các màu như các bộ số, theo các đặc tả nào đó Các không gian màu có thể dùng để sinh ra các biểu diễn màu, đặc biệt trong các biểu diễn số, như in số hoặc hiển thị điện tử số Mục đích của không gian màu là để phục
vụ đặc tả các màu theo một số cách chuẩn, được chấp nhận chung
Một số không gian màu phổ biến là : Không gian màu RGB, HSx, YUV và YIQ, CIE XYZ và LUV
2.2.2 Phân đoạn ảnh
Phân đoạn ảnh là một thao tác ở mức thấp trong toàn bộ quá trình xử lý ảnh Quá trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách khác là xác định các biên của các vùng ảnh đó Các vùng ảnh
Trang 10đồng nhất này thông thường sẽ tương ứng với toàn bộ hay từng phần của các đối
tượng thật sự bên trong ảnh
2.3 Phương pháp tra cứu ảnh sử dụng biểu diễn màu hiệu quả
Trích chọn đặc trưng màu cục bộ được bắt đầu đầu tiên với phân đoạn màu ảnh
Để phân đoạn ảnh, chúng ta sử dụng thuật toán edgeflow Phân cụm màu được thực hiện trên mỗi vùng đã phân đoạn để thu được các màu đại diện của chúng Sau khi phân cụm, chỉ một số nhỏ lượng màu còn lại, và sau đó thì ta sẽ tính toán tỷ lệ phần trăm giữa các màu này Mỗi màu đại diện và tỷ lệ tương ứng của chúng tạo thành một cặp các thuộc tính[19](mô tả các đặc điểm màu trong một vùng của ảnh) Mô tả
màu trội F có thể được định nghĩa theo công thức:
F = {{c i , p i }, i = 1,…, N} (2.1) Với N là tổng số cụm màu trong vùng của ảnh, c i là vector màu 3D, p i là tỷ lệ
) ( ) (
n v
n x n
v , x n C i (2.3)
Phân cụm tích lũy được thực hiện dựa trên các trọng tâm cụm để gộp các cụm sao
cho khoảng cách giữa hai trọng tâm nhỏ hơn một ngưỡng được xác định T d Ảnh lượng hóa cuối cùng thu được qua việc gán mỗi điểm ảnh vào trọng tâm cụm gần nhất của nó
2.3.2 Độ tương tự màu
Trang 11Các màu {c i } và tỷ lệ phần trăm độ tương tự của điểm ảnh p i có dạng các mô tả màu được đưa ra bởi (2.1) Ta có hai mô tả đặc trưng màu như sau:
j j N
j j N
i
p F
1
, 1
2 1
2 2
1 2
2,
(2.4)
Trong đó a i,j là hệ số tương tự giữa các màu c i và b j
d j j
j
T d
T d d
d a
,
, max
, ,
, 0
, 1
(2.5)
Với d i,j là khoảng cách Euclide giữa màu c i và b j
d i,j = ||c i - b j|| (2.6)
và T d được định nghĩa trước, là khoảng cách cực đại của hai màu được cho là
tương tự d max = αT d , và giá trị của hệ số α=1.2 trong các thực nghiệm
Độ đo khoảng cách ở công thức trên có thể được thể hiện tốt nhất qua khoảng cách lược đồ màu bình phương:
Ở đây H 1 và H 2 là các vector lược đồ màu truyền thống, và các hệ số của ma trận
A là a i,j Mặt khác, nếu số bin của màu trong vector lược đồ N h là đủ lớn sao cho tất
cả các màu đại diện là các bin màu của phương pháp lược đồ màu Khoảng cách bình phương được viết lại như sau:
1 1 , 2
1
N
j N
l
N
i N
j
j i j l
j l N
i N
k
k i k i
Trong quá trình phân cụm, khoảng cách cực tiểu giữa hai trọng tâm cụm được đặt
là T d như đã thảo luận ở trên Lưu ý rằng:
k i
a i k
, 0
, 1
l j
a l
, 0
, 1
Ta có thể dễ dàng nhận ra: D h (H 1 ,H 2 ) = D(F 1 ,F 2)
Trang 122.4 Độ tương tự
2.4.1 Cấu trúc mạng D * 3
Có hai tham số quan trọng trong việc thiết kế mạng: p bán kính tối thiểu của một hình cầu có thể bao gồm các tế bào Voronoi, và p’ là bán kính tối đa có thể của
các tế bào Voronoi Hình 2.4 minh họa các thông số đối với trường hợp 2-D
Hình 2.4 Mạng tinh thể 2-D hình lục giác có p là bán kính tối thiểu, p’ là bán kính
tối đa
Đối với mạng D * 3 cơ bản, p ’ basic = ||(0,0,0) – (1,1,1)|| / 2 = 0.866 Tuy nhiên, việc
tính toán p thì phức tạp hơn Trong [18], tỷ lệ giữa hai biến này được cung cấp, tức
là p’/p=0.7747 Giá trị p sẽ được cho trong quá trình thiết kế Ta có thể tính toán các yếu tố s theo quy mô mạng D * 3 cơ bản bằng công thức dưới đây:
c round
Trang 13Bảng 2.1 Cấu trúc dữ liệu lập chỉ mục của một nút
Hình 2.5 minh họa cho cả hai chiều (2-D) nơi bán kính tìm kiếm mong muốn r là tìm kiếm trong phạm vi truy vấn và bán kính tìm kiếm R thực tế hay chính là tìm
kiếm khoảng cách tối thiểu cho các điểm mạng sao cho hình cầu mong muốn có bán
kính r được đảm bảo p hiển thị bán kính hình cầu nhỏ nhất được bao bởi một tế bào Voronoi, như được biểu diễn trong hình 2.5 Lưu ý rằng: R = r + p
Hình 2.5 Cơ chế tìm kiếm trong mặt phẳng 2-D
2.4.3 Thủ tục tìm kiếm
Thủ tục tìm kiếm hoàn chỉnh bao gồm các bước sau đây:
Bước 1: Để nhanh chóng loại bỏ kết quả sai, ngưỡng T p được thiết lập khác
biệt giữa phần trăm truy vấn p i và tỷ lệ thu hồi q j Một khu vực bị loại nếu không đạt điều kiện sau:
| p i – q j | < T p (2.14) Bước 2: Các truy vấn màu sẽ được lấy nếu kết quả phù hợp và loại bỏ tất cả các kết quả sai Khu vực mà phù hợp hai điều kiện sau đây được coi như đã thu được các điều kiện cuối cùng:
t i
Trang 14Bước 3: Xếp hạng tính khoảng cách giữa các tra cứu và truy vấn theo thứ tự
Đối với việc lập chỉ mục và tìm bán kính r để đo khoảng cách T d phù hợp, khoảng cách lớn nhất cho hai màu được coi là tương đương
Bước 4: Nếu truy vấn phạm vi được thực hiện, tất cả các kết hợp với khoảng
cách nhỏ hơn so với phạm vi nhất định thì trả lại Nếu một truy vấn N gần nhất được thực hiện, thì các N đầu tiên được trả về
2.5 Kết luận chương 2
Chương này đã trình bày kỹ thuật tra cứu ảnh sử dụng đặc trưng màu Kỹ thuật này được mô tả như sau: Một đại diện màu trội cho các khu vực hình ảnh được đề xuất Mô tả màu trội bao gồm các màu sắc đại diện trong khu vực và tỷ lệ phần trăm của nó Sự giống nhau giữa các mô tả màu sắc được đề xuất và được biểu thị là khoảng cách bậc hai lược đồ màu Một màu sắc hiệu quả được lập chỉ mục cho ảnh truy vấn bằng cách sử dụng mô tả màu sắc này Kết quả thử nghiệm cho thấy rằng phương pháp đề xuất là nhanh chóng và hiệu quả
Trang 15CHƯƠNG 3: ỨNG DỤNG 3.1 Xây dựng hệ thống tra cứu ảnh qua mạng
Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin người ta đã có thể thu thập được bộ ảnh phong cảnh theo mục đích nào đó Tuy nhiên khi cơ sở dữ liệu trên Internet có kích cỡ cực lớn thì việc thu thập này trở nên cực kỳ khó khăn Để giải quyết vấn đề này chúng ta có thể sử dụng công nghệ tra cứu ảnh dựa vào nội dung để tìm ra những ảnh phong cảnh tương tự với ảnh truy vấn nhất
Từ những thực tế trên đặt ra một bài toán tra cứu ảnh phong cảnh như sau: tìm trong một cơ sở dữ liệu ảnh phong cảnh những ảnh có nội dung (màu sắc, hình dạng, kết cấu) giống với một ảnh phong cảnh mẫu nhất, sau đó phân hạng theo thứ
tự giảm dần của độ tương tự
Với hệ thống tra cứu ảnh qua mạng bạn chỉ cần đường kết nối Internet và một chiếc máy tính Bạn không cần phải lo lắng về việc cài đặt phần mềm Ngoài ra bạn
có thể tra cứu bất kỳ lúc nào và bất kỳ nơi đâu
3.2 Phân tích bài toán
Nhiệm vụ của bài toán là xây dựng hệ thống tra cứu ảnh phong cảnh có một số các
chức năng sau:
o Khi người sử dụng cung cấp một ảnh phong cảnh mẫu cần tra cứu Hệ thống
có nhiệm vụ tìm kiếm trong một cơ sở dữ liệu ảnh đã có và cho ra một danh sách tất cả các ảnh tương tự như ảnh mẫu theo thứ tự ảnh nào tương tự với ảnh mẫu hơn thì được phân hạng ở phía trên
o Người sử dụng có thể qui định số lượng ảnh kết quả trả lại
3.3 Thiết kế hệ thống
Hệ thống được mô tả tổng quát như sau:
Từ một cơ sở dữ liệu ảnh cho trước, ta tiến hành trích rút các đặc trưng của các ảnh và lưu trữ trong cơ sở dữ liệu đặc trưng
Người sử dụng đưa vào một ảnh truy vấn, các đặc trưng của ảnh truy vấn này được tập hợp thành các véc tơ đặc trưng Sau đó, hệ thống tiến hành so sánh các véc
tơ đặc trưng này với các đặc trưng trong cơ sở dữ liệu đặc trưng để từ đó tìm ra độ
Trang 16tương tự Tra cứu nào cho độ tương tự cao nhất thì chúng ta được kết quả tốt nhất Tức là kết quả tìm được là giống nhất với ảnh truy vấn ban đầu
Tác nhân tra cứu
Chọn ảnh truy vấn
Chọn tra cứu ảnh
Hệ thống thực hiện trích rút đặc trưng màu của ảnh truy vấn, so sánh với các đặc trưng trong CSDL và trả về kết quả là tập ảnh có độ tương tự gần nhất với ảnh truy vấn Tập ảnh kết quả được sắp xếp giảm dần theo độ tương tự
Biểu đồ trình tự
Hình 3.2: Biểu đồ trình tự tra cứu ảnh