Ý tưởng phương pháp này là trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp
Trang 22
MỤC LỤC
MỤC LỤC 2
TÓM TẮT KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ 4
SUMMARY 6
CHƯƠNG 1 MỞ ĐẦU 8
CHƯƠNG 2 CÁC VẤN ĐỀ LÝ THUYẾT LIÊN QUAN 13
1 Tổng quan về tra cứu ảnh 13
1.1 Vấn đề tra cứu ảnh 13
1.2 Một số phương pháp tra cứu ảnh 14
2 Tra cứu ảnh theo nội dung 16
2.1 Giới thiệu 16
2.2 Mô hình hệ thống tra cứu ảnh theo nội dung 17
2.3 Các phương pháp mô tả nội dung ảnh 17
2.3.1 Mô tả các đặc điểm màu sắc 18
2.3.2 Mô tả các đặc điểm hình dạng 23
2.3.3 Thông tin về không gian 31
2.4 Đánh giá độ tương tự và xây dựng sơ đồ đánh chỉ số 32
2.4.1 Đánh giá độ tương tự 32
2.4.2 Xây dựng sơ đồ đánh chỉ số 34
2.5 Hiệu năng của hệ thống tra cứu ảnh 37
CHƯƠNG 3 PHƯƠNG PHÁP ĐỀ XUẤT VÀ HỆ THỐNG THỰC NGHIỆM 40
1 Sử dụng kỹ thuật phân lớp dữ liệu để tính toán các bins màu trong tra cứu ảnh dựa trên màu sắc [3] 40
1.1 Giới thiệu 40
1.2 Kỹ thuật cơ sở tra cứu ảnh dựa trên màu sắc 40
1.3 Một số kỹ thuật tăng cường kỹ thuật cơ sở đã được đề xuất 41
1.4 Sử dụng kỹ thuật phân lớp dữ liệu để tính toán các bins màu 42
1.5 Thực nghiệm 43
1.6 Kết luận và hướng nghiên cứu tiếp theo 46
2 Một cách tiếp cận cho CBIR sử dụng thuật toán phân lớp K-Means và đặc trưng hình dạng dựa trên đa giác [4] 46
2.1 Giới thiệu 46
2.2 Những nghiên cứu liên quan 47
2.3 Trích rút đặc trưng 47
2.4 Thuật toán phân lớp dữ liệu K-means 48
Trang 33
2.5 Đặc trưng hình dạng 49
2.6 Biểu diễn mờ 50
2.7 Thước đo mức độ tương tự giữa các vùng 51
2.8 So sánh các ảnh 52
2.9 Gán trọng số 53
2.10 Thực nghiệm 54
2.11 Kết luận 55
3 Sử dụng đặc tính cục bộ của vùng phục vụ tra cứu ảnh phong cảnh [1] 55
3.1.Giới thiệu 55
3.2.Các nghiên cứu liên quan 56
3.3 Kỹ thuật tra cứu đề xuất 57
3.3.1 Lựa chọn các thuộc tính màu 57
3.3.2 Trích rút và biểu diễn vùng 58
3.3.3 Tính độ tương tự 61
3.4 Kết quả thử nghiệm 61
3.4.1 Môi trường thử nghiệm 61
3.4.2 Các kết quả 61
3.5 Kết luận và hướng phát triển 64
4 Áp dụng thuật toán Octrees cho bước lượng tử trong quá trình phân đoạn ảnh màu bằng thuật toán Jseg [2] 65
4.1 Giới thiệu 65
4.2 Cải tiến thuật toán JSEG (Thuật toán O-JSEG) 65
4.3 Thực nghiệm 67
4.4 Kết luận 67
KẾT QUẢ VÀ THẢO LUẬN 69
TÀI LIỆU THAM KHẢO 71
Trang 4Cơ quan chủ trì đề tài: Khoa Công nghệ thông tin – Đại học Thái Nguyên
Cơ quan và cá nhân phối hợp thực hiện: Viện Công nghệ thông tin
Thời gian thực hiện: 01-2007 đến 12-2009
1 Mục tiêu:
+ Tìm hiểu, tổng hợp, hệ thống lại các phương pháp, kỹ thuật tra cứu ảnh Qua đó tạo ra một tài liệu có hệ thống về tra cứu ảnh
+ Cải tiến một số phương pháp tra cứu ảnh dựa vào nội dung
+ Áp dụng một số phương pháp tra cứu ảnh vào thực tế: để xây dựng thử nghiệm một hệ thống tìm kiếm ảnh
2 Nội dung chính
- Nghiên cứu chuyên đề lý thuyết 1 (Tra cứu ảnh dựa trên màu sắc)
- Nghiên cứu chuyên đề lý thuyết 2 (Tra cứu ảnh dựa trên hình dạng)
- Thực hiện chuyên đề nghiên cứu thực nghiệm 1 (Cài đặt thử nghiệm phương pháp tra cứu ảnh dựa trên màu sắc)
- Thực hiện chuyên đề nghiên cứu thực nghiệm 2 (Cài đặt thử nghiệm phương pháp tra cứu ảnh dựa trên hình dạng)
Trang 5- Đề xuất 01 cải tiến phương pháp tra cứu ảnh dựa trên hình dạng [4]
- Đề xuất 02 cải tiến phương pháp tra cứu ảnh dựa trên màu sắc [1,3]
- Đề xuất cải tiến 01 phương pháp phân đoạn ảnh màu [2]
- Các cải tiến được công bố trong 02 công trình khoa học tại Tạp chí Khoa học và công nghệ - Đại học Thái Nguyên [3,4] và một công trình tại Kỷ yếu hội thảo quốc gia “Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông” [1]
- Biên soạn 01 tài liệu tham khảo (lưu hành nội bộ)
- Hướng dẫn 02 đề tài NCKH sinh viên năm 2009
- Hướng dẫn 02 đồ án tốt nghiệp năm 2007
Trang 66
SUMMARY
Project Title: RESEARCH TO APPLY SOME CONTENT BASED IMAGE
RETRIEVAL METHODS TO REALITY
2 Main contents:
- Researching the 1st theoretic subject (color based image retrieval)
- Researching the 2nd theoretic subject (shape based image retrieval)
- Researching the 1st experimental subject (implement color based image retrieval system)
- Researching the 2nd experimental subject (implement shape based image retrieval system)
- Researching the 3rd theoretic subject (Developing Photo Explore system)
Trang 77
3 Results Obtained:
- Completed the theoretic and experimental subjects
- Improved 01 method of shape based image retrieval
- Improved 02 methods of color based image retrieval
- Improved 01 method of color image segmentation
- The improvings published in proceedings of the national conference and Thai Nguyen University’s Journal of Science and Technology
- Edited “Image retrieval” book Supervising of 02 scientific research for student projects (2009) and 02 graduate student thesis (2007)
Trang 88
CHƯƠNG 1 MỞ ĐẦU
Những năm gần đây, ảnh số ngày càng thu hút được sự quan tâm của nhiều người, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả phù hợp, cho phép nhiều người có thể sở hữu và sử dụng Mặt khác các công nghệ chế tạo thiết bị lưu trữ luôn được cải tiến để cho ra đời các thiết bị lưu trữ có dung lượng lớn và giá thành hạ làm cho việc lưu trữ ảnh dưới dạng các file trở nên phổ biến Thêm nữa là sự phát triển của mạng Internet làm cho số lượng ảnh số được đưa lên lưu trữ và trao đổi qua Internet là rất lớn Năm 2006, trên 300 triệu hình ảnh
đã được tải lên Flickr, một trong những cộng đồng chia sẻ hình ảnh lớn nhất trên internet Con số này cho thấy thực tế là số lượng ảnh số được lưu giữ trong các cơ
sở dữ liệu đang gia tăng nhanh chóng
Tuy nhiên khi số lượng ảnh được lưu trữ trở nên rất lớn thì vấn đề là phải có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt Việc tìm kiếm được một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc đủ loại chủ đề khác nhau là rất khó khăn Khi số lượng ảnh trong một bộ sưu tập còn ít, việc nhận diện một bức ảnh hay việc so sánh sự giống và khác nhau giữa nhiều bức ảnh có thể thực hiện được bằng mắt thường, tuy nhiên khi có số lượng rất lớn ảnh thì việc so sánh bằng mắt thường là rất khó khăn, đòi hỏi phải có những phương pháp hiệu quả và chính xác hơn
Trong thực tế, bài toán tra cứu ảnh số có rất nhiều ứng dụng quan trọng Ví dụ như trong lĩnh vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ ký
đã được lưu trữ sẵn có thể thực hiện rất nhanh và chính xác nếu có được một phần mềm so sánh mẫu chữ ký tốt Thực tế hiện nay tại các ngân hàng ở Việt nam người
ta vẫn phải sử dụng phương pháp so sánh bằng mắt thường vì việc so sánh chữ ký bằng phần mềm vẫn chưa thực hiện được Một ví dụ khác là bài toán quản lý biểu trưng (logo) trong lĩnh vực sở hữu trí tuệ Khi một đơn vị muốn đăng ký logo riêng cho đơn vị của mình thì cơ quan quản lý phải tiến hành đánh giá xem mẫu logo đó
đã được sử dụng hay chưa hoặc có tương tự với mẫu logo nào đó đang được sử dụng hay không Trong trường hợp này nếu sử dụng mắt thường để duyệt thì sẽ tốn rất nhiều thời gian, nếu có các phần mềm cho phép tìm kiếm trong cơ sở dữ liệu ảnh
Trang 9cơ sở dữ liệu Nếu có phần mềm thực hiện chính xác, nhanh chóng điều này thì giúp ích rất nhiều cho công tác điều tra
Một ví dụ nữa là trong lĩnh vực bảo tồn, bảo tàng, vấn đề lưu trữ và tra cứu ảnh số có vai trò ngày càng quan trọng Ảnh của các tác phẩm hội hoạ, điêu khắc hoặc các cổ vật được lưu trữ dưới dạng các file ảnh sẽ đảm bảo được chất lượng tốt hơn, thời gian lưu trữ lâu dài hơn và việc trao đổi hay giới thiệu với công chúng cũng dễ dàng hơn Bài toán tra cứu cổ vật xuất phát từ một thực tế của ngành bảo tồn, bảo tàng là khi sưu tầm được một cổ vật mới, người ta cần xác định hàng loạt các thuộc tính như niên đại, chất liệu, nguồn gốc và có thể là chủ sở hữu của cổ vật
đó Nếu có được sự trợ giúp của phần mềm tra cứu ảnh phù hợp thì người ta có thể
dễ dàng xác định xem mẫu cổ vật đó đã được lưu trữ trong cơ sở dữ liệu nào hay chưa, có những loại cổ vật nào tương tự với nó trong kho tàng cổ vật của thế giới và phần mềm có thể đưa ra ảnh của các loại cổ vật có màu sắc, hình dạng, hoa văn tương tự với cổ vật vừa tìm thấy Những thông tin này sẽ giúp ích rất nhiều cho các chuyên gia trong quá trình phân loại, kiểm chứng một cổ vật
Đã có một số hệ thống tra cứu ảnh nổi tiếng như QBIC (IBM), Virage (Virage Inc.), Photobook (MIT), VisualSEEK (Columbia University) [21, 41, 36, 13, 16] Trước năm 1990, người ta thường sử dụng phương pháp tra cứu ảnh theo văn bản (Text Based Image Retrieval) Theo cách này người ta sẽ gán cho mỗi bức ảnh một lời chú thích phù hợp với nội dung hoặc một đặc điểm nào đó của ảnh, sau đó việc tra cứu ảnh được thực hiện dựa trên những lời chú thích này Phương pháp này khá đơn giản, tuy nhiên lại không thể áp dụng để tra cứu các cơ sở dữ liệu ảnh có số lượng ảnh lớn và kết quả tra cứu thì mang tính chủ quan và cảm ngữ cảnh [21,5] Bởi
vì các kỹ thuật tra cứu dựa trên văn bản chỉ có thể được áp dụng khi hình ảnh đã được
Trang 1010
mô tả Việc tự động hiểu nội dung một bức tranh theo cách của con người là một công việc rất khó Vấn đề này được gọi là lỗ hổng ngữ nghĩa (semantic gap)[56] Một trong những phương pháp được nhiều người quan tâm nghiên cứu hiện nay là phương pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Image Retrieval) Ý tưởng phương pháp này là trích chọn các đặc điểm dựa vào nội dung
trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để
làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh [21, 41, 8]
Đề tài này tập trung nghiên cứu phương pháp tra cứu ảnh dựa trên màu sắc và tra cứu ảnh dựa trên hình dạng Phần còn lại trong chương này, chúng tôi giới thiệu một số nghiên cứu liên quan và hướng nghiên cứu của chúng tôi Cuối chương, chúng tôi giới thiệu về các cộng tác viên và đóng góp của họ
Kỹ thuật tra cứu ảnh trên cơ sở màu cơ bản có nhiều hạn chế Hạn chế thứ nhất của
kỹ thuật cơ sở là không sử dụng tính tương đồng giữa các màu Khi đó, hai ảnh với màu cảm nhận tương đồng nhưng không có màu chung thì khoảng cách của chúng sẽ lớn, có thể
là cực đại Với hạn chế thứ nhất này, một số tác giả đã đưa ra những cách khắc phục như: Niblack [26] đưa ra thước đo mức độ giống nhau trong đó quan tâm đến đóng góp các màu cảm nhận tương tự Chan [12] đề xuất kỹ thuật tính toán khoảng cách màu trong đó các giá trị biểu đồ màu được điều chỉnh trên cơ sở mức độ tương tự màu Lu và Phillips [24] đưa
ra hướng tiếp cận sử dụng biểu đồ trọng số cảm nhận (PWH – perceptually weighted
histogram) Hạn chế thứ hai là không sử dụng quan hệ không gian giữa các pixel Để giải
quyết vấn đề này, Lu và Phillips [24] đưa ra hướng tiếp cận là tách màu nền khỏi màu cận cảnh (phân đoạn ảnh) sau đó biểu đồ màu nền và biểu đồ màu cận cảnh được tính toán và
sử dụng Hạn chế thứ ba là không gian màu lựa chọn được lượng tử hóa đồng nhất mặc dù
các màu điểm ảnh không phân bổ đồng nhất trong không gian màu Wan và Kuo [52] đưa
ra giải pháp lượng tử hóa màu không đồng nhất Để khắc phục những nhược điểm của phương pháp cơ sở, hướng tiếp cận lựa chọn không gian màu thích hợp cũng đã được
đề cập Trong đề tài này, chúng tôi đưa ra một hướng tiếp cận khác nhằm khắc phục hạn chế thứ nhất và hạn chế thứ ba nêu trên của kỹ thuật cơ sở Hướng tiếp cận mà chúng tôi đưa ra là cải tiến việc tính toán các bins màu bằng cách sử dụng kỹ thuật phân lớp dữ liệu
Như đã trình bày trên đây, kỹ thuật tra cứu cơ sở dựa trên lược đồ màu chưa tận dụng được các đặc tính cục bộ của vùng của ảnh như màu và không gian Đề tài
Trang 1111
này còn đề cập đến kỹ thuật tra cứu ảnh dựa vào các đặc tính cục bộ của vùng áp dụng trong tra cứu các ảnh phong cảnh Trong [32] đã phát triển kỹ thuật đối sánh cặp màu để mô hình các đường bao đối tượng phân biệt Chua và cộng sự [16] đã
mở rộng kỹ thuật cặp màu để thực hiện tra cứu các ảnh đã được phân đoạn Các hạn chế trong nhiều kỹ thuật tra cứu dựa vào màu hiện có [32-30] bao gồm: thiếu khả năng nhận dạng các đối tượng tương tự có các màu khác nhau, nhạy cảm với tỷ lệ của đối tượng Chúng tôi đưa ra kỹ thuật tra cứu ảnh dựa vào các đặc tính cục bộ của vùng bao gồm màu và không gian áp dụng trong tra cứu các ảnh phong cảnh
Kỹ thuật này nhằm khắc phục các hạn chế đã được đề cập ở trên thông qua một quá trình ba bước: Phân đoạn ảnh thành các cụm dựa vào màu (sử dụng thuật toán phân lớp dữ liệu K-Means); Chia các ảnh thành dãy các hình chữ nhật bằng phương pháp phủ hình chữ nhật tối thiểu có độ thuần nhất; Cuối cùng, thông tin của vùng được trích rút trong bước thứ hai được sử dụng để tra cứu các ảnh liên quan từ một cơ sở
dữ liệu ảnh phong cảnh
Với phương pháp tra cứu ảnh dựa trên hình dạng, có nhiều nhóm nghiên cứu đã đưa ra những phương pháp biểu diễn đặc trưng hình dạng và thước đo độ tương tự khác nhau Yxin Chen [57] đưa ra phương pháp tiếp cận dựa trên hình dạng sử dụng logic mờ Đầu tiên, ảnh được phân đoạn thành một tập các vùng Mỗi vùng được biểu diễn bởi một tập mờ Khoảng cách giữa hai ảnh được tính toán dựa trên việc so sánh khoảng cách giữa tất cả các cặp vùng của 2 ảnh kết hợp với gán trọng số cho mỗi vùng Cheng Chang [15] đưa ra phương pháp biểu diễn đặc trưng của vùng bởi một vector 15 chiều bao gồm các thành phần màu đặc trưng của vùng và các đặc trưng hình dạng Trong đề tài này, với mục đích đơn giản hóa quá trình tính toán, chúng tôi đưa ra hướng tiếp cận kết hợp hai phương pháp trên đồng thời đưa ra cải tiến cách biểu diễn vector đặc trưng của một vùng theo ý tưởng của Cheng Chang nhưng chỉ sử dụng 6 thành phần (3 thành phần đặc trưng màu sắc
và 3 thành phần đặc trưng hình dạng); hình dạng các vùng được xấp xỉ bởi đa giác Đa giác biểu diễn hình dạng các vùng được xác định theo cách hoạt động của radar
Trong quá trình tra cứu ảnh dựa trên hình dạng có bước phân đoạn Thuật toán phân đoạn ảnh màu JSEG [54] do 3 giáo sư của trường đại học California là Yining Deng,
B S Manjunath và Hyundoo Shin xây dựng Thuật toán JSEG được đề xuất và thử nghiệm với sự kết hợp cùng thuật toán lượng tử bằng cách làm mịn và sử dụng trọng số (Peer group filtering and perceptual color image – PGF and PCI [55]) cho kết quả tương đối tốt
Trang 1212
Tuy nhiên, thuật toán này còn một số hạn chế khi làm việc với các ảnh thiên nhiên Chúng tôi đề xuất cải tiến thuật toán JSEG theo hướng kết hợp giữa JSEG và thuật toán lượng tử OCTREES [22] Cải tiến này cũng nhằm giảm khối lượng tính toán sau bước lượng tử hoá
Chúng tôi hoàn thành đề tài này có sự tham gia của một số cộng tác viên: Nguyễn Thị Thu Hiền-sinh viên lớp K1C-Khoa Công nghệ thông tin trong quá trình làm đồ án đã tham gia nghiên cứu cải tiến và cài đặt thử nghiệm một phương pháp phân đoạn ảnh màu; NCS Nguyễn Hữu Quỳnh – Trường ĐH Điện lực (do PGS, TS Ngô Quốc Tạo hướng dẫn) đã tham gia vào việc nghiên cứu sử dụng các đặc trưng cục bộ của vùng phục vụ tra cứu ảnh phong cảnh; sinh viên thực tập Dominic Mai đã tham gia nghiên cứu cải tiến và triển khai cài đặt thử nghiệm hướng tiếp cận tra cứu ảnh dựa vào hình dạng; nhóm sinh viên Đồng Văn Thái, Nguyễn Thị Thanh Mai lớp K4B đã và đang phát triển phần mềm tra cứu ảnh trong nội dung thực hiện đề tài NCKH sinh viên năm 2009 trên cơ sở các kết quả nghiên cứu của đề tài này
Trang 1313
CHƯƠNG 2 CÁC VẤN ĐỀ LÝ THUYẾT LIÊN QUAN
1 Tổng quan về tra cứu ảnh
Những kỹ thuật tra cứu ảnh số đã được nghiên cứu từ cuối những năm 70 của thế kỷ 20 Năm 1979 một cuộc hội thảo chuyên đề về "Các kỹ thuật tổ chức cơ sở
dữ liệu cho các ứng dụng đồ hoạ" được tổ chức ở thành phố Florence, Italia Từ đó
?
Holiday?
Trang 1414
đến nay, khả năng ứng dụng cao của các kỹ thuật quản lý cơ sở dữ liệu ảnh đã thu hút sự quan tâm của nhiều nhà nghiên cứu [21,5]
1.2 Một số phương pháp tra cứu ảnh
Các phương pháp tra cứu ảnh được sử dụng đầu tiên không dựa trên các đặc điểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh, đầu tiên người ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa trên một đặc điểm nào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản thông thường để tìm kiếm ảnh Phương pháp tra cứu ảnh dựa trên văn bản như trên sử dụng các kỹ thuật cơ sở
dữ liệu truyền thống để quản lý ảnh Dựa vào các lời chú thích, người ta có thể tổ chức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ nghĩa và việc duyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thông thường Phương pháp tra cứu ảnh dựa trên chú thích như trên còn được gọi là tra cứu ảnh theo từ khoá
Do việc xây dựng các thuật toán có khả năng tự động sinh ra các chú thích cho một
cơ sở dữ liệu ảnh có nhiều chủ đề là hết sức khó khăn nên nói chung các hệ thống tra cứu ảnh kiểu này vẫn yêu cầu phải chú thích ảnh một cách thủ công và trên thực tế việc chú thích ảnh như vậy tốn rất nhiều công sức và quan trọng hơn là nó mang tính chủ quan, bị ảnh hưởng của hoàn cảnh và thường là không đầy đủ [21, 20, 39] Phương pháp tra cứu ảnh theo nội dung ra đời đã khắc phục được những nhược điểm của phương pháp từ khoá Nội dung chính của phương pháp này là dựa trên sự tương tự của những đặc điểm trực quan của ảnh như màu sắc, hình dạng, kết cấu hay bố cục không gian của ảnh để phân loại, sắp xếp các ảnh trong một cơ sở
dữ liệu ảnh Tuy nhiên những đặc điểm mà phương pháp này trích chọn để tra cứu vẫn là những đặc điểm ở mức thấp, chưa phản ánh được nội dung mang tính ngữ nghĩa của một đối tượng ảnh Vì vậy người ta đã đưa ra một số cách tiếp cận mới phát triển phương pháp tra cứu ảnh theo nội dung thành các phương pháp tra cứu ảnh theo đồ thị [39] hay tra cứu ảnh theo bản thể [20]
Đầu những năm 1990, do sự phát triển của Internet và các công nghệ ảnh số tiên tiến, số lượng ảnh số trong các lĩnh vực khoa học, giáo dục, y tế, công nghiệp được tung ra cho người sử dụng truy cập tăng lên một cách nhanh chóng Điều này làm cho những khó khăn của các hệ thống tra cứu ảnh dựa theo văn bản càng thêm khó giải quyết Sự cần thiết phải có một hệ thống quản lý hiệu quả các thông tin trực quan là vô cùng cấp bách Nhu cầu đó chính là động lực thúc đẩy các nhà
Trang 1515
nghiên cứu vào cuộc mạnh mẽ hơn và cũng là nguyên nhân dẫn đến sự ra đời của
phương pháp tra cứu ảnh theo nội dung
Năm 1992, Quỹ Khoa học Quốc gia (National Science Foundation) của Hoa Kỳ
đã tổ chức một buổi Hội thảo về các hệ thống quản lý thông tin trực quan để xác định hướng đi mới cho các hệ thống quản lý cơ sở dữ liệu ảnh Tại buổi hội thảo này người ra phải công nhận với nhau rằng cách hiệu quả nhất để thể hiện và sắp xếp các thông tin trực quan của một bức ảnh là phải dựa trên các thuộc tính được trích chọn
từ chính những bức ảnh đó Tất cả các nhà nghiên cứu từ các lĩnh vực khác nhau như thị giác máy tính (computer vision), quản lý cơ sở dữ liệu, giao diện người-máy và tra cứu thông tin đã nhận thấy đây là một lĩnh vực nghiên cứu hấp dẫn [21,5]
Từ đó đến nay, những công trình nghiên cứu về tra cứu ảnh theo nội dung được triển khai rất nhiều [38] Từ năm 1997 những kết quả nghiên cứu về tra cứu ảnh theo nội dung như các kỹ thuật trích chọn thông tin trực quan, tổ chức, sắp xếp, thiết kế truy vấn, tương tác với người dùng, quản lý cơ sở dữ liệu được công bố ngày một nhiều[38] Tương tự như vậy, một số lượng lớn các mô hình nghiên cứu cũng như sản phẩm thương mại các hệ thống tra cứu ảnh theo nội dung đã được các trường đại học, các cơ quan nghiên cứu và các công ty tin học cho ra đời[38]
Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu:
o QBIC hay Query By Image Content do hãng IBM và Trung tâm
nghiên cứu Almaden hợp tác phát triển Hệ thống này cho phép người sử dụng dùng các công cụ đồ hoạ để mô tả và hiệu chỉnh truy vấn dựa trên nhiều thuộc tính trực quan như màu sắc, kết cấu và hình dạng của đối tượng ảnh QBIC hỗ trợ các kiểu truy vấn dựa trên ảnh mẫu, dựa trên hình phác thảo hoặc dựa trên các mẫu màu hoặc mẫu kết cấu [17]
o VIR Image Engine do Công ty Virage Inc phát triển, cũng giống
như QBIC, hệ thống này cho phép tra cứu ảnh dựa trên các thuộc tính màu sắc, kết cấu và cấu trúc [17]
o VisualSEEK và WebSEEK do trường Đại học Tổng hợp Columbia
(Mỹ) phát triển Cả hai hệ thống này đều hỗ trợ các cách tìm kiếm theo màu sắc, kết cấu và bố cục không gian [17]
Trang 1616
o NeTra do trường Đại học Tổng hợp California (Mỹ) phát triển Hệ
thống này hỗ trợ tìm kiếm theo màu sắc, hình dạng, bố cục không gian và kết cấu cũng như theo sự phân mảnh của ảnh [17]
o MARS hay Multimedia Analysis and Retrieval System do trường Đại
học Tổng hợp Illinois phát triển, hỗ trợ tìm kiếm theo màu sắc, bố cục không gian, kết cấu và hình dạng [17]
o Viper hay Visual Information Processing for Enhanced Retrieval do
trường Đại học Geneva phát triển, tìm kiếm theo màu sắc và kết cấu [17] Ngoài ra người ta còn giới thiệu nhiều phương pháp tra cứu ảnh khác như tra cứu ảnh theo nhận thức (Perception based image retrieval), tra cứu ảnh theo phân đoạn (Segment based image retrieval), tra cứu ảnh theo đồ thị (Graph based image retrieval), tra cứu ảnh theo bản thể (Ontology based image retrieval) Tuy nhiên phần lớn trong số các phương pháp đó lại sử dụng các nguyên tắc cơ bản của tra cứu ảnh theo nội dung
2 Tra cứu ảnh theo nội dung
2.1 Giới thiệu
Phương pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval) sử dụng các nội dung trực quan của ảnh như màu sắc, hình dạng, kết cấu (texture) và phân bố không gian để thể hiện và đánh chỉ số các ảnh [21, 41, 36, 12] Trong một
hệ thống tra cứu ảnh theo nội dung điển hình (hình 2.2), các nội dung trực quan của ảnh được trích chọn và mô tả bằng những vector đặc trưng nhiều chiều Tập hợp các vector đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạo thành cơ sở dữ liệu đặc trưng Quá trình tra cứu ảnh được tiến hành như sau: người sử dụng cung cấp cho
hệ thống tra cứu một ảnh mẫu cụ thể hoặc hình vẽ phác thảo của đối tượng ảnh cần tìm Sau đó hệ thống sẽ chuyển những mẫu này thành các vector đặc trưng và tính toán sự giống nhau (hay độ tương tự) giữa vector đặc trưng của ảnh mẫu và vector đặc trưng của các ảnh trong cơ sở dữ liệu Sau cùng việc tra cứu được tiến hành với
sự trợ giúp của các sơ đồ đánh chỉ số Sử dụng sơ đồ đánh chỉ số là cách hiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnh mới phát triển gần đây còn tích hợp cả chức năng xử lý phản hồi của người sử dụng để cải tiến các qui trình tra cứu, đưa ra những kết quả tra cứu tốt hơn
Trang 1717
2.2 Mô hình hệ thống tra cứu ảnh theo nội dung
Hình 2.2: Mô hình hệ thống Tra cứu ảnh theo nội dung
Trong mô hình này, người sử dụng sẽ tạo truy vấn bằng cách chọn một ảnh mẫu trong một cơ sở dữ liệu ảnh cho trước hoặc phác thảo một hình vẽ mô tả đối tượng ảnh cần tìm bằng cách sử dụng một giao diện đồ hoạ của hệ thống Ảnh mẫu
đó được đưa qua khối mô tả nội dung trực quan, trong đó người ta sử dụng một phương pháp mô tả nội dung trực quan nào đó để trích chọn một đặc điểm nội dung trực quan để xây dựng thành một vector đặc trưng Vector đặc trưng của ảnh mẫu sẽ được so sánh với vector đặc trưng tương ứng của các ảnh trong cơ sở dữ liệu ảnh Kết quả của phép so sánh là một chỉ số đánh giá độ tương tự giữa ảnh mẫu và ảnh lấy ra để so sánh Dựa vào chỉ số độ tương tự tính toán được ở trên, hệ thống sẽ sắp xếp các ảnh tìm được trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó Danh sách các ảnh tìm được (đã được sắp xếp) được đưa ra đầu ra của hệ thống
2.3 Các phương pháp mô tả nội dung ảnh
Nếu nhìn một cách tổng quát thì nội dung của một bức ảnh có thể bao gồm cả nội dung trực quan và nội dung ngữ nghĩa [21,5] Nội dung trực quan của ảnh lại được phân làm hai loại là nội dung tổng quan và nội dung đặc tả Nội dung tổng quan bao gồm màu sắc, kết cấu, hình dạng và các quan hệ không gian giữa các đối
Tạo truy vấn
Mô tả nội dung trực quan
Các vector đặc trưng
Cơ sở dữ liệu
ảnh
Mô tả nội dung Trực quan
Cơ sở dữ liệu đặc trưng
Đánh giá độ tương tự
Tra cứu và đánh chỉ số
Kết quả tra cứu
Phản hồi thích hợp
Người
sử
dụng
Đầu ra
Trang 1818
tượng ảnh hoặc giữa các vùng ảnh Nội dung đặc tả thì tuỳ vào từng ứng dụng cụ thể, ví dụ với các ứng dụng tra cứu ảnh người thì mặt người hoặc con mắt là các nội dung đặc tả; với các ứng dụng tra cứu ảnh ô tô thì bánh xe là một nội dung đặc tả [21,5] Nội dung ngữ nghĩa có thể phát hiện thông qua các chú thích hoặc sử dụng các phương pháp suy diễn từ nội dung trực quan
Một phương pháp mô tả nội dung trực quan được thiết kế tốt phải có tính bất biến đối với các biến đổi bất thường sinh ra trong quá trình xử lý ảnh (ví dụ như những biến đổi bất thường của độ sáng của cảnh vật) Tuy nhiên cũng cần phải chú
ý tới sự cân bằng giữa tính bất biến và khả năng đáp ứng những thay đổi tuỳ ý của các đặc trưng trực quan của ảnh, bởi vì một hệ thống có tính bất biến lớn thì thường
là không có tính nhạy cảm, mất khả năng phản ánh những thay đổi nhỏ nhưng rất quan trọng
Phương pháp mô tả nội dung trực quan được chia làm 2 loại: phương pháp toàn cục hoặc phương pháp cục bộ Phương pháp mô tả nội dung toàn cục sử dụng các đặc trưng trực quan của toàn bộ bức ảnh còn phương pháp mô tả nội dung cục
bộ lại sử dụng những đặc trưng trực quan của các vùng ảnh hoặc các đối tượng ảnh
để mô tả nội dung của ảnh
Để mô tả được nội dung cục bộ trước hết người ta phải chia ảnh thành các phần riêng biệt Cách đơn giản nhất để phân chia ảnh là sử dụng một bộ phân hoạch chia ảnh thành các ô có kích thước và hình dạng giống nhau Cách phân chia như vậy không tạo ra được những vùng ảnh có ý nghĩa thực sự nhưng nó là cách đơn giản để biểu diễn nội dung toàn cục của ảnh với độ chính xác cao hơn Một phương pháp phân chia tốt hơn là phân đoạn ảnh thành các vùng đồng nhất dựa vào các tiêu chí sử dụng các thuật toán phân đoạn ảnh đã được nghiên cứu và áp dụng trong ngành thị giác máy tính Một cách phức tạp hơn để phân chia ảnh là thực hiện phân chia theo các đối tượng ảnh để tách ra các đối tượng ảnh có nghĩa thực sự (như quả bóng, cái ô tô hay con ngựa) [21, 8]
2.3.1 Mô tả các đặc điểm màu sắc
Trên thực tế thì màu sắc được sử dụng nhiều nhất để mô tả nội dung trực quan của ảnh Lý do là vì màu sắc của ảnh có tác động lớn đến nhận thức của con người
về nội dung của ảnh hơn là các đặc điểm khác như hình dạng của các đối tượng ảnh, kết cấu của ảnh hay sự phân bố không gian của các đối tượng ảnh
Trang 1919
2.3.1.1 Không gian màu
Giá trị của mỗi điểm ảnh trên một bức ảnh có thể được biểu diễn bằng một vector trong một không gian màu 3 chiều Những không gian màu được sử dụng
nhiều nhất trong các hệ thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV và
không gian màu đối lập Người ta cũng chưa chỉ ra được rằng không gian màu nào được sử dụng tốt hơn cho việc tra cứu ảnh Tuy nhiên tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính đồng nhất Một không gian màu được gọi là có tính đồng nhất nếu các cặp 2 màu tương tự nhau trong không gian màu thì cũng được con người cảm nhận như nhau Nói một cách khác, khoảng cách đo được giữa hai màu bất kỳ phải có liên quan trực tiếp với độ tương tự sinh học giữa hai màu đó
RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh Không gian RGB bao gồm 3 thành phần màu là Red, Green và Blue
CMY là không gian màu thường sử dụng trong in ấn Ba thành phần màu của không gian CMY là màu Cyan, Magenta và Yellow
Cả RGB và CMY đều phụ thuộc thiết bị và không có tính đồng nhất
Các không gian màu CIE L*a*b và CIE L*u*v là các không gian màu không phụ thuộc thiết bị và có thể coi là đồng nhất Bao gồm các thành phần độ sáng (L)
và hai thành phần độ kết tủa màu (sắc độ màu) là a và b hoặc u và v CIE L*a*b được thiết kế để làm việc với việc trộn các thành phần màu trừ còn CIE L*u*v được thiết kế để làm việc với việc trộn các thành phần màu cộng Các không gian màu RGB và CIE có thể chuyển đổi với nhau, tức là chúng ta có thể sử dụng các công thức để chuyển đổi một giá trị màu từ không gian màu này sang không gian màu khác Không gian màu HSV được sử dụng rộng rãi trong đồ hoạ máy tính và được coi là một phương pháp biểu diễn màu sắc trực quan hơn Ba thành phần màu là sắc màu (hue), độ bão hoà màu (s) và giá trị độ sáng (v) Thành phần sắc màu không thay đổi khi ta thay đổi độ chiếu sáng hay góc quan sát vì vậy thích hợp để sử dụng trong việc nhận dạng đối tượng ảnh Cũng có thể dễ dàng chuyển đổi các giá trị từ không gian HSV sang RGB và ngược lại Không gian màu đối lập sử dụng các trục màu ngược (R-G, 2B-R-G, R+G+B), cách biểu diễn này có ưu điểm là tách được thông tin về độ sáng ra một trục riêng biệt (trục thứ ba) Bằng cách này, hai thành phần kết tủa màu sẽ không bị thay đổi khi thay đổi độ chiếu sáng
Trang 2020
2.3.1.2 Các moment màu
Các moment màu đã được sử dụng rất thành công trong nhiều hệ thống tra cứu ảnh đặc biệt là khi ảnh chỉ chứa một đối tượng ảnh Các thành phần moment bậc nhất (trung vị), bậc hai (phương sai) và bậc ba (độ lệch) đã được chứng minh là có thể được sử dụng rất hiệu quả để biểu diễn sự phân bố màu sắc của ảnh
Công thức toán học để biểu diễn 3 moment này như sau:
N
j ij
1
i N
j ij
1 N
j
i ij
Sử dụng cả thành phần moment bậc ba s i sẽ giúp tăng cường hiệu năng tra cứu
so với khi chỉ sử dụng các moment bậc nhất i và bậc hai i Tuy nhiên đôi khi việc
sử dụng moment bậc 3 làm cho việc biểu diễn đặc trưng của ảnh nhạy cảm hơn đối với những thay đổi của cảnh nền và do đó làm giảm khả năng của hệ thống
Do chỉ sử dụng 9 giá trị (3 moment cho mỗi màu trong bộ ba màu) để biểu diễn nội dung màu của mỗi ảnh nên việc sử dụng moment màu để biểu diễn vector đặc trưng màu là rất đơn giản nếu so sánh với các phương pháp biểu diễn khác Và cũng chính do sự đơn giản đó nên phương pháp này cho kết quả khá hạn chế
Thông thường, phương pháp biểu diễn bằng moment màu được sử dụng trong những bước đầu tiên của quá trình tra cứu ảnh với mục đích làm giảm kích thước không gian tìm kiếm trước khi áp dụng các phương pháp phức tạp hơn để tra cứu
2.3.1.3 Lược đồ màu (histogram màu)
Histogram màu là cách hiệu quả để biểu diễn nội dung màu của một bức ảnh trong trường hợp mẫu màu của bức ảnh đó là duy nhất trong tập hợp các ảnh trong
cơ sở dữ liệu Histogram màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân
Trang 2121
bố màu tổng quan và sự phân bố màu cục bộ của ảnh Ngoài ra, histogram màu không bị ảnh hưởng bởi sự dịch chuyển hay sự quay của ảnh và rất ít bị ảnh hưởng của tỉ lệ và góc nhìn ảnh
Do giá trị mỗi điểm ảnh được mô tả bằng ba thành phần trong một không gian ảnh xác định (ví dụ: ba thành phần R, G và B trong không gian màu RGB hay ba thành phần là sắc màu (H), độ bão hoà màu (S) và giá trị màu (V) trong không gian HSV) nên có thể định nghĩa cho mỗi thành phần màu một histogram Không gian màu được chia thành một số bins, mỗi giá trị màu thuộc một bin nào đó, sau đó tính
sự phân bố một số lượng điểm ảnh cho mỗi bin lượng tử màu Càng sử dụng nhiều bin màu thì khả năng biểu diễn càng tốt Tuy nhiên việc sử dụng quá nhiều bin màu không chỉ làm tăng khối lượng tính toán mà còn không thích hợp để xây dựng một
sơ đồ đánh chỉ số hiệu quả cho cơ sở dữ liệu ảnh Hơn nữa việc lượng tử hoá quá mịn cũng không thật cần thiết trong nhiều trường hợp
Một cách để làm giảm số lượng bin màu là sử dụng không gian màu đối lập cho phép làm giảm số lượng mẫu độ sáng của ảnh Một cách khác là sử dụng các phương pháp phân cụm để xác định K màu tốt nhất trong một tập hợp ảnh xác định, mỗi một màu trong K màu tốt nhất đó được coi là một bin màu Do quá trình phân cụm tính toán sự phân bố màu của tất cả các ảnh trong cơ sở dữ liệu nên sẽ được giảm thiểu được số lượng các bin màu không chứa hoặc chứa rất ít điểm ảnh Một cách khác là sử dụng các bin màu có chứa nhiều điểm ảnh nhất, khi đó chỉ cần một số lượng nhỏ bin màu cũng biểu diễn được đặc trưng quan trọng nhất của một bức ảnh Cách làm này không những không làm giảm hiệu năng của phương pháp so sánh histogram mà đôi khi còn làm tăng hiệu năng do các bin màu
có kích thước lớn sẽ tránh được ảnh hưởng của nhiễu
Khi cơ sở dữ liệu có chứa quá nhiều ảnh thì phương pháp so sánh histogram
có thể bị bão hoà, khi đó kết quả so sánh histogram màu chưa chắc đã phản ánh sự tương tự về nội dung của các ảnh, để khắc phục nhược điểm này người ta đưa ra kỹ
thuật histogram liên kết
Histogram liên kết có bổ sung thêm các thông tin khác mà không làm giảm sự đơn giản của histogram màu Để đạt được điều này, người ta phải lựa chọn rất cẩn thận các đặc trưng cục bộ sẽ bổ sung vào histogram liên kết Mỗi phần tử trong lược
Trang 222.3.1.4 Vector gắn kết màu
Một cách tiếp cận khác để đưa thông tin về không gian vào histogram màu là
sử dụng vector gắn kết màu (Color Cohefeence Vector - CCV) Phương pháp này
Như vậy, <α 1 + β 1 ,α 2 + β 2 , , α N + β N > chính là histogram màu của ảnh
Do có chứa các thông tin về không gian của các điểm ảnh nên sử dụng các vector gắn kết màu sẽ cho kết quả tra cứu tốt hơn so với sử dụng histogram màu, đặc biệt là đối với những ảnh có vùng đồng nhất màu lớn
Đối với cả phương pháp dùng vector gắn kết màu và phương pháp dùng histogram màu thì sử dụng không gian HSV sẽ cho kết quả tốt hơn là sử dụng không gian CIE L*u*v hay L*a*b
2.3.1.5 Sơ đồ tương quan màu
Sơ đồ tương quan màu không chỉ thể hiện sự phân bố màu của các điểm ảnh
mà còn thể hiện sự tương quan về mặt không gian của từng cặp màu Trong sơ đồ
Trang 2323
tương quan màu, thành phần thứ nhất và thứ hai của một histogram màu 3 chiều thể hiện màu sắc của một cặp màu nào đó và thành phần thứ 3 là khoảng cách không gian của chúng
Sơ đồ tương quan màu là một bảng được đánh chỉ số bởi các cặp màu, trong
đó thành phần thứ k của cặp (i,j) thể hiện xác suất để tìm thấy điểm ảnh có màu j ở khoảng cách k so với điểm ảnh có màu i trong ảnh Giả sử I là tập hợp tất cả các điểm ảnh trong ảnh và I c(i) là tập hợp các điểm ảnh có màu là c(i) thì có thể định
nghĩa sơ đồ tương quan màu như sau:
Nếu so sánh với phương pháp dùng histogram màu và phương pháp dùng vector gắn kết màu thì phương pháp dùng sơ đồ tương quan màu cho kết quả tra cứu tốt nhất, tuy nhiên độ phức tạp cao nhất do sử dụng số chiều nhiều hơn (3 chiều)
2.3.1.6 Các đặc điểm bất biến màu
Màu sắc không chỉ phụ thuộc vào chất liệu của bề mặt vật thể mà còn ảnh hưởng bởi sự thay đổi của độ chói, phương hướng, góc chụp ảnh Cần phải chú ý đến những yếu tố này Tuy nhiên, sự bất biến của các yếu tố môi trường này đã không được tính đến trong khi trích chọn các đặc điểm màu sắc đã trình bày ở trên
2.3.2 Mô tả các đặc điểm hình dạng
2.3.2.1 Giới thiệu
Các đặc điểm hình dạng của các vùng ảnh và các đối tượng ảnh được sử dụng trong rất nhiều hệ thống tra cứu ảnh So với các đặc điểm về màu sắc và các đặc điểm về kết cấu thì các đặc điểm về hình dạng thường chỉ được sử dụng sau khi ảnh
Trang 2424
đã phân thành các vùng hoặc các đối tượng ảnh Nhưng do việc phân vùng và tách đối tượng ảnh khó thu được kết quả tốt nên việc sử dụng các đặc điểm hình dạng để tra cứu ảnh thường bị bó hẹp trong một số ứng dụng mà ở đó các vùng ảnh hoặc đối tượng ảnh đã được tách biệt rõ ràng
Các phương pháp trích chọn đặc điểm hình dạng thường được chia thành hai
loại là trích chọn dựa theo đường biên (xấp xỉ đa giác, mô hình phần tử hữu hạn, mô
tả hình dạng theo Fourier) và trích chọn dựa theo vùng ảnh (mô hình thống kê) Một
phương pháp trích chọn đặc điểm hình dạng tốt phải đảm bảo yêu cầu là phải không phụ thuộc vào vị trí, góc quay hay sự co giãn của đối tượng ảnh Trước khi áp dụng các phương pháp trích chọn đặc điểm hình dạng, các đối tượng ảnh cần phải được tách ra khỏi ảnh Giả sử là trong mỗi ảnh chỉ có một đối tượng ảnh duy nhất, nhiệm
vụ của hệ thống trước hết là phải tách được đối tượng ảnh ra khỏi nền ảnh
Cách biểu diễn hình dạng của đối tượng ảnh có thể chia thành hai kiểu: [21,13]
o Theo đường bao quanh (biên)
o Theo vùng
Cách biểu diễn theo đường viền bao quanh chỉ sử dụng đường biên bên ngoài của hình dạng, điều này có thể thực hiện được bằng cách mô tả vùng đang quan tâm bằng cách đặc tính bên ngoài của nó tức là các điểm ảnh dọc theo đường viền bao quanh đối tượng ảnh Cách biểu diễn theo vùng sử dụng cả vùng ảnh bằng cách mô
tả vùng đang quan tâm bằng các đặc tính bên trong tức là các điểm ảnh ở bên trong vùng đó
Hình 2.3: Biểu diễn hình dạng theo đường biên và theo vùng
2.3.2.2 Xử lý ảnh trong miền tần số và biến đổi Fourier
Nhiều quá trình xử lý tín hiệu có thể được thực hiện trong một không gian toán học như miền tần số Để biểu diễn dữ liệu trong miền tần số cần phải thực hiện
Trang 2525
một số biến đổi thông qua các phép biến đổi Phép biến đổi thường được sử dụng nhiều nhất là biến đổi Fourier Theo nghiên cứu của Fourier thì tất cả các tín hiệu tuần hoàn đều có thể được tổng hợp từ một loạt các tín hiệu sin có tần số và biên độ khác nhau Có nghĩa là bất kỳ tín hiệu nào cũng được tạo thành từ những thành phần tần số khác nhau, điều này áp dụng được cho cả các tín hiệu một chiều như tín hiệu âm tần đưa ra loa hoặc tín hiệu hai chiều như ảnh số chẳng hạn Tần số không gian của một ảnh biểu thị tốc độ thay đổi độ chói của các điểm ảnh Cách dễ nhất để xác định các thành phần tần số của tín hiệu là khảo sát tín hiệu đó trong miền tần số Miền tần số biểu diễn độ lớn (cường độ) của các thành phần tần số khác nhau của một tín hiệu Xét một ví dụ đơn giản: tín hiệu đầu vào có dạng hình cosin được biểu diễn trong miền thời gian và miền tần số như hình vẽ dưới đây :
Hình 2.4: Miền thời gian và miền tần số
Trong hình vẽ trên chỉ có một thành phần hình sin nên chỉ có một giá trị tần số biểu diễn trong miền tần số Biến đổi Fourier cho tín hiệu 2 chiều được biểu diễn qua công thức toán học:
dudv e
v u H y
x
h( , ) ( , ) j2 (ux vy)
(2.5) trong đó j 1 , e jx cos(x) jsin(x)
Cũng có thể biến đổi dữ liệu ảnh từ miền tần số về miền không gian thông qua phép biến đổi Fourier ngược
dudv e
v u H y
x
h( , ) ( , ) j2 (ux vy)
Trang 26,
v u R
v u I v
u
(2.8) trong đó R(u,v) là phần thực còn I(u,v) là phần ảo Biên độ của số phức chính
là biên độ của thành phần hình sin trong công thức của biến đổi Fourier Hình 2.6
mô tả ảnh của một điểm sáng và ảnh thu đƣợc sau phép biến đổi Fourier:
Hình 2.6: Ảnh thực (a) và ảnh thu được sau biến đổi Fourier (b)
Mỗi điểm ảnh trong phổ tần số biểu thị sự thay đổi của tần số không gian của một chu kỳ theo chiều rộng của ảnh gốc Gốc toạ độ (ở giữa ảnh) biểu diễn thành phần cố định (hay còn gọi là thành phần 1 chiều của ảnh) Nếu tất cả điểm ảnh đều xám thì sẽ chỉ có một giá trị trong phổ tần số và điểm đó chính là gốc toạ độ Điểm ảnh tiếp theo bên phải gốc toạ độ biểu thị một chu kỳ theo chiều rộng của ảnh, điểm
Phần thực Phần ảo
modul
Trang 2727
ảnh cạnh đó biểu diễn 2 chu kỳ theo chiều rộng của ảnh các điểm ảnh càng xa gốc toạ độ biểu diễn cho thành phần tần số không gian càng cao
Biến đổi Fourier rời rạc (DFT)
Khi làm việc với ảnh số, chúng ta không thể có được các tín hiệu liên tục mà phải làm việc với một số hữu hạn các mẫu rời rạc, các mẫu này là các điểm ảnh tạo nên bức ảnh Vì vậy để phân tích ảnh số phải sử dụng biến đổi Fourier rời rạc Công thức biến đổi Fourier rời rạc cho ảnh kích thước M×N là:
) , (
1 )
ux je y x h MN
v
u
H
(2.9) Công thức để chuyển về miền không gian sẽ là:
) , (
1 )
ux je v u H MN
y
x
h
(2.10)
Biến đổi Fourier nhanh (FFT)
Phép biến đổi Fourier rời rạc có độ phức tạp rất cao, cần phải có N2 phép nhân số phức khi tính chuỗi Fourier cho N phần tử Năm 1942 người ta phát hiện
ra rằng có thể chia dãy biến đổi Fourier rời rạc có đội dài N thành 2 dãy có độ dài mỗi dãy là N/2 Sau đó mỗi dãy con lại có thể chia đôi tiếp đến khi chỉ còn dãy chỉ còn 2 phần tử Kỹ thuật chia để trị được sử dụng để xây dựng phép biến đổi Fourier nhanh (FFT), thuật toán này giúp làm giảm độ phức tạp của thuật toán từ cấp N2 xuống cấp NlogN Để thực hiện, trước khi thực hiện FFT, dãy tín hiệu vào phải có số phần tử là 2N
Trong xử lý ảnh, tính chất chia đôi được của dãy Fourier cho phép chúng ta tách một phép biến đổi 2 chiều thành 2 phép biến đổi 1 chiều, có nghĩa là ta sẽ tính biến đổi Fourier cho từng hàng trước sau đó biến đổi Fourier cho các cột Hai thuật toán cơ bản để thực hiện biến đổi Fourier nhanh là thuật toán con bướm (Butterfly)
để tính toán cho 2 phần tử và thuật toán Đảo bit (Bit reversal) để sắp xếp dãy đầu vào theo thứ tự hợp lý để thực hiện biến đổi
Trang 28số điểm ảnh nằm ở biên của đối tượng Thế thì có thể định nghĩa ba loại biểu diễn
đường biên là biểu diễn bằng độ cong, bằng khoảng cách trọng tâm và bằng hàm
toạ độ phức Độ cong K(s) tại một điểm s nằm trên biên có thể được định nghĩa là
tốc độ thay đổi hướng của tiếp tuyến của đường biên tại điểm đó, tức là:
ds
s d s
trong đó (s) là hàm xoay của đường biên (xem công thức 2.20)
Khoảng cách trọng tâm được định nghĩa là hàm khoảng cách giữa giữa một
điểm ảnh nằm trên biên và trọng tâm (xc, yc) của đối tượng ảnh:
2 2
) (
) (
độ của các hệ số phức cho biên độ của thành phần một chiều DC hay là cho hệ số khác 0 đầu tiên Bản thân các cách biểu diễn đường biên này đã không phụ thuộc vào sự tịnh tiến của đối tượng ảnh
Mô tả Fourier của độ cong là:
Trang 2929
2 / 2
0 2
0
1 , , ,
F
F F
F F
F
trong đó F i là thành phần hệ số thứ i của biến đổi Fourier Ở đây ta chỉ quan tâm đến các trục tần số dương bởi vì các hàm độ cong và hàm khoảng cách trọng tâm là các hàm thực do đó biến đổi Fourier của chúng đối xứng nhau
Mô tả Fourier của hàm toạ độ phức là:
1
2 /
1 2
1 1
1
) 1 2 / (
, ,,
, ,
F
F F
F F
F F
F
trong đó F1 là thành phần khác 0 đầu tiên sử dụng để chuẩn hoá các hệ số biến đổi Ở đây cả thành phần tần số âm và dương đều được xét đến Thành phần một chiều DC phụ thuộc vào vị trí của đối tượng và do đó bị bỏ qua Để đảm bảo là các đặc trưng hình dạng thu được của tất cả các đối tượng ảnh trong cơ sở dữ liệu có cùng độ dài thì đường biên của mỗi đối tượng sẽ phải được lấy mẫu lại thành M mẫu trước khi thực hiện biến đổi Fourier Ví dụ M có thể đặt bằng 2m = 64 để có thể thực hiện biến đổi Fourier bằng phương pháp biến đổi Fourier nhanh
2.3.2.4 Các bất biến moment
Các phương pháp truyền thống thường hay sử dụng tập hợp các bất biến moment để biểu diễn hình dạng của đối tượng ảnh Giả sử một đối tượng ảnh R
được biểu diễn dưới dạng ảnh nhị phân thì moment trung tâm bậc p+q của hình
dạng của đối tượng ảnh R được định nghĩa là:
R y x
q c
p c q
) , (
trong đó (x c ,y c ) là toạ độ trung tâm của đối tượng
Moment trung tâm này có thể được chuẩn hoá để không còn phụ thuộc vào
tỉ lệ:
Trang 3030
2
2,
0 , 0
, ,
q p
q p q
Dựa trên những moment này có thể xây dựng được tập các moment bất biến đối với phép dịch chuyển, phép quay và phép co giãn ảnh:
2 1 , 2 3 , 0 2
2 , 1 0 , 3 2 , 1 0 , 3 3 , 0 1 , 2 7
1 , 2 3 , 0 2 , 1 0 , 3 1 , 1 2
1 , 2 3 , 0 2 2 , 1 0 , 3 2 , 0 0 2 6
2 2 , 1 0 , 3 2
1 , 2 3 , 0 1 , 2 3 , 0 1 , 2 3
,
0
2 1 , 2 3 , 0 2
2 , 1 0 , 3 2 , 1 0 , 3 2 , 1 0 , 3 5
2 1 , 2 3 , 0 2 2 , 1 0 , 3 4
2 1 , 2 3 , 0 2 2 , 1 0 , 3 3
2 1 , 1 2 2 , 0 0 , 2 2
2 , 0 0 ,
2
1
)(
3)(
))(
3
(
))(
(4)(
)(
)(
)(
3)(
))(
3(
)(
3)(
))(
3(
)(
)(
)3(
)3(
4)(
2.3.2.5 Các hàm xoay/góc xoay
Đường biên của một đối tượng 2D có thể biểu diễn bằng một dãy liên tục các
điểm ảnh biên (x s ,y s ), trong đó 0 ≤ s ≤ N-1 và N là tổng số điểm ảnh nằm ở biên của
đối tượng
Hàm xoay hay góc xoay (s) là hàm đo góc giữa các tiếp tuyến như là một
hàm của độ dài cung s tương ứng với một điểm tham chiếu nằm trên đường biên của đối tượng:
'
' 1
Trang 31A t
R
d
1 1
0 ] 1 , 0 [
min)
,
Ở đây giả sử là ta đã co hoặc giãn đối tượng sao cho tổng chiều dài đường biên bằng 1 Phép đo này không phụ thuộc vào sự dịch chuyển, sự quay hay sự thay đổi tỉ lệ của ảnh
Hướng trục chính có thể được định nghĩa là hướng của vector riêng lớn nhất
của ma trận hiệp phương sai bậc hai của một vùng hay của một đối tượng
Độ lệch tâm là tỉ số giữa vector riêng nhỏ nhất và vector riêng lớn nhất
2.3.3 Thông tin về không gian
Các vùng ảnh và các đối tượng ảnh có các thuộc tính màu sắc và kết cấu tương
tự nhau vẫn có thể được phân biệt dễ dàng bằng cách áp dụng các ràng buộc về không gian Ví dụ, các vùng ảnh như bầu trời xanh và mặt biển có thể có cùng histogram màu nhưng vị trí không gian của chúng thì khác nhau Do đó vị trí không gian của một vùng ảnh (hoặc một đối tượng ảnh) hay mối quan hệ không gian giữa các vùng ảnh (hoặc các đối tượng ảnh) trong một bức ảnh là rất hữu ích trong việc tra cứu ảnh
Cách thể hiện quan hệ không gian được sử dụng rộng rãi nhất là các chuỗi 2D (2D strings) do Chang và các đồng nghiệp đưa ra [13] Các chuỗi này được xây
Trang 3232
dựng bằng cách chiếu ảnh dọc theo các hướng x và y Hai tập các ký hiệu V và A được định nghĩa trong phép chiếu Mỗi ký hiệu trong tập V đại diện cho một đối tượng trong ảnh, mỗi ký hiệu trong A đại diện cho một kiểu quan hệ không gian giữa các đối tượng
2.4 Đánh giá độ tương tự và xây dựng sơ đồ đánh chỉ số
2.4.1 Đánh giá độ tương tự
Thay vì việc so sánh chính xác hai ảnh với nhau, phương pháp tra cứu ảnh theo nội dung sẽ tính toán sự tương tự trực quan giữa một ảnh mẫu và các ảnh trong một cơ sở dữ liệu và do đó kết quả của sự tra cứu không chỉ trả về một tấm ảnh mà
nó trả về một danh sách các ảnh được xếp hạng dựa trên độ tương tự với ảnh mẫu Người ta đã phát triển nhiều phương pháp đánh giá độ tương tự áp dụng cho việc tra cứu ảnh Phương pháp đánh giá độ tương tự có ảnh hưởng rất lớn đến hiệu năng của
hệ thống tra cứu ảnh
Ký hiệu D(I,J) là số đo khoảng cách (về độ tương tự) giữa ảnh mẫu I và một ảnh J bất kỳ và f i (I) là số điểm ảnh trong bin thứ i của ảnh I
2.4.1.1 Khoảng cách Minkowski
Nếu mỗi kích thước của vector đặc trưng của ảnh là độc lập với nhau và có độ
quan trọng như nhau thì khoảng cách Minkowski L p là thích hợp để tính toán khoảng cách giống nhau giữa hai ảnh Khoảng cách này được tính như sau:
p
i
p i
f J
I
D
/ 1
)()()
,
trong đó p = 1, 2 và , D(I, J) tương ứng là L 1 , L 2 (còn gọi là khoảng cách
Euclide) và L Khoảng cách Minkowski là phép đo được sử dụng nhiều nhất trong
tra cứu ảnh Ví dụ như hệ thống MARS sử dụng khoảng cách Euclide (một trường hợp riêng của khoảng cách Minkowski) để tính sự tương tự giữa các đặc điểm kết cấu; hệ thống Netra cũng sử dụng khoảng cách Euclide để tính sự tương tự về màu
sắc và hình dạng và khoảng cách L 1 cho kết cấu Một trường hợp đặc biệt của
khoảng cách L 1 là tập giao nhau của các histrogram Giao của hai histogram I và J
được định nghĩa như sau:
Trang 33J f I f j
))(),(min(
2.4.1.2 Khoảng cách toàn phương
Cách đo khoảng cách Minkowski coi tất cả các bin của histogram đặc trưng độc lập hoàn toàn với nhau và không dựa trên một thực tế là có các cặp bin xác định tương ứng với những đặc trưng quan trọng hơn trong việc đánh giá sự tương tự giữa hai ảnh hơn là các cặp khác Để khắc phục nhược điểm này, người ta đưa ra cách tính khoảng cách toàn phương như sau:
) (
) (
)
,
trong đó A = [a ij ] là ma trận độ tương tự và mỗi phần tử a ij là độ tương tự giữa
bin i và bin j F I và F J là các vector liệt kê tất cả các đề mục của f i (I) và f i (J)
Khoảng cách toàn phương được sử dụng trong nhiều hệ thống tra cứu dựa trên histogram màu
2.4.1.3 Khoảng cách Mahalanobis
Phương pháp đo khoảng cách Mahalanobis sử dụng thích hợp nhất khi các chiều của vector đặc trưng không độc lập với nhau và có độ quan trọng khác nhau Công thức định nghĩa khoảng cách Mahalanobis là:
) (
) (
)
,
J I T
J
F J
I
trong đó C là ma trận hiệp biến của các vector đặc trưng Cách tính khoảng cách Mahalanobis có thể được đơn giản hoá nếu các chiều của vector đặc trưng độc lập với nhau, chỉ một phương sai của mỗi thành phần đặc trưng ci là cần thiết, khi đó:
N
i
i J
F j
)
,
2.4.1.4 Độ phân kỳ Kullback-Leibler và độ phân kỳ Jeffrey
Độ phân kỳ Kullback-Leibler giữa hai ảnh I và J được định nghĩa là:
Trang 3434
i i
J f
I f I f J
I
D
) (
) ( log ) ( )
i
i i
f
J f J f f
I f I f J
xạ tuyến tính dữ liệu đầu vào vào một không gian toạ độ sao cho các trục toạ độ được điều chỉnh để phản ánh được tối đa sự biến đổi của dữ liệu
Bên cạnh kỹ thuật PCA, nhiều nhà nghiên cứu còn sử dụng phép biến đổi Karhumen-Loeve (KL) để giảm số chiều của không gian đặc trưng Mặc dù biến đổi
KL có một số thuộc tính hữu ích, chẳng hạn như khả năng định vị được hầu hết các không gian con quan trọng nhưng các thuộc tính đặc trưng quan trọng trong việc xác định sự tương tự của các mẫu lại có thể bị mất trong quá trình giảm số chiều
2.4.2.1 Biến đổi Karhumen-Loeve
Biến đổi KL có nguồn gốc từ khai triển chuỗi của các quá trình ngẫu nhiên liên tục do Karhumen và Loeve đưa ra Đối với những quá trình ngẫu nhiên rời rạc, Hotelling là người đầu tiên tìm hiểu phương pháp của các thành phần cơ bản, một phiên bản rời rạc của khai triển chuỗi KL Vì vậy biến đổi KL đôi khi còn được gọi
là biến đổi Hotelling hoặc phương pháp của các thành phần cơ bản Với một ảnh
Trang 3535
thực U kích thước M×N, các vector cơ bản của biến đổi KL là các vector riêng trực
giao của ma trận tự tương quan R u
U MxN: ma trận điểm ảnh
u n : vector cột thứ n của ảnh U (0 ≤ n ≤ N-1)
V MxN: ma trận ảnh đã biến đổi
v n : vector cột thứ n của ảnh đã biến đổi (0 ≤ n ≤ N-1)
R u: ma trận tự tương quan của ảnh U
R v: ma trận tự tương quan của ảnh đã biến đổi
Biến đổi KL của U là:
trong đó là ma trận biến đổi KL
Biến đổi KL ngược là:
Ở đây ma trận chứa các vector riêng của ma trận R u là ma trận tự tương
quan của ma trận U Trong công thức biểu diễn ma trận tự tương quan R v của ảnh đã
biến đổi V thì R v là ma trận đường chéo nếu T chứa các vector riêng của R u Nếu
ma trận V có một ma trận tự tương quan là ma trận đường chéo thì tất cả các thành phần vector của V là trực giao và không tương quan:
2.4.2.2 Phân tích thành phần cơ bản (PCA)
Phương pháp phân tích thành phần cơ bản (PCA) được sử dụng rộng rãi trong các lĩnh vực xử lý tín hiệu, thống kê, tính toán nơ ron Trong một số ứng dụng, PCA còn được gọi là biến đổi KL rời rạc Ý tưởng cơ bản của PCA là tìm các thành phần
s 1 , s 2 , , s n sao cho lượng lớn nhất của phương sai có thể có bằng n thành phần biến đổi tuyến tính PCA có thể được định nghĩa ngắn gọn bằng cách sử dụng công thức
đệ qui Định nghĩa hướng của thành phần cơ bản thứ nhất w 1 là:
2 1
Trang 3636
trong đó w 1 có cùng số chiều m với vector dữ liệu x (là vector cột) Do đó thành phần cơ bản thứ nhất là hình chiếu lên hướng mà tại hướng đó phương sai của phép chiếu đạt giá trị cực đại Giả sử đã xác định được k-1 thành phần cơ bản đầu tiên, thế thì thành phần cơ bản thứ k được xác định như sau:
2 1
1 1
maxarg
k
i
T i i T
Trong thực tế, việc tính toán w i có thể thực hiện một cách đơn giản bằng việc
sử dụng ma trận hiệp biến E{x.xT} = C Trong đó w i là các vector riêng của C tương ứng với n giá trị riêng lớn nhất của C
Mục đích chính của PCA là giảm số chiều của dữ liệu bằng cách chọn n<<m
Thực ra có thể chứng minh được là PCA là một kỹ thuật giảm số chiều tuyến tính tối ưu về bình phương sai số
Việc giảm số chiều của dữ liệu có rất nhiều lợi ích:
o Lợi ích thứ nhất là làm giảm chi phí tính toán cho các quá trình xử lý sau (trong tra cứu ảnh theo nội dung là bước đánh giá độ tương tự)
o Lợi ích thứ hai là nhiễu cũng có thể bị giảm vì dữ liệu không nằm trong n thành phần cơ bản đầu tiên thường là nhiễu
o Lợi ích thứ ba là phép chiếu lên một không gian con của dữ liệu ít chiều (ví dụ là 2 chiều) làm trực quan hoá dữ liệu
Hình 2.7 sau đây là một minh hoạ đơn giản cho phương pháp PCA, trong đó chỉ ra thành phần cơ bản thứ nhất của một tập dữ liệu hai chiều
Trang 3737
Ngoài PCA và biến đổi KL thì mạng nơ ron cũng là một công cụ hữu dụng trong việc giảm số chiều của vector đặc trưng Sau khi đã giảm số chiều thì các dữ liệu nhiều chiều này sẽ được đánh chỉ số Có nhiều cách tiếp cận được nghiên cứu
để thực hiện điều này như sử dụng cây R, cây toàn phương tuyến tính, cây K-d-B và
file lưới
Phần lớn những phương pháp đánh chỉ số này có hiệu năng chấp nhận được khi số chiều tương đối nhỏ (đến 20 chiều), nhưng hiệu năng lại bị giảm mạnh theo theo tỉ lệ hàm mũ với sự tăng số chiều và cuối cùng sẽ giảm xuống bằng với cách đánh chỉ số tuần tự Ngoài ra các sơ đồ đánh chỉ số này đều dựa trên giả thiết là phương pháp đánh giá độ tương tự sử dụng là tính khoảng cách Euclide, mà điều đó thì không phải lúc nào cũng đúng, nhiều ứng dụng lại sử dụng các phương pháp đánh giá khác Một phương pháp để giải quyết vấn đề này là sử dụng sơ đồ đánh chỉ
số nhiều cấp dựa trên Bản đồ tự tổ chức (SOM) Ngoài việc đánh chỉ số hiệu quả, SOM còn cung cấp cho người dùng công cụ tiện lợi để duyệt các ảnh đại diện của mỗi thể loại
2.5 Hiệu năng của hệ thống tra cứu ảnh
Để đánh giá hiệu năng của hệ thống tra cứu, người ta đưa ra hai số đo đó là độ thu hồi (recall) và độ chính xác (precision) Các số đo này được mượn từ hệ thống tra cứu thông tin truyền thống [21, 23] Đối với một truy vấn q, tập hợp các ảnh
trong cơ sở dữ liệu thích hợp với truy vấn q được ký hiệu là R(q) còn kết quả tra
cứu của truy vấn q được ký hiệu là Q(q)
Độ chính xác của việc tra cứu được định nghĩa là tỉ lệ những kết quả thu được
thực sự thích hợp với truy vấn
Hình 2.7: Phân tích thành phần cơ bản của một đám mây dữ liệu hai chiều Đường thẳng trong hình vẽ chỉ
ra phương của thành phần cơ bản thứ nhất, cho phép giảm tuyến tính tối ưu
số chiều từ 2 xuống 1
Trang 3838
)(
)()(
q Q
q R q Q
Độ thu hồi là tỉ lệ những kết quả thích hợp do truy vấn trả lại:
)(
)()(
q R
q R q Q
Thông thường phải có sự thoả hiệp giữa hai số đo này bởi vì nếu muốn tăng cường số đo này thì lại phải chịu giảm số đo kia và ngược lại Trong các hệ thống tra cứu điển hình thì độ thu hồi có xu hướng tăng lên khi số lượng các kết quả thu được tăng lên trong khi đó thì độ chính xác dường như lại bị giảm đi
Ngoài ra, việc lựa chọn R(q) lại rất không ổn định do sự đa đạng của cách hiểu
về một bức ảnh Hơn nữa, khi số lượng ảnh thích hợp lại lớn hơn số lượng ảnh hệ thống tìm được thì lúc đó khái niệm độ thu hồi trở thành vô nghĩa Do đó, độ chính xác và độ thu hồi chỉ là các mô tả ở dạng thô về hiệu năng của một hệ thống truy vấn mà thôi
Gần đây MPEG7 có khuyến nghị một cách đánh giá mới về hiệu năng của các
hệ thống tra cứu gọi là ANMRR (average normalized modified retrieval rank)
Theo cách này độ chính xác và độ thu hồi được kết hợp thành một số đo duy nhất
Ký hiệu số lượng ảnh hoàn toàn đúng với truy vấn q là N(q) và số lượng lớn nhất của các ảnh hoàn toàn đúng với tất cả Q truy vấn tức là max{N(q 1 ), N(q 2 ), ,N(q Q )}
là M Sau đó đối với mỗi truy vấn q thì mỗi bức ảnh hoàn toàn đúng k được gán một
giá trị xếp hạng rank(k) giá trị này là thứ hạng của nó trong số những ảnh hoàn toàn đúng nếu ảnh đó nằm trong K kết quả truy vấn đầu tiên (ở đây K = min{4N(q),
2M}) hoặc có giá trị K+1 nếu ảnh đó không nằm trong K kết quả truy vấn đầu tiên Thứ hạng trung bình AVR(q) đối với truy vấn q được tính như sau:
) (
)()
q rank q
Thứ hạng tra cứu sửa đổi MRR(q) được tính là: