Một số công cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search, Yahoo, MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing,… Các phương pháp
Trang 1TRẦN NGỌC ĐỒNG
NGHIÊN CỨU PHƯƠNG PHÁP
TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU
LUẬN VĂN THẠC SĨ MÁY TÍNH
HÀ NỘI, 2015
Trang 2LỜI CẢM ƠN
Trước hết, em xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn PGS.Tiến Sĩ Ngô Quốc Tạo, người đã tận tình chỉ bảo, giúp đỡ em trong quá trình hình thành đề tài của luận văn Thầy đã hướng dẫn phương hướng triển khai đề tài, cách sử dụng tài liệu và tổng kết các kết quả nghiên cứu một cách
có hệ thống
Em xin trân thành cảm ơn tới tất cả các thầy cô giáo tại Trương đại học
Sư Phạm Hà Nội 2 đã đem tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em và luôn luôn tạo mọi điều kiện tốt nhất cho chúng em trong suốt quá trình theo học tại trường Em xin chân thành cảm ơn quý Thầy, Cô giáo và Ban lãnh đạo trường!
Cảm ơn đề tài: “Hệ thống đeo tay hỗ trợ đọc sách tiếng Việt dành cho
người khiếm thị ” Mã số VAST01.07/15-16 hỗ trợ trong thực hiện luận văn Luận văn hoàn thành, ngoài sự cố gắng của bản thân còn có sự động viên, giúp đỡ và kích lệ về tinh thần của bạn bè đồng nghiệp và gia đình giúp cho em vượt qua những khó khăn trong thời gian thực hiện luận văn Em xin trân thành cảm ơn tới tất cả mọi người
Hà nội, ngày 20 tháng 05 năm 2015
Học viên
Trần Ngọc Đồng
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ trợ từ người hướng dẫn khoa học PGS.TS NGÔ QUỐC TẠO
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác Việc sử dụng những dữ liệu có trong luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trong phần tài liệu tham khảo
Nếu phát hiện bất kỳ sự gian lận nào, tôi xin chịu trách nhiệm trước Hội đồng, cũng như kết quả luận văn của mình
Tác giả
Trần Ngọc Đồng
Trang 4MỤC LỤC
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục đích nghiên cứu 2
3 Nhiệm vụ nghiên cứu 2
4 Đối tượng và phạm vi nghiên cứu 2
5 Phương pháp nghiên cứu 2
6 Bố cục luận văn 3
NỘI DUNG 4
CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH 4
1.1 Một số vấn đề cơ bản trong hệ thống xử lý ảnh 4
1.1.1 Xử lý ảnh 4
1.1.2 Ảnh và điểm ảnh 5
1.1.3 Khái niệm ảnh đen trắng và ảnh màu 8
1.1.4 Không gian màu 9
1.2 Giới thiệu kiến trúc chung về hệ thống tra cứu ảnh 10
1.2.1 Tra cứu thông tin 10
1.2.2 Tra cứu ảnh dựa vào nội dung 11
1.3 Hệ thống đề xuất 15
CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU 17
2.1 Chuyển từ ảnh màu sang ảnh nhị phân 17
2.1.1 Chuyển từ ảnh màu sang ảnh xám 17
2.1.2 Chuyển từ ảnh xám sang ảnh nhị phân 17
2.1.3 Thao tác với ảnh nhị phân 24
2.2 Trích chọn đặc trưng và đối sánh từ 33
2.2.1 Đặc trưng về vùng của đối tượng 33
Trang 52.2.2 Những đặc trưng của hệ thống đối sánh 41
2.3 Thuật toán dùng để đối sánh từ 47
CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 49
3.1 Môi trường phát triển và CSDL 49
3.2 Giao diện chương trình 49
3.3 Đánh giá hệ thống 53
KẾT LUẬN 55
DANH MỤC TÀI LIỆU THAM KHẢO 56
Trang 6DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
RGB: Red, Green, Blue
CMY: Cyan-Magenta-Yellow
CBIR: Content Baased Image Retrieval
CSDL: Cơ Sở Dữ Liệu
Trang 7DANH MỤC CÁC BẢNG
Bảng 1.1: Định nghĩa histogram 8
Bảng 2.1: Định nghĩa ảnh nhị phân đƣợc tạo từ ảnh xám 18
Bảng 2.2: Định nghĩa thành phần liên thông 25
Bảng 3.1: Thống kê kết quả tra cứu …53
Trang 8DANH MỤC HÌNH VẼ
Hình 1.1 Quá trình xử lý ảnh 4
Hình 1.2 Các bước cơ bản trong một hệ thống xử lý ảnh 4
Hình 1.3 Hai dạng lược đồ mức sáng 7
Hình 1.4: Lược đồ mô tả các bước liên quan trong hệ thống tra cứu ảnh dựa vào nội dung 13
Hình 1.5: Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu 15
Hình 2.1: Ảnh màu được chuyển sang ảnh xám tính theo công thức trên 17
Hình 2.2 Ví dụ về histogram và ma trận ánh sáng [3] 20
Hình 2.3: Biểu đồ histogram cho những giá trị màu nhỏ hơn 20
Hình 2.4: Biểu đồ histogram cho những giá trị màu lớn hơn ngưỡng t=3 [3] 21
Hình 2.5: Tính toán giá trị phương sai bên trong một lớp ứng với tứng giá trị mức xám [3] 22
Hình 2.6: Kết quả sau khi sử dụng phương pháp Otsu [3] 22
Hình 2.7:Ảnh sau khi được tách ngưỡng bằngOtsu 23
Hình 2.8: Hai định nghĩa về các điểm láng riềng phổ biến 24
Hình 2.9: Ví dụ về ảnh nhị phân 26
Hình 2.10: Ảnh nhị phân và nhãn của các thành phần 26
Hình 2.11:Cấu trúc Union - Find với hai tập nhãn [7] 27
Hình 2.12: Giả mã cho thủ tục Find 28
Hình 2.13: Giả mã cho thủ tục Union 28
Hình 2.14: Giả mã thuật toán tìm và gán nhãn cho các thành liên thông 30
Hình 2.15 giải thích ứng dụng thuật toán tìm nhãn các thành phần liên thông với cấu trúc Union-Find cho ảnh nhị phân ở hình 31
Hình 2.16: Bức ảnh tài liệu có nhiều nhiễu 32
Hình 2.17: Tìm các thành phần liên thông trong ảnh 32
Hình 2.18: Loại bỏ nhiễu 32
Trang 9Hình 2.19: Mở rộng kích thước hình chữ nhật biên theo hai hướng trái và phải 32
Hình 2.20: Xác định từ 33
Hình 2.21: Các vùng đã được gán nhãn trong tài liệu 36
Hình 2.22: Các đặc trưng của 3 vùng ở hình 2.21 36
Hình 2.23 Tám điểm cực trị của một vùng nằm trên hình chữ nhật biên Cắt đường chéo đứt đoạn là trục các điểm cực trị 37
Hình 2.24: Moment của một trục được tính bằng bình phương khoảng cách từ mỗi điểm đến trục đó [7] 39
Hình 2.25: Xác định tỉ lệ chiều rộng và cao dựa vào hình chữ nhật biên của vùng trong từ 41
Hình 2.26: Ảnh tính toán phép chiếu dọc 43
Hình 2.27: Ảnh biểu diễn thao tác với đặc trưng ghép chiều trên và dưới của từ 45
Hình 2.28: Ảnh biểu diễn thao tác với đặc trung thông tin về phần bên trên và bên trên và phần bên dưới của từ 46
Hình 2.29: Vector đặc trưng dùng để đối sánh từ 47
Hình 3.1: Giao diện chương trình 49
Hình 3.2: Giao diện chức năng “Thêm ảnh vào CSDL” 50
Hình 3.3: Cập nhật ảnh vào CSDL thành công 51
Hình 3.4: Kết quả tìm kiếm 52
Hình 3.5: Chi tiết các từ có trong ảnh tài liệu được bôi đậm 52
Hình 3.6: Tỉ lệ precision trung bình là 79,6% 54
Hình 3.7: Tỉ lệ recall trung bình là 96,1% 54
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài
Hiện nay, các thành tựu của tin học được áp dụng ở hầu hết các lĩnh vực hoạt động của xã hội và đem lại nhiều hiệu quả to lớn Mối quan hệ tương tác giữa các nhu cầu của xã hội ngày càng đa dạng, cùng với sự phát triển của các thiết bị đa phương tiện (multimedia) như máy ảnh, máy scan, máy quay phim, điện thoại, ipad… với khối lượng hình ảnh và phim lưu trữ ngày càng lớn, cùng với sự phát triển của các thiết bị điện tử, tin học và viễn thông đã thu hút ngày càng nhiều những chuyên gia đi vào nghiên cứu những công cụ cung cấp cho việc lấy thông tin dữ liệu ảnh từ nội dung của chúng Trong thực tế, bài toán tra cứu ảnh có rất nhiều ứng dụng quan trọng Các ứng dụng phức tạp như so sánh mẫu vân tay, tìm kiếm ảnh tội phạm… được áp dụng trong ngành khoa học hình sự, cơ sở dữ liệu ảnh về địa lý, y học… làm cho lĩnh vực nghiên cứu này phát triển nhanh trong công nghệ thông tin
Với số lượng ảnh được lưu trữ trên các thiết bị nhớ trở nên lớn, thì vấn
đề là phải có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt
Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tra cứu ảnh khác nhau Hệ thống tra cứu ảnh từ trong ảnh tài liệu chỉ là một dạng của hệ thống tra cứu ảnh nói chung Mục đích của hệ thống tìm kiếm từ trong ảnh tài liệu là đưa ra những ảnh tài liệu liên quan với từ mà người dùng cung cấp Trong luận văn này sẽ trình bày một hệ thống tra cứu ảnh từ trong ảnh tài liệu giúp người dùng có thể tìm kiếm thông tin từ ảnh tài liệu từ câu truy vấn Hệ thống đưa ra việc tìm kiếm trên ngôn ngữ là Tiếng anh
Xuất phát trong hoàn cảnh đó “Nghiên cứu phương pháp tra cứu ảnh từ trong ảnh tài liệu” được em chọn làm đề tài
Trang 113 Nhiệm vụ nghiên cứu
- Tìm hiểu những khái niệm chung, cơ bản về xử lý ảnh và phương
pháp dùng để tra cứu ảnh tài liệu
- Nghiên cứu kiến trúc, những khó khăn, thách thức, và lĩnh vực ứng
dụng của hệ thống truy tìm từ trong ảnh tài liệu
- Trình bày các thao tác dùng để nhận dạng các từ trong văn bản của
hình ảnh tài liệu và các đặc trưng chung hay dùng để đối sánh đối tượng
- Trình bày phần cài đặt hệ thống Đánh giá một số từ truy vấn đối với
hệ thống
4 Đối tượng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu: Tổng quan về ảnh và tra cứu ảnh, phương pháp tra cứu ảnh và chọn ra phương pháp, kỹ thuật tra cứu ảnh cụ thể
Sử dụng các phương pháp trên để nghiên cứu và tìm hiểu: “Nghiên cứu
phương pháp tra cứu ảnh từ trong ảnh tài liệu”
Trang 126 Bố cục luận văn
Luận văn được chia thành ba phần
MỞ ĐẦU
NỘI DUNG
Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH
Chương này sẽ đưa ra những khái niệm cơ bản về xử lý ảnh và kiến trúc của hệ thống tra cứu ảnh dựa vào nội dung Dựa vào kiến trúc chung đó xây dựng hệ thống đề xuất tìm kiếm ảnh từ trong ảnh tài liệu
Chương 2: PHƯƠNG PHÁP TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU
Chương này sẽ đi sâu vào từng phần có trong hệ thống đề xuất được nêu
ra ở Chương 1 Đưa ra các thuật toán để chuyển đổi sang ảnh nhị phân, thao tác với ảnh nhị phân để nhận dạng được các từ có trong ảnh tài liệu, đồng thời trích chọn các đặc trưng để đem ra đối sánh
Chương 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM
Chương này sẽ trình bày các chức năng của chương trình thử nghiệm ứng với mục đích nghiên cứu của luận văn Đánh giá một số từ truy vấn đối với hệ thống
Trang 13NỘI DUNG CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH
1.1 Một số vấn đề cơ bản trong hệ thống xử lý ảnh
1.1.1 Xử lý ảnh
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận
Hình 1.1 Quá trình xử lý ảnh
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như
là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1, c2, , cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều
Sơ đồ tổng quát của một hệ thống xử lý ảnh:
Hình 1.2 Các bước cơ bản trong một hệ thống xử lý ảnh
Ảnh “Tốt hơn”
Kết luận
Trang 14Xử lý ảnh là một môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức cơ sở khác nhau Có thể kể đến đầu tiên là xử lý tín hiệu số, môn học hết sức cơ bản cho xử lý tín hiệu chung Các khái niệm về tính chập, các biến đổi Fouricer, Laplace, các bộ lọc hữu hạn… Tiếp đến là các công cụ tính toán như Đại số tuyến tính, xác suất thống kê Các kiến thức cần thiết như trí tuệ nhân tạo, mạng nơ ron nhân tạo cũng được đề cập trong quá trình phân tích và nhận dạng ảnh
Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính là nâng cao chất lượng ảnh và phân tích ảnh Ứng dụng đầu tiên được biết đến là nâng cao chất lượng ảnh báo được truyền qua cáp từ London đến NewYork từ những năm 1920 Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng
và độ phân giải ảnh Vấn đề này đã được giải quyết vào những năm 1995 Năm 1964 máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm : làm nối đường biên, lưu ảnh Từ năm 1964 đến nay, các phương tiện xử lý nâng cao chất lượng, nhận dạng ảnh không ngừng phát triển và hoàn thiện hơn
1.1.2 Ảnh và điểm ảnh
Ảnh trong thực thế là một ảnh liên tục về không gian và giá trị độ sáng
Để có thể xử lý bằng máy tính cần thiết phải đưa về dạng ảnh số Trong quá trình số hóa, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa không gian) và lượng tử hóa thành phần giá trị (rời rạc hóa biên độ giá trị) mà về nguyên tắc mắt thường không phân biệt được hai điểm kề nhau Trong quá trình này người ta sử dụng khái niệm là Picture Element mà ta quen gọi là pixel Ảnh thường có kích thước vuông và
được mô tả là N N m-bit điểm ảnh, trong đó N là số điểm và m là số các giá trị mức sáng Việc sử dụng m bit đưa ra khoảng 2m giá trị mức sáng từ 0 đến 2m – 1 Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặp tọa độ(x,y)
Trang 15Định nghĩa : Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y)
với tọa độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh
* Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x,y) của điểm ảnh
và độ xám của nó
Định nghĩa : Mức xám của ảnh là cường độ sáng của nó được gán bằng
giá trị tại điểm đó
Các thang giá trị mức xám thông thường : 16,32,64,128,256 (Mức 256 là mức phổ dụng)
Ảnh đen trắng : là ảnh có hai màu đen và trắng (không chứa màu sắc
khác) với mức xám ở các điểm ảnh có thể khác nhau
Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit
mô tả 21 mức khác nhau Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1
Trang 16Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo
nên thế giới màu, người ta thường dung 3 byte để mô tả mức màu, khi đó các giá trị màu: 28*3 = 224 = 16,7 triệu màu
* Histogram
Histogram là một lược đồ biểu diễn độ sáng của một bức ảnh Lược đồ này bao gồm trục hoảnh biểu diễn mức sáng và trục tung biểu diễn số lượng điểm sáng tương ứng Đối với ảnh xám thông thường, giá trị của trục hoành nằm trong khoảng từ 0-255
Trang 17Định nghĩa :
Cho ảnh mức xám I có giá trị màu nằm trong khoảng MIN và MAX
Histogram của ảnh mức xám I là số điểm ảnh trong ảnh I có giá trị m
Trong đó :
m là tất cả giá trị mức xám của ảnh và m
r , c là chỉ số hàng và cột của điểm ảnh trong ảnh
Bảng 1.1: Định nghĩa histogram
1.1.3 Khái niệm ảnh đen trắng và ảnh màu
Ảnh có thể biểu diễn dưới dạng tương tự hoặc tín hiệu số Trong biểu diễn số của các ảnh đa mức xám thì một ảnh được biểu diễn dưới dạng một ma trận hai chiều Mỗi phần tử của ma trận biểu diễn cho mức xám hay cường độ của ảnh tại vị trí đó Một lưới chia ô vuông được đặt lên ảnh Độ lớn mỗi ô vuông của lưới xác định kích thước của một điểm ảnh Mức xám của một điểm được tính bằng cường độ xám trung bình tại mỗi ô vuông này Mắt lưới càng nhỏ thì chất lượng ảnh càng cao
Trong kỹ thuật tương tự, một bức ảnh thường được biểu diễn dưới dạng các dòng nằm ngang kế tiếp nhau Mỗi dòng là một tín hiệu tương tự mang theo các thông tin về cường độ sáng dọc theo một đường nằm ngang trong ảnh gốc
* Ảnh đen trắng
Ảnh đen trắng chỉ bao gồm hai màu : màu đen và màu trắng Người ta phân mức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóa mức đen trắng (hay mức xám) thì L được xác định :
L=2B
Trang 18Nếu L=2, B=1, nghĩa là chỉ có 2 mức: mức 0 và mức 1, còn gọi là ảnh nhị phân Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối Nếu L lớn hơn 2 ta có ảnh đa cấp xám
Với ảnh nhị phân mỗi điểm ảnh được mã hóa trên 1bit, còn với ảnh 256 mức, mỗi điểm ảnh được mã hóa trên 8 bit Như vậy, với ảnh đen trắng: nếu dùng 8 bit (1 byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ
là 256 Mỗi mức xám được biểu diễn dưới dạng số nguyên nằm trong khoảng
từ 0-255, với mức 0 biểu diễn cho mức cường độ đen nhất và mức 255 biểu diễn cho mức cường độ sáng nhất
Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tử logic Ứng dụng chính của nó được dùng để phân biệt đối tượng ảnh với nền hay để phân biệt điểm biên với các điểm khác
* Ảnh màu
Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ hợp từ 3 màu cơ bản là Red, Green, Blue và thu nhận trên các dải bang tần khác nhau Với ảnh màu thì cách biểu diễn cũng tương tự như ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ Để biểu diễn cho một điểm ảnh màu cần 24 bit 24 bit này được chia thành ba khoảng 8 bit Mỗi màu cũng phân thành L cấp màu khác nhau (thường L = 256) Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính Do đó, để lưu trữ ảnh màu người ta có thể lưu trữ từng màu riêng biệt, mỗi màu lưu trữ một ảnh đa cấp xám Chính vì vậy không gian nhớ dành cho một ảnh màu lớn gấp
3 lần một ảnh đa cấp xám cùng kích cỡ
1.1.4 Không gian màu
* Không gian màu RGB
RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh Không gian RGB bao gồm 3 thành phần màu là Đỏ(Red), Xanh lá cây(Green)
Trang 19và Xanh lam (Blue) Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại với nhau
* Không gian màu CMY
CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam ,màu đỏ tươi, màu vàng),đó là ba màu chính tương ứng với ba màu mựcin
* Không gian màu HSx
Các không gian màu HSI, HSV, HSB và HSL (quy ước gọi là HSx) là gần với nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức
Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue),
độ bão hòa (saturation), và độ sáng (lightness)(cũng được gọi là value, brightness và intensity) Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi từ không gian màu RGB Chúng thường được biểu diễn bởi các hình thức khác nhau (ví dụ như hình nón, hình trụ)
1.2 Giới thiệu kiến trúc chung về hệ thống tra cứu ảnh
1.2.1 Tra cứu thông tin
Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnh thỏa mãn một yêu cầu nào đó Tra cứu thông tin về ảnh thường dựa vào hai đặc trưng chính là văn bản mô tả đi kèm ảnh hoặc nội dung ảnh Một số công cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search, Yahoo, MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing,…
Các phương pháp tra cứu ảnh được sử dụng đầu tiên không dựa trên các đặc điểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh, đầu tiên người ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa
Trang 20trên một đặc điểm nào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản thông thường để tìm kiếm ảnh
Phương pháp tra cứu ảnh dựa trên văn bản như trên sử dụng các kỹ thuật
cơ sở dữ liệu truyền thống để quản lý ảnh Dựa vào các lời chú thích, người ta
có thể tổ chức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ nghĩa và việc duyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thông thường Phương pháp tra cứu ảnh dựa trên chú thích như trên còn được gọi là phương pháp tra cứu ảnh theo từ khóa Do vậy việc xây dựng các thuật toán có khả năng tự động sinh ra các chú thích cho một cơ sở dữ liệu ảnh có nhiều chủ đề là hết sức khó khăn nên các hệ thống tra cứu ảnh kiều này vẫn yêu cầu phải chú thích ảnh một cách thủ công, tốn rất nhiều công sức và quan trọng hơn là nó mang tính chủ quan, bị ảnh hưởng bởi hoàn cảnh và không đầy đủ
Phương pháp tra cứu ảnh dựa theo nội dung ra đời đã khắc phục được nhược điểm của phương pháp tra cứu ảnh dựa vào văn bản đi kèm Phương
pháp "Tra cứu ảnh dựa theo nội dung" (Content Based Image Retrieval) cho phép trích chọn các đặc trưng dựa vào nội dung trực quan của ảnh như màu
sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc
tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnh nổi tiếng như QBIC (IBM), Virage (Virage Inc.) Photobook (MIT) Visual SEEK (Columbia University) đã áp dụng thành công kỹ thuật này Tra cứu ảnh dựa theo nội dung đã nhận được nhiều sự quan tâm của các nhà khoa học
1.2.2 Tra cứu ảnh dựa vào nội dung
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thông tin dựa trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và các phương pháp dựa trên văn bản mô tả ảnh Nhận thức chủ
Trang 21quan và chú thích thiếu chính xác là nguyên nhân tra cứu không chính xác trong các quá trình tra cứu của phương pháp dựa trên văn bản mô tả đi ảnh Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung Với giải pháp này, thay vì được chú thích một cách thủ công bởi các từ khóa dựa vào văn bản, các ảnh có thể được trích rút một số đặc trưng trực quan như màu sắc, hình dạng, kết cấu và được đánh chỉ số dựa trên các đặc trưng trực quan này Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy Tuy nhiên, không có đặc trưng riêng lẻ tốt nhất mà cho các kết quả chính xác Thông thường một sự kết hợp các đặc trưng một cách tùy biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR-Content Baased Image REtrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (văn bản, hình ảnh , video) mà còn giải quyết nhu cầu của người sử dụng Về cơ bản hệ thống phân tích cả các nội dung của nguồn thông tin cũng như các truy vấn sử dụng và sau đó so sánh các nội dung này để tra cứu các mục tin liên quan Các chức năng chính của hệ thống dựa vào nội dung như sau :
Phân tích các nội dung của nguồn thông tin, và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng
Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho so sánh với cơ sở dữ liệu nguồn Bước này tương
tự bước trước nhưng chỉ áp dụng với ảnh truy vấn
Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu được lưu trữ Tra cứu thông tin liên quan một cách hiệu quả Bước này được thực hiện trực tuyến và
Trang 22được yêu cầu rất nhanh Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng để tăng tốc quá trình đối sánh
Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng hoặc các ảnh được tra cứu
Hình 1.4: Lược đồ mô tả các bước liên quan trong hệ thống
tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau
và trên mặt kia có các truy vấn người sử dụng Hai mặt này được liên kết thông qua một chuỗi các tác vụ như được minh họa trong hình trên Sau đây chúng ta sẽ đưa ra cái nhìn khái quát về một số tác vụ chính
Trang 231.2.2.1 Truy vấn người sử dụng
Có nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt
là một phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ người sử dụng để trích rút các kết quả có ý nghĩa Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội dung
Truy vấn ảnh mẫu (QBE): Trong loai truy vấn này, người sử dụng hệ thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh đó hệ thống sẽ tìm kiếm trong cơ sở dữ liệu ảnh các ảnh tương tự nhất
Truy vấn bởi đặc trưng (QBF): Trong hệ thống QBF tiêu biểu, những người sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm
Các truy vấn dựa vào thuộc tính: Các truy vấn dựa vào thuộc tính sử dụng các chú thích văn bản, trích rút trước bởi nỗ lực con người, như một khóa tra cứu chính Phương pháp này nhanh và dễ thực hiện, nhưng có một
độ chủ quan và nhập nhằng cao xuất hiện như đã đề cập
1.2.2.2 Trích chọn đặc trưng
Trích chọn đặc trưng liên quan đến việc trích chọn những thông tin hữu ích từ ảnh Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thống trở nên nhanh hơn và truy tìm ản hiệu quả hơn Mỗi khi một hoặc nhiều đặc trưng được trích chọn, chúng là được lưu trong cơ sở dữ liệu để sử dụng cho công việc sau này Số lượng thông tin hữu ích mà một máy tính lấy ra từ ảnh
là yếu tố rất quan trọng quyết định tính thông minh, cũng như hiệu quả của hệ thống truy tìm ảnh.Một ưu điểm lớn nhất của việc trích chọn đặc trưng đó là
nó bỏ đi những thông tin không cần thiết và chỉ giữ lại những thông tin cần thiết để có thể biểu diễnnội dung cho ảnh Thường có nhiều phương pháp để trích chọn đặc trưng như là Gradient, Structural và Concavity (GSC) (đặc
Trang 24trưng này để đo những đặc trưng ảnh ở mức độ cục bộ đến những mức độ lớn hơn ), những đặc trưng dựa trên sự phân bố mật độ và những đặc trưng khối quan trọng trong ảnh, Conditional Random Field, Dynamic Time Wraping
1.2.2.3 Đánh chỉ số nhiều chiều
Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồng nghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ
sở dữ liệu và nhận dạng mẫu
1.3 Hệ thống đề xuất
Xuất phát từ kiến trúc chung về hệ thống tra cứu ảnh Trong tài liệu này
đề xuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật
từ cần tìm Những kỹ thuật đưa ra bắt gặp trong vấn đề truy tìm ảnh tài liệu là
sử dụng thủ tục đối sánh một từ Thủ tục này thực hiện đối sánh từ trực tiếp trong ảnh tài liệu mà không dùng phương pháp nhận dạng ký tự quang học (optical character recognition) và sử dụng ảnh của một từ như làm câu truy vấn Toàn bộ hệ thống bao gồm hai thủ tục chính như hìnhbên dưới
Trong cơ sở dữ liệu ảnh tất cả ảnh tài liệu được phân tích để tìm số lượng từ tối đa bên trong chúng Sau đó tập các đặc trưng có thể được lấy ra ứng với hình dạng của từ và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc font Những đặc trưng này sau đó được lưu vào cơ sở dữ liệu đặc trưng
Hình 1.5: Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu
Trang 25Trong thủ tục của người sử dụng nhập một từ truy vấn và sau đó hệ thống sẽ tạo ra một bức ảnh ứng với từ đó Tiếp theo ảnh này cũng được xử lý
để lấy ra tập các đặc trưng có thể Sau đó, những đặc trưng này được dùng để tìm những từ tương tự thông qua thủ tục đối sánh từ Cuối cùng, những ảnh tài liệu chứa những từ tương tự được hiện thị đến người dùng Kết quả thí nghiệm chỉ ra rằng hệ thống đề xuất đưa ra kết quả tìm kiếm có độ chính xác
cao thông qua độ đo về tỉ lệ precision và recall
Trong các chương còn lại của tài liệu sẽ đi chi tiết vào từng bước trong
hệ thống và các kỹ thuật sử dụng trong từng bước
Trang 26CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH TỪ
TRONG ẢNH TÀI LIỆU
Trong chương này sẽ đưa ra các thuật toán cũng như các kĩ thuật được áp dụng vào trong hệ thống đề xuất như là: nhận dạng các từ có trong ảnh tài liệu, thuật toán đối sánh và trích chọn các đặc trưng của một vùng liên thông chứa trong ảnh
Đầu vào của ảnh tài liệu đa phần là ảnh màu, vì vậy để giảm bớt các đặc trưng có thể tác động lên kết quả tìm kiếm thì ảnh đầu vào cần phải được chuyển đổi sang ảnh nhị phân, quá trình chuyển đổi ảnh đầu vào sang ảnh nhị phân cần phải chuyển gián tiếp sang ảnh xám
2.1 Chuyển từ ảnh màu sang ảnh nhị phân
2.1.1 Chuyển từ ảnh màu sang ảnh xám
Dựa vào lược đồ màu RGB ta có công thức để chuyển ảnh màu về ảnh xám được tính như sau:
Hình 2.1: Ảnh màu được chuyển sang ảnh xám tính theo công thức trên
2.1.2 Chuyển từ ảnh xám sang ảnh nhị phân
Ảnh nhị phân có thể được chuyển đồi bằng phương pháp lấy ngưỡng tự động trên ảnh xám Thao tác chọn ngưỡng là chọn một số điểm ảnh như là những điểm ảnh nổi (Foreground Pixel) mà tạo thành đối tượng và những điểm ảnh còn lại là điểm ảnh nền (Background Pixel) Với một dải màu xám
Trang 27trong bức ảnh xám, chúng ta phải tìm ra một giá trị ngưỡng để phân tách những điểm ảnh trong một bức ảnh xám thành hai nhóm foreground và
background như trên Nói một cách đơn giản, với một giá trị ngưỡng t được chọn Tất cả những điểm ảnh có giá trị màu lớn hơn hoặc bằng t thì đặt trong nhóm foreground và những điểm ảnh nào có giá trị ngưỡng nhỏ hơn t thì đặt
Trong phương pháp này chỉ rõ hàm histogram như là một hàm xác suất P
trong đó P(0),… ,P(I) biểu diễn các xác suất histogram của các giá trị xám quan sát được từ 0,…, I P(i) = |{ (r,c)| Image(r,c) = I }| / |R C|, trong đó R
C là vùng không gian của ảnh Nếu như histogram là chia thành hai lớp thì vấn đề tìm ngưỡng của histogram là xác định một ngưỡng T tốt nhất mà phân
rõ ràng hai lớp của histogram Ngưỡng T xác định một phương sai cho các giá
Trang 28trị trong nhóm nhỏ hơn ngưỡng T và một phương sai cho các giá trị trong nhóm lớn hơn ngưỡng T Định nghĩa về ngưỡng tốt nhất được đề xuất bởi Otsu đó là một ngưỡng mà tổng trọng số của các phương sai bên trong một nhóm là nhỏ nhất
Chúng ta có thể hiểu rõ hơn chỉ tiêu này bằng cách chú ý một ví dụ mà thỉnh thoảng xảy ra trong một lớp trượt tuyết sau.Có một bài kiểm tra cơ bản được đưa ra như là biểu đồ đo kết quả để chia sinh viên trong lớp thành hai nhóm Đó là nhóm gồm những người trượt tuyết khá và nhóm gồm những người vừa mới biết trượt Những bài học nhằm đến những người trượt tuyết khá lại quá nhanh so với những người mới biết trượt, và những bài học nhằm đến những người mới biết trượt lại gây nhàm chán đối với người trượt tuyết khá Để thay đổi trường hợp này giáo viên quyết định chia lớp thành hai nhóm riêng biệt và đồng nhất dựa trên điểm kiểm tra Câu hỏi ở đây là xác định điểm kiểm tra như thế nào để sử dụng làm chỉ tiêu chia lớp
Độ đo tính đồng nhất của một nhóm là giá trị phương sai Một nhóm có
độ đồng nhất cao sẽ có phương sai thấp Còn nhóm có độ đồng nhất thấp sẽ
có phương sai cao Một cách có thể để chọn ngưỡng là chọn một chỉ số chia sao cho tổng trọng số của phương sai trong một nhóm là nhỏ nhất Chỉ tiêu này nhấn mạnh tính đồng nhất bên trong một lớp
Cho là tổng trọng số của các phương sai bên trong nhóm Cho
là phương sai cho nhóm có giá trị nhỏ hơn hoặc bằng ngưỡng t và là
phương sai cho nhóm có giá trị lớn hơn t Gọi là xác suất của nhóm với
giá trị nhỏ hơn hoặc bằng ngưỡng t và là xác suất cho nhóm có giá trị
lớn hơn ngưỡng t Khi đó độ biến thiên bên trong một lớp sẽ được tính như
sau:
w w tb( ). b w tf ( ). f
Trang 29Ví dụ như ta muốn tìm ngưỡng của ảnh xám sau bằng phương pháp Otsu Ảnh này có 6 giá trị mức xám từ 0 đến 5
Hình 2.2: Ví dụ về histogram và ma trận ảnh xám [3]
Việc tính toán để tìm ra phương sai cho hai nhóm foreground và background cho một giá trị ngưỡng nào đó là được đưa ra ở bên dưới, trong
trường hợp này giá trị ngưỡng tốt nhất là t=3 và được tính như sau:
Hình 2.3: Biểu đồ histogram cho những giá trị màu nhỏ hơn
hoặc ngưỡng t=3 [3]
Weight
Mean
Trang 30Việc tính toán như trên cần thực hiện cho tất cả các mức xám của ảnh, ở
ví dụ này là từ 0 đến 5 Hình 2.5 bên dưới liệt kê kết quả của các phép tính này ứng với từng giá trị mức xám cụ thể trong ảnh
Như chúng ta thấy trong ví dụ trên ngưỡng đuợc chọn là 3 Vì vậy ảnh nhị phân có thể có được từ ảnh xám Những điểm ảnh nào có giá trị nhỏ hơn
Trang 31hoặc bằng 3 sẽ chuyển thành nhóm background và những điểm ảnh nào có giá trị lớn hơn 3 sẽ được cho vào nhóm foreground (Hình 2.6)
Hình 2.5: Tính toán giá trị phương sai bên trong một lớp ứng với
tứng giá trị mức xám [3]
Hình 2.6: Kết quả sau khi sử dụng phương pháp Otsu [3]
Trong bài toán của nhận dạng từ sau khi có được ảnh xám của từ từ ảnh màu, ảnh thường chứa những nhiễu nhỏ Bằng phương pháp chọn ngưỡng tự động sử dụng phương pháp Otsu, các nhiễu này đa phần được loại bỏ để phục
vụ cho các bước sau được xử lý dễ dàng hơn
Trang 32Hình 2.7: Ảnh sau khi đƣợc tách ngƣỡng bằngOtsu
Trong đó hình 2.7(a) minh họa một văn bản thực, hình 2.7(b) biểu đồ biểu diễn mức xám với ngƣỡng xám tốt nhất k*, hình 2.7(c) là ảnh thu đƣợc sau quá trình nhị phân hóa với ngƣỡng xám k* tìm đƣợc
Sau khi có đƣợc ảnh nhị phân, chúng ta cần phải tách đƣợc các thành phần có trong bức ảnh và đếm đƣợc có bao nhiêu từ có trong ảnh tài liệu Công việc này phải thực hiện thao tác trên ảnh nhị phân sử dụng khái niệm thành phần liên thôngvà các thuật toán để tìm thành phần liên thông
Trang 332.1.3 Thao tác với ảnh nhị phân
2.1.3.1.Điểm ảnh và các điểm láng riềng
Điểm ảnh trong ảnh nhị phân là có giá trị 0 hoặc 1 Giá trị 1 thường được dùng để ký hiệu cho những điểm ảnh nổi (foreground pixel) và giá trị 0 là biểu diễn cho những điểm ảnh nền (background pixel) B[r,c] là ký hiệu cho
giá trị điểm ảnh ở vị trí hàng r và cột c của ảnh Một bức ảnh kích thước M x
N có M dòng bắt đầu từ 0 đến M –1 và có N cột bắt đầu từ 0 đến N – 1 Do đó B[0,0] sẽ là điểm ảnh ở bên trên cùng phía bên tay trái của ảnh và B[M – 1, N – 1] là điểm ảnh ở tận cùng phía bên tay phải của ảnh
Trong nhiều thuật toán, không chỉ sử dụng các giá trị điểm ảnh làm đầu vào cho thuật toán mà còn sử dụng các điểm láng riềng của nó khi xử lý liên quan đến điểm ảnh Có hai định nghĩa phổ biến về các điểm láng riềng là những điểm 4 láng riềng và những điểm 8 láng riềng
Những điểm 4 láng riềng, ký hiệu N 4 (r,c) của điểm ảnh(r,c), là những
điểm ảnh (r – 1,c), (r+1,c), (r,c– 1), (r,c+1).Thông thường chúng ta cũng sử dụng hướng để chỉ ra tên tương ứng với những điểm ảnh này như hướngbắc,
nam, tây, đông
Những điểm 8 láng riềng, ký hiệu N 8 (r,c) của điểm ảnh(r,c), bao gồm
những điểm ảnh trong các điểm 4 láng riềng cộng thêm những điểm sau (r –
1,c – 1), (r – 1,c + 1), (r + 1,c – 1), (r + 1,c +1)và hướng tương ứng với
những điểm ảnh này là hướng tâybắc, đông bắc, nam tây, đông nam
Hình 2.8: Hai định nghĩa về các điểm láng riềng phổ biến