Với số lượng ảnh được lưu trữ trên các thiết bị nhớ trở nên lớn, thì vấn đề là phải có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹthuật tìm kiếm, tra cứu ảnh hiệu q
Trang 1Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2
TRẦN NGỌC ĐỒNG
NGHIÊN CỨU PHƯƠNG PHÁP
TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU
LUẬN VĂN THẠC sĩ MÁY TÍNH
HÀ NỘI, 2015
Trang 2khai đề tài, cách sử dụng tài liệu và tổng kết các kết quả nghiên cứu một cách
có hệ thống
Em xin trân thành cảm ơn tới tất cả các thầy cô giáo tại Trương đại học
Sư Phạm Hà Nội 2 đã đem tri thức và tâm huyết của mình để truyền đạt vốnkiến thức quý báu cho chúng em và luôn luôn tạo mọi điều kiện tốt nhất chochúng em trong suốt quá trình theo học tại trường Em xin chân thành cảm ơnquý Thầy, Cô giáo và Ban lãnh đạo trường!
Cảm ơn đề tài: “Hệ thống đeo tay hỗ trợ đọc sách tiếng Việt dành cho người khiếm thị ” Mã số VAST01.07/15-16 hỗ trợ trong thực hiện luận văn.Luận văn hoàn thành, ngoài sự cố gắng của bản thân còn có sự độngviên, giúp đỡ và kích lệ về tinh thần của bạn bè đồng nghiệp và gia đình giúpcho em vượt qua những khó khăn trong thời gian thực hiện luận văn Em xintrân thành cảm ơn tới tất cả mọi người
Hà nội, ngày 20 thảng 05 năm 2015
Trang 3ai công bố trong bất kỳ công trình nào khác Việc sử dụng những dữ liệu cótrong luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trongphần tài liệu tham khảo.
Nếu phát hiện bất kỳ sự gian lận nào, tôi xin chịu trách nhiệm trước Hộiđồng, cũng như kết quả luận văn của mình
Tác giả
Trần Ngọc Đồng
Trang 5RGB: Red, Green, Blue
CM Y: Cyan-Magenta-Y ellow
CBIR: Content Baased Image Retrieval
Trang 7DANH MỤC HÌNH VẼ
•
Hình 2.19: Mở rộng kích thước hình chữ nhật biên theo hai hướng trái và phải32
Trang 8MỞ ĐẦU
1 Lý do chọn đề tài
Hiện nay, các thành tựu của tin học được áp dụng ở hầu hết các lĩnh vựchoạt động của xã hội và đem lại nhiều hiệu quả to lớn Mối quan hệ tương tácgiữa các nhu cầu của xã hội ngày càng đa dạng, cùng với sự phát triển của cácthiết bị đa phương tiện (multimedia) như máy ảnh, máy scan, máy quay phim,điện thoại, ipad với khối lượng hình ảnh và phim lưu trữ ngày càng lớn, cùngvới sự phát triển của các thiết bị điện tử, tin học và viễn thông đã thu hút ngàycàng nhiều những chuyên gia đi vào nghiên cứu những công cụ cung cấp choviệc lấy thông tin dữ liệu ảnh từ nội dung của chúng Trong thực tế, bài toán tracứu ảnh có rất nhiều ứng dụng quan trọng Các ứng dụng phức tạp như so sánhmẫu vân tay, tìm kiếm ảnh tội phạm được áp dụng trong ngành khoa họchình sự, cơ sở dữ liệu ảnh về địa lý, y học làm cho lĩnh vực nghiên cứu nàyphát triển nhanh trong công nghệ thông tin
Với số lượng ảnh được lưu trữ trên các thiết bị nhớ trở nên lớn, thì vấn đề
là phải có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹthuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt.Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tra cứu ảnhkhác nhau Hệ thống tra cứu ảnh từ trong ảnh tài liệu chỉ là một dạng của hệthống tra cứu ảnh nói chung Mục đích của hệ thống tìm kiếm từ trong ảnh tàiliệu là đưa ra những ảnh tài liệu liên quan với từ mà người dùng cung cấp.Trong luận văn này sẽ trình bày một hệ thống tra cứu ảnh từ trong ảnh tài liệugiúp người dùng có thể tìm kiếm thông tin từ ảnh tài liệu từ câu truy vấn Hệthống đưa ra việc tìm kiếm trên ngôn ngữ là Tiếng anh
Xuất phát trong hoàn cảnh đó “Nghiên cứu phương pháp tra cứu ảnh từtrong ảnh tài liệu” được em chọn làm đề tài
2 Mục đích nghiên cứu
Trang 9Mục đích của hệ thống truy tìm từ trong ảnh là đưa ra những ảnh tài liệuliên quan với từ mà người dùng cung cấp Trong đồ án này sẽ trình bày một hệthống truy tìm ảnh tài liệu giúp người dùng có thể truy tìm thông tin từ ảnh tàiliệu, hoặc ảnh in từ câu truy vấn Hệ thống đưa ra việc tìm kiếm trên ngôn ngữ
là Tiếng anh
3 Nhiệm vụ nghiên cứu
- Tìm hiểu những khái niệm chung, cơ bản về xử lý ảnh và phương phápdùng để tra cứu ảnh tài liệu
- Nghiên cứu kiến trúc, những khó khăn, thách thức, và lĩnh vực ứng dụngcủa hệ thống truy tìm từ trong ảnh tài liệu
- Trình bày các thao tác dùng để nhận dạng các từ trong văn bản của hìnhảnh tài liệu và các đặc trưng chung hay dùng để đối sánh đối tượng
- Trình bày phần cài đặt hệ thống Đánh giá một số từ truy vấn đối với hệthống
4 Đối tuợng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu: Tổng quan về ảnh và tra cứu ảnh, phươngpháp tra cứu ảnh và chọn ra phương pháp, kỹ thuật tra cứu ảnh cụ thể và cácứng dụng thực tế để tra cứu ảnh
5 Phuơng pháp nghiên cứu
Trang 10Chương 1: TỔNG QUAN VỀ TRA cứu ẢNH
Chương này sẽ đưa ra những khái niệm cơ bản về xử lý ảnh và kiến trúccủa hệ thống tra cứu ảnh dựa vào nội dung Dựa vào kiến trúc chung đó xâydựng hệ thống đề xuất tìm kiếm ảnh từ trong ảnh tài liệu
Chương 2: PHƯƠNG PHÁP TRA cứu ẢNH TỪ TRONG ẢNH TÀI LIỆU
Chương này sẽ đi sâu vào từng phần có trong hệ thống đề xuất được nêu
ra ở Chương 1 Đưa ra các thuật toán để chuyển đổi sang ảnh nhị phân, thao tácvới ảnh nhị phân để nhận dạng được các từ có trong ảnh tài liệu, đồng thời tríchchọn các đặc trưng để đem ra đối sánh
Chương 3: XÂY DƯNG CHƯƠNG TRÌNH THỬ NGHIỆM
Chương này sẽ trình bày các chức năng của chương trình thử nghiệm ứngvới mục đích nghiên cứu của luận văn Đánh giá một số từ truy vấn đối với hệthống
NỘI DUNG CHƯƠNG 1: TỔNG QUAN VỀ TRA cứu ẢNH
1.1 Một số vấn đề cơ bản trong hệ thống xử lỷ ảnh
1.1.1 Xử lý ảnh
Trang 11Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóngvai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứngmáy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứngdụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trongtương tác người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằmcho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể làmột ảnh “tốt hơn” hoặc một kết luận
Ảnh có thể xem là tập họp các điểm ảnh và mỗi điểm ảnh được xem như
là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó củađối tượng trong không gian và nó có thể xem như một hàm n biến P(cl, c2, ,cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều
Sơ đồ tống quát của một hệ thống xử lý ảnh:
Xử lý ảnh là một môn học liên quan đến nhiều lĩnh vực và cần nhiều kiếnthức cơ sở khác nhau Có thể kể đến đầu tiên là xử lý tín hiệu số, môn học hếtsức cơ bản cho xử lý tín hiệu chung Các khái niệm về tính chập, các biến đổiFouricer, Laplace, các bộ lọc hữu hạn Tiếp đến là các công cụ tính toán nhuĐại số tuyến tính, xác suất thống kê Các kiến thức cần thiết nhu trí tuệ nhântạo, mạng nơ ron nhân tạo cũng đuợc đề cập trong quá trình phân tích và nhậndạng ảnh
Hình 1.1 Quá trình xử lỷ ảnh
Hình 1.2 Các bước cơ bản trong một hệ thống xử lỷ ảnh
11
Trang 12Các phuơng pháp xử lý ảnh bắt đầu từ các ứng dụng chính là nâng caochất luợng ảnh và phân tích ảnh ứng dụng đầu tiên đuợc biết đến là nâng caochất luợng ảnh báo đuợc truyền qua cáp từ London đến NewYork từ nhữngnăm 1920 vấn đề nâng cao chất luợng ảnh có liên quan tới phân bố mức sáng
và độ phân giải ảnh vấn đề này đã đuợc giải quyết vào những năm 1995 Năm
1964 máy tính đã có khả năng xử lý và nâng cao chất luợng ảnh từ mặt trăng và
vệ tinh Ranger 7 của Mỹ bao gồm : làm nối đuờng biên, luu ảnh Từ năm 1964đến nay, các phuơng tiện xử lý nâng cao chất luợng, nhận dạng ảnh khôngngừng phát triển và hoàn thiện hơn
1.1.2 Ảnh và điểm ảnh
Ảnh trong thực thế là một ảnh liên tục về không gian và giá trị độ sáng
Đe có thể xử lý bằng máy tính cần thiết phải đua về dạng ảnh số Trong quátrình số hóa, nguời ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông quaquá trình lấy mẫu (rời rạc hóa không gian) và luợng tử hóa thành phần giá trị(rời rạc hóa biên độ giá trị) mà về nguyên tắc mắt thuờng không phân biệt đuợchai điểm kề nhau Trong quá trình này nguời ta sử dụng khái niệm là PictureElement mà ta quen gọi là pixel Ánh thuờng có kích thuớc vuông và đuợc mô
tả là N X N m-bit điểm ảnh, trong đó N là số điểm và m là số các giá trị mức
sáng Việc sử dụng m bit đua ra khoảng 2m giá trị mức sáng từ 0 đến 2m - 1.Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặp tọa độ(x,y)
Định nghĩa : Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y)
với tọa độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểmảnh đó được chọn thích họp sao cho mắt người cảm nhận sự liên tục về khônggian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong
ma trận được gọi là một phần tử ảnh
* Độ phân giải ảnh
Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được
Trang 13ấn định trên một ảnh số được hiển thị.
Trong quá trình xử lý ảnh việc chọn giá trị phù họp về kích thước N củaảnh cũng khá phức tạp và quan trọng Chúng ta chọn N đủ lớn sẽ giải quyếtnhững mức độ yêu cầu về độ chi tiết của bức ảnh Nhưng N quá nhỏ , ảnh cóchất lượng xấu: những đường nét sẽ xuất hiện như những khối và nhiều chi tiết
bị mất Những giá trị lớn hơn của N đưa ra nhiều chi tiết hơn, nhưng cần nhiềukhông gian bộ nhớ hơn để lưu trữ ảnh, và ảnh sẽ được xử lý lâu hơn do cónhiều điểm ảnh
* Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x,y) của điểm ảnh
và độ xám của nó
Định nghĩa : Mức xám của ảnh là cường độ sáng của nó được gán bằng
giá trị tại điểm đó
Các thang giá trị mức xám thông thường : 16,32,64,128,256 (Mức 256 là mức phổ dụng)
Ảnh đen trắng: là ảnh có hai màu đen và trắng (không chứa màu sắc khác)
với mức xám ở các điểm ảnh có thể khác nhau
Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit
mô tả 2^ mức khác nhau Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0hoặc 1
13
Trang 14Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo
nên thế giới màu, người ta thường dung 3 byte để mô tả mức màu, khi đó cácgiá trị màu: 2^*^ = 2^ = 16,7 triệu màu
* Histogram
Histogram là một lược đồ biểu diễn độ sáng của một bức ảnh Lược đồnày bao gồm trục hoảnh biểu diễn mức sáng và trục tung biểu diễn số lượngđiểm sáng tương ứng Đối với ảnh xám thông thường, giá trị của trục hoànhnằm trong khoảng từ 0-255
Trang 17Bảng 1.1: Định nghĩa histogram
1.1.3 Khái niệm ảnh đen trắng và ảnh màu
Ảnh có thể biểu diễn duới dạng tuơng tự hoặc tín hiệu số Trong biểu diễn
số của các ảnh đa mức xám thì một ảnh đuợc biểu diễn duới dạng một ma trậnhai chiều Mỗi phần tử của ma trận biểu diễn cho mức xám hay cuờng độ củaảnh tại vị trí đó Một luới chia ô vuông đuợc đặt lên ảnh Độ lớn mỗi ô vuôngcủa luới xác định kích thuớc của một điểm ảnh Mức xám của một điểm đuợctính bằng cuờng độ xám trung bình tại mỗi ô vuông này Mắt luới càng nhỏ thìchất luợng ảnh càng cao
Trong kỹ thuật tuong tự, một bức ảnh thuờng đuợc biểu diễn duới dạngcác dòng nằm ngang kế tiếp nhau Mỗi dòng là một tín hiệu tuong tự mang theocác thông tin về cuờng độ sáng dọc theo một đuờng nằm ngang trong ảnh gốc
* Ảnh đen trắng
Ảnh đen trắng chỉ bao gồm hai màu : màu đen và màu trắng Nguời taphân mức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóamức đen trắng (hay mức xám) thì L đuợc xác định :
m là tất cả giá trị mức xám của ảnh vầMỈN < m< MAX r, c
là chỉ số hàng và cột của điểm ảnh trong ảnh
17
Trang 18Nếu L=2, B=l, nghĩa là chỉ có 2 mức: mức 0 và mức 1, còn gọi là ảnh nhịphân Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối Nếu L lớn hơn 2 ta
có ảnh đa cấp xám
Với ảnh nhị phân mỗi điểm ảnh đuợc mã hóa trên lbit, còn với ảnh 256mức, mỗi điểm ảnh đuợc mã hóa trên 8 bit Nhu vậy, với ảnh đen trắng: nếudùng 8 bit (1 byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ là
256 Mỗi mức xám đuợc biểu diễn duới dạng số nguyên nằm trong khoảng từ
0-255, với mức 0 biểu diễn cho mức cuờng độ đen nhất và mức 255 biểu diễn chomức cuờng độ sáng nhất
Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tửlogic, ứng dụng chính của nó đuợc dùng để phân biệt đối tuợng ảnh với nền hay
để phân biệt điểm biên với các điểm khác
* Ảnh màu
Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ họp từ 3 màu cơ bản làRed, Green, Blue và thu nhận trên các dải bang tần khác nhau Với ảnh màu thìcách biểu diễn cũng tuơng tự nhu ảnh đen trắng, chỉ khác là các số tại mỗi phần
tử của ma trận biểu diễn cho ba màu riêng rẽ Đe biểu diễn cho một điểm ảnhmàu cần 24 bit 24 bit này đuợc chia thành ba khoảng 8 bit Mỗi màu cũng phânthành L cấp màu khác nhau (thuờng L = 256) Mỗi khoảng này biểu diễn chocuờng độ sáng của một trong các màu chính Do đó, để luu trữ ảnh màu nguời
ta có thể luu trữ từng màu riêng biệt, mỗi màu luu trữ một ảnh đa cấp xám.Chính vì vậy không gian nhớ dành cho một ảnh màu lớn gấp 3 lần một ảnh đacấp xám cùng kích cỡ
1.1.4 Không gian màu
* Không gian màu RGB
RGB là không gian màu đuợc sử dụng phổ biến nhất để hiển thị ảnh.Không gian RGB bao gồm 3 thành phần màu là ĐỎ(Red), Xanh lá cây(Green)
Trang 19và Xanh lam (Blue) Các thành phần này gọi là màu cộng bởi vì các màu sắctrong không gian RGB đều có thể thu được bằng cách cộng 3 thành phần màunày lại với nhau.
* Không gian màu CMY
CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam ,màu đỏ tươi,màu vàng),đó là ba màu chính tương ứng với ba màu mựcin
* Không gian màu HSx
Các không gian màu HSI, HSV, HSB và HSL (quy ước gọi là HSx) là gầnvới nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồngnhất nhận thức
Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue),
độ bão hòa (saturation), và độ sáng (lightness)(cũng được gọi là value,brightness và intensity) Sự khác biệt giữa các không gian màu trong HSx làcách chúng biến đổi từ không gian màu RGB Chúng thường được biểu diễnbởi các hình thức khác nhau (ví dụ như hình nón, hình trụ)
1.2 Giói thiệu kiến trúc chung về hệ thống tra cứu ảnh
1.2.1 Tra cứu thông tin
Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu ảnhnhững ảnh thỏa mãn một yêu cầu nào đó Tra cứu thông tin về ảnh thường dựavào hai đặc trưng chính là văn bản mô tả đi kèm ảnh hoặc nội dung ảnh Một sốcông cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search,Yahoo, MSN, .Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh nhưGoogle Image Swirl, Bing,
Các phương pháp tra cứu ảnh được sử dụng đầu tiên không dựa trên cácđặc điểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh,đầu tiên người ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa trênmột đặc điểm nào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản
19
Trang 20thông thuờng để tìm kiếm ảnh.
Phuong pháp tra cứu ảnh dựa trên văn bản nhu trên sử dụng các kỹ thuật
cơ sở dữ liệu truyền thống để quản lý ảnh Dựa vào các lời chú thích, nguời ta
có thể tổ chức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữnghĩa và việc duyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thôngthuờng Phuơng pháp tra cứu ảnh dựa trên chú thích nhu trên còn đuợc gọi làphuơng pháp tra cứu ảnh theo từ khóa Do vậy việc xây dựng các thuật toán cókhả năng tự động sinh ra các chú thích cho một cơ sở dữ liệu ảnh có nhiều chủ
đề là hết sức khó khăn nên các hệ thống tra cứu ảnh kiều này vẫn yêu cầu phảichú thích ảnh một cách thủ công, tốn rất nhiều công sức và quan trọng hơn là
nó mang tính chủ quan, bị ảnh huởng bởi hoàn cảnh và không đầy đủ
Phuơng pháp tra cứu ảnh dựa theo nội dung ra đời đã khắc phục đuợcnhuợc điểm của phuơng pháp tra cứu ảnh dựa vào văn bản đi kèm Phuơng
pháp "Tra cứu ảnh dựa theo nội dung" (Content Based Image Retrieval) cho phép trích chọn các đặc trung dựa vào nội dung trực quan của ảnh nhu màu sẳc, kết cẩu, hình dạng và bổ cục không gian của ảnh để làm cơ sở cho việc tra cứu,
sắp xếp, tổ chức cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnh nổi tiếng nhuQBIC (IBM), Virage (Virage Inc.) Photobook (MIT) Visual SEEK (ColumbiaUniversity) đã áp dụng thành công kỹ thuật này Tra cứu ảnh dựa theo nội dung
đã nhận đuợc nhiều sự quan tâm của các nhà khoa học
1.2.2 Tra cứu ảnh dựa vào nội dung
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thôngtin dựa trên dạng thông tin trực quan đó là các phuơng pháp dựa trên đặc trung
và các phuơng pháp dựa trên văn bản mô tả ảnh Nhận thức chủ quan và chúthích thiếu chính xác là nguyên nhân tra cứu không chính xác trong các quátrình tra cứu của phuong pháp dựa trên văn bản mô tả đi ảnh
Các vấn đề đối với việc truy cập các ảnh và Video dựa vào văn bản đã
Trang 21thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung.Với giải pháp này, thay vì đuợc chú thích một cách thủ công bởi các từ khóadựa vào văn bản, các ảnh có thể đuợc trích rút một số đặc trung trực quan nhumàu sắc, hình dạng, kết cấu và đuợc đánh chỉ số dựa trên các đặc trung trựcquan này Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy Tuynhiên, không có đặc trung riêng lẻ tốt nhất mà cho các kết quả chính xác Thôngthuờng một sụ kết họp các đặc trung một cách tùy biến là cần thiết để cung cấpcác kết quả tra cứu thích họp cho ứng dụng tra cứu ảnh dựa vào nội dung.
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR-Content Baased ImageREtrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôndạng khác nhau (văn bản, hình ảnh , Video) mà còn giải quyết nhu cầu củanguời sử dụng, về cơ bản hệ thống phân tích cả các nội dung của nguồn thôngtin cũng nhu các truy vấn sử dụng và sau đó so sánh các nội dung này để tra cứucác mục tin liên quan Các chức năng chính của hệ thống dựa vào nội dung nhusau :
• Phân tích các nội dung của nguồn thông tin, và biểu diễn các nội dungcủa các nguồn đuợc phân tích theo cách thích hợp cho so sánh các truyvấn sử dụng
• Phân tích các truy vấn nguời sử dụng và biểu diễn chúng ở dạng thíchhợp cho so sánh với cơ sở dữ liệu nguồn Buớc này tuơng tự buớc truớcnhung chỉ áp dụng với ảnh truy vấn
• Định nghĩa một chiến luợc để so sánh các truy vấn tìm kiếm với thôngtin trong cơ sở dữ liệu đuợc luu trữ Tra cứu thông tin liên quan một cáchhiệu quả Buớc này đuợc thực hiện trực tuyến và được yêu cầu rất nhanh.Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lạikhông gian đặc trưng để tăng tốc quá trình đối sánh
• Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng
21
Trang 22điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từngười sử dụng hoặc các ảnh được tra cứu.
Hình 1.4: Lược đồ mô tả các bưức liên quan trong hệ thống
tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựavào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau vàtrên mặt kia có các truy vấn người sử dụng Hai mặt này được liên kết thôngqua một chuỗi các tác vụ như được minh họa trong hình trên Sau đây chứng ta
sẽ đưa ra cái nhìn khái quát về một số tác vụ chinh
1.2.2.1. Truy vẩn người sử dụng
Có nhiều cách gửi một truy vấn trực quan Một phuơng pháp truy vấn tốt
là một phuơng pháp tự nhiên đối với nguời sử dụng cũng nhu thu đuợc đủ thôngtin từ nguời sử dụng để trích rút các kết quả có ý nghĩa Các phuơng pháp truy
Trang 23vấn duới đây đuợc sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nộidung.
Truy vấn ảnh mẫu (QBE): Trong loai truy vấn này, nguời sử dụng hệthống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh đó hệ thống sẽ tìm kiếm trong
cơ sở dữ liệu ảnh các ảnh tuơng tự nhất
Truy vấn bởi đặc trung (QBF): Trong hệ thống QBF tiêu biểu, nhữngnguời sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trung họ quan tâmcho tìm kiếm
Các truy vấn dựa vào thuộc tính: Các truy vấn dựa vào thuộc tính sử dụngcác chú thích văn bản, trích rút truớc bởi nỗ lục con nguời, nhu một khóa tracứu chính Phuơng pháp này nhanh và dễ thục hiện, nhung có một độ chủ quan
và nhập nhằng cao xuất hiện nhu đã đề cập
1.2.2.2. Trích chọn đặc trưng
Trích chọn đặc trung liên quan đến việc trích chọn những thông tin hữuích từ ảnh Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thốngtrở nên nhanh hơn và truy tìm ản hiệu quả hơn Mỗi khi một hoặc nhiều đặctrung đuợc trích chọn, chúng là đuợc luu trong cơ sở dữ liệu để sử dụng chocông việc sau này số luợng thông tin hữu ích mà một máy tính lấy ra từ ảnh làyếu tố rất quan trọng quyết định tính thông minh, cũng nhu hiệu quả của hệthống truy tìm ảnh.Một uu điểm lớn nhất của việc trích chọn đặc trung đó là nó
bỏ đi những thông tin không cần thiết và chỉ giữ lại những thông tin cần thiết để
có thể biểu diễnnội dung cho ảnh Thuờng có nhiều phuơng pháp để trích chọnđặc trung nhu là Gradient, Structural và Concavity (GSC) (đặc trưng này để đonhững đặc trưng ảnh ở mức độ cục bộ đến những mức độ lớn hon ), những đặctrưng dựa trên sự phân bố mật độ và những đặc trưng khối quan trọng trongảnh, Conditional Random Field, Dynamic Time Wraping
1.2.2.3 Đánh chỉ sổ nhiều chiều
23
Trang 24Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnhlớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồngnghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ sở
dữ liệu và nhận dạng mẫu
1.3 Hệ thống đề xuất
Xuất phát từ kiến trúc chung về hệ thống tra cứu ảnh Trong tài liệu này đềxuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật từ cầntìm Những kỹ thuật đưa ra bắt gặp trong vấn đề truy tìm ảnh tài liệu là sử dụngthủ tục đối sánh một từ Thủ tục này thực hiện đối sánh từ trực tiếp trong ảnh tàiliệu mà không dùng phương pháp nhận dạng ký tự quang học (optical characterrecognition) và sử dụng ảnh của một từ như làm câu truy vấn Toàn bộ hệ thốngbao gồm hai thủ tục chính như hìnhbên dưới
Trong cơ sở dữ liệu ảnh tất cả ảnh tài liệu được phân tích để tìm số lượng
từ tối đa bên trong chúng Sau đó tập các đặc trưng có thể được lấy ra ứng vớihình dạng của từ và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc font.Những đặc trưng này sau đó được lưu vào cơ sở dữ liệu đặc trưng
Trong thủ tục của người sử dụng nhập một từ truy vấn và sau đó hệ thống
sẽ tạo ra một bức ảnh ứng với từ đó Tiếp theo ảnh này cũng được xử lý để lấy
ra tập các đặc trưng có thể Sau đó, những đặc trưng này được dùng để tìmnhững từ tương tự thông qua thủ tục đối sánh từ Cuối cùng, những ảnh tài liệuchứa những từ tương tự được hiện thị đến người dùng Kết quả thí nghiệm chỉ
Hình 1.5: cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu
Trang 25ra rằng hệ thống đề xuất đưa ra kết quả tìm kiếm có độ chính xác cao thông qua
độ đo về tỉ lệ precision và recall.
Trong các chương còn lại của tài liệu sẽ đi chi tiết vào từng bước trong hệ thống và các kỹ thuật sử dụng trong từng bước
25
Trang 26Trong chương này sẽ đưa ra các thuật toán cũng như các kĩ thuật được ápdụng vào trong hệ thống đề xuất như là: nhận dạng các từ có trong ảnh tài liệu,thuật toán đối sánh và trích chọn các đặc trưng của một vùng liên thông chứatrong ảnh.
Đầu vào của ảnh tài liệu đa phần là ảnh màu, vì vậy để giảm bớt các đặctrưng có thể tác động lên kết quả tìm kiếm thì ảnh đầu vào cần phải đượcchuyển đổi sang ảnh nhị phân, quá trình chuyển đổi ảnh đầu vào sang ảnh nhịphân cần phải chuyển gián tiếp sang ảnh xám
2.1 Chuyển từ ảnh màu sang ảnh
nhị phân 2.1.1 Chuyển từ ảnh màu
sang ảnh xám
Dựa vào lược đồ màu RGB ta có công thức để chuyển ảnh màu về ảnhxám được tính như sau:
Value = 0.3x RED + 0.59 X GREEN + 0.11 X BLUE (2.1.1)
Hình 2.1: Ảnh màu được chuyển sang ảnh xám tính theo công thức trên
2.1.2 Chuyến từ ảnh xám sang ảnh nhị phân
Ảnh nhị phân có thể được chuyển đồi bằng phương pháp lấy ngưỡng tựđộng trên ảnh xám Thao tác chọn ngưỡng là chọn một số điểm ảnh như lànhững điểm ảnh nổi (Foreground Pixel) mà tạo thành đối tượng và những điểm
Trang 27ảnh còn lại là điểm ảnh nền (Background Pixel) Với một dải màu xám trongbức ảnh xám, chúng ta phải tìm ra một giá trị ngưỡng để phân tách những điểmảnh trong một bức ảnh xám thành hai nhóm foreground và background như
trên Nói một cách đơn giản, với một giá trị ngưỡng t được chọn Tất cả những điểm ảnh có giá trị màu lớn hơn hoặc bằng t thì đặt trong nhóm foreground và những điểm ảnh nào có giá trị ngưỡng nhỏ hơn t thì đặt trong nhóm
f MIN nếu G [ i,j ] < t L '^
lMAX nếu ổ[ i,j ] > t
Bước cơ bản cho việc chọn một ngưỡng là dùng biểu đồ mức xám(histogram) của ảnh xám Có nhiều phương pháp khác nhau để tìm ngưỡng tựđộng nhưng một phương pháp hiệu quả và được dùng phổ biến đó là táchngưỡng tự động sử dụng phương pháp Otsu [3] Phương pháp này chọn ngưỡngsao cho đạt được giá trị nhỏ nhất về sự biến thiên giá trị bên trong một lóp củahai nhóm điểm ảnh mà sẽ được phân ra bởi ngưỡng này
Trong phương pháp này chỉ rõ hàm histogram như là một hàm xác suất p
trong đó P(0), ,P(I) biểu diễn các xác suất histogram của các giá trị xám quan sát được từ 0 , I P(i) = \{ (r,c)I Imageịr,c) = I}\ / \R X cI, trong đó R X c là
vùng không gian của ảnh Nếu như histogram là chia thành hai lớp thì vấn đềtìm ngưỡng của histogram là xác định một ngưỡng T tốt nhất mà phân rõ ràng