Trong tr-êng hîp nµy còng cÇn ph¶i tËp hîp c¸c ®o¹n audio trªn theo mét chñ ®Ò nµo ®ã ®Ó thuËn tiÖn trong viÖc sö dông sau nµy.. Tuy nhiªn nÕu cã mét..[r]
Trang 1Đại học quốc gia Hà nội
Tr-ờng đại học công nghệ
D-ơng Hoàng Huyên
MỘT SỐ KỸ THUẬT
TèM KIẾM ẢNH THEO NỘI DUNG
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
Luận văn thạc sĩ
Hà Nội - 2005
Trang 2Mở đầu
Ngay từ ban đầu máy tính đã đ-ợc coi là các thiết bị xử lý các biểu t-ợng,
các kí tự đầu vào có dạng alphabet và đầu ra là các biểu t-ợng có cùng dạng trên
Điều này đã trở thành mô hình tính toán chuẩn dựa trên cơ sở máy Turing
Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả năng khai thác và xử lý dữ liệu với số l-ợng khổng lồ mà các dữ liệu này thì không
dễ dàng diễn tả bằng các kí hiệu, d-ới đây là một số ví dụ về kiểu dữ liệu nh- đã nêu:
Dữ liệu hình ảnh (Image data): Các công ty thiết kế logo cho các cơ quan tổ chức nào đó Họ cần phải duy trì một CSDL ảnh các logo để khi tạo ra một logo mới sẽ không bị trùng lặp với những logo đã có
Dữ liệu video (Video data): Trong ngữ cảnh khác, các sinh viên học từ xa muốn có một bài giảng bằng video về một chủ đề nào đó của môn học Trong tr-ờng hợp này các tr-ờng học cần phải tạo ra một tập hợp các video có nội dung về
bài giảng của giáo viên với một chủ đề nào đó
Dữ liệu âm thanh (Audio data): Tình huống t-ơng tự nh- trên, các sinh viên học từ xa muốn có các đoạn audio bài giảng của các giáo viên Hoặc tình huống khác nh- sinh viên học ngoại ngữ muốn có các đoạn audio các cuộc đàm thoại Trong tr-ờng hợp này cũng cần phải tập hợp các đoạn audio trên theo một chủ đề
nào đó để thuận tiện trong việc sử dụng sau này
Dữ liệu tài liệu (Document data): CSDL văn bản bao gồm các đoạn văn bản, các từ, câu, đoạn văn CSDL tài liệu khác văn bản ở chỗ nó không chỉ chứa các
thông tin ở dạng thô mà còn chứa đựng cấu trúc và hình ảnh nhúng Khi đó ng-ời
dùng tìm kiếm ảnh nh-ng không thể tìm trong CSDL ảnh Tuy nhiên nếu có một
Trang 3CSDL tài liệu thì ta có thể truy cập vào ảnh trong tài liệu đó
Dữ liệu viết bằng tay (Handwritten data): Nhiều ng-ời th-ờng ghi chú lên
những mảnh giấy nhỏ, điều này th-ờng hay bị mất thông tin, hoặc thông tin dễ bị
mờ Xu thế gần đây trên thế giới ng-ời ta cho rằng ghi chép điện tử ngày càng phát triển trong t-ơng lai Ng-ời sử dụng sẽ dùng các thiết bị điện tử để ghi chép và l-u
trữ các ghi chú cá nhân Mặc dù có nhiều ghi chép có thể chuyển sang mã ASCII
bằng kỹ thuật phân tích chữ viết tay, nh-ng có rất nhiều ghi chú không thể thực hiện đ-ợc bởi vì các ghi chú th-ờng chứa cả các nét loằng ngoằng hay các biểu đồ khối
Các kiểu dữ liệu liệt kê trên đây chỉ là một phần trong rất nhiều hình thức biểu hiện của dữ liệu phát sinh tự nhiên trong các ứng dụng khác nhau Từ những
dữ liệu mới phát sinh trên, ta thấy rằng các CSDL truyền thống không thể quản lý
các kiểu dữ liệu này đ-ợc Do đó cần phải có có một hệ thống quản lý tất cả các
loại dữ liệu media và CSDL đa ph-ơng tiện đ-ợc hình thành
Trong khuôn khổ của luận văn này, chúng tôi trình bày một số vấn đề cơ bản
của một hệ quản trị CSDL đa ph-ơng tiện chẳng hạn các khái niệm, kiến trúc hệ
thống và mô hình dữ liệu đa ph-ơng tiện Trong đó, tập trung nghiên cứu và cài đặt thử nghiệm một số ph-ơng pháp tìm kiếm theo nội dung trên dữ liệu đa ph-ơng tiện, cụ thể là dữ liệu ảnh
Ch-ơng 1
Trang 4Tổng quan về cơ sở dữ liệu đa ph-ơng tiện 1.1 Các khái niệm cơ bản
Dữ liệu Media là các kiểu thông tin hoặc biểu diễn của các kiểu thông tin nh- các kí tự, ảnh, audio và video Multimedia là tập hợp các kiểu media đ-ợc sử dụng với nhau Hệ quản trị cơ sở dữ liệu đa ph-ơng tiện (Multimedia DataBase Management System - MMDBMS) là một hệ thống giúp ng-ời dùng thao tác trên các dữ liệu media một cách thích hợp và hiệu quả Các thao tác cơ bản của hệ quản trị CSDL th-ờng là chèn, cập nhật, xóa và tìm kiếm một đối t-ợng trong CSDL Các dữ liệu media có những đặc điểm chính nh- sau:
- Dữ liệu media, đặc biệt là dữ liệu audio và video có dung l-ợng rất lớn Ví
dụ một một đoạn phim khoảng 10 phút với chất l-ợng bình th-ờng có thể đến 1,5
GB ở dạng không nén
- Dữ liệu audio và video có tham số thời gian Nó phải đ-ợc thể hiện ở một
tốc độ cố định để đạt đ-ợc hiệu quả mong muốn
- Dữ liệu media đ-ợc biểu diễn ở dạng đặc thù, không có cấu trúc ngữ nghĩa
rõ ràng để máy tính có thể tự động nhận biết nội dung
- ý nghĩa dữ liệu đa ph-ơng tiện đôi khi không rõ ràng phụ thuộc vào cách quan sát và ý kiến chủ quan của con ng-ời Cùng một hình ảnh nh-ng có thể có các nhận xét khác nhau bởi nhiều ng-ời
- Dữ liệu đa ph-ơng tiện rất giàu thông tin, để biểu diễn đầy đủ nội dung cần phải có rất nhiều tham số
1.2 Nguyên lý thiết kế CSDL đa ph-ơng tiện
Trong MMDBMS, thông th-ờng ta sử dụng ba nguyên lý sau đây để tổ chức
Trang 5nội dung của một MMDBMS:
1 Nguyên lý tự trị (principle of automony): ta phải lựa chọn để nhóm chung media cùng loại Chỉ số hóa mỗi loại media này theo cách riêng và hiệu quả nhất để thuận tiện khi truy cập vào các đối t-ợng Ta gọi là tự trị vì mỗi loại media đ-ợc tổ
chức riêng và phù hợp với từng loại Hình 1.1 mô tả sơ đồ nguyên lý tự trị
2 Nguyên lý đồng nhất (Principle of unformity): cố gắng tìm ra một cấu trúc trừu t-ợng hơn để chỉ số hóa mọi kiểu dữ liệu, khi truy cập vào các kiểu media
khác nhau đều thông qua chỉ số này Nói cách khác, chúng ta biểu diễn nội dung
của các đối t-ợng media khác nhau (ảnh, tài liệu, audio, video ) trong cùng một
cấu trúc dữ liệu, sau đó phát triển thuật toán để truy cập vào cấu trúc dữ liệu đó Hình 1.2 mô tả sơ đồ nguyên lý thống nhất
3 Nguyên lý tổ chức lai (Principle of hybird organization): là sự kết hợp hai nguyên lý trên Theo nguyên lý này, một số dữ liệu media sử dụng chỉ số riêng và
những dữ liệu còn lại sẽ sử dụng cùng một chỉ số Hình 1.3 mô tả tổng quát một sơ
đồ nguyên lý tổ chức lai
Cả ba nguyên lý trên đều có những -u và nh-ợc điểm riêng Nguyên lý tự trị
đòi hỏi phải tạo ra các thuật toán và cấu trúc dữ liệu cho mỗi media riêng và cần
phải có kỹ thuật kết nối giữa các dữ liệu khác nhau Ng-ợc lại tổ chức dữ liệu theo nguyên lý tự trị có thể dẫn tới thời gian xử lý nhanh Hơn nữa, trong nhiều tr-ờng hợp cấu trúc dữ liệu và thuật toán cho kho dữ liệu cụ thể đang tồn tại, nguyên lý tự trị là một lựa chọn tốt
Trang 6Hình 1.1 Sơ đồ nguyên lý tự trị
Hình 1.2 Sơ đồ nguyên lý thống nhất
Mô tơ trình diễn
Mô tơ truy vấn đa ph-ơng tiện
Chỉ số thống nhất
User Trả lời Truy vấn
Mô tơ trình diễn
Mô tơ truy vấn đa ph-ơng tiện
Chỉ số ảnh Chỉ số video Chỉ số tài liệu Dữ liệu khác
User Trả lời Truy vấn
Trang 7Hình 1.3 Sơ đồ nguyên lý tổ chức lai
Ng-ợc lại với nguyên lý tự trị, nguyên lý thống nhất đòi hỏi chúng ta tìm ra
cấu trúc dữ liệu chung để có thể l-u trữ thông tin về ảnh, video, audio, tài liệu ,
điều này đòi hỏi phải khảo sát nội dung mỗi loại thông tin và cố gắng đ-a ra các phần chung của nó, sau đó chỉ số hóa trên các phần chung đó Lợi thế của nguyên
lý thống nhất là dễ cài đặt và thuật toán th-ờng chạy nhanh Trong công nghiệp, nguyên lý thống nhất đ-ợc sử dụng rộng rãi thông qua các thiết bị chú giải
(metadata) Bất lợi là chú giải th-ờng đ-ợc tạo một cách thủ công Tiến trình tạo ra
bằng tay th-ờng mất nhiều thời gian và kinh phí Hơn nữa một số thông tin có thể
bị mất nếu ngôn ngữ chú giải không đầy đủ ý nghĩa để mô tả mọi khía cạnh của nội dung Ví dụ, ngôn ngữ chú thích nội dung ảnh có thể làm mất thông tin của từng
điểm ảnh T-ơng tự, ngôn ngữ chú thích âm thanh có thể làm mất thông tin về biên
độ và tần số tín hiệu tại một số điểm
Nguyên lý tổ chức dữ lai tận dụng đ-ợc các lợi thế của hai kiến trúc tr-ớc đó
và hạn chế đ-ợc các bất lợi của nó Giả sử ta muốn tạo ra một MMDBMS có các kiểu M 1 , , M n Ta sẽ chia các kiểu thành 2 tập hợp: những kiểu media có sẵn và đã
có chỉ số, ta giữ lại các chỉ số và các mã ch-ơng trình đã tồn tại; những kiểu media
Mô tơ trình diễn
Mô tơ truy vấn đa ph-ơng tiện
Chỉ số thống nhất
User Trả lời
Truy vấn
Chỉ số media Chỉ số media
Trang 8không có sẵn và ch-a đ-ợc chỉ số, ta biểu diễn theo các chỉ số thống nhất Sau đó tạo lập mã ch-ơng trình để kết nối nhiều nguồn dữ liệu khác nhau nhờ các chỉ số của chúng Theo nguyên lý này, sẽ sử dụng tối đa các mã nguồn đang tồn tại, tiết kiệm đ-ợc thời gian và sức lực bởi vì tận dụng đ-ợc các chỉ số đã có
1.3 Kiến trúc hệ thống và mô hình dữ liệu CSDL đa ph-ơng tiện
1.3.1 Kiến trúc tổng quát
Kiến trúc hệ thống của một MMDBMS phải mềm dẻo và có khả năng mở
rộng để hỗ trợ các ứng dụng, các kiểu truy vấn và nội dung dữ liệu Để giải quyết
vấn đề này, MMDBMS bao gồm một số module chức năng, các chức năng mới có
thể thêm vào, các chức năng cũ có thể loại bỏ, cập nhật
Một tính chất quan trọng của MMDBMS đó là các dữ liệu đ-ợc tổ chức phân tán Lý do là dữ liệu media th-ờng có dung l-ợng lớn, đ-ợc dùng chung bởi nhiều ng-ời, nếu duy trì một CSDL riêng cho từng cá nhân sẽ rất tốn kém Vì vậy, trong các MMDBMS th-ờng có thêm một module chức năng truyền thông
Hình 1.4 mô tả kiến trúc tổng quát của một MMDBMS Trong đó có các khối
chức năng chính là giao diện ng-ời dùng, khối trích chọn đặc tr-ng, bộ phận truyền thông, công cụ tìm kiếm và chỉ số hóa, và cuối cùng bộ phận quản lý l-u trữ Các khối chức năng này đ-ợc mô tả thông qua các hoạt động
Các thao tác chính trong một MMDBMS đó là chèn và tìm kiếm Trong thao
tác chèn, ng-ời dùng chỉ ra các đối t-ợng mới thông qua giao diện Các đối t-ợng
này đ-ợc l-u trữ thành các file hoặc là dữ liệu đ-ợc nhập vào từ các thiết bị ngoại vi nh- microphone, camera, v.v… Các nội dung hoặc các đặc tr-ng của các đối t-ợng
này sẽ đ-ợc trích chọn tự động hoặc bán tự động thông qua các công cụ đ-ợc cung cấp trong khối trích chọn đặc tr-ng Các đặc tr-ng này và các đối t-ợng gốc sẽ
Trang 9đ-ợc gởi đến server thông qua bộ phận truyền thông Tại server, các đặc tr-ng sẽ
đ-ợc tổ chức và chỉ số hóa một cách thích hợp sao cho việc tìm kiếm đạt hiệu quả
tốt nhất Các đối t-ợng gốc sẽ đ-ợc l-u trữ trên server thông qua bộ phận l-u trữ
Tài liệu tham khảo Tiếng Việt
[1] Đặng Văn Đức (2003), Nguyên lý hệ thống CSDL đa ph-ơng tiện, Viện công
nghệ thông tin, Viện khoa học và Công nghệ Việt Nam
Tiếng Anh
[2] D Feng, W.C Siu, H.J.Zhang, Multimedia Information Retrieval and Management: Technological Fundamentals and Applications, Chapter 1, Springer [3] Eva M van Rikxoort (2005), Content-Based Image Retrieval: Utilizing color, texture and shape, Master Thesis in Artificial Intelligence, Faculty of Social
Sciences, Radboud University Mijmegen, Mijmengen, The Netherlands
[4] Guojun Lu (1999), Multimedia Database Management Systems, Artech House
Boston London
[5] Mihran Tuceryan and Anil K Jain, Texture Analysis
[6] Nicu Sebe and Michael S Lew, Texture Features for Content-Based Retrieval [7] Shengjiu Wang, A Robust Approach Using Local Color Histogram
[8] Vittorio Castelli., Lawrence D Bergman.,(2002), Image Databases: Search and Retrieval of Digital Imagery, JOHN WILEY & SONS, INC