Mục tiêu chính của bản luận văn này nhằm nghiên cứu và tìm hiểu một số vấn đền cơ bản của một MDBMS: • Tổng quan về cơ sử dữ liệu đa phương tiện • Các yêu cầu của một MDBMS cũng như kiến
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 3Mục lục
BẢNG THUẬT NGỮ VÀ CÁC CHỮ VIẾT TẮT 4
LỜI CẢM ƠN 5
MỞ ĐẦU 7
CHƯƠNG 1 10
GIỚI THIỆU CHUNG VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 10
1.1 Các kiểu truyền thông và multimedia 11
1.1.1 Cơ sở dữ liệu và các DBMS 12
1.1.2 Truy tìm thông tin tài liệu văn bản 12
1.1.3 Truy xuất và chỉ số hoá multimedia 13
1.1.4 Trích rút đặc trưng, biểu diễn nội dung và chỉ số hoá 13
1.2 Sự cần thiết đối với MIRS 13
1.2.1 Sự phát triển về dữ liệu multimedia và các đặc trưng của nó 14
1.2.2 Các DBMS và vai trò của chúng trong việc xử lý dữ liệu multimedia 15
1.2.3 Hệ thống IR và vai trò của nó trong việc truy xuất multimedia 18
1.2.4 Cách tiếp cận tích hợp việc truy xuất và chỉ số hoá thông tin multimedia 19 1.3 Tổng quan về MIRS 19
1.4 Các ứng dụng nói chung và khả năng mong đợi của MIRS 20
CHƯƠNG 2 24
CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (Multimedia Database) 24
2.1 Kiến trúc cho việc tổ chức nội dung 25
2.4.1 Nguyên lý tự trị 25
2.4.2 Nguyên lý đồng nhất 26
2.4.3 Nguyên lý lai ghép 27
2.2 Tổ chức dữ liệu multimedia dựa trên nguyên lý đồng nhất .30
2.3 Cấu trúc tóm tắt media 32
2.4.1 Dữ liệu ảnh như là một tóm tắt media .33
2.4.2 Dữ liệu video như là một tóm tắt media .34
2.4.3 Định nghĩa về một CSDL Multimedia đơn giản 36
2.4.4 Định nghĩa về một CSDL Multimedia có cấu trúc 37
2.4 Ngôn ngữ truy vấn khai thác dư liệu multimedia 39
2.4.1 Truy vấn SMDSs (mô tả đồng nhất) 40
2.4.2 Truy vấn dữ liệu multimedia mô tả dưới kiến trúc lai tạo .43
2.4.3 Chỉ số hoá SMDS với chỉ số đảo .46
CHƯƠNG 3 52
HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯONG TIỆN – YÊU CẦU VÀ CÁC VẤN ĐỀ 52
3.1 Mục đích của MDBMS 52
Trang 43.2 Các yêu cầu của một MDBMS 55
3.2.1 Khả năng quản trị lưu trữ lớn 57
3.2.2 Hỗ trợ truy vấn và khai thácdữ liệu .58
3.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện 59
3.2.4 Giao diện và tương tác .59
3.2.5 Hiệu suất .60
3.3 Các vấn đề của MDBMS 60
3.3.1 Mô hình hoá dữ liệu MULTIMEDIA 60
3.3.2 Lưu trữ đối tượng MULTIMEDIA 62
3.3.3 Tích hợp multimedia, thể hiện và chất lượng của dịch vụ (QoS) 63
3.3.4 Chỉ số hoá multimedia 64
3.3.5 Hỗ trợ truy vấn multimedia, khai thác và duyệt qua 65
3.3.6 Quản trị CSDL multimedia phân tán 66
3.3.7 Sự hỗ trợ của hệ thống 67
CHƯƠNG 4 69
XÂY DỰNG HỆ THỐNG MUA BÁN HÀNG QUA MẠNG 69
4.2.1 Giới thiệu 69
4.2.2 Ứng dụng CSDL đa phương tiện vào hệ thống bán hàng qua mạng 70
4.2.1 Xây dựng kho dữ liệu hình ảnh 2D và 3D 71
4.2.2 Xây dựng cơ chế truy vấn đối với kho dữ liệu hình ảnh 71
4.2.3 Hệ thống bán hàng qua mạng 73
4.3.1 Mô hình hệ thống 73
4.3.2 Các chức năng cơ bản của hệ thống 75
4.3.3 Các công cụ phát triển hệ thống 76
4.3.4 Quy trình thực hiện giao dịch của hệ thống 77
4.3.5 Cài đặt hệ thống 78
4.4 Giải pháp tích hợp các hệ thống khác 80
4.4.1 Hệ thống quản lý và cấp phát chứng chỉ số (CA) 80
4.4.2 Hệ thống thanh toán trực tuyến (VASC Payment) 81
4.5 Một số giao diện chính của hệ thống 83
KẾT LUẬN 86
TÀI LIỆU THAM KHẢO 87
BẢNG THUẬT NGỮ VÀ CÁC CHỮ VIẾT TẮT
Trang 5STT Ký hiệu viết tắt Giải thích
1 Web browser Trình duyệt Web
3 DBMS Hệ quản trị cơ sở dữ liệu
4 MDBMS Hệ quản trị cơ sở dữ liệu đa phương tiện
5 Video frame Khung hình video
6 RDBMS Hệ quản trị cơ sở dữ liệu quan hệ
7 Multimedia Đa phương tiện
8 MIRS Hệ thống truy vấn thông tin đa phương tiện
9 Metadata Siêu dữ liệu
11 SMDS Hệ thống cơ sở dữ liệu đa phương tiện có cấu trúc
12 Information Retrival(IR) Truy xuất thông tin
13 Multimedia Information
Retrieval System (MIRS)
Hệ thống truy xuất thông tin đa phương tiện
LỜI CẢM ƠN
Trang 6Tôi xin bầy tỏ lòng kính trọng và biết ơn sâu sắc tới PGS.TS Vũ Đức Thi, người thầy, người đồng nghiệp đã trực tiếp hướng dẫn, cho tôi những định hướng và những ý kiến rất quý báu về cơ sở dữ liệu đa phương tiện Tôi cũng xin chân thành cám ơn các đồng nghiệp của tôi tại phòng Các hệ thống quản trị dữ liệu – Viện Công nghệ thông tin đã giúp đỡ tôi rất nhiều trong quá trình công tác để tôi có thể hoàn thành bản luận văn này một cách tốt đẹp
Xin chân thành cám ơn các bạn bè của tôi, trong nước cũng như ngoài nước đã giúp đỡ tôi rất nhiều trong quá trình tìm tòi và sưu tầm tài liệu
Cuối cùng xin châm thành cám ơn các thành viên trong gia đình đã động viên và tạo mọi điều kiện thuận lợi để tôi có được kết quả như ngày hôm nay
Hà nội ngày 20/06/2004
Học viên
Trần Hoài Nam
Trang 7MỞ ĐẦU
Công nghệ multimedia liên quan tới việc mô tả sự kết hợp các dạng thức thông tin khác nhau (văn bản, dữ liệu, hình ảnh, âm thanh, video) dưới dạng tín hiệu số Có thể nêu ra đây một số ứng dụng multimedia như :
• E-learning
• Hội thảo Video (Video Conferencing)
• Thư viện điện tử (Elibrary)
• Hiện tại ảo (Vitual Reality)
Các công nghệ truyền dùng để thao tác, truyền phát, điều khiển các dữ liệu multimedia
đã và đang được nghiên cứu một cách rất sôi động
Các hệ thống multimedia cần có một hệ thống phân phối nhằm mục đích thu thập các đối tượng multimedia và đưa chúng đến người dùng, một trong số các phương tiện đầu tiên được dùng dến là đĩa từ và đĩa quang Ngày nay, Internet cũng như các giao thức khác như TCP/IP, NetBIOS, các mạng Lan đang trở thành các phương tiện để truyền
bá dữ liệu multimedia Khả năng mô tả phong phú cũng như khả năng đồ họa của các web browser cùng với các tính năng đang được tiếp tục tăng cường như hoạt họa, âm thanh và Video khiến các web browser đang trở thành một phương tiện mới để mang lại các dữ liệu multimedia cho người dùng[5]
Các công nghệ chủ yêu liên quan đến multimedia bao gồm:
• Kỹ thuật nén
• Video Servers
• Các kỹ thuật về mạng (internet, tokenring, ethernet, ATM …vv)
• Các công nghệ truyền dữ liệu
• Các công nghệ về cáp truyền dẫn
• Công nghệ xác thực
• Các công nghệ về CSDL
Trang 8Một CSDL là tập hợp của các dữ liệu có liên quan đến nhau Một hệ quản trị CSDL (DBMS) là hệ thống phần mềm trợ giúp cho các quá trình khai báo, xây dựng và thao tác với CSDL phục vụ cho các ứng dụng khác nhau CSDL multimedia bao gồm thêm các kiểu dữ liệu khác như:
Các kiểu dữ liệu khác này đòi hỏi phải có các phương thức đặc biệt nhằm mục đích tối
ưu hóa cho việc lưu trữ, truy cập, chỉ số hoá và khai thác Một MDBMS phải cung cấp một môi trường thích hợp để quản lý và sử dụng CSDL multimedia
Một MDBMS cần phải đảm bảo các tính năng cơ bản của một DBMS, ngoài ra nó còn phải có các tính năng khác như:
• Tích hợp các phương tiện khác (Media Intergration)
• Khả năng sắp xếp và mô tả thông tin
• Khả năng khai thác dữ liệu
• Khả năng lưu trữ lớn
• Giao diện multimedia
• Hỗ trợ truy vấn tương tác multimedia
Thông thường các đối tượng riêng lẻ của một hình ảnh hoặc một video frame sẽ có một vài mối liên hệ bộ phận với các đối tượng khác Các mối liên hệ này đưa đến một số các ràng buộc trong quá trình tìm kiếm các đối tượng trong CSDL multimedia Căn cứ trên cơ sở này việc triển khai các ứng dụng multimedia trên nền các hệ quản trị CSDL hướng đối tượng sẽ thuận lợi hơn so với các RDMBS hiện thời[1]
Trang 9Mục tiêu chính của bản luận văn này nhằm nghiên cứu và tìm hiểu một số vấn đền cơ bản của một MDBMS:
• Tổng quan về cơ sử dữ liệu đa phương tiện
• Các yêu cầu của một MDBMS cũng như kiến trúc, thiết kế và truy vấn đối với một MDBMS
Luận văn này được bố cục thành 5 phần chính:
• Chương I: Giới thiệu chung về CSDL multimedia
• Chương II: Cơ sở dữ liệu multimedia
• Chương III: Hệ quản trị cơ sở dữ liệu multimedia – Yêu cầu và các vấn đề
• Chương IV: Xây dựng hệ thống bán hàng qua mạng
• Kết luận
Trang 10CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
Dữ liệu multimedia được chia thành hai lớp là các dữ liệu liên tục và các dữ liệu không liên tục Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo thời gian Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào thời gian, các loại
dữ liệu đặc trưng cho dạng này là các dữ liệu văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các đối tượng đồ họa Các kiểu dữ liệu thông thường của một CSDL multimedia bao gồm:
• Dữ liệu văn bản (có hoặc không có định dạng)
• Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp postscript
• Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức chuẩn như là JPEG hoặc MPEG
• Các hoạt hình
• Âm thanh
• Video
Các đặc tính chung của dữ liệu multimedia bao gồm:
• Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc vì vậy các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hoá, tìm kiếm nội dung, truy vấn dữ liệu thường là không áp dụng được
• Tính tạm thời: Một vài kiểu dữ liệu multimedia như là Video, âm thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến việc lưu trữ, thao tác và mô tả chúng
• Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi các thiết bị lưu trữ lớn
Trang 11• Các ứng dụng hỗ trợ: các dữ liệu phi chuần có thể đòi hỏi các quy trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các ứng dụng CSDL multimedia
1.1 Các kiểu truyền thông và multimedia
Truyền thông đề cập đến các kiểu thông tin hoặc các kiểu biểu diễn thông tin, ví dụ như dữ liệu vần chữ cái, hình ảnh, âm thanh, truyền hình Có nhiều cách phân lớp truyền thông Những cách phân loại chung được dựa trên những dạng vật lý và những mối quan hệ truyền thông với thời gian Ta phân lớp truyền thông dựa trên việc có hay không có chiều thời gian Ngầm định này hướng tới hai lớp truyền thông tĩnh và động (hoặc tính liên tục về thời gian)
Truyền thông tĩnh không bao hàm yếu tố thời gian, các nội dung và nghĩa của chúng không phụ thuộc vào thời gian được biểu diễn Truyền thông tĩnh bao gồm các dữ liệu vần chữ cái, các đồ thị và các ảnh tĩnh
Truyền thông động bao hàm yếu tố thời gian, các nghĩa và tính chính xác của chúng phụ thuộc vào loại được biểu diễn Truyền thông động gồm các hoạt hình, âm thanh và video Các truyền thông này có bản chất khoảng thống nhất hoặc tốc độ riêng của chúng Chẳng hạn, để truyền cảm giác chuyển động nhịp nhàng video phải thực hiện
25 hình mỗi giây (hoặc 30 hình phụ thuộc vào hệ thống video đang sử dụng) Tương
tự, khi chúng ta phát lại một lời nhắn hoặc đoạn nhạc đã được ghi âm, chỉ có một loại thể hiện là thích hợp Việc phát lại ở chế độ nhanh hơn hoặc chậm hơn sẽ làm méo nghĩa hoặc chất lượng âm thanh Vì những truyền thông này phải được phát liên tục ở tốc độ cố định mà chúng thường được gọi là truyền thông liên tục Chúng cũng còn được gọi truyền thông đẳng thời vì mối quan hệ cố định giữa mỗi đơn vị truyền thông
và thời gian
Truyền thông đề cập đến một bộ sưu tập các kiểu truyền thông đã sử dụng cùng nhau Điều đó có nghĩa là ít nhất có kiểu truyền thông dữ liệu là không theo ký tự chữ (nghĩa
Trang 12là ít nhất có một kiểu truyền thông là ảnh, âm thanh hoặc truyền hình) Ở đây,
“multimedia” được sử dụng như một tính từ vì vậy chúng ta sẽ nói một cách đặc trưng
là thông tin multimedia, dữ liệu multimedia, hệ thống multimedia, liên lạc multimedia, ứng dụng multimedia, Dữ liệu multimedia chính là sự biểu diễn về các loại truyền thông multimedia mà máy tính có thể đọc được Thông tin multimedia là thông tin đã truyền bằng các kiểu truyền thông multimedia Đôi khi, thông tin multimedia và dữ liệu multimedia được sử dụng có thể thay cho nhau
Đôi khi chúng ta sử dụng thuật ngữ multimedia hay truyền thông và đối tượng nhằm chỉ một thực thể tự trị nào đó trong một MIRS mà có thể được truy vấn, truy xuất và được trình diễn Thuật ngữ “đối tượng” có thể là chưa xác định thích hợp theo nghĩa hướng đối tượng (0bject Oriented) Ngữ cảnh sẽ làm nó rõ ràng hơn dù cho nó được sử dụng trong một ý nghĩa chung hoặc trong cách tiếp cận hướng đối tượng[10]
1.1.1 Cơ sở dữ liệu và các DBMS
Trong thư viện, CSDL và các DBMS đôi khi được sử dụng thay thế nhau ở đây CSDL hiểu như một bộ sưu tập hoặc một kho dữ liệu hoặc nhiều mục truyền thông Chúng ta
sử dụng các DBMS như một hệ thống thực thể để quản lý CSDL
1.1.2 Truy tìm thông tin tài liệu văn bản
Hệ thống truy tìm thông tin tự động hoá (IR) được phát triển để giúp quản lý một khối lượng với các tài liệu khoa học đã được tạo lập từ những năm 1940 Chức năng chính của một hệ thống IR là lưu trữ và quản lý một số rất lớn các tài liệu văn bản theo cách sao cho các tài liệu thích hợp với việc sử dụng các truy vấn để truy tìm nhanh Chú ý rằng việc truy tìm thông tin tự động của các từ cấu tạo bằng chữ đầu của những từ khác
là nhằm vào việc truy tìm các tài liệu văn bản, mặc dù thuật ngữ đầy đủ là truy tìm thông tin có thể hiểu là truy tìm một loại thông tin nào đó
Trang 131.1.3 Truy xuất và chỉ số hoá multimedia
Các DBMS truy xuất các khoản mục dựa trên số liệu có cấu trúc khi sử dụng kết nối chính xác IR cũng được gọi là truy xuất dựa trên văn bản Việc truy xuất dựa vào nội dung đề cập đến việc truy xuất dựa trên những nét đặc trưng truyền thống hiện nay như
là màu sắc, hình thù thay cho lời giải thích văn bản về khoản mục truyền thông đó Việc truy xuất dựa trên nội dung là chuẩn dựa trên sự đồng dạng thay vì một kết nối chính xác giữa một truy vấn và một tập các khoản mục dữ liệu
MIRS đề cập đến một hệ thống cơ sở cung cấp việc truy xuất thông tin multimedia khi
sử dụng một tổ hợp DBMS, IR và các kỹ thuật truy xuất dựa trên nội dung Trong một MIRS, một vài vấn đề như phiên bản và điều khiển an toàn có thể không thực hiện được đầy đủ Một MIRS đủ bản lĩnh ra đời được gọi là MDBMS
1.1.4 Trích rút đặc trưng, biểu diễn nội dung và chỉ số hoá
Trong các MIRS, một trong những vấn đề quan trọng nhất là trích rút đặc trưng hoặc biểu diễn nội dung (cái gì là những nét đặc trưng hoặc nội dung chính trong một khoản mục multimedia) Trích rút đặc trưng có thể là quá trình tự động hay bán tự động Trong một vài tài liệu truy xuất dựa vào nội dung, trích rút đặc trưng cũng được gọi là chỉ số hoá Sau đây, chúng ta theo quy ước chung Khi mà thuật ngữ “chỉ số” được sử dụng như một danh từ, điều đó có nghĩa là đề cập tới cấu trúc dữ liệu hoặc việc tổ chức những đặc trưng đã được trích rút để nghiên cứu có hiệu quả và truy xuất
1.2 Sự cần thiết đối với MIRS
Sự cần thiết đối với MIRS có thể được giải thích bằng ba yếu tố sau:
Trước hết, dữ liệu multimedia đang được dùng ngày càng nhiều và đang được chú ý
Để sử dụng thông tin đó (chứa trong dữ liệu đó), đòi hỏi có một hệ thống truy xuất và chỉ số hoá hiệu quả và có hiệu lực Thứ hai, dữ liệu multimedia có những đặc tính và những yêu cầu đặc biệt mà lại khác nhau đáng kể từ số liệu bảng chữ cái Bởi vậy,
Trang 14DBMS truyền thống không thích hợp cho việc xử lý dữ liệu multimedia Thứ ba, mặc
dù các kỹ thuật IR có thể giúp chúng ta trong việc truy xuất multimedia nhưng chỉ một mình chúng thì chưa đủ để xử lý dữ liệu multimedia một cách có hiệu quả[10]
1.2.1 Sự phát triển về dữ liệu multimedia và các đặc trưng của nó
Hiện nay chúng ta đang tập trung khai phá thông tin multimedia Ví dụ, một số lượng lớn hình ảnh và video đang được tạo lập và lưu trữ trên internet Nhiều hoạ sỹ và bức tranh trong nhiều kiểu in ra là đang được chuyển sang dạng kỹ thuật số cho dễ xử lý, phân phối và bảo tồn Các bức tranh từ các bản tin trên vô tuyến và trên báo cũng được chuyển sang dạng kỹ thuật số để dễ bảo trì và bảo tồn Một số lớn các hình ảnh y tế đang được tập trung hàng ngày và các vệ tinh đang được sản xuất nhiều hơn Khuynh hướng này có ý định tiếp tục nâng cấp việc lưu trữ và các công nghệ kỹ thuật số Việc lập ra một chỗ chứa đối với lượng lớn thông tin multimedia ngày càng tăng như vậy còn được ít sử dụng Điều này sẽ không thể sử dụng đầy đủ thông tin multimedia này trừ khi nó được tổ chức để truy xuất nhanh theo yêu cầu
Không chỉ là đang tăng về số lượng dữ liệu đang được lưu trữ, mà còn cả các kiểu dữ liệu và các đặc trưng của chúng là khác nhau từ dữ liệu ký tự chữ
Có những đặc trưng chính của dữ liệu multimedia như sau:
• Dữ liệu multimedia, nhất là âm thanh và video, là dữ liệu có số lượng lớn Ví
dụ, một video 10’ trung bình chiếm 1,5 GB chưa nén
• Âm thanh và video có chiều thời gian và chúng khi biểu diễn sẽ chiếm tỷ lệ cố định để hoạt động có hiệu quả như đã yêu cầu
• Âm thanh số, ảnh và video được trình diễn theo một loạt giá trị đơn cá thể và thiếu cấu trúc ngữ nghĩa rõ ràng cho máy tính để tự động hoá nhận biết nội dung
• Nhiều ứng dụng multimedia đòi hỏi việc biểu diễn đồng thời các kiểu truyền thông đa năng theo cách kết hợp không gian và thời gian
Trang 15• Ý nghĩa của dữ liệu multimedia đôi khi rất mờ và có tính chủ quan Ví dụ, mỗi người có cách giải thích cùng 1 bức tranh theo cách khác nhau hoàn toàn riêng
• Dữ liệu multimedia là giàu về thông tin, nhiều tham số được đòi hỏi mới trình diễn đủ nội dung của nó
1.2.2 Các DBMS và vai trò của chúng trong việc xử lý dữ liệu
multimedia
Các DBMS ngày nay được xây dựng khá tốt và được sử dụng rộng rãi đối với dữ liệu
có cấu trúc Các DBMS trội nhất là các hệ quản trị dữ liệu quan hệ (RDBMS) Trong RDBMS, thông tin dược tổ chức thành bảng hoặc các quan hệ Các dòng của bảng tương ứng với các khoản mục thông tin hoặc các record, trong khi đó các cột tương ứng với các thuộc tính Ngôn ngữ truy vấn có cấu trúc (SQL) được sử dụng để tạo ra các bảng như thế và để chèn và truy xuất thông tin từ các bảng đó[11]
Chúng ta dùng một ví dụ đơn giản dể minh hoạ cách sử dụng SQL để tạo lập một bảng
và chèn, truy xuất thông tin từ đó Giả sử chúng ta muốn lập một bảng chứa các bản ghi về sinh viên bao gồm số hiệu sinh viên, tên và địa chỉ Ta có lệnh sau:
Create table STUDENT(
Trang 16Thông tin trong bảng được truy xuất khi sử dụng câu lệnh SELECT của SQL Ví dụ, nếu muốn truy xuất tên của sinh viên với sinh viên số 32, ta sử dụng lệnh truy vấn sau:
Create table STUDENT(
Một dạng khác của các DBMS là hệ thống quản trị CSDL hướng đối tượng (OODBMS) Các OODBMS kết nối các khả năng của cơ sơ dữ liệu (như lưu trữ và tìm kiếm) và các đặc trưng hướng đối tượng (tóm lược, sự thừa kế, tính đồng nhất đối tượng) Một phương pháp tiếp cận chung là kết nối các đặc điểm hướng đối tượng với
cơ sở dữ liệu quan hệ Hệ thống đã được kết nối thì được gọi là một hệ thống cơ sở dữ
Trang 17liệu đối tượng quan hệ Trong một hệ thống như vậy, các đối tượng được xác định một cách thích hợp trong hướng đối tượng Trong đó mỗi đối tượng chứa các đặc tính hoặc thuộc tính và các phương pháp hoặc các hàm được sử dụng để chế tác ra các đặc tính khác Ví dụ, chúng ta có thể định nghĩa một loại ảnh sau:
Create type IMAGE(
Các khái niệm về các BLOB và các đối tượng là một bước gần với xử lý dữ liệu multimedia Nhưng các BLOB được sử dụng chỉ để lưu dữ liệu có khối lượng lớn Trong khi các đối tượng chứa vài thuộc tính đơn giản, nhiều chức năng hơn nên được
Trang 18phát triển để xử lý việc truy xuất multimedia dựa vào nội dung Một vài các khả năng được yêu cầu như sau:
• Các công cụ, tự động hoá hoặc bán tự động trích rút các nội dung và các đặc trưng trong dữ liệu multimedia ;
• Các cấu trúc chỉ số hoá đa chiều, để điều khiển các vector multimedia
• Các độ đo tương đồng, nhằm truy xuất multimedia thay vì kết nối một cách chính xác
• Lưu trữ các hệ thống phụ, thiết kế lại nhằm đáp ứng các yêu cầu của băng tần cao với cỡ lớn, thoả mãn những đòi hỏi theo kiểu thời gian thực
• Giao diện sử dụng, được thiết kế cho phép các câu hỏi đa dạng trong nhiều kiểu truyền thông đa dạng và cung cấp các trình diễn multimedia
1.2.3 Hệ thống IR và vai trò của nó trong việc truy xuất multimedia
Ngoài các DBMS, có loại hệ thống quản lý thông tin khác tập trung vào việc truy xuất tài liệu văn bản Loại hệ thống này được gọi là hệ thống truy xuất thông tin (IR)
Kỹ nghệ IR khá quan trọng trong hệ thống quản lý thông tin multimedia vì hai lý do chính Một là chúng tồn tại một lượng lớn các văn bản trong nhiều dạng tổ chức, ví dụ như các thư viện Văn bản là một nguồn thông tin quan trọng trong bất kỳ một tổ chức nào Để sử dụng các thông tin đã được lưu trữ trong các tài liệu này, cần có một hệ thống IR hiệu quả Hai là, văn bản có thể được sử dụng để chú giải các truyền thông khác như âm thanh, hình ảnh, video Thông thường thì các kỹ nghệ IR có thể dược sử dụng cho việc phục hồi thông tin đa truyền thông Tuy nhiên, việc sử dụng chỉ để xử lý
dữ liệu truyền thông phải tuân theo các giới hạn sau:
• Việc chú giải nhìn chung phải làm bằng tay và tiêu tốn thời gian
• Văn bản chú giải chưa đầy đủ và còn mang tính chủ quan
• Các kỹ nghệ IR không thể điều khiển các câu hỏi từ văn bản khác (như âm thanh và ảnh)
Trang 19• Một vài đặc tính của multimedia như bố cục hình ảnh và các dạng đối tượng là khác nhau, nếu không thì cũng chỉ là cùng mô tả một văn bản
1.2.4 Cách tiếp cận tích hợp việc truy xuất và chỉ số hoá thông tin
có kết cấu này có thể được điều khiển bằng các kỹ nghệ DBMS Văn bản chú giải vẫn
là phương pháp hiệu lực trong việc ghi lại nội dung
Tóm lại, một cách tiếp cận tích hợp tổ hợp các DBMS với IR, và các kỹ thuật đặc tả để
xử lý dữ liệu multimedia được đòi hỏi để phát triển MIRS hiệu quả và có hiệu lực
1.3 Tổng quan về MIRS
Các mục thông tin trong cơ sơ dữ liệu đã được xử lý trước để rút ra các đặc trưng và nội dung ngữ nghĩa, được chỉ rõ dựa trên các đặc trưng và ngữ nghĩa này Trong suốt quá trình phục hồi thông tin, một câu hỏi của người sử dụng được xử lý và đặc điểm chính được rút ra Các đặc trưng này sau đó được chuẩn bị cùng với các đặc trưng hoặc chủ thị của mỗi mục thông tin trong cơ sở dữ liệu Các đặc trưng của mục thông tin là hầu hết đều tương đồng để các câu hỏi được gọi ra trước người sử dụng
Trang 20Hình 1.1 : Một mẫu truy xuất thông tin tổng quát
Có rất nhiều ấn bản đuợc viết theo mẫu trên trên Ví dụ, Các mục thông tin có thể được kết nối bất kỳ với các loại truyền thông Làm thế nào để rút ra được những đặc trưng từ các tin tức truyền thông này? Phải lưu và xây dựng được các đặc trưng này như thế nào để việc truy tìm có hiệu quả? Phải đo độ “ tương đồng” như thế nào giữa hai tin tức truyền thông? Cần phải làm gì để giao diện sử dụng có thể đảm nhận được những câu hỏi phức tạp, rối rắm, linh hoạt? Phải so sánh như như thế nào về việc biểu diễn các quá trình truy tìm giữa các MIRS khác nhau? Làm thế nào để đáp ứng các yêu cầu tạm thời trong suốt quá trình truyền và biểu diễn dữ liệu multimedia?
1.4 Các ứng dụng nói chung và khả năng mong đợi của MIRS
MIRS được cho rằng hiệu quả và linh hoạt Khả năng của nó được mimh hoạ trên các dạng câu hỏi mà chúng có thể hỗ trợ Các kiểu câu hỏi mong đợi có dạng sau:
• Câu hỏi dựa trên metadata: Đây là câu hỏi chỉ ra những thuộc tính thông thường của các mục cơ sở dữ liệu như tên tác giả và ngày tạo lập Một Ví dụ là câu hỏi
Trang 21theo yêu cầu trên video (VOD) có thể là “liệt kê tên các phim được sản xuất vào năm 1997” Loại này được vận dụng bằng DBMS
• Các câu hỏi dựa trên chú giải: Đây là câu hỏi chỉ ra các mô tả dạng văn bản trong nội dung của cơ sở dữ liệu Các câu hỏi đều ở trong từ khoá hoặc tronng phần văn bản miễn phí và việc truy tìm dựa trên sự tưong đồng giữa câu hỏi và phần chú giải Ví dụ, câu hỏi có thể là “Chỉ ra phân đoạn quay video khi diễn viên nam đang đạp xe đạp” Loại câu hỏi giả định này được chú giải thích đáng
và xử lý bởi kỹ nghệ IR
• Câu hỏi dựa trên mẫu dữ liệu hoặc tính năng: Đây là câu hỏi chỉ ra thông tin dạng thống kê, như: âm thanh, mầu, độ mịn Một ví dụ: “Chỉ ra ảnh video với
sự phân bổ màu như THIS” Để trả lời dang câu hỏi nay, thông tin liệt kê về mục
cơ sở dữ liệu nên được sưu tập trước và lưu trữ
Câu hỏi ví dụ
Đây là câu hỏi trong các đối tượng đa truyền thông như hinh ảnh, phác thảo, đoạn âm thanh Ví dụ:” chỉ ra 1 bộ phim và các cảnh tương tự như Bức tranh này” Loại câu hỏi này có thể bị làm rối lên bởi mối liên hệ về không gian và thời gian giữa các đối tượng
Các câu hỏi ứng dụng riêng
Các câu hỏi ứng dụng riêng có rất nhiều loại Ví dụ, câu hỏi dựa trên thông tin chi tiêt
và cụ thể như kích cỡ 1 đối tượng và quá trình già hoá của 1 người
Các MIRS được mong mỏi có thể đưa ra nhiều loại câu hỏi khác nhau, do đó có ứng dụng rộng rãi, bao gồm:
• Thuốc Một bác sĩ đưa ra ảnh chụp sóng siêu âm mới và muốn tìm lại ảnh với mức độ có thể so sánh được của sự phình tâm thất trái từ một ảnh chụp siêu âm
cơ sở
Trang 22• Bảo mật Một cảnh sát đưa ra hệ thống với một bức tranh vẽ mặt người và muốn phục hồi lại những hình ảnh khác vào hồ sơ hiện thời của những người giống với bức tranh này từ cơ sở thông tin bảo mật
• Giáo dục Một sinh viên quét chụp một tranh động vật và muốn truy tìm tất cả các thông tin (bao gồm âm thanh, hình ảnh, văn bản mô tả) Tiếp theo, một sinh viên khác thêm âm thanh cho con vật và muốn khôi phục lại bức tranh và thông tin mô tả loại động vật này
• Báo chí Một báo cáo viên viết một bài báo về một người và muốn truy tìm bức tranh của người đó và các thông tin tổng hợp đã xuất hiện trên các báo và tivi
20 năm trước
• Giải trí Một quan sát viên muốn truy tìm một đoạn băng tương tự với những gì
mà anh ta đã xem trên một cơ sơ dữ liệu video lớn hơn
• Đăng ký nhãn hiệu Một cán bộ gia công một nhãn hiệu đăng ký nào đó muốn quyết đinh xem đã có một cái nhãn hiệu nào trước đó giống như vậy đã được đăng ký chưa Để làm điều này, anh ta cần một cơ sở dữ liệu về nhãn hiệu để so sánh các nhãn hiệu giống nhau nhất hiện có để làm ra một nhãn hiệu hoàn toàn mới
Cuối cùng, các MIRS sẽ tập trung vào chính thông tin thay thế các loại truyền thông
và việc miêu tả chúng có thể được sắp xếp hoặc dịch ra từ loại truyền thông này đến loại truyền thông khác Ví dụ, một video tài liệu cần phải được sử dụng video, hình ảnh, văn từ, âm thanh, lời nói và những thứ tương tự như vậy Vì vậy phương tiện dò tìm phải kết nối các câu hỏi (dữ liệu) với các mục cơ sở dữ liệu
Các loại truyền thông khác nhau cần các kỹ nghệ phục hồi và cách biểu thị khác nhau Các kỹ nghệ khác nhau được sử dụng cho từng loại truyền thông khác nhau Người sử dụng có thể thấy thích những thông tin xác đáng mà bất chấp sự khác nhau về các loại truyền thông Vấn đề là làm thế nào để tích hợp được các loại kỹ nghệ khác nhau
để tuy tìm thông tin cần tìm trong việc trả lời các câu hỏi của người sử dụng Có rất
Trang 23nhiều các ấn phẩm được viết để giải quyết vấn đề này, như ghi rõ câu hỏi và xử lý, khoản phụ cấp thêm tương xứng, ghép các miêu tả đối tượng
Để việc truy tìm có hiệu quả, cần có một cấu trúc các khoản mục hợp lý Bởi vì các vector đặc tính đều đa dạng về kích cỡ và việc truy tìm các khoản mục trong các MIRS dựa trên sự tương động thay cho việc kết nối chính xác, cấu trúc mục lục được
sử dung trong các DBMS không thích hợp với các MIRS
Khuynh hướng của các yêu cầu bao gồm hệ số trễ và độ giật, gọi là chất lượng dịch
vụ (QoS), cần có trong việc truyền và mô tả dữ liệu truyền thông
Trong các DBMS, tiến hành chính liên quan đến hiệu quả (thời gian trả lời câu hỏi)
Nó rất quan trọng bởi kích cỡ lớn của multimedia Ngoài ra, hiệu quả truy tìm cũng rất quan trọng (khả năng truy tìm các mục thích hợp và khả năng loại bỏ các mục không cần đến) Bởi các MIRS truy tìm các mục chọn dựa trên cơ sở đo sự tương đồng, sử dụng luật tương ứng thay thế cho kết nối chính xác Trừ khi nó trở nên quá khó đối với việc thiết kế các độ đo tương đồng thì cần xác định một cách chính xác bằng óc phán đoán của con người, giống như một vài khoản mục được hệ thống xác định là thích hợp nhưng người dùng lại cho là không thich hợp và một số mục thích hợp lại không được truy xuất
Trang 24CHƯƠNG 2
CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (Multimedia Database)
Khi thiết kế một hệ thống CSDL multimedia mô tả các loại dữ liệu multimedia khác nhau, chúng ta bắt buộc phải đối diện với một số câu hỏi quan trọng được đặt ra về cách thức tổ chức hệ trống như:
• Việc tổ chức về mặt nội dung đối với dữ liệu của các loại dữ liệu multimedia
• Việc lưu trữ vật lý của các dữ liệu này trên các thiết bị lưu trữ như thế nào
Để trả lời cho các câu hỏi này, trước tiên chúng ta xem xét tới khía cạnh tổ chức nội dung
Trang 252.1 Kiến trúc cho việc tổ chức nội dung
Ở đây chúng ta xem xét tới 3 kiến trúc áp dụng cho việc tổ chức nội dung của một hệ thống CSDL multimedia
2.4.1 Nguyên lý tự trị
Nguyên lý này đề cập tới việc chúng ta nhóm tất cả các dữ liệu ảnh, dữ liệu video và tất
cả các dữ liệu văn bản và chỉ số hóa chúng theo nguyên tắc tối đa hóa hiệu suất của tất
cả các loại truy nhập đối với các loại dữ liệu mà chúng ta dự định Nguyên lý này đảm bảo rằng với mỗi loại dữ liệu (ảnh, video, văn bản) chúng đều được tổ chức với một cách thức đặc trưng phù hợp với mỗi loại dữ liệu này[18]
Hình 2.1: Mô tả nguyên lý tự trị
Trang 262.4.2 Nguyên lý đồng nhất
Một nguyên lý kiến trúc khác mà chúng ta có thể lựa chọn là nguyên lý đồng nhất, nguyên lý này giúp chúng ta tìm được một cấu trúc tóm tắt chung cho tất cả các loại dữ liệu Cấu trúc này có thể được dùng trong việc chỉ số hóa tất cả các loại dữ liệu qua đó tạo ra một “chỉ số thống nhất” mà chúng ta có thể dùng để truy cập tới các đối tượng khác nhau Hay nói một cách khác là chúng ta có thể trình bầy tất cả các đối tượng khác nhau( ảnh, video, âm thanh, văn bản) trong một cấu trúc dữ liệu duy nhất và qua
đó phát triển các thuật toán để truy vấn cấu trúc dữ liệu này[18]
Hình 2.2: Mô tả nguyên lý đồng nhất
Trang 272.4.3 Nguyên lý lai ghép
Ý tưởng của nguyên lý này là dựa trên sự kết hợp của 2 nguyên lý đã trình bầy ở trên Kết quả của nguyên lý này là một kiểu dữ liệu nào đó sử dụng chỉ số (index) riêng của chúng, trong khi đó các kiểu dữ liệu khác sẽ sử dụng một chỉ số (Index) “thống nhất” Loại dữ liệu nào sử dụng kiểu chỉ số nào sẽ phụ thuộc vào các đặc tính khác nhau sẽ được nói đến ở phần sau[18]
Hình 2.3: Mô tả nguyên lý lai ghép
Cả ba loại nguyên lý trên đều có những ưu điểm và nhược điểm riêng của mình Kiến trúc dựa trên nguyên lý tự trị đòi hỏi việc tạo ra các thuật toán và cấu trúc dữ liệu của mỗi kiểu dữ liệu, ngoài ra nó cũng đòi hỏi các kỹ thuật hỗ trợ cho việc liên kết chéo giữa các cấu trúc dữ liệu khác nhau này Các công việc này đòi hỏi tính phức tạp cao
và đòi hỏi một lượng thời gian lớn cho việc phát triển Bên cạnh các nhược điểm trên, việc xây dựng các cấu trúc được đặc biệt hóa tối ưu cho việc truy xuất dến từng loại dữ
Trang 28liệu khác nhau, CSDL multimedia được tổ chức theo nguyên lý này thường đem lại hiệu quả cao trong việc xử lý tìm kiếm Đối với các ngân hàng dữ liệu đã được xây dựng sẵn, nơi mà các thuật toán và các cấu trúc dữ liệu đã được sử dụng có hiệu quả thì việc áp dụng nguyên lý tự trị là mô hình kiến trúc thích hợp nhất Các kỹ thuật hướng đối tượng chính là công cụ đắc lực nhất hỗ trợ cho việc triển khai theo nguyên lý này bằng cách xem mỗi loại dữ liệu nguồn là một đối tượng mà các phương thức của nó có thể truy cập được từ một CSDL multimedia tổng thể
Trái ngược với nguyên lý tự trị, nguyên lý đồng nhất đòi hỏi chúng ta phải tìm ra được một cấu trúc dữ liệu chung mà có thể dùng để lưu trữ các thông tin về nội dung của hình ảnh, video, văn bản, âm thanh và các loại dữ liệu khác Điều này đòi hỏi chúng ta phải phân tích nội dung của mỗi kiểu dữ liệu và tóm tắt được phần chung của chúng, qua đó xây dựng một bộ chỉ số dựa trên các yếu tố chung đã được xác định này Ưu điểm nổi bật của nguyên lý đồng nhất là dễ dàng triển khai và các thuật toán thường được thực hiện rất nhanh Nhược điểm chính của nguyên lý này là các sự chú giải phải được tạo ra theo một cách riêng nào đó, thường là được tạo ra một cách thủ công hoặc
là tự động, việc tạo ra các chú giải một cách thủ công thường đỏi hòi nhiều về mặt thời gian cũng như chi phí, mặt khác trong quá trình tạo các chú giải này thường sẩy ra sự mất mát thông tin nếu ngôn ngữ dùng để chú giải không trình bầy hết được các khía cạnh của nội dung Có thể đưa ra đây một số ví dụ như ngôn ngữ chú giải nội dung của hình ảnh có thể làm mất các thông tin về bề mặt của một điểm ảnh (pixel) hoặc một nhóm điểm ảnh Tương tự như vậy ngôn ngữ chú giải nội dung của âm thanh có thể làm mất các thông tin về biên độ, tần số của tín hiệu tại một thời điểm nào đó
Nguyên lý lai tạo tập hợp được các ưu điểm của cả hai nguyên lý nêu trên, đồng thời giảm thiểu được một số các nhược điểm của chúng Giả sử chúng ta muốn tạo ra một CSDL multimedia bao gồm các kiểu dữ liệu M1,…….,Mn, chúng ta bắt đầu bằng việc phân chia tập này thành 2 phần:
Trang 29• Phần 1: bao gồm các loại dữ liệu kế thừa từ các nguồn dữ liệu có sẵn, tồn tại sẵn các chỉ số và các thuật toán để thao tác với chỉ số Với việc bố trí này chúng ta
đã tận dụng được lợi thế của các chỉ số và mã nguồn sẵn có
• Phần 2: bao gồm các dữ liệu không được kế thừa từ bất kỳ nguồn nào và do đó không có sẵn các chỉ số của mình (điều này đồng nghĩa với việc là cũng không
có bất kỳ thuật toán nào để có thể thao tác với tập chỉ số) Trong trường hợp này việc tiếp cận xây dựng hệ thống theo nguyên lý đồng nhất là cách thức thích hợp nhất ngay cả khi là cách tiếp cận này có thể nẩy sinh ra việc gây mất mát các thông tin vật lý chi tiết
Sau khi đã tiến hành xong việc phân chia, chúng ta bắt đầu tiến hành việc xây dựng các thuật toán cần thiết để kết hợp các nguồn dữ liệu khác nhau lại bằng việc sử dụng các tập chỉ sổ riêng của chúng Cách tiếp cận này giúp chúng ta thừa kế được tối đa các tài nguyên có sẵn, đồng thời giảm thiểu được các công việc phải thực hiện thêm bởi vì các tệp chỉ số riêng có sẵn đối với mỗi loại dữ liệu đã được tận dụng Giả sử, một người dùng muốn đưa ra một câu hỏi “ Hãy tìm tất cả các hình ảnh và các đọan video mà trong đó ông chủ của dối tượng A có mặt và trao đổi với đối tượng B” Câu hỏi này bao gồm một sự kết hợp giữa các tệp chỉ số của các loại dữ liệu khác nhau, chúng sẽ truy cập đến CSDL hình ảnh (thông qua tệp chỉ số của dữ liệu hình ảnh), đến CSDL âm thanh (thông qua tệp chỉ số âm thanh) và đến một CSDL quan hệ (thông qua tệp chỉ số quan hệ), câu hỏi này có thể được diễn tả như sau:
SELECT Name, Image, Audio
From Employee E, Image I, Audio A
Where E.Name= “A” AND
I contains E.boss and
A contains E.boss AND
A CONTAINS B
Trang 302.2 Tổ chức dữ liệu multimedia dựa trên nguyên lý đồng nhất
Xét ví dụ sau:
• Bức ảnh photo1.gif có sự xuất hiện của đối tượng A, đối tượng B và một đối tượng chưa được xác định được chụp tại thành phố C thuộc nước D vào ngày 10/01/1990
• Đoạn video video1.mpg có hình ảnh của đối tượng A đưa cho đối tượng B một chiếc vali (trong frames 50-100) Đoạn video này thu được từ sự theo dõi nhà của đối tượng B tại thành phố E thuộc nước F vào tháng 1- 1991
• Văn bản B.txt có chứa các thông tin chi tiết về dối tượng B được thu thập từ dữ liệu của cơ quan an ninh
Bản thân mỗi đối tượng trên cũng đã nói lên phần nào nội dung của từng đối tượng cụ thể (hình ảnh, video, văn bản), tuy nhiên thông tin đưa ra ở đây chỉ nói lên nội dung về mặt ngữ nghĩa hơn là đề cập đến các tính chất cụ thể của mỗi loại đối tượng, các tính chất loại này được gọi là các đặc trưng bậc thấp (lower-level) Một cách tiếp cận hiệu quả nhất đối với CSDL multimedia và đã được sử dụng rộng rãi trong thực tế là sử dụng các đối tượng được phát biểu ở trên như là siêu dữ liệu (metadata)
Theo trên, giả sử chúng ta có một tập các đối tượng media o1,… ,on chúng ta kết hợp một vài metadata md(o1) với mỗi đối tượng media o1 (định dạng chính xác của metadata này sẽ được trình bầy sau), tương tự như vậy các metadata kết hợp với các đối tượng media 01,….0n tương ứng sẽ là md(o1),……,md(on), Chúng ta sẽ tiến hành việc chỉ số hóa các metadata này với một cách thức nhằm cung cấp các phương thức triển khai hiệu quả đối với các yêu cầu truy cập từ phía người dùng
Có thể rõ ràng thấy rằng, sự thành công của phương pháp này phụ thuộc cơ bản vào việc chúng ta đảm bảo được rằng với mỗi đối tượng media 0i thì metadata tương ứng của nó md(oi) là cô đọng và phản ánh đúng chỉ những gì mà người dùng yêu cầu[18] Với một số lượng tối thiểu các metadata được dùng rõ ràng là chúng ta sẽ dễ dàng hơn trong việc chỉ số hóa cũng như là thực hiện các thao tác khai thác dữ liệu, tuy nhiên
Trang 31bên cạnh đó nếu số lượng metadata sử dụng ít thì có thể người sử dụng sẽ phải mất thời gian hơn trong việc thiết lập các câu hỏi của mình Có thể lấy trường hợp sau làm ví dụ:
• Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp mà đối tượng
A và đối tượng B (xem phần trên) trao đổi với nhau một gói hành lý
• Hệ thống: Không tìm được (mặc dù hệ thống đã có đoạn video ghi lại đối tượng
A và đối tượng B trao đổi với nhau một chiếc vali nhưng hệ thống vẫn trả lời là không tìm thấy vì nó không hiểu rằng một chiếc vali cũng có thể coi là một gói hành lý)
• Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp mà đối tượng
A và đối tượng B (xem phần trên) trao đổi với nhau một vật gì đó
• Hệ thống: tìm thấy frames 50-100 của đoạn video video1.mpg thỏa mãn yêu cầu của bạn
Mặc dù có một vài nhược điểm như sử dụng metadata không biểu diễn hết được các khía cạnh của đối tượng media trong CSDL nhưng cách tiếp cận dựa trên nguyên lý đồng nhất có một số ưu điểm nổi trội sau:
• Metadata thường được lưu trữ dưới dạng các cấu trúc có liên quan đến tính chất quan hệ hoặc hướng đối tượng và có thể truy vấn một cách dễ dàng thông qua việc mở rộng các ngôn ngữ (chẳng hạn như SQL)
• Việc viết mã để thao tác với metadata thường là dễ dàng
• Việc viết các chương trình để tạo ra metadata là đơn giản đối với các lập trình viên có năng lực
Chúng ta đã xem xét đến nội dung của dữ liệu media dưới các dạng khác nhau, một câu hỏi đặt ra ở đây là đâu là phần chung nhất của các loại dữ liệu này? Mục đích của chúng ta là tìm kiếm một cấu trúc chung nhất cho tất cả các loại dữ liệu mà qua nó ta
có thể thể hiện được nội dung của các loại dữ liệu đó Tóm tắt media là một cấu trúc
Trang 32toán học cho phép diễn đạt nội dung của các media này, sự tóm tắt media có thể được triển khai thông qua một cấu trúc dữ liệu duy nhất
2.3 Cấu trúc tóm tắt media
Cấu trúc media tóm tắt được định nghĩa như sau:
Một cấu trúc media tóm tắt là một tập gồm 8 tuple (S, fe, ATTR, λ, R, F, Var1, Var2)
Trong đó
• S là một tập các đối tượng gọi là các trạng thái
• Fe là một tập các đối tượng gọi là các đặc trưng
• ATTR là một tập các đối tượng gọi là các giá trị thuộc tính
• λ: S > 2fe là một ánh xạ từ các trạng thái sang tập các đặc trưng
• R là một tập các quan hệ trên fei x ATTRj x S với i,j ≥ 0
• F là một tập các quan hệ của S
• Var 1 là một tập các đối tượng gọi là các biến, thuộc S
• Var 2 là một tập các biến, thuộc fe
• Một trạng thái là đoạn (chunk) nhỏ nhất của dữ liệu media mà ta mong muốn
Ví dụ như trong một CSDL hình ảnh, mỗi ảnh có thể được xem như là một trạng thái Nếu quan điểm này được chấp nhận, chúng ta sẽ coi như tất cả các ảnh như là các đối tượng đơn lẻ cơ bản và tất cả các đặc tính của nó sẽ được quan tâm và khi đó chúng ta sẽ không quan tâm đến các đặc tính đơn lẻ như là các đặc tính của từng điểm ảnh Trong trường họp dữ liệu video, một trạng thái có thể được xem là một chuỗi liên tiếp các frame có dạng (10 x i, 10 x (i+1)) thể hiện một đoạn gồm 10 frame bắt đầu từ frame có số thứ tự chia hết cho 10
• Một đặc trưng là bất kỳ đối tượng nào trong một trạng thái mà nó sẽ được quan tâm Một đặc trưng có thể gao gồm cả các đối tượng và các phạm vi của nó
Ví dụ như chúng ta xem xét một bức ảnh gồm 3 đối tượng A, B và một đối
Trang 33tượng chưa được nhận biết thì các đặc trưng được quan tâm đến ở đây là A, B
và đối tượng C nào đó Tương tự như vậy nếu chúng ta phân tích đoạn video
từ frame 50-100 thì các đặc trưng được quan tâm ở đây là A, B và cái vali Các đặc trưng xuất hiện trong một trạng thái có thể có các thuộc tính của mình, ví dụ như đối tượng A bước ra khỏi chiếc xe ôtô của mình thì các thuộc tính của chiếc xe ô tô (loại xe, mầu sắc, biển số) cũng cần phải được ghi nhận Tương tự như vậy, một đối tượng media cũng có thể có một vài thuộc tính cần được quan tâm như ngày, thời gian và địa điểm chụp bức ảnh đó
• λ là một ánh xạ đặc trưng rút gọn cho phép ta biết đặc trưng nào xuất hiện trong những trạng thái nào λ có thể là một GUI cho phép người sử dụng tương tác nhằm mục đích nhận biết được nội dung của một đối tượng media
• R là một tập các quan hệ trên fei x ATTRj x S các quan hệ này phụ thuộc vào trạng thái Ví dụ nếu xem xét một bức ảnh như photo1.gif thì ở đây có thể có một quan hệ phụ thuộc vào trạng thái gọi là left.of bao gồm một bộ ba có dạng (đối tượng A, đối tượng B, photo1.gif) tương tự như vậy chúng ta cũng có thể
có một quan hệ khác gọi là background bao gồm một cặp có dạng (photo1.gif, White_House)
• F có thể chứa các liên kết kết hợp 2 trạng thái chẳng hạn như liên kết có trước,
nếu chúng ta có 2 bức ảnh (photo1.gif, photo2.gif) mà giữa chúng tồn tại liên
kết có trước thì khi đó có nghĩa là bức ảnh 1 được chụp trước bức ảnh 2 và
tiếp tục như vậy[18]
Để nắm rõ hơn, chúng ta xem xét một số ví dụ áp dụng trên một số loại đối tượng media sau
2.4.1 Dữ liệu ảnh như là một tóm tắt media
Giả sử chúng ta xem một CSDL hình ảnh đơn giản gồm có 7 bức ảnh, CSDL này sẽ tương ứng với media trừu tượng sau:
Trang 34• Tập các trạng thái bao gồm (pic1.gif,……….,pic7.gif)
• Tập các đặc trưng bao gồm tên của các đối tượng xuất hiện trong các bức ảnh tương ứng là Bob, Jim, Bill, Charlic và Ed
• Ánh xạ thu gọn λ cho chúng ta biết với mỗi trạng thái có những đặc trưng nào xuất hiện trong nó Bảng sau sẽ mô tả cho vấn đề này
Pic1.gif Bob.Jim Pic2.gif Jim Pic3.gif Bob Pic4.gif Bill Pic5.gif Charlie
Pic7.gif Ed
Bảng 2.1: Liên hệ giữa đặc trưng và trạng thái cho hình ảnh
Một điểm cần chú ý ở đây là chúng ta dùng bảng trên để mô tả cho λ nhưng cách thức chỉ số hoá mà chúng ta sử dụng có thể khác đi
• Tập các quan hệ chỉ chứa 2 quan hệ: một quan hệ phụ thuộc vào trạng thái gọi là left_of và một quan hệ không phụ thuộc vào trạng thái gọi là father
• Tập các quan hệ nội tại có thể trống
2.4.2 Dữ liệu video như là một tóm tắt media
• Tập các trạng thái bao gồm 5 frames video từ frame 1 đến frame 5
• Tập các đặc trưng bao gồm Jane Shady, Denis Dopeman, ngôi nhà của Dopeman và chiếc valy
Trang 35• Ánh xạ rút gọn λ được mô tả ở bảng sau
Bảng 2.2: Liên hệ giữa đặc trưng và trạng thái cho video
Cũng giống như trường hợp áp dụng đối với CSDL hình ảnh, định dạng cụ thể của ánh xạ λ có thể khác đi để tối ưu hoá cho quá trình chỉ số hoá và khai thác
• Chúng ta có thể có một số quan hệ phụ thuộc vào trạng thái sau:
o Quan hệ có (have) là một quan hệ phụ thuộc vào trạng thái xác định chiếc valy (đối tượng) xuất hiện cùng với nhân vật nào ở trong trạng thái nào? Quan hệ này có được mô tả như sau:
Person Object State JaneShady Briefcase 1
JaneShady briefcase 2 JaneShady briefcase 3 DenisDopeman briefcase 4
Bảng 2.3: Quan hệ Have
o Quan hệ vợ chồng (spouse) là một quan hệ phụ thuộc vào trạng thái chỉ ra tên vợ (hoặc chồng) của một đối tượng nào đó Quan hệ này có thể được mô tả như sau
Trang 36Person Spouse JaneShady PeterShady JaneShady PeterShady DenisDopeman DebraDopewoman
2.4.3 Định nghĩa về một CSDL Multimedia đơn giản
Một CSDL Multimedia đơn giản là một tập hữu hạn M của các media tóm tắt
Ví dụ, một CSDL Multimedia đơn giản có thể chứa tệp vidoe video1.mpg và một tệp ảnh photo1.gif, trong trường hợp này CSDL có chứa hai trường hợp của media tóm tắt Tuy nhiên một CSDL Multimedia đơn giản tỏ ra quá đơn giản và kém hiệu quả nếu xét thêm một số khía cạnh Ví dụ, một media tóm tắt có thể liệt kê “nhà thờ” là một đặc trưng, tuy nhiên khi chúng ta tìm kiếm với đặc trưng là “thánh đường” thì có thể sẽ không tìm thấy nhà thờ đó vì hệ thống không thể hiểu được rằng nhà thờ và thành đường là tương tự nhau Các hạn chế về mặt từ đồng nghĩa này cũng thường rất hay xẩy ra đối với CSDL văn bản Một vấn đề nữa mà chúng ta cũng cần phải quan tâm là người dùng thường hay tìm kiếm các đối tượng có chứa một hoặc nhiều các đặc trưng khác nhau và một thực tế là mặc dù sau một số lần chỉnh sửa lại câu hỏi của mình một
Trang 37cách hoàn chỉnh thì các kết quả trả về tương ứng với câu hỏi vẫn chưa chính xác với những gì người dùng thực sự mong muốn, điều này được thể hiện rõ nhất trong trường hợp chúng ta tìm kiến trên web sử dụng các công cụ tìm kiếm như Google hoặc AltaVista
Ngược lại, ở đây cũng tồn tại các trường hợp khi người dùng muốn mở rộng khả năng tìm kiếm (tìm kiếm một cách chính xác hơn bằng cách khai bào câu hỏi rõ ràng hơn) thì có thể sẽ không thu được kết quả nào, trong khi đó nếu đơn giản hoá bớt câu hỏi thì lại tìm được các thông tin mình mong muốn
Cuối cùng, khi người dùng đưa ra câu hỏi có dạng “ hãy tìm tất cả các hình ảnh mà Jane Shady và Denis Dopeman có mặt tại địa điểm A”, nếu kết quả tìm kiếm trả về là trống thì người dùng có thể suy nghĩ là “địa điểm A có thể tương tự như địa điểm B”
và sửa lại câu hỏi bằng cách thay thê việc tìm kiếm tại địa điểm A bằng việc tìm kiếm tại địa điểm B, điều này dẫn đến việc chỉnh sửa lại câu hỏi bằng cách thay thế một hằng số cụ thể này bằng một hằng số khác Các ví dụ trên đưa đến việc thúc đẩy việc tìm ra một cấu trúc khác để xác định CSDL Multimedia hỗ trợ được các vấn dề về ngữ nghĩa cũng như kế thừa được mối quan hệ giữa các đặc trưng
2.4.4 Định nghĩa về một CSDL Multimedia có cấu trúc
Một CSDL Multimedia có cấu trúc là một tập gồm có 5 thuộc tinh
({M 1 ,… ,M n ),≡,≤,inh,subst) trong đó:
• ≡ là một quan hệ tương đưong trên
• ≤ là một thứ tự bộ phận trên tập của các lớp tương đương trên F
Trang 38• inh: giả sử cho biết Như vậy inh là một ánh xạ kết hợp với mỗi đặc trưng f một tập các đặc trưng “bên dưới f y theo ≤ thứ tự trên đặc trưng
• Subst là một ánh xạ từ đến
Để hiểu rõ hơn, chúng ta xem xét ví dụ sau:
Một CSDL Multimedia có chứa 3 loại media trừu tượng là hình ảnh, âm thanh và video được liệt kê dưới đây
image Photo1.gif _ Church,durnstein,danube,subrahmanian
image Photo2.gif _ Cathedral,melk,subrahmanian
Bảng 2.5
• Tập các đặc trưng F có chứa: church, durnstein, danube, subrahmanian,
cathedral, melk, st paul Rome Stream Restaurant, st.peters, tiber
• ≡ cho biết :
o Church ≡ cathedral
o River ≡ Stream
Trang 39• Quan hệ ≤ cho biết
Hình 2.4
Có nghĩa là
[tiber] ≤ [river], [danube] ≤ [river]
[st.paul] ≤ [church], [st.peter] ≤ [church]
Cách định nghĩa trên tuy cung cấp đầy đủ hơn các thông tin hữu ích cho việc tìm kiếm
và trình bầy cấu trúc đơn giản của một hệ CSDL Multimedia có cấu trúc nhưng nó vẫn chưa cung cấp được một cấu trúc chỉ số hoá mà hệ thống CSDL Multimedia dùng để tổ chức và lưu trữ dữ liệu Trước khi đưa ra một cấu trúc chỉ số hoá thích hợp, chúng ta sẽ được ra một ngôn ngữ truy vấn đơn giản dùng để truy vấn dữ liệu Multimedia Ở đây chúng ta trình bầy ngôn ngữ truy vấn trước vì chúng ta chỉ có được một cấu trúc chỉ số hoá có hiệu quả khi mà chúng ta đã tối ưu được các kiểu truy vấn mà người sử dụng mong muốn
2.4 Ngôn ngữ truy vấn khai thác dư liệu multimedia
Trong phần này, chúng ta sẽ trình bầy một ngôn ngữ truy vấn đơn giản được xây dựng dựa trên SQL dùng để khai thác dữ liệu Multimedia Chúng ta đã chỉ ra được rằng một media tóm tắt có thể được dùng để mô tả các loại dữ liệu media khác nhau sử dụng kiến trúc mô tả đồng nhất Việc mở rộng ngôn ngữ truy vấn SQL sử dụng cho việc truy vấn dữ liệu được xây dựng bởi kiến trúc mô tả đồng nhất sẽ là tiền đề để chúng ta tiếp tục mở rộng ngôn ngữ truy vấn dùng cho việc khai thác các dữ liệu media được xây dụng theo kiến trúc lai ghép
Trang 402.4.1 Truy vấn SMDSs (mô tả đồng nhất)
Các hàm cơ bản của SMDSs bao gồm:
• FindType(Obj): hàm này sử dụng đối tượng media Obj làm đầu vào và sẽ trả về kiểu của đối tượng, ví dụ:
• FindObjWithFeatureAttr(f,a,v): hàm này sử dụng đặc trưng f, một thuộc tính tên
a kết hợp với đặc trưng này và một giá trị v là đầu vào Giá trị trả về sẽ là tất cả
các đối tượng o có chứa đặc trưng và giá trị của thuộc tính a trong đối tượng o là
v Ví dụ:
tất cả các đối tượng media mà có sự xuất hiện của Jane Shady trong chiếc
áo mầu blue
các đối tượng media mà một con voi có mang một cái nơ mầu đỏ xuất hiện
• FindFeaturesInObj(Obj): câu hỏi này đòi hỏi phải tìm tất cả các đặc trưng có mặt trong một đối tượng media đã cho Kết quả trả về là một tập bao gồm tất cả các đặc trưng Ví dụ:
o câu hỏi này yêu cầu trả về tất cả các đặc trưng có trong file ảnh im1.gif