Một số kỹ thuật chỉ mục và tìm kiếm đối tượng trong video số

CHƯƠNG 1 - TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 1.1 NHU CẦU CẦN CÓ HỆ THỐNG QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN [1] Trải qua nhiều năm chúng ta đã thu thập được một khối lượng

Trang 1

- *** -

NGUYỄN THANH BÌNH

MỘT SỐ KỸ THUẬT CHỈ MỤC

VÀ TÌM KIẾM ĐỐI TƯỢNG TRONG VIDEO SỐ

LUẬN VĂN THẠC SỸ

Hà Nội - 2008

Trang 2

MỤC LỤC 1

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 3

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 4

MỞ ĐẦU 5

CHƯƠNG 1 - TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 7

1.1 NHU CẦU CẦN CÓ HỆ THỐNG QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN [1] 7

1.2 SỰ CẦN THIẾT PHẢI CÓ HỆ THỐNG CHỈ MỤC VÀ TRUY TÌM THÔNG TIN ĐA PHƯƠNG TIỆN (MIRS) [1], [2], [6] 9

1.2.1 Một vài tính chất chính của dữ liệu đa phương tiện 9

1.2.2 Hệ thống quản trị cơ sở dữ liệu và vai trò của chúng trong quản lý dữ liệu đa phương tiện (MM) 9

1.2.3 Hệ thống truy tìm thông tin (IR) và vai trò của chúng trong truy tìm đa phương tiện 10

1.3 KHÁI QUÁT VỀ MIRS 11

1.4 KHẢ NĂNG MONG ĐỢI VÀ CÁC ỨNG DỤNG CỦA MIRS 12

1.5 CÁC LĨNH VỰC LIÊN QUAN ĐẾN ĐA PHƯƠNG TIỆN 13

1.6 CÁC NHIỆM VỤ THIẾT KẾ CỦA HỆ THỐNG CSDL ĐA PHƯƠNG TIỆN 13

1.6.1 Khái quát về nhiệm vụ CSDL đa phương tiện 14

1.6.2 Kiến trúc MIRS 15

1.6.3 Mô hình dữ liệu 19

1.6.4 Thiết kế giao diện người sử dụng 21

1.6.5 Trích chọn đặc trưng, chỉ mục và đo tương tự 24

1.6.6 Đảm bảo chất lượng dịch vụ (QoS) trong client, server và hệ thống truyền tin 26 1.6.7 Lưu trữ dữ liệu 27

1.6.8 Các nhiệm vụ khác 29

CHƯƠNG 2 - MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM ĐỐI TƯỢNG TRONG VIDEO SỐ 31

2.1 VIDEO SỐ [2], [6] 31

2.1.1 Biểu diễn video số 31

2.1.2 Nén video 31

2.2 CHỈ MỤC VÀ TRUY TÌM VIDEO [1], [2], [4], [5], [8] 46

2.2.1 Giới thiệu 46

2.2.2 Khái quát về chỉ mục và truy tìm video trên cơ sở shot 47

2.2.3 Tách video shot hay phân đoạn 47

2.2.4 Chỉ mục và truy tìm video 56

2.2.5 Đại diện và trừu tượng video hiệu quả 62

Trang 3

CHƯƠNG 3 - XÂY DỰNG ỨNG DỤNG TÌM KIẾM VIDEO 68

3.1 GIỚI THIỆU TỔNG QUAN VỀ ORACLE INTERMEDIA [7] 68

3.1.1 Công nghệ quan hệ hướng đối tượng 68

3.1.2 Quản lý nội dung đa phương tiện 69

3.1.3 Những khái niệm về Audio 72

3.1.4 Khái niệm về dữ liệu đa phương tiện kết hợp hoặc ORDDoc 73

3.1.5 Những khái niệm về ảnh 74

3.1.6 Khái niệm về Video 75

3.1.7 Lưu trữ đa phương tiện 76

3.1.8 Nạp dữ liệu đa phương tiện 79

3.1.9 Truy cập dữ liệu đa phương tiện 80

3.1.10 Phân phối nội dung dữ liệu đa phương tiện 84

3.1.11 Kiến trúc Oracle interMedia 84

3.2 XÂY DỰNG ỨNG DỤNG CẬP NHẬT, TÌM KIẾM VÀ PHÁT LẠI CÁC ĐOẠN VIDEO 86

3.2.1 Yêu cầu bài toán 86

3.2.2 Xác định các tiêu chí cho một đoạn Video cần lưu trữ 87

3.2.3 Thiết kế CSDL 87

3.2.4 Lựa chọn công nghệ và môi trường phát triển ứng dụng 89

3.2.5 Kết quả cài đặt thư ̉ nghiê ̣m 90

KẾT LUẬN 92

TÀI LIỆU THAM KHẢO 93

Trang 4

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

1 BLOB Binary Large Object

2 CLOB Character Large Object

dữ liệu đa phương tiện

7 IR Information Retrieval Truy tìm thông tin

8 MIRS Multimedia Indexing &

Retrieval System

Hệ thống chỉ mục và truy tìm thông tin đa phương tiện

9 MPEG Moving Picture Experts Group

10 OODBMS Object-Oriented Database

Management System

Hệ thống quản trị cơ sở

dữ liệu hướng đối tượng

11 QoS Quality of Service Chất lươ ̣ng di ̣ch vụ

Trang 5

5 Hình 1.5: Kiến trúc cơ sở tổng thể của MIRS 20

6 Hình 1.6: Mô hình dữ liệu đa phương tiện tổng quát 22

8 Hình 1.8: Mô hình lưu trữ tách biệt đặc trưng với cơ sở dữ liệu 30

12 Hình 2.3: Biểu diễn dòng ảnh dưới dạng sóng 39

14 Hình 2.5: Chuyển đổi giữa miền thời gian và miền tần số 39

15 Hình 2.6: Tính khoảng cách giữa các frame 51

21 Hình 2.12: Minh họa về phân lớp video theo chủ đề 65

22 Hình 2.13: Minh họa biểu tượng chuyển động 66

23 Hình 2.14: Minh họa duyệt video theo phân cấp 68

Trang 6

MỞ ĐẦU

CNTT ngày càng phát triển với sự ra đời của nhiều công nghê ̣ , sản phẩm và giải pháp , đă ̣c biê ̣t sự ra đời của Internet đã ta ̣o ra mô ̣t cuô ̣c cách mạng thực sự to lớn của loài người Con người có thể trao đổi, tìm kiếm thông tin mô ̣t cách nhanh chóng , khoảng cách địa lý không còn là rào cản trong giao tiếp của con người Các phương thức trao đổi và thể hiện thông tin ngày càng phong phú Dữ liê ̣u hiê ̣n có không chỉ đơn thuần là các văn bản được lưu trữ như vài chục năm trước đây , mà đã tồn tại một số lượng khổng lồ các dữ liệu

đa phương tiê ̣n gồm có ảnh , âm thanh và video Dữ liê ̣u này ngày càng tăng nhanh đã dẫn đến một nhu cầu có thực là cần có các công cụ hữu hiệu để lưu trữ, truy vấn và trình diễn

Chính vì vậy , nghiên cứu của những năm gần đây tập trung chủ yếu vào lưu trữ và tìm kiếm hiệu quả dữ liệu đa phương tiện Tình hình tương tự như vài chục năm trước đây với sự ra đời của các hệ thống quản trị cơ sở dữ liê ̣u (DBMS) để quản lý các dữ liệu text Tuy nhiên DBMS không thể quản lý

dữ liệu đa phương tiện một cách hiệu quả bởi vì các tính chất dữ liệu văn bản

và dữ liệu đa phương tiện là khác nhau Do vậy, dẫn tới việc nghiên cứu phát triển các kỹ thuật truy tìm và chỉ mục mới trong hệ thống quản trị CSDL Sự

ra đời của “Hệ thống quản trị cơ sở dữ liệu đa phương tiện “ là một tất yếu

Là một trong những vấn đề được quan tâm nghiên cứu , các hệ thống truy vấn video số đã được phát triển nhằm đáp ứng nhu cầu đối với dữ liê ̣u đa phương tiê ̣n của người dùng Các hệ thống này đã trải qua các giai đoạn phát triển chính như sau [3]:

- Giai đoạn truy vấn video dựa vào từ khóa, việc truy vấn dựa vào từ khóa và chú thích thủ công cho đoạn video Kết quả truy vấn dựa vào việc so khớp từ khóa truy vấn và từ khóa chú thích hoặc áp dụng các thành tựu trong lĩnh vực truy vấn thông tin (Information Retrieval) Hiện nay các hệ thống truy vấn video được dùng rộng rãi trong thương mại vẫn đang sử dụng cách thức truy vấn này (ví dụ như các hệ thống tìm kiếm của Google, Yahoo,…)

- Giai đoạn truy vấn video dựa vào nội dung, việc truy vấn được thực hiện dựa vào nội dung, dựa vào việc phân đoạn video thành các đoạn cơ sở,

Trang 7

mỗi đoạn cơ sở được biểu diễn bởi một số khung hình chính Truy vấn dựa vào đặc trưng thị giác toàn cục của đoạn cơ sở hoặc khung hình chính như các đặc trưng về màu sắc, vân, chuyển động Cùng trong giai đoạn này là thời kỳ của các hệ thống truy vấn dựa vào đối tượng Các đối tượng này được gọi là các đối tượng không gian - thời gian Kết quả truy vấn phù hợp hơn về ngữ nghĩa đối với yêu cầu truy vấn

- Giai đoạn truy vấn video ở mức ngữ nghĩa Các mô hình được dùng ở giai đoạn này là mô hình dịch máy, máy học, chú thích video tự động, phả hệ tri thức thị giác Khi truy vấn, hệ thống tiến hành đối sánh các khái niệm thị giác mà người dùng mô tả với các khái niệm thị giác được liên kết với dữ liệu video nhằm xác định kết quả truy vấn Cách truy vấn này có thể áp dụng cho

cơ sở dữ liệu video tổng quát Độ chính xác của kết quả truy vấn không cao,

vì vậy nó được dùng như bước tiền lọc, và thường kèm theo kỹ thuật phản hồi

từ người dùng

Mặc dù đã có nhiều kết quả đạt được trong lĩnh vực này, nhưng một số vấn đề thách thức vẫn còn tồn đọng Chưa có hệ thống truy vấn nào được phổ biến và được công nhận rộng rãi trong cộng đồng

Xuất phát từ cơ sở khoa học, tính thực tiễn và khả năng áp dụng thực tế tại nơi công tác, tác giả luận văn đã lựa chọn đề tài “Một số kỹ thuật chỉ mục

và tìm kiếm đối tượng trong video số” Bố cục của luận văn gồm 3 chương, được trình bày như sau:

Chương I: Trình bày tổng quan về cơ sở dữ liệu đa phương tiện

Chương II: Trình bày một số kỹ thuật chỉ mục và tìm kiếm đối tượng trong video số

Chương III: Mô tả và xây dựng một ứng dụng tìm kiếm video

Trang 8

CHƯƠNG 1 - TỔNG QUAN

VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

1.1 NHU CẦU CẦN CÓ HỆ THỐNG QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN [1]

Trải qua nhiều năm chúng ta đã thu thập được một khối lượng lớn dữ liệu đa phương tiện và tổ chức lưu trữ chúng dưới dạng số, ví dụ như ảnh X quang, tranh số hóa, các băng hình dạy học, điều tra cảnh sát về giọng nói trong điện thoại, tài liệu văn bản,…Ngày nay, khi Công nghê ̣ thông tin phát triển ma ̣nh mẽ và được ứng dụng vào các lĩnh vực của đời sống xã hội , đã xuất hiện ngày càng nhiều tranh ảnh, video, audio, tài liệu… được số hoá, lưu trữ và trình diễn, một số ví dụ về dữ liệu đa phương tiện như sau:

- Dữ liệu hình ảnh (Image data): Một học viện phẫu thuật phải tìm kiếm

cơ sở dữ liệu ảnh X quang hay ảnh cộng hưởng từ (MRI - Magnetic Resonance Imaging) của các bệnh nhân; Một cơ quan, tổ chức lưu trữ những bức ảnh số và muốn tìm lại một cách thuận tiện,

- Dữ liệu video (Video data): Một sinh viên mong muốn tìm những bài giảng bằng băng hình về một chủ đề kỹ thuật nào đó Điều này đòi hỏi phải truy vấn thư viện băng hình từ tập hợp vô số các băng hình với nội dung về kỹ thuật,

- Dữ liệu âm thanh (Audio data): Một phóng viên mong muốn tiếp cận với một vài cuộc phỏng vấn trước đây trên đài phát thanh, trong trường hợp này anh ta mong muốn tiếp cận với những băng audio cũ có nội dung liên quan đến lĩnh vực nghiên cứu

- Dữ liệu tài liệu (Document data): Một văn bản truyền thống bao gồm các đoạn văn bản, các từ, câu, đoạn văn, chương… Một CSDL tài liệu khác văn bản ở chỗ nó không chỉ chứa các thông tin dạng văn bản thô mà nó còn chứa đựng cả cấu trúc và hình ảnh nhúng Ví dụ, dữ liệu tài liệu được tạo ra, chèn vào và phục hồi nhờ sử dụng các ngôn ngữ đánh dấu chuẩn như HTML hay SGML,

Từ những ví dụ trên ta cho thấy thông tin đa phương tiện hay dữ liệu đa phương tiện bao gồm các dạng dữ liệu như video, âm thanh, hoạt hoạ (animation), ảnh, ký tự, chữ số, hoặc có sự kết hợp giữa các dạng này Thực tế hiê ̣n nay là chúng ta đang đối mặt với sự bùng nổ thông tin đa phương tiê ̣n,

và kéo theo nó là xu thế thúc đẩy phát triển công nghệ số lưu trữ và trình diễn,

Trang 9

với khả năng tổ chức tốt để có thể đảm bảo truy tìm nhanh

Những năm trước đ ây, khi mà dữ liệu văn bản được lưu trữ dưới khuôn dạng máy tính có thể đọc được, đã dẫn tới việc phát triển các hệ thống quản trị cơ sở dữ liê ̣u (DBMS) Tuy nhiên DBMS không thể quản lý dữ liệu đa phương tiện một cách hiệu quả do các tính chất dữ liệu văn bản và dữ liệu đa phương tiện là khác nhau Vì thế, vấn đề đặt ra là phải nghiên cứu phát triển các kỹ thuật truy tìm và chỉ mục mới trong hệ thống quản trị CSDL, cho phép khả năng lưu trữ và tìm kiếm hiệu quả dữ liệu đa phương tiện

Dữ liệu đa phương tiện có thể phân ra làm hai dạng tĩnh và động, dữ liệu tĩnh có nội dung và ý nghĩa không phụ thuộc vào thời gian như: ảnh, văn bản, chữ số ; dữ liệu động có nội dung và ý nghĩa phụ thuộc thời gian, chẳng hạn như khi thực hiện một đoạn video cần dịch chuyển khoảng 25 đến 30 frames/giây để làm hình ảnh và âm thanh thay đổi Các dạng dữ liệu động như

âm thanh và hoạt họa đều có mối quan hệ với thời gian Việc truyền đạt thông tin và ý nghĩa của thông tin trong thực tế cũng có rất nhiều phương thức khác nhau Với dữ liệu đa phương tiện, các thông tin truyền đạt ý nghĩa nhanh và

dễ hiểu hơn Do vậy mà ngày nay dữ liệu được sử dụng trong nhiều ứng dụng thực tế như: nghệ thuật, giáo dục, giải trí, kỹ thuật, y học, toán học,

Từ nhu cầu cần có cơ sở dữ liệu đa phương tiện, kéo theo nhu cầu cần thiết về vấn đề quản lý như:

- Khả năng lưu trữ dữ liệu do kích thước dữ liệu đa phương tiện lớn hơn so với các dạng dữ liệu thông thường

- Hỗ trợ truy vấn nhanh dữ liệu đa phương tiện do thời gian truyền tải

dữ liệu khi truy vấn không thể quá chậm vì tại mỗi thời điểm ý nghĩa của dữ liệu đa phương tiện có thể thay đổi

Hiện nay, có nhiều hệ quản trị cơ sở dữ liệu cho phép người dùng tạo

và quản trị các loại cơ sở dữ liệu khác nhau Tuy nhiên, do dữ liệu đa phương tiện có có tính chất và yêu cầu đặc biệt, khác xa với loại dữ liệu chữ và số nên CSDL truyền thống không phù hợp trong việc quản lý dữ liệu đa phương tiện Các kỹ thuật truy tìm thông tin có thể giúp truy tìm các đối tượng đa phương tiện nhưng chưa thực sự hiệu quả, khả năng quản lý dữ liệu đa phương tiện thì vẫn chưa đáp ứng được

Vì vậy, thực tế đòi hỏi cần có hệ thống quản trị cơ sở dữ liệu đa phương tiện (Multimedia Database Management Systems - MMDBMS)

Trang 10

1.2 SỰ CẦN THIẾT PHẢI CÓ HỆ THỐNG CHỈ MỤC VÀ TRUY TÌM THÔNG TIN ĐA PHƯƠNG TIỆN (MIRS) [1], [2], [6]

Dữ liệu đa phương tiện có tính chất và yêu cầu đặc biệt, khác xa với loại dữ liệu chữ và số CSDL truyền thống không phù hợp trong việc quản lý

dữ liệu đa phương tiện Vì vậy đòi hỏi phải có một hệ thống truy tìm và chỉ số hóa đủ tốt để sử dụng dữ liệu hiệu quả

1.2.1 Một vài tính chất chính của dữ liệu đa phương tiện

- Khối lượng khổng lồ (đặc biệt với dữ liệu audio và video) Thí dụ 10

phút video không nén có dung lượng 1,5 GB

- Audio và video có thêm chiều thời gian

- Dữ liệu ảnh, audio và video được thể hiện bởi dãy các giá trị mẫu, không có cấu trúc nhất định để máy tính tự động nhận biết

- Rất nhiều ứng dụng đa phương tiện đòi hỏi trình diễn đồng thời các loại media khác nhau Thí dụ, phim bao gồm các ảnh đồng bộ với âm thanh

- Ý nghĩa của dữ liệu đa phương tiện đôi khi rất mờ

- Dữ liệu đa phương tiện rất giàu thông tin Đòi hỏi nhiều tham số để biểu diễn nội dung của chúng

1.2.2 Hệ thống quản trị cơ sở dữ liệu và vai trò của chúng trong quản lý dữ liệu đa phương tiện (MM)

DBMS đã được quan tâm phát triển và đã được sử dụng rộng rãi cho

các dữ liệu có cấu trúc DBMS quen thuộc là DBMS quan hệ (Ralational

Database Management System - RDBMS) RDBMS phù hợp với quản lý dữ

liệu số và xâu ký tự ngắn Để hỗ trợ các trường biến lớn trong RDBMS, khái

niệm BLOB (Binary Large Object) được đề xuất BLOB là chuỗi bit lớn với

độ dài thay đổi Vì BLOB chỉ là chuỗi bit cho nên các thao tác như so sánh không thể thực hiện trên chúng được RDBMS không hiểu nội dung và ngữ

nghĩa của BLOB mà chỉ hiểu đó là block dữ liệu

Hệ quản trị CSDL hướng đối tượng (OODBMS) là loại DBMS khác

Chúng tổ hợp khả năng CSDL (thí dụ như lưu trữ và tìm kiếm) với đặc trưng hướng đối tượng (gói, kế thừa và chỉ danh đối tượng)

Một tiệm cận chung nhất hiện nay là tổ hợp đặc trưng hướng đối tượng

với CSDL quan hệ Hệ thống này được gọi là Hệ thống CSDL quan hệ - đối

tượng Trong hệ thống này, đối tượng được hiểu theo đúng nghĩa của oriented Mỗi đối tượng chứa đặc tính (properties) hay thuộc tính (attributes)

object-và phương thức (method) hay hàm để thao tác trên đặc tính

Trang 11

Khác biệt chính giữa BLOB và đối tượng là đối tượng được định nghĩa đầy đủ bao gồm đặc tính và các thao tác trên chúng trong khi BLOB không có khả năng này Khái niệm BLOB và đối tượng là bước tiến trong việc quản lý

dữ liệu đa phương tiện Nhưng BLOB chỉ sử dụng để lưu trữ dữ liệu lớn Trong khi đối tượng chứa các thuộc tính, nhiều khả năng khác cần được phát triển để quản lý việc truy tìm đa phương tiện trên cơ sở nội dung

Do vậy, một số khả năng cần có trong hệ thống như sau:

- Công cụ để tự động hoặc bán tự động trích chọn đặc trưng chứa trong

- Cấu trúc chỉ số hóa đa chiều để quản lý các véctơ đặc trưng đa phương tiện

- Thước đo tương tự để truy tìm dữ liệu đa phương tiện thay cho đối sánh chính xác

- Phân hệ lưu trữ được thiết kế để đáp ứng yêu cầu dữ liệu lớn, băng thông rộng và thời gian thực

- Giao diện người sử dụng được thiết kế sao cho truy vấn mềm dẻo với các loại media khác nhau và cho khả năng trình diễn đa phương tiện

1.2.3 Hệ thống truy tìm thông tin (IR) và vai trò của chúng trong truy tìm đa phương tiện

Kỹ thuật IR rất quan trọng trong hệ thống quản trị thông tin đa phương tiện vì hai lý do chính sau: thứ nhất, khối lượng văn bản rất lớn và là nguồn thông tin quan trọng của mọi tổ chức Để sử dụng hiệu quả thông tin trong các tài liệu này cần có hệ thống IR hiệu quả; thứ hai, văn bản còn được sử dụng

để mô tả các loại media khác như audio, ảnh và video Các kỹ thuật IR quen thuộc có thể được sử dụng để truy tìm thông tin đa phương tiện Tuy nhiên việc sử dụng IR để quản lý dữ liệu đa phương tiện có các hạn chế sau:

- Mô tả thường là tiến trình thủ công và tốn kém thời gian

- Mô tả bằng văn bản không đầy đủ và chủ quan

- Kỹ thuật IR không áp dụng được cho truy vấn các loại dữ liệu khác văn bản

- Một vài đặc trưng như kết cấu ảnh (image texture) và hình dạng ảnh

rất khó mô tả bằng văn bản

DBMS và IR đề cập trên đây không đáp ứng đầy đủ yêu cầu truy tìm và chỉ số hóa đa phương tiện Tuy nhiên, DBMS và IR có thể đóng vai trò quan trọng trong MMDBMS Nhiều phần dữ liệu đa phương tiện như ngày tạo lập, tác giả, v.v là có cấu trúc, có thể được quản lý bằng các kỹ thuật DBMS Mô

Trang 12

tả bằng văn bản vẫn còn là phương pháp hiệu quả để thu thập nội dung dữ liệu

đa phương tiện, do vậy các kỹ thuật IR vẫn đóng vai trò quan trọng

Tóm lại, cần phải tích hợp DBMS, IR và các kỹ thuật đặc biệt khác quản lý dữ liệu đa phương tiện để phát triển MIRS phù hợp và hiệu quả

1.3 KHÁI QUÁT VỀ MIRS

Các thao tác MIRS được mô tả trên hình 1.1 Dữ liệu (các mục thông tin) trong CSDL được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa Sau đó chúng được chỉ số hóa trên cơ sở đặc trưng và ngữ nghĩa Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử lý và các đặc trưng chính của nó được trích chọn Các đặc trưng này sau đó được so sánh với các đặc trưng hay chỉ mục của mỗi mục thông tin trong CSDL Các mục thông tin nào có đặc trưng gần giống nhất với các đặc trưng của câu truy vấn thì được tìm ra và trình diễn cho người sử dụng

Mẫu truy vấn có thể mô tả như sau:

Chỉ mục: Ảnh (I) > véctơ đặc trưng f(I): (f1, f2, fk)

Truy vấn: Véctơ truy vấn q: (q1, q2, qk)

Kết quả: Ảnh (I) có giá trị d(f(I),q) nhỏ nhất

Mô tả trên hình 1.1 cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:

- Các mục thông tin có thể là tổ hợp bất kỳ các loại media

- Trích chọn đặc trưng từ các mục media này như thế nào?

- Các đặc trưng được lưu trữ và cấu trúc như thế nào để truy tìm hiệu quả?

Truy vấn

Các đặc trưng

truy vấn

Các mục thông tin

Hình 1.1: Hoạt động của hệ thống MIRS

Xử lý và trích chọn đặc trưng Tiền xử lý và chỉ mục

Trang 13

- Đo tính “tương tự” giữa hai mục media như thế nào?

- Thiết kế giao diện như thế nào để nó có thể chấp nhận các câu truy vấn phức tạp, mờ và mềm dẻo?

- So sánh hiệu năng giữa các hệ thống MIRS bằng cách nào?

- Làm thế nào để đáp ứng yêu cầu thời gian khi truyền tải hay trình diễn

dữ liệu MM?

1.4 KHẢ NĂNG MONG ĐỢI VÀ CÁC ỨNG DỤNG CỦA MIRS

MIRS cần phải mạnh và mềm dẻo Khả năng của chúng được miêu tả bằng các kiểu truy vấn mà chúng có thể hỗ trợ Các loại truy vấn mong đợi của MIRS như sau:

Truy vấn trên cơ sở meta-data

Meta-data là các thuộc tính hình thức của các mục trong CSDL như tên tác giả, ngày tạo lập Khả năng của DBMS có thể đáp ứng loại truy vấn này

Truy vấn trên cơ sở mô tả

Mô tả đề cập đến miêu tả bằng văn bản nội dung các mục CSDL Các câu truy vấn theo từ khóa, việc truy tìm thực hiện trên cơ sở tương tự giữa câu truy vấn và mô tả Thí dụ truy vấn có thể là “Chỉ ra các đoạn video trong đó ACTOR đang đi xe đạp” Với loại truy vấn này, ta giả sử rằng các mục đã được mô tả đầy đủ và có thể quản lý bởi các kỹ thuật IR

Truy vấn trên cơ sở mẫu (pattern) hay đặc trưng

Mẫu dữ liệu là các thông tin tĩnh về dữ liệu đa phương tiện như phân bổ màu, cường độ âm thanh, mô tả kết cấu bề mặt Để trả lời loại truy vấn này, các thông tin thống kê về các mục CSDL phải được chuẩn bị và lưu trữ trước

Truy vấn theo thí dụ (by example)

Truy vấn trong các đối tượng đa phương tiện như ảnh, bản vẽ và đoạn

âm thanh Thí dụ truy vấn có thể là “Hãy chỉ ra phim trong đó có đoạn tương

tự như THIS PICTURE” Loại truy vấn này có thể phức tạp hơn khi bổ sung yếu tố quan hệ thời gian và không gian giữa các đối tượng

Truy vấn ứng dụng cụ thể

Rất nhiều loại truy vấn cụ thể theo ứng dụng Thí dụ, truy vấn trên cơ

sở thông tin chi tiết, cụ thể như kích thước đối tượng hay tuổi cá nhân

Vì MIRS có khả năng hỗ trợ nhiều loại truy vấn cho nên nó có ứng

dụng rộng rãi, bao gồm các ứng dụng trong các lĩnh vực sau đây: Y tế, An

ninh, Giáo dục, Báo chí, Giải trí, Thương mại,…

Trang 14

MIRS tập trung vào chính thông tin thay cho tập trung vào loại media

và trình diễn thông tin có thể ánh xạ hay chuyển đổi từ loại media này sang loại media khác Có thể truy tìm tài liệu video bằng video, text, nhạc, tiếng nói hay tương tự Điều đó phụ thuộc vào môtơ tìm kiếm để đối sánh dữ liệu trong câu truy vấn với các mục trong CSDL

1.5 CÁC LĨNH VỰC LIÊN QUAN ĐẾN ĐA PHƯƠNG TIỆN

- Âm thanh (Audio)

- Hình ảnh (Images)

- Xử lý ngôn ngữ tự nhiên (Natural Language Processing)

- Truy tìm thông tin (Information Retrieval)

- Khả năng của máy tính (CPU Power)

- Mạng máy tính (Networking)

- Hệ thống lưu trữ (Storage System)

- Giao diện người máy (HCI)

- Video

- Tâm lý học (Psychology)

- Nén dữ liệu (Data Compression)

1.6 CÁC NHIỆM VỤ THIẾT KẾ CỦA HỆ THỐNG CSDL ĐA PHƯƠNG TIỆN

Nhiệm vụ thiết kế MIRS để ứng dụng đáp ứng các đặc trưng và yêu cầu người sử dụng bao gồm các vấn đề sau:

- Khái quát về kiến trúc môđun MIRS Các môđun chính của MIRS bao

gồm giao diện người sử dụng (UI – User Interface), trích chọn đặc trưng,

quản lý truyền tin, chỉ số hóa và môtơ tìm kiếm, quản lý lưu trữ

- Mô hình dữ liệu của MIRS ảnh hưởng tới mọi khía cạnh thiết kế và thao tác của MIRS Nó xác định thông tin được tổ chức và lưu trữ như thế nào, hỗ trợ loại truy vấn nào

- UI cung cấp công cụ chèn các items CSDL, cung cấp câu truy vấn và cho khả năng trình diễn kết quả truy vấn Thiết kế UI là phức tạp do sự khác nhau của media, sự khác nhau của các đặc trưng, và do tính mờ của ý nghĩa

- Trong MIRS, các đặc trưng và thuộc tính của dữ liệu đa phương tiện được trích chọn và lưu trữ với dữ liệu Các đặc trưng được tổ chức nhờ cấu trúc chỉ mục để truy tìm hiệu quả Việc truy tìm là trên cơ sở thước đo tương

tự giữa đặc trưng truy vấn và đặc trưng dữ liệu

- Truy tìm và trình diễn đa phương tiện phải đáp ứng một số ràng buộc

về thời gian và không gian Các ràng buộc này được xác định bằng các yêu

Trang 15

cầu về chất lượng dịch vụ (QoS - Quality of Service) của đối tượng và của

ứng dụng đa phương tiện Mọi phân hệ, bao gồm hê ̣ điều hành , truyền tin, quản lý lưu trữ phải làm việc cùng nhau để đạt được QoS mong muốn

- Một số nhiệm vụ như nén dữ liệu, chuẩn trình diễn dữ liệu, tiến trình truy vấn cũng cần được quan tâm

1.6.1 Khái quát về nhiệm vụ CSDL đa phương tiện

- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả

- Có các khả năng của hệ CSDL truyền thống

- Có khả năng truy tìm thông tin đa phương tiện

1.6.1.2 Tiệm cận lưu trữ tài nguyên đa phương tiện

Các chiến lược lưu trữ tài nguyên đa phương tiện có bốn tiệm cận như sau đây:

- Dựa vào tệp hệ thống thông thường

- Sử dụng hệ quản trị CSDL truyền thống (thí dụ, RDBMS), với hỗ trợ giao diện hướng đối tượng

- Sử dụng hệ quản trị CSDL hướng đối tượng với hỗ trợ giao diện người sử dụng

- Thiết kế CSDL từ đầu, trên cơ sở khái niệm hướng đối tượng

Tiệm cận thứ nhất áp dụng khi người sử dụng tự quản lý tài nguyên đa phương tiện Đây không phải là cách lý tưởng do hạn chế của các tệp hệ thống, thiếu mềm dẻo trong việc tổ hợp và chia sẻ đối tượng đa phương tiện Tiệm cận thứ hai phụ thuộc vào RDBMS Theo bản chất trình diễn đa phương tiện thì tiệm cận hướng đối tượng cho khả năng dễ tổ chức trình diễn hơn OODBMS có kiểu dữ liệu nhị phân, do vậy dễ dàng lưu trữ ảnh, âm thanh và video Tuy nhiên, tiệm cận này sẽ gặp một số khó khăn khi cài đặt do thiếu một số yêu cầu đặc biệt của MMDBMS như: QoS, đồng bộ và nối mạng Tiệm cận cuối cùng rất hiệu quả nhưng tốn kém nhiều thời gian trong việc thiết kế và phát triển

Trang 16

Người dùng

1.6.2.1 Kiến trúc tự trị (autonomy)

Trong kiến trúc này mỗi loại dữ liệu được nhóm thành một nhóm và được lưu trữ theo cách riêng của từng nhóm (hình 1.2), sự tương tác giữa các loại dữ liệu là công việc phức tạp và đòi hỏi nhiều công sức lập trình Tuy nhiên việc tạo ra cấu trúc riêng biệt cho mỗi loại dữ liệu đa phương tiện sẽ có hiệu quả nhất về mặt thời gian cho việc xử lý các truy vấn Autonomy cũng thích hợp cho các công nghệ hướng đối tượng với việc xem xét mỗi nguồn dữ liệu đa phương tiện như một đối tượng với các phương thức của nó có thể truy cập đến CSDL đa phương tiện tổng thể

1.6.2.2 Kiến trúc đồng nhất (uniformity)

Với kiến trúc dạng này thay vì việc phân chia các loại dữ liệu thành các nhóm riêng biệt chúng ta cố gắng tìm một cấu trúc trừu tượng để có thể sử dụng làm chỉ mục chung cho toàn bộ các kiểu dữ liệu gọi là chỉ mục đồng nhất (unified index) - hình 1.3 Có thể thể hiện nội dung của tất cả các đối tượng dữ liệu khác nhau (văn bản, hình ảnh, âm thanh, video…) trong cùng

Audio Index (Chỉ mục Audio)

Video Index (Chỉ mục video)

Hình 1.2 Kiến trúc tự trị Truy vấn

Trang 17

một cấu trúc dữ liệu và sau đó xây dựng các giải thuật truy vấn trên cấu trúc

dữ liệu đó Kiến trúc này đòi hỏi việc kiểm tra nội dung của mỗi kiểu dữ liệu

và trừu tượng hóa các phần chung sau đó xây dựng chỉ mục dựa trên các thành phần đã được nhận dạng Với kiến trúc này việc tương tác giữa các loại

dữ liệu là rất thuận tiện vì chúng có cùng cấu trúc dữ liệu Tuy nhiên kiến trúc này đòi hỏi giai đoạn trừu tượng hóa dữ liệu mất rất nhiều thời gian và có thể phải làm thủ công hoặc bán tự động bởi nếu làm tự động có thể gây mất hoặc thiếu thông tin

1.6.2.3 Kiến trúc lai (hybrid)

Kiến trúc này là sự kết hợp của 2 kiến trúc trên (hình 1.4) Một số kiểu

dữ liệu sử dụng chỉ mục của riêng nó, một số khác sử dụng theo kiến trúc đồng nhất, tùy thuộc vào đặc điểm cũng như yêu cầu ứng dụng Kiến trúc này tận dụng được ưu điểm của cả hai loại kiến trúc trên và hạn chế những nhược điểm của chúng

Người dùng

Multimedia Query Engine (Máy truy vấn)

Trang 18

1.6.2.4 Các chức năng chính của hệ thống

Kiến trúc MIRS cần mềm dẻo và dễ mở rộng để hỗ trợ các ứng dụng, truy vấn và nội dung (đặc trưng) khác nhau Để đạt yêu cầu này MIRS bao gồm nhiều môđun chức năng và quản lý khác nhau Bộ quản lý mới được dễ dàng bổ sung để mở rộng chức năng của MIRS Bộ quản lý hiện hành có thể được hủy bỏ hay thay thế cái mới để cập nhật chức năng

Cơ chế khác của MIRS là khả năng phân tán tự nhiên, nó bao gồm nhiều server và client Cơ chế này hình thành từ kích thước dữ liệu đa phương tiện rất lớn và nhu cầu ứng dụng đồng thời của nhiều người như hệ thống thư viện số và hệ thống video theo yêu cầu

Hình 1.5 chỉ ra kiến trúc cơ sở tổng thể của MIRS Các khối chức năng chính bao gồm UI, bộ trích chọn đặc trưng, quản lý truyền thông, chỉ số hóa

và môtơ tìm kiếm Các chức năng chính sẽ được mô tả thông qua các kịch bản vận hành của MIRS Hai thao tác chính của MIRS là:

- Chèn mục đa phương tiện mới: Người sử dụng đặc tả một hay một nhóm mục dữ liệu đa phương tiện thông qua UI Các mục được lưu trong tệp hay nhập trực tiếp từ thiết bị ngoài như microphone, CD player hay Video camera Người sử dụng cũng có thể tự vẽ hình làm dữ liệu đầu vào Nội dung của chúng được trích trọn tự động hay bán tự động bằng các công cụ của bộ trích chọn đặc trưng Các đặc trưng này và các mục gốc được gửi về máy chủ thông qua bộ quản lý truyền tin Tại máy chủ, các đặc trưng được tổ chức (chèn) theo lược đồ chỉ số hóa nào đó để truy vấn hiệu quả thông qua môtơ

Người dùng

Multimedia Query Engine (Máy truy vấn)

Trang 19

truy vấn và chỉ số hóa Các thông tin chỉ số và các mục gốc được lưu trữ phù hợp thông qua bộ quản lý lưu trữ

- Truy vấn thông tin: Người sử dụng đưa ra hay đặc tả truy vấn thông qua UI Truy vấn có thể là tệp lưu trữ trên đĩa hay nhập từ thiết bị vào (bàn phím, chuột) Có thể duyệt các mục trong CSDL để sử dụng nó làm mục truy vấn Nếu mục truy vấn không phải là cái đã có sẵn trong CSDL, các đặc trưng chính của truy vấn được trích chọn theo cách như khi thực hiện chèn mục dữ liệu Các đặc trưng này được gửi đến máy chủ thông qua bộ quản lý truyền tin Môtơ chỉ số hóa và tìm kiếm tìm trong CSDL để có các mục dữ liệu phù hợp với các đặc trưng truy vấn Các mục này được truy vấn nhờ bộ quản lý lưu trữ và gửi đến UI thông qua bộ quản lý truyền tin UI hiển thị danh sách các mục dữ liệu tới người sử dụng Hình 1.5 là kiến trúc cơ sở tổng thể Có thể bổ sung các khối chức năng hay bộ quản lý để đáp ứng yêu cầu từng ứng dụng cụ thể Chúng có thể là: bộ quản lý từ điển đồng nghĩa (đảm bảo đồng

bộ và các quan hệ khác giữa các mục thông tin), cơ sở luật toàn vẹn (kiểm tra tính toàn vẹn của ứng dụng), quản lý ngữ cảnh (đảm bảo ngữ cảnh ứng dụng)

Giao diện

Người sử

dụng

Bộ trích chọn đặc trưng

Chỉ số hóa và môtơ tìm kiếm

Quản lý truyền tin

Quản lý lưu trữ

Hình 1.5: kiến trúc cơ sở tổng thể của MIRS

Trang 20

1.6.3 Mô hình dữ liệu

1.6.3.1 Yêu cầu mô hình dữ liệu

Trong DBMS mô hình dữ liệu có vai trò cung cấp khung làm việc để biểu diễn thuộc tính các mục dữ liệu mà nó sẽ được lưu trữ và truy vấn nhờ hệ thống Khung làm việc phải cho phép người sử dụng và người thiết kế định nghĩa, chèn, hủy, sửa đổi và tìm kiếm mục dữ liệu và thuộc tính

Trong MIRS và MMDBMS mô hình dữ liệu được bổ sung các vai trò đặc tả và tính toán ở mức trừu tượng khác; thu thập thuộc tính tĩnh và thuộc tính động của các mục dữ liệu, cung cấp cơ sở hình thức để phát triển các công cụ phù hợp, cần thiết khi sử dụng dữ liệu đa phương tiện Đặc tính tĩnh bao gồm các đối tượng hình thành nên dữ liệu đa phương tiện, quan hệ giữa các đối tượng và các thuộc tính đối tượng Các đặc tính động bao gồm các đặc tính liên quan đến tương tác giữa các đối tượng, các thao tác trên đối tượng, tương tác với người sử dụng Không gian đặc trưng đa chiều là đặc tính của chỉ số hóa đa phương tiện Mô hình dữ liệu cần hỗ trợ trình diễn không gian

đa chiều này, đặc biệt thước đo khoảng cách trong nó Tóm lại, mô hình dữ liệu MIRS cần đáp ứng các yêu cầu chính sau đây:

- Mô hình dữ liệu có thể mở rộng sao cho có thể bổ sung kiểu dữ liệu mới

- Mô hình dữ liệu có khả năng trình diễn kiểu dữ liệu cơ sở và các đối tượng tổ hợp với các quan hệ không gian và thời gian phức tạp

- Mô hình dữ liệu mềm dẻo sao cho các mục dữ liệu có thể được đặc tả, truy vấn và tìm kiếm trên các mức trừu tượng khác nhau

- Mô hình dữ liệu cho phép lưu trữ và tìm kiếm hiệu quả

1.6.3.2 Mô hình dữ liệu đa phương tiện tổng quát

Mô hình dữ liệu MIRS này hình thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng (hình 1.6)

Tầng “đối tượng”

Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và thời gian xác định Thí dụ một đối tượng đa phương tiện là một trang slide bao gồm vài ảnh và audio kèm theo Nhiệm vụ quan trọng là chỉ ra các quan hệ không gian và thời gian Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục Quan hệ thời gian được đặc tả trên cơ sở trục thời gian trong đó thời gian bắt đầu và độ dài mỗi mục được

Trang 21

xác định trên cơ sở đồng hồ chung Ngữ nghĩa của đối tượng được duy trì và phụ thuộc vào cả không gian và thời gian

Tầng “loại media”

Bao gồm các loại media chung như văn bản, đồ họa, ảnh, audio và video, được suy diễn từ lớp media trừu tượng chung ở tầng đối tượng Tại mức này, các đặc trưng và thuộc tính được đặc tả và được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách

Tầng “khuôn mẫu media”

Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ Loại media thông thường có nhiều khuôn mẫu có thể, thí dụ ảnh có thể là nén hay ảnh thô Hơn nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau Thông tin chứa trong tầng này được sử dụng để giải mã, phân tích và trình diễn

Hiện thời, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên, các ứng dụng khác nhau có thể cần các mô hình dữ liệu khác nhau Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng yêu cầu ứng dụng cụ thể

Thí dụ: Mô hình video tổng quát

Mô hình video tổng quát bao gồm 4 tầng: frame, shot, scene (hay

sequence) và episode (video document) như trên hình 1.7

Không gian Thời gian Tổng hợp

Văn bản Ảnh Đồ họa Âm thanh

Tầng loại media

Tầng khuôn mẫu media

Hình 1.6: Mô hình dữ liệu liệu đa phương tiện tổng quát

Trang 22

- Frame là các video và ảnh độc lập

- Shot là tập các frames được ghi hình bằng camera trong một lần bấm

máy

- Scene là tập các shot có cùng ngữ nghĩa

- Episode là tập các scenes trong trình tự cụ thể Đó là một đơn vị sản

phẩm (thí dụ, chương trình bản tin TV)

Các thuộc tính được gắn vào từng tầng video Tại tầng episode, ta có thể gán dữ liệu thực sự như tiêu đề, tác giả, ngày tháng tạo lập và các thông tin liên quan đến kiểu video như chương trình tin tức Scene chứa ngữ nghĩa chung chia sẻ giữa các shot của nó Các shot được đặc trưng bởi các frames chính (đại diện) của nó và các dữ liệu khác như các đối tượng chính, ngày tháng và nơi shot Mỗi frame chứa dữ liệu ảnh thô cũng như thống kê ảnh như biểu đồ màu

1.6.4 Thiết kế giao diện người sử dụng

Các chức năng chính của UI là cho phép người sử dụng chèn items vào CSDL, nhập câu truy vấn và trình diễn kết quả truy vấn UI tốt phải thỏa mãn các yêu cầu sau:

- Cung cấp các công cụ để user chèn dễ dàng các item CSDL

- Cung cấp công cụ giúp user nhập hiệu quả câu truy vấn hay thông báo cho hệ thống các thông tin nó cần

- Trình diễn hiệu quả kết quả truy vấn

Trang 23

1.6.4.1 Thu thập dữ liệu

Trong MIRS hay MMDBMS thì các mục item CSDL có thể là kiểu bất

kỳ và tổ hợp nhiều kiểu media, chúng không có cấu trúc và thuộc tính cố định Do vậy, UI phải có khả năng để người sử dụng xác định kiểu đầu vào khác nhau, tổ hợp các đối tượng đa phương tiện và chỉ ra kiểu thuộc tính sẽ trích chọn và chỉ số hóa Yêu cầu UI phải là tổng quát để chèn tính tương tự

truy vấn theo thí dụ (Query by Example)

Việc xử lý thông tin đa phương tiện và trích chọn đặc trưng đòi hỏi

nhiều tính toán, thông thường từ vài giây/đối tượng đến vài giờ/đối tượng

phức tạp như phim Do vậy phải có khả năng đặc tả các thao tác trên nhóm

đối tượng Việc trích chọn đặc trưng phải được tự động hóa hoàn toàn

1.6.4.2 Hỗ trợ truy vấn

Truy vấn đa phương tiện là đa dạng và mờ Nó đa dạng vì người sử dụng có thể chỉ ra truy vấn theo nhiều cách và với nhiều kiểu media khác nhau Nó mờ vì người sử dụng biết họ đang tìm gì nhưng khá khó khăn khi

mô tả chính xác nó, hay các thông tin cần thiết không được định nghĩa chính xác (họ chỉ nhận ra mục thông tin khi nhìn thấy) Để thỏa mãn các yêu cầu về các đặc tính này, các công cụ tìm kiếm, duyệt và làm mịn truy vấn phải có sẵn trong hệ thống

Tìm kiếm

Tìm kiếm là nhiệm vụ cơ bản của mọi hệ quản trị CSDL Trong ngữ cảnh của MIRS có hai loại tìm kiếm:

- Tìm kiếm theo đặc tả: thông thường người sử dụng sẽ sử dụng một số

từ khóa và tham số để mô tả các đặc trưng và thuộc tính chính của thông tin

mà họ cần tìm

- Tìm kiếm theo thí dụ

Thí dụ, người sử dụng có thể đặc tả truy vấn như “xe ôtô đỏ” Giả sử các ảnh trong CSDL không được mô tả hoàn toàn đầy đủ nhưng hệ thống chứa biểu đồ màu và hình dạng đối tượng ảnh Câu hỏi là giá trị hay dải giá trị pixel nào cần được sử dụng để mô tả “đỏ”, hình dạng nào cần được sử dụng

để mô tả “xe ô tô”? Để thực hiện tìm kiếm hiệu quả, hệ thống cần cung cấp hướng dẫn chi tiết về đặc tả truy vấn thông qua UI

Vấn đề ánh xạ nói trên có thể giải quyết bằng cách đưa ra tìm kiếm theo thí dụ UI cho phép người sử dụng chỉ ra truy vấn theo nhiều kiểu media khác nhau hay tổ hợp các media khác nhau Câu truy vấn bây giờ là đối tượng thí

dụ và sẽ hỏi hệ thống để tìm ra các mục thông tin tương tự đối tượng thí dụ

Trang 24

Trong trường hợp trên, người sử dụng phải vẽ hình dạng xe ô tô và tô màu đỏ

Hệ thống sẽ tính toán biểu đồ màu và tham số hình dạng của câu truy vấn và tìm kiếm các mục thông tin có biểu đồ màu và tham số hình dạng tương tự

Để hỗ trợ loại truy vấn này, UI cần cung cấp các công cụ đầu vào khác nhau như microphone, công cụ đồ họa, video camera, scanner và các công cụ authoring đa phương tiện khác Người sử dụng cần có khả năng sử dụng các mục thông tin trong CSDL như truy vấn

Duyệt

Đôi khi người sử dụng không biết chính xác cái họ muốn nhưng có thể nhận ra cái họ cần khi nhìn thấy nó Loại thông tin này cần được đáp ứng bởi thao tác duyệt Ba phương pháp khởi đầu duyệt:

1) Bắt đầu từ truy vấn không rõ ràng sau đó user dẫn đường qua các mục thông tin trên cơ sở các kết quả

2) Đòi hỏi các thông tin trong CSDL được tổ chức theo vài tiêu chí nào

đó (ngày tháng, chủ điểm) để user có thể duyệt theo các tiêu chí này

3) Chọn ngẫu nhiên một số mục thông tin từ CSDL để trình diễn và user sử dụng chúng như điểm khởi đầu cho việc duyệt Nếu không tìm thấy các mục thông tin thỏa mãn, user lại chọn ngẫu nhiên nhóm khác để trình diễn

Để duyệt hiệu quả, các mục thông tin cần được tổ chức tốt và hình thành các biểu tượng con để trình diễn thay cho trình diễn toàn bộ đối tượng trong mode duyệt Với ảnh, ta sử dụng ảnh thumbnail Với video, sẽ sử dụng frame đại diện hay biểu tượng phim 3D

Làm mịn truy vấn

Phần lớn truy vấn khởi đầu là mờ và không chính xác UI cần cung cấp công cụ để user làm mịn truy vấn trên cơ sở kết quả truy vấn ban đầu Làm mịn truy vấn được thực hiện thông thường trên cơ sở phản hồi của user từ kết quả khởi đầu Khi user nhìn thấy mục gần như cái họ mong muốn thì họ có thể tích hợp các đặc trưng của các mục thông tin vào truy vấn mới Sau vài lần lặp, user có thể tìm thấy mục liên quan Tri thức lĩnh vực và profile của user được sử dụng vào làm mịn truy vấn

Trong thực tế, định vị thông tin đa phương tiện là tổ hợp tìm kiếm, duyệt và làm mịn truy vấn

1.6.4.3 Trình diễn kết quả

MIRS trình diễn kết quả truy vấn thông qua UI Có nhiều việc phải làm

để trình diễn kết quả, bao gồm:

Trang 25

UI có khả năng trình diễn mọi loại media và quản lý các quan hệ không gian và thời gian của chúng (là nhiệm vụ đảm bảo QoS)

- Thông tin kết quả có thể chứa trong nhiều đoạn audio dài, ảnh lớn hay video dài Nhiệm vụ là phải tách, xây dựng và trình diễn các thông tin chính

để user duyệt và chọn, sao cho user có thể nhận biết rất nhanh cái gì đang có Ảnh thumbnail hay biểu tượng phim là các công cụ đặc biệt quan trọng

- Thời gian đáp ứng hệ thống phải ngắn Thời gian đáp ứng được xác định bởi phân hệ truyền tin và tìm kiếm trong CSDL

- Trình diễn kết quả phải làm dễ dàng phản hồi và làm mịn truy vấn không như trình diễn kết quả cuối cùng

1.6.5 Trích chọn đặc trưng, chỉ mục và đo tương tự

Các đặc trưng và thuộc tính của dữ liệu (items) trong MIRS được trích chọn, tham số hóa và lưu trữ chung với chính các dữ liệu Các đặc trưng và thuộc tính của truy vấn cũng được trích chọn theo cùng cách thức nếu nó không được xác định rõ ràng trước Hệ thống tìm kiếm các mục thông tin trong CSDL với các thuộc tính và đặc trưng tương tự trên cơ sở thước đo tính tương tự nhất định Để tìm kiếm hiệu quả, các đặc trưng và thuộc tính phải được tổ chức thành các cấu trúc có chỉ mục

1.6.5.1 Trích chọn đặc trưng

Các mục thông tin đa phương tiện trong CSDL được tiền xử lý để trích chọn đặc trưng và thuộc tính, chất lượng của trích chọn đặc trưng xác định hiệu quả tìm kiếm Trích chọn đặc trưng phải thỏa mãn các yêu cầu sau:

- Đặc trưng và thuộc tính trích chọn phải đầy đủ nhất có thể để biểu diễn nội dung của các mục thông tin

- Các đặc trưng phải được trình diễn và lưu trữ một cách chặt chẽ, mạch lạc, có khả năng tìm kiếm và so sánh nhanh các mục thông tin với nhau

- Tính toán khoảng cách giữa các đặc trưng phải hiệu quả, nếu không thời gian đáp ứng của hệ thống rất lớn

Trang 26

- Đặc trưng nội dung mức thấp: Thu thập các mẫu và thống kê đối tượng đa phương tiện và các quan hệ không gian, thời gian giữa các phần đối tượng Mỗi media khác nhau có các đặc trưng nội dung mức thấp khác nhau

+ Với âm thanh, đặc trưng mức thấp bao gồm âm lượng trung bình, phân bổ tần số và tỷ lệ câm

+ Các đặc trưng mức thấp của ảnh bao gồm phân bổ màu, kết cấu, hình dạng đối tượng và cấu trúc không gian

+ Đặc trưng mức thấp của video bao gồm cấu trúc thời gian

Lợi thế chính của việc sử dụng đặc trưng mức thấp là có thể tự động trích chọn chúng

- Đặc trưng nội dung mức cao: Cố gắng nhận biết và hiểu đối tượng Ngoài nhận dạng văn bản và tiếng nói, việc nhận dạng và hiểu đoạn âm thanh

và các đối tượng nhìn là rất khó khăn Hiện tại, tiến trình nhận dạng và diễn giải được thực hiện bán tự động

Việc truy vấn trên cơ sở hai loại đặc trưng nội dung mức thấp và mức cao gọi là truy vấn trên cơ sở nội dung Một hệ thống cần sử dụng toàn bộ bốn mức đặc trưng sao cho hỗ trợ được các câu truy vấn mềm dẻo của người sử dụng Các kỹ thuật này hỗ trợ nhau để hình thành mô tả đầy đủ về đối tượng Khi đối tượng đa phương tiện có nhiều kiểu media, các quan hệ và tương tác giữa các media phải được sử dụng để trích chọn đặc trưng, diễn giải và truy tìm Có một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác, ta có thể sử dụng sự hiểu biết về một hay vài kiểu để giúp hiểu và trích chọn đặc trưng cho các kiểu khác Thí dụ, nếu đối tượng đa phương tiện bao gồm rãnh hình (video) và rãnh tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri thức về đối tượng và sử dụng tri thức này để phân đoạn, trích chọn các đặc trưng và đối tượng trên rãnh hình (video)

1.6.5.2 Chỉ số hóa cấu trúc

Sau khi trích chọn đặc trưng, chúng ta phải chỉ số hóa cấu trúc để tổ chức các đặc trưng sao cho truy vấn hiệu quả Phải cần rất nhiều đặc trưng và nhiều tham số để trình diễn

Chỉ số hóa trong MIRS phải là phân cấp và nhiều mức:

Trang 27

1.6.5.3 Đo tính tương tự

Truy vấn đa phương tiện trên cơ sở tính tương tự thay cho đối sánh chính xác giữa các mục thông tin truy vấn và các mục thông tin trong CSDL Tính tương tự được tính toán trên cơ sở các đặc trưng, thuộc tính trích chọn

và dưới dạng một hay nhiều giá trị Tuy nhiên, tương quan của kết quả truy vấn do con người quyết định Thước đo tính tương tự rất phức tạp vì quyết định của người sử dụng là chủ quan và phụ thuộc ngữ cảnh

1.6.6 Đảm bảo chất lượng dịch vụ (QoS) trong client, server và hệ thống truyền tin

MIRS thông thường là phân tán Các đối tượng đa phương tiện được truy tìm từ server và truyền đến client để trình diễn Dữ liệu đa phương tiện đòi hỏi băng thông rộng, không gian lưu trữ lớn và tốc độ đường truyền cao, giới hạn jitter, độ trễ và đồng bộ không gian, thời gian Các media và ứng dụng khác nhau có các đòi hỏi khác nhau Các đòi hỏi này phải thỏa mãn cho toàn bộ phiên trình diễn và truyền tin trong toàn bộ hệ thống

Để cung cấp khung làm việc đồng nhất để chỉ ra và đảm bảo yêu cầu khác nhau này, QoS được đề xuất QoS là tập các tham số yêu cầu Là mối quan hệ chặt chẽ giữa ứng dụng đa phương tiện và hệ thống Khi ứng dụng có nhu cầu khởi động phiên làm việc, nó đệ trình yêu cầu QoS lên hệ thống Hệ thống có thể sẽ không chấp nhận yêu cầu, có thể đàm phán các yêu cầu ứng dụng thấp hơn Khi hệ thống chấp nhận yêu cầu, xác nhận giữa hệ thống và ứng dụng được thiết lập và hệ thống phải cung cấp QoS đòi hỏi Đảm bảo này dưới hình thức của 1 trong 3 dạng sau:

- Đảm bảo tiền định (hard – deterministic): Thỏa mãn hoàn toàn QoS

- Đảm bảo thống kê (soft – statistical): Cung cấp đảm bảo với xác suất

nhất định p

- Đảm bảo nỗ lực (effort): Không đảm bảo Ứng dụng thực hiện lâu tùy

ý Là chiến lược phân chia hệ thống truyền thống

Một hệ thống đa phương tiện điển hình bao gồm ba thành phần chính: hosts (bao gồm cả clients và servers) dưới điều khiển của OS, bộ quản lý lưu trữ, hệ thống truyền tin và giao vận

QoS được đảm bảo khi các tài nguyên hệ thống được quản lý đúng đắn Các tài nguyên hệ thống bao gồm chu kỳ CPU, bộ nhớ, băng thông Mỗi thành phần hệ thống phải có bộ quản lý tài nguyên, nó điều phối việc sử dụng tài nguyên

Trang 28

1.6.7 Lưu trữ dữ liệu

Hiện nay hầu hết các hệ quản trị CSDL (ví dụ DB2, Oracle ) đều có

mở rộng cho việc tổ chức lưu trữ các kiểu dữ liệu trên Chúng đưa ra các kiểu

dữ liệu như BLOB (binary large object) hay CLOB (character large object) cùng với các UDT (user define type) và UDF (user define function) cho phép

người sử dụng có thể tạo ra các kiểu dữ liệu mới phù hợp với ứng dụng của mình đồng thời tạo ra các phương thức thao tác với các kiểu dữ liệu đó Bên cạnh đó sự ra đời của các hệ quản trị CSDL đối tượng cũng tỏ ra rất có ưu thế cho việc tổ chức một cách hiệu quả các nguồn dữ liệu đa phương tiện Nhìn chung có nhiều cách thức lưu trữ các đối tượng đa phương tiện Nó phụ thuộc vào đặc điểm và yêu cầu của từng ứng dụng riêng biệt Hệ thống cơ sở dữ liệu

đa phương tiện thường được lưu trữ theo một trong hai mô hình sau

1.6.7.1 Mô hình tách biệt đặc trưng với cơ sở dữ liệu

Cơ sở dữ liệu đặc trưng được xây dựng kèm với cơ sở dữ liệu đa phương tiện ngay khi nó được xây dựng nhờ bước trích chọn các đặc trưng Khi người sử dụng yêu cầu truy vấn bằng cách nhập vào một dữ liệu mẫu, cơ chế tìm kiếm sẽ thực hiện bước trích chọn đặc trưng trên dữ liệu mẫu rồi thực hiện phép so sánh mức độ tương tự của các đặc trưng này giữa dữ liệu mẫu với các đặc trưng của dữ liệu trong cơ sở dữ liệu rồi phát sinh kết quả

Mô hình này đòi hỏi bước tiền xử lý là trích chọn các đặc trưng trong khi xây dựng cơ sở dữ liệu đa phương tiện Mô hình này có ưu điểm là thực hiện tìm kiếm nhanh hơn sau khi đã xây dựng được CSDL đặc trưng Tuy nhiên nó không linh động vì đòi hỏi phải cập nhật lại cả CSDL đa phương tiện và đặc trưng mỗi khi cần thay đổi dữ liệu đa phương tiện trong CSDL

Trang 29

1.6.7.2 Mô hình thời gian thực

Mô hình này không yêu cầu tạo cơ sở dữ liệu đặc trưng Mỗi khi yêu cầu truy vấn, người sử dụng sẽ nhập vào một dữ liệu mẫu, các đặc trưng của

dữ liệu này cùng với các dữ liệu trong CSDL sẽ được trích chọn, sau đó sẽ so sánh mức độ tương tự nhau và phát sinh kết quả

Mô hình này đòi hỏi phải tính toán nhiều khi truy vấn, đặc biệt khi cơ

sở dữ liệu multimedia là rất lớn Tuy nhiên nó lại linh động hơn mô hình trên

vì không yêu cầu xây dựng cơ sở dữ liệu đặc trưng

Cơ sở dữ liệu đa phương tiện

Cơ sở dữ liệu đặc trưng

Trích chọn các đặc trưng

Các đặc trưng đã được trích chọn

Truy vấn

Kết quả

Đo mức độ tương tự

Dữ liệu đa phương tiện

Xây dựng cơ sở dữ liệu đa phương tiện

Dữ liệu truy

vấn

Hình 1.8 Mô hình lưu trữ tách biệt đặc trưng với cơ sở dữ liệu

Cơ sở dữ liệu đa phương tiện

Dữ liệu truy vấn

Truy vấn

Kết quả

Trích chọn các đặc trưng và đo mức độ

tương tự

Hình 1.9 Mô hình thời gian thực

Trang 30

1.6.8 Các nhiệm vụ khác

1.6.8.1 Nén dữ liệu đa phương tiện

Mục tiêu chính của nén dữ liệu đa phương tiện là khả năng nén nhiều nhất có thể không quan tâm đến khía cạnh trình diễn và tìm kiếm Phần lớn các tệp âm thanh, ảnh và video được nén nhờ kỹ thuật hay theo chuẩn nhất định Để trích chọn đặc trưng của các file này thì trước hết phải giải nén chúng đã Quan điểm này không hiệu quả về mặt tính toán vì nén và giải nén phải thực hiện vài lần trong tiến trình trích chọn, không hiệu quả khi lưu trữ vì các tệp nén và các đặc trưng trích chọn được lưu trữ tách biệt Do vậy, cần có

kỹ thuật nén sao cho trích chọn đặc trưng thực hiện trực tiếp trong dữ liệu nén

và trong đó nén trên cơ sở đối tượng, không trên cơ sở các giá trị mẫu riêng

rẽ Có thể thực hiện chỉ số hóa và truy tìm ảnh trong dữ liệu nén DCT, lượng

tử véctơ, wavelet Nếu có thể chuyển ảnh bitmap sang đồ họa véctơ thì đạt được tỷ lệ nén cao hơn và dễ dàng truy vấn hơn MPEG-4 và JPEG2000 là thí

dụ về các chuẩn tổ hợp nén và truy vấn

Khía cạnh khác của nén là phải phù hợp với truyền tin và trình diễn Trong nhiều ứng dụng, ảnh thumbnail được hiển thị trước trong màn hình hay cửa sổ để user lựa chọn Nếu user quan tâm ảnh nào thì họ chọn ảnh và phiên bản mật độ lớn hơn để hiển thị Có thể thực hiện ứng dụng loại này theo hai cách sau:

- Phương pháp thứ nhất: Ảnh kích thước khác nhau suy diễn từ cùng một ảnh được tạo ra, nén, lưu trữ riêng rẽ trong server Các ảnh có kích thước yêu cầu sẽ gửi đến client để hiển thị Thí dụ, dữ liệu ảnh thumbnail được truyền để hiển thị, dữ liệu ảnh gốc được gửi trình tự theo yêu cầu

- Phương pháp thứ hai: Các ảnh được nén và lưu trữ theo kích thước ban đầu Dựa vào yêu cầu, dữ liệu ảnh gốc được truyền đến client không quan tâm đến yêu cầu của client Trong phần lớn trường hợp, client làm giảm dữ liệu ảnh truyền thành kích thước nhỏ hơn để hiển thị Nếu user muốn quan sát toàn bộ ảnh gốc thì ảnh gốc được truyền đi

Cả hai phương pháp đều không hiệu quả từ góc độ không gian lưu trữ

và băng thông Để giải quyết vấn đề trên, cần sử dụng kỹ thuật nén phân cấp như JPEG và MPEG-4 Nó không chỉ tiết kiệm không gian lưu trữ và băng thông mạng mà còn làm giảm thời gian đáp ứng vì ảnh được truyền, giải mã, hiển thị một cách tiến triển dần dần thay cho giải mã và hiển thị chỉ khi dữ liệu đã sẵn sàng

Trang 31

1.6.8.2 Chuẩn hóa biểu diễn dữ liệu

Trong tiến trình trích chọn đặc trưng và nén, đã giả sử rằng các giá trị mẫu thô cho mỗi media có được theo cùng cách và có cùng ý nghĩa Trong thực tế giả sử này là không thực Thí dụ, các đoạn âm thanh được ghi ở các cường độ khác nhau, vậy việc so sánh trực tiếp các giá trị mẫu từ các đoạn âm thanh khác nhau là vô nghĩa Tương tự, các giá trị pixel ảnh từ các ảnh khác nhau có thể có ý nghĩa khác nhau vì sử dụng các giá trị gama hiệu chỉnh khác nhau và hệ thống màu khác nhau Do vậy, các thông tin ảnh hưởng giá trị mẫu cần gộp vào header tệp và các giá trị mẫu được hiệu chỉnh tùy theo trích chọn đặc trưng Ngày nay, các khuôn mẫu âm thanh và ảnh không bao gồm thông tin này Cần có trình diễn chuẩn cho mỗi medium

Trang 32

CHƯƠNG 2 - MỘT SỐ KỸ THUẬT CHỈ MỤC

VÀ TÌM KIẾM ĐỐI TƯỢNG TRONG VIDEO SỐ

2.1 VIDEO SỐ [2], [6]

2.1.1 Biểu diễn video số

Thông thường video số có được từ số hóa video tuyến tính Trình tự video số bao gồm các frame hay ảnh sẽ trình chiếu theo tốc độ cố định Tốc

độ frame của video chuyển động được xác định bởi ba yếu tố:

- Tốc độ frame đủ cao để chuyển động trơn tru Tốc độ đạt trên 25 frame/sec sẽ đạt được chuyển động trơn tru

- Tốc độ frame càng cao đòi hỏi băng thông càng lớn để truyền tín hiệu video

- Ảnh trên màn hình mất đi nếu không được làm tươi sau chu kỳ ngắn Nếu khoảng cách làm tươi quá lớn sẽ làm màn hình nhấp nháy Thực nghiệm cho thấy cần làm tươi 50 lần/sec để tránh nhấp nháy Tuy nhiên với tần số này

sẽ làm băng thông tăng đáng kể Để khắc phục vấn đề này, kỹ thuật hiển thị

đan xen (interlace) được sử dụng, TV sử dụng 2 lần quét dọc/frame (gọi là

field)

Trên cơ sở các yếu tố trên, hai tốc độ frame được sử dụng cho TV là:

25 frame (50 field)/sec cho chuẩn PAL (châu Âu, China, Australia) và 30 frame/s cho chuẩn NTSC (Bắc Mỹ và Japan) Chọn 50 và 60 field để phù hợp với tần số điện nguồn của các nước tương ứng

Hai đặc trưng chính của video là có chiều thời gian và có lượng dữ liệu khổng lồ Thí dụ, 10 phút video với ảnh 512 x 512 pixel, depth 24 bit/pixel, tốc độ frame là 30 frame/s đòi hỏi 600 x 30 x 512 x 512 x 3 = 13.8 GB bộ nhớ Do vậy, việc nén video là nhu cầu cần thiết

2.1.2 Nén video

Nén video có nghĩa là làm giảm dư thừa và khai thác đặc tính cảm nhận của con người Video số là trình tự các ảnh cho nên nó có dư thừa không gian Hơn nữa các ảnh láng giềng thông thường là tương tự Mức độ tương tự gọi là

dư thừa thời gian và có thể loại bỏ bằng nén dự báo giữa các ảnh Kỹ thuật nén ảnh có thể áp dụng để nén video Vì vậy, trước khi tìm hiểu sâu sắc hơn

về nén video, chúng ta sẽ xem lại một số khái niệm về ảnh số và nén ảnh

Trang 33

2.1.2.1 Ảnh số

Biểu diễn ảnh số

Ảnh có thể là ảnh véctơ hay ảnh raster Ảnh véctơ, là các dữ liệu đồ họa (graphics) Ba loại đối tượng đồ họa riêng biệt là điểm, đường và vùng Ảnh véctơ được hình thành từ nhiều đối tượng đồ họa đơn giản: đoạn thẳng, elíp Ảnh raster, bao gồm các dữ liệu ảnh (Image) Khuôn mẫu ảnh raster có thể là BMP, JPEG, GIF Mỗi điểm ảnh (pixel) của loại ảnh này cần được xác định màu cụ thể Ảnh raster có thể là đa mức xám hay ảnh màu

Biểu diễn ảnh đa mức xám

Ảnh được hiển thị trên màn hình bởi các pixel Các pixel có độ chói (cường độ) khác nhau Dải cường độ từ đen đến trắng phụ thuộc vào chất lượng ảnh, hay tổng số bít sử dụng cho mỗi pixel Thí dụ với 8 bit biểu diễn pixel thì có tới 255 mức cường độ khác nhau có thể biểu diễn Tóm lại, ảnh đa mức xám được biểu diễn bằng mảng 2 chiều Mỗi phần tử của mảng tương ứng với 1 pixel Việc sắp xếp các giá trị pixel này trong vùng bộ nhớ liên tục được gọi là bitmap Khái niệm này xuất phát từ ánh xạ (map) các pixel ảnh vật lý vào các địa chỉ liên tục trong bộ nhớ Bộ nhớ sử dụng để lưu trữ dữ liệu ảnh bit map được gọi là “frame buffer”

Biểu diễn ảnh màu

Ảnh màu cũng bao gồm trường chữ nhật các pixel Khác biệt với các ảnh đa cấp xám là cần 3 giá trị để biểu diễn ảnh Mỗi giá trị biểu diễn một màu cơ sở Cách biểu diễn này xuất phát từ lý thuyết rằng màu có thể hình thành từ trộn ba màu cơ sở Các màu cơ sở sử dụng trong TV và màn hình máy tính là Red, Green và Blue Ảnh màu có thể biểu diễn bởi ba mảng hai chiều tương ứng với các màu cơ sở red, green và blue của ảnh

Màu và mô hình màu

Màu là phân bổ bước sóng ánh sáng (màu blue - 440 nm, màu green –

545 nm và màu red – 580 nm) Mắt người cảm nhận ba màu red, green và blue nhờ các tế bào hình nón (khoảng 6-7 triệu) trên võng mạc Mắt người cảm nhận màu (bước sóng điện từ) trong dải từ 400 nm đến 700 nm Phần lớn màu sắc xung quanh ta không có bước sóng đơn mà chúng được tạo bởi do trộn nhiều bước sóng khác nhau, mắt người nhạy với bước sóng trội

Mô hình màu là mô hình toán học trừu tượng mô tả cách biểu diễn màu

mà con người có thể nhận biết bởi bộ các giá trị (thông thường là 3 hay 4 giá

Trang 34

trị) hay bởi các thành phần màu Có nhiều mô hình màu khác nhau dành cho các mục đích sử dụng khác nhau

Thí dụ:

- Mô hình màu RGB dành cho màn hình máy tính

- Mô hình màu CMYK dành cho máy in màu

- Mô hình màu HSV dành cho người sử dụng (trực quan hơn)

- Mô hình màu YUV dành cho nén ảnh, nén video và là chuẩn của TV

Mô hình màu RGB

Là mô hình màu đơn giản nhất và hay sử dụng nhất Màu được hình thành từ ba thành phần R, G và B (hình 2.1) Chúng được sử dụng cho màn hình, máy quét và lưu trữ ảnh

Mô hình màu YUV

Trong khi, với không gian màu RGB, màu được hình thành từ ba thành phần R, G và B, thì màu trong không gian màu YUV được hình thành từ ba thành phần Y, U và V Không gian màu YUV được hình thành như sau đây (hình 2.2)

Nối gốc tọa độ O với điểm màu trắng W ta có đường tổng hợp ánh sáng của 3 màu với giá trị bằng nhau Nó chính là đường thể hiện mức độ sáng của màu sắc Không gian màu YUV được hình thành từ không gian màu RGB bằng cách sử dụng mặt phẳng đi qua ba điểm Red, Green và Blue làm mặt phẳng màu Gọi mặt phẳng này là mặt UV Chúng đi qua I, điểm giữa của đoạn OK Trên mặt UV hình thành 2 đường U và V vuông góc với nhau và đi qua I Gọi trục Y qua I và vuông góc với mặt UV, gọi chúng là trục thể hiện

độ chói của điểm ảnh

Ta có mô hình màu YUV hay YcbCr:

Yellow (1,1,0) White

(1,1,1) Red (1,0,0) Blue

Magenta (1,0,1)

Trang 35

Mô hình màu YIQ

Mô hình màu này được sử dụng làm chuẩn cho TV Mỹ (NTSC) Việc hình thành mô hình màu này tương tự YUV, nhưng mặt phẳng màu được xoay đi một góc 330 theo chiều kim đồng hồ sao cho I là trục có phương Orange – Blue và Q có phương Purple – Green

Các tham số chính của ảnh số

Chất lượng ảnh được đo bởi các tham số chính sau đây:

Kích thước ảnh: Tổng số pixel trên hàng và tổng số cột pixel Ta thường nói kích thước ảnh là x pixel và y dòng Để đạt được chất lượng ảnh gốc thì tổng số điểm ảnh/dòng và tổng số dòng phải bằng giá trị tối thiểu xác định theo định lý Nyquist Thí dụ mật độ ảnh gốc là 300 dpi thì tổng số pixel (mẫu)/inch phải ít nhất 300 Nếu không nó bị suy giảm so với ảnh gốc

Tổng số bit biểu diễn từng pixel (pixel depth): Với ảnh đa mức xám chất lượng chấp nhận được đòi hỏi 8 bit/pixel Với ảnh màu, cần 24 bít/pixel (mỗi thành phần màu cần 8 bít)

Green (0,1,0) Yellow

(1,1,0)

Red (1,0,0)

Magenta (1,0,1)

Blue (0,0,1)

Cyan (0,1,1)

Trang 36

Dữ liệu của ảnh được tính như sau: D = xyb

Lấy mẫu phụ không gian (Spatial Subsampling)

Vì dữ liệu ảnh chứa dư thừa, cho nên không giữ lại mọi pixel ảnh gốc

Kỹ thuật này gọi là lấy mẫu phụ không gian Phía nén ảnh ta chọn và truyền tải một trong vài điểm ảnh Phía giải nén ảnh, các điểm ảnh thiếu sẽ được nội suy trên cơ sở các điểm ảnh thu được để sinh ra trình tự video gốc với độ phân dải thấp hơn Bộ giải mã sẽ giải mã và hiển thị ảnh subsampled không gian nhỏ hơn

Nếu ảnh được biểu diễn bởi thành phần luminance (Y) và chrominance (Cb, Cr) thì có thể subsampling thành phần chrominance với tỷ lệ cao hơn và lượng tử hóa thô hơn do thực tế là mắt người ít nhạy cảm với thành phần chrominance

Kỹ thuật này khá đơn giản nhưng hiệu quả Nó được sử dụng làm tiền

xử lý cho các kỹ thuật nén khác (MPEG)

Mã hóa dự báo (Predictive coding)

Tổng quát thì các giá trị mẫu (sample) của các phần tử ảnh láng giềng (về mặt không gian) là tương quan Sự tương quan hay sự phụ thuộc thống kê tuyến tính chỉ ra rằng dự báo tuyến tính của các giá trị mẫu trên cơ sở các giá trị mẫu của phần tử ảnh láng giềng là kết quả trong lỗi dự báo mà nó có bất biến nhỏ hơn giá trị mẫu gốc

Mã hóa biến đổi (Transform Coding)

Ý tưởng chính: Loại bỏ tương quan giữa các điểm ảnh (chuyển đổi các phần tử ảnh phụ thuộc thống kê thành các hằng số độc lập) và tập trung năng lượng ảnh vào một vài hằng số Do vậy, có thể loại bỏ dư thừa trong ảnh

Trang 37

Trong mã hóa biến đổi thường chia ảnh gốc thành các block ảnh nhỏ

Áp dụng biến đổi toán học cho từng khối con để chuyển đổi khối con từ miền không gian sang miền tần số Kết quả là năng lượng chỉ tập trung vào một vài mẫu ở miền tần số thấp Chú ý rằng áp dụng biến đổi dữ liệu ảnh không làm giảm dữ liệu Nếu dữ liệu ảnh trong miền không gian có tính tương quan cao, thì dữ liệu kết quả trong miền tần số sẽ trong hình thức phù hợp cho việc làm giảm thiểu dữ liệu bằng kỹ thuật nén Huffman hay RLE

Nhiều loại biến đổi có thể áp dụng để nén ảnh: KLT (Karhunen-Loeve transform), DCT, WHT (Walsh-Hadamard transform), DFT Trong đó KLT là hiệu quả nhất về hiệu năng loại bỏ tương quan (decorrelation) Nhưng có các thuật toán biến đổi DCT nhanh cho nên biến đổi DCT được sử dụng rộng rãi nhất trong nén ảnh

Biến đổi DCT

Biến đổi DCT xuất phát từ ý tưởng biến đổi tín hiệu do Jean Baptiste Fourier đề xuất như sau: Bất kỳ tín hiệu hay dạng sóng nào đều có thể được tạo ra từ dãy các sóng hình sin với cường độ và tần số phù hợp Tương tự biến đổi Fourier, DCT là phương trình tính toán tần số, cường độ và pha của các sóng hình sin cần có để tạo ra tín hiệu cho trước

Một dòng ảnh có thể biểu diễn dưới dạng sóng như hình 2.3 Ta có thể biến đổi chúng sang miền tần số để thực hiện nén (JPEG)

Theo Fourier thì sóng vuông có được do cộng các sóng hình sin tinh khiết với các tần số cơ bản (hình 2.4) Có nghĩa rằng ta có thể dễ dàng chuyển đổi xuôi ngược giữa miền thời gian và miền tần số (hình 2.5)

Trang 38

Hình 2.3: Biểu diễn dòng ảnh dưới dạng sóng

Tần số Biên độ

Hình 2.5: Chuyển đổi giữa miền thời gian và miền tần số

Hình 2.4: Mô tả sóng vuông

Trang 39

Lượng tử hóa véctơ (VQ - Vectơ Quantization)

Lượng tử hóa được thực hiện trên từng mẫu giá trị thực của dạng sóng hay các pixel ảnh Mã hóa biến đổi thực hiện lượng tử hóa như sau: trước hết biến đổi block điểm ảnh sau đó mã hóa riêng rẽ các hệ số biến đổi Mã hóa dự báo thực hiện việc này bằng lượng tử hóa giá trị lỗi (là hiệu số giữa mẫu mới

và dự báo mẫu mới trên cơ sở đầu ra mã hóa trước đó)

Lịch sử, fractal được sử dụng để phát sinh ảnh ứng dụng trong các cảnh

mô phỏng bay và các hiệu ứng đặc biệt của ảnh chuyển động Các công thức ảnh fractal được sử dụng để mô tả hầu hết các ảnh thế giới thực

Nén ảnh fractal: là ngược lại của sinh ảnh fractal Sinh ảnh hay hình fractal từ công thức cho trước, nén ảnh fractal tìm kiếm tập fractal trong ảnh

số mà nó mô tả và biểu diễn toàn bộ ảnh Một khi tập fractal phù hợp được xác định, nó được nén thành mã hay công thức fractal đầy đủ Các mã là qui luật sinh ra tập fractal khác nhau để tái tạo toàn bộ ảnh Do các mã biến đổi fractal đòi hỏi rất ít dữ liệu để biểu diễn và lưu trữ như công thức, cho nên nén fractal có tỷ lệ nén rất cao

Mã hóa fractal là bất đối xứng Tìm kiếm và mã hóa đòi hỏi nhiều tiến trình hơn giải mã Lý do là tiến trình mã hóa đòi hỏi nhiều biến đổi và so sánh

để tìm ra tập fractal, trong khi giải mã chỉ đơn giản phát sinh ảnh theo công thức fractal thu được

Nén Wavelet

Nguyên lý của nén wavelet tương tự nén trên cơ sở DCT: Biến đổi tín hiệu từ miền thời gian sang miền mới trong đó phần cơ bản của tín hiệu được lưu trữ và mã hóa để đạt được nén dữ liệu

Các hệ thống mã hóa trong thực tế

Thường kết hợp một vài kỹ thuật trên đây để nâng cao hiệu quả nén: tỷ

lệ và chất lượng ảnh chấp nhận được Có rất nhiều tổ hợp cho các ứng dụng

Trang 40

khác nhau Một lược đồ quan trọng được sử dụng để mã hóa dữ liệu video theo các bước sau:

- Subsampling không gian và thời gian

- DPCM trên cơ sở đánh giá và bồi thường

- Nén trên cơ sở DCT trình tự mất mát thông tin: Các thành phần ảnh được nén theo đường quét từ trái sang phải và từ trên xuống dưới Đây là mode cơ sở và mọi cài đặt JPEG phải hỗ trợ

- Nén trên cơ sở DCT mất mát thông tin mở rộng: Ảnh được mã hóa theo nhiều đường quét để phát sinh nhanh ảnh nén, thô dành cho truyền tin với băng thông chậm

- Mã hóa không mất mát thông tin: Đảm bảo ảnh giải mã đúng như gốc

- Mã hóa phân cấp: Ảnh được mã hóa trong đa mật độ

Định dạng
Số trang	94
Dung lượng	1,47 MB