Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện

[3] Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được.. Khai phá

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ BIÊN

KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU

ĐA PHƯƠNG TIỆN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội, 2012

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ BIÊN

KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU

ĐA PHƯƠNG TIỆN

Ngành: CÔNG NGHỆ THÔNG TIN

Chuyên ngành: CÔNG NGHỆ PHẦN MỀM

Mã số: 60 48 10

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC

Hà Nội, 2012

Trang 3

MỤC LỤC

LỜI CAM ĐOAN 1

MỤC LỤC 4

BẢNG KÝ HIỆU CHỮ VIẾT TẮT 6

DANH MỤC CÁC BẢNG 7

DANH MỤC CÁC HÌNH 8

MỞ ĐẦU 9

CHƯƠNG 1- TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 10

1.1 Phát hiện tri thức và khai phá dữ liệu 10

1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu 10

1.2.1 Xác định vấn đề 11

1.2.2 Thu thập và tiền xử lý dữ liệu 12

1.2.3 Khai phá dữ liệu 13

1.2.4 Minh họa và đánh giá 13

1.2.5 Đưa kết quả vào thực tế 14

1.3 Khai phá dữ liệu 14

1.3.1 Các định nghĩa về khai phá dữ liệu 14

1.3.2 Nhiệm vụ của khai phá dữ liệu 15

1.3.3 Một số ứng dụng khai phá dữ liệu 16

1.3.4 Các kỹ thuật khai phá dữ liệu 16

1.3.4.1 Khai phá dữ liệu dự đoán 17

1.3.4.2 Khai phá dữ liệu mô tả 18

1.3.5 Kiến trúc của hệ thống khai phá dữ liệu 19

CHƯƠNG 2 – CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 21

2.1 Tổng quan cơ sở dữ liệu đa phương tiện 21

2.1.1 Một số khái niệm cơ bản 21

2.1.1.1 Media 21

2.1.1.2 Đa phương tiện (Multimedia) 22

2.1.1.3 Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu 22

2.1.1.4 Truy tìm thông tin tài liệu văn bản 22

2.1.1.5 Truy xuất và truy tìm Multimedia 22

2.1.1.6 Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục 23

2.1.2 Vai trò của MIRS 23

2.1.2.1 Các DBMS và vai trò của chúng trong việc xử lý dữ liệu Multimedia 23

2.1.2.2 Hệ thống IR và vai trò của nó trong việc truy xuất multimedia 24

2.1.2.3 Tích hợp truy tìm và chỉ số hóa thông tin đa phương tiện 24

2.1.3 Khái quát về MIRS 25

2.1.4 Khả năng mong đợi và các ứng dụng của MIRS 26

2.2 Dữ liệu đa phương tiện 27

2.3 Hệ quản trị cơ sở dữ liệu đa phương tiện 27

2.3.1 Mục đích của MDBMS 27

2.3.2 Các yêu cầu của một MMDBMS 28

2.3.2.1 Khả năng quản trị lưu trữ lớn 29

2.3.2.2 Hỗ trợ truy vấn và khai thác dữ liệu 30

2.3.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện 31

2.3.2.4 Giao diện và tương tác 31

2.3.2.5 Hiệu suất 31

Trang 4

CHƯƠNG 3 – LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 33

3.1 Bài toán kinh điển dẫn đến việc khai phá luật kết hợp 33

3.2 Định nghĩa về luật kết hợp 34

3.3 Một số hướng tiếp cận trong khai phá luật kết hợp 38

3.4 Một số thuật toán phát hiện luật kết hợp 40

3.4.1 Thuật toán Apriori 40

3.4.2 Thuật toán Apriori-TID 45

3.4.3 Thuật toán Apriori-Hybrid 46

CHƯƠNG 4 – KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU HÌNH ẢNH 48

4.1 Dữ liệu hình ảnh 48

4.1.1 Biểu diễn ảnh số 48

4.1.2 Các tham số chính của ảnh số 49

4.2 Trích chọn đặc trưng trong khai phá ảnh 49

4.2.1 Trích chọn đặc trưng màu sắc 50

4.2.2 Trích chọn đặc trưng Texture 51

4.2.3 Trích chọn đặc trưng Edge 52

4.2.4 Kết hợp các đặc trưng 53

4.3 Khai phá luật kết hợp dựa trên nội dung ảnh bằng thuật toán Apriori 54

KẾT LUẬN 60

TÀI LIỆU THAM KHẢO 61

Trang 5

7

MIRS:

Multimedia Indexing and Retrieval System

Hệ thống truy xuất thông tin đa phương tiện

Trang 6

DANH MỤC CÁC BẢNG

Bảng 3.1 Giao dịch mua hàng

Bảng 3.2 Tính độ hỗ trợ cho các tập hợp chứa các mặt hàng

Bảng 3.3 Các luật kết hợp và độ tin cậy của chúng

Bảng 3.4 Dùng thuật toán Apriori tính ra các tập hợp xuất hiện –thường xuyên

Bảng 3.5 Ma trận biểu diễn cơ sở dữ liệu

Bảng 3.6 Vector biểu diễn nhị phân cho tập 1 thuộc tính

Bảng 3.7 Vector biểu diễn nhị phân cho các tập 2 thuộc tính

Bảng 4.1 Ví dụ minh họa sự kết hợp các đặc trưng

Bảng 4.2 Đánh giá kết cấu của hình ảnh

Bảng 4.3 Đánh giá Texture của hình ảnh chụp quang tuyến vú

Trang 7

DANH MỤC CÁC HÌNH

Hình 1.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu

Hình 1.2 Tập dữ liệu với hai lớp: có và không có khả năng trả nợ

Hình 1.3 Phân loại của các dữ liệu vay nợ trong hai miền lớp

Hình 1.4 : Phân cụm tập dữ liệu cho vay thành 3 cụm

Hình 1.5 : Kiến trúc điển hình của một hệ thống khai phá dữ liệu

Hình 2.1 Một mẫu truy xuất thông tin tổng quát

Hình 2.2 Cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của hệ thống lưu trữ Hình 4.1: Sử dụng YCBCR làm cơ sở trích chọn đặc trưng màu sắc

Hình 4.2 Trích chọn đặc trưng Edge

Hình 4.3 Kết hợp các đặc trưng

Hình 4.4 Hiệu suất thuật toán khai phá luật kết hợp sử dụng ABBM và Apriori

Trang 8

MỞ ĐẦU

Trong điều kiện và yêu cầu của thương trường, đòi hỏi phải có những phương pháp nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị Các tri thức chiết xuất được từ cơ sở dữ liệu sẽ là một nguồn tài liệu

hỗ trợ cho lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất kinh doanh Vì vậy, tính ứng dụng của khai thác luật kết hợp từ cơ sở dữ liệu là một vấn đề đang được quan tâm

Khai phá dữ liệu là giai đoạn quan trọng trong tiến trình khai thác tri thức từ cơ

sở dữ liệu, các tri thức này hỗ trợ cho việc ra quyết định trong khoa học và kinh doanh

Công nghệ Multimedia liên quan tới việc mô tả sự kết hợp các dạng thông tin khác nhau (âm thanh, hình ảnh, văn bản, video) dưới dạng tín hiệu số Một cơ sở dữ liệu Multimedia đòi hỏi phải có các phương thức đặc biệt nhằm mục đích tối ưu hóa việc lưu trữ, truy cập và khai thác các dạng thông tin đặc biệt này

Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong dữ liệu Khai phá luật kết hợp trong cơ sở dữ liệu Multimedia cho phép tiết kiệm chi phí và làm tăng hiệu suất làm việc

Trang 9

CHƯƠNG 1- TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

1.1 Phát hiện tri thức và khai phá dữ liệu

Sự phát triển mạnh mẽ của công nghệ thông tin làm cho khả năng thu thập và

xử lý thông tin của các hệ thống thông tin tăng một cách nhanh chóng Số liệu

thống kê đưa ra vào năm 2006 cho thấy tình trạng “ngập tràn thông tin mà thiếu

thốn tri thức” hiện nay, tồn tại nhiều kho chứa dữ liệu khổng lồ có dung lượng tăng

trưởng với tốc độ cao Hàng triệu cơ sở dữ liệu đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý , trong đó có nhiều cơ sở dữ liệu cực lớn cỡ

Gigabyte, thậm chí là Terabyte Ví dụ điển hình là Yahoo! có hơn 100TB, Google

đã lưu trữ hơn 4 tỷ trang Web với dung lượng nhiều trăm TB; Alexa sau 7 năm đã

có 500 TB [3]

Việc thu thập và lưu trữ các kho chứa dữ liệu khổng lồ được liệt kê trên đây dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ thành các tri thức có ích Do vậy, khai phá dữ liệu (KPDL) nhằm phát hiện các tri thức mới giúp ích cho hoạt động của con người

đã trở thành một lĩnh vực quan trọng của ngành Công nghệ thông tin

1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu

Thông tin là một khái niệm trừu tượng, được thể hiện dưới nhiều dạng thức khác nhau Thông tin có thể được phát sinh, lưu trữ, biến đổi trong những vật mang tin (gọi là giá)

Dữ liệu là sự biểu diễn thông tin và được thể hiện bằng các tín hiệu vật lý

Dữ liệu là một dãy các bit, các số và các ký hiệu, hoặc các “đối tượng” có một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định Sử dụng các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các

dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu

Có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học Nói cách khác, tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao [3]

Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được Khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Nói một cách khác, mục đích của phát hiện tri thức và KPDL là tìm ra các mẫu và các mô

Trang 10

hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi hàng

“núi” dữ liệu Quá trình phát hiện tri thức được mô tả tóm tắt trên Hình 1.1:

Hình 1.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu

Làm sạch dữ liệu (Data cleaning): Loại bỏ dữ liệu nhiễu hoặc dữ liệu không thích hợp

 Chọn dữ liệu (Data Selection): Chọn những dữ liệu liên quan trực tiếp đến nhiệm vụ

hợp cho việc khai phá

hoặc các mẫu điển hình trong dữ liệu

được cho người sử dụng

Nhiều người coi KPDL và khám phá tri thức trong cơ sở dữ liệu là như nhau Tuy nhiên trên thực tế, KPDL là một bước trong quá trình phát hiện tri thức trong

cơ sở dữ liệu, thi hành một thuật toán KPDL để tìm ra các mẫu từ dữ liệu theo

khuôn dạng thích hợp

1.2.1 Xác định vấn đề

Trang 11

Là một quá trình mang tính định tính với mục đích xác định được lĩnh vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết Trong thực tế, các cơ sở dữ liệu được chuyên môn hóa và phân chia theo các lĩnh vực khác nhau như sản phẩm, kinh doanh, tài chính, … Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnh vực này nhưng lại không mang nhiều ý nghĩa đối với một lĩnh vực khác Vì vậy mà việc xác định lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu thập và tiền xử lý dữ liệu

1.2.2 Thu thập và tiền xử lý dữ liệu

Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt Vì vậy, giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ

cơ sở dữ liệu Có thể nói rằng giai đoạn này chiếm từ 70% đến 80% giá thành trong toàn bộ bài toán

Người ta chia giai đoạn thu thập và tiền xử lý dữ liệu thành các công đoạn như: lựa chọn dữ liệu, làm sạch, làm giàu, mã hóa dữ liệu Các công đoạn được thực hiện theo trình tự đưa ra được một cơ sở dữ liệu thích hợp cho các giai đoạn sau Tuy nhiên, tùy từng dữ liệu cụ thể mà quá trình trên được điều chỉnh cho phù hợp vì người ta đưa ra một phương pháp cho mọi loại dữ liệu

a Chọn lọc dữ liệu: Đây là bước chọn lọc các dữ liệu có liên quan trong các nguồn

dữ liệu khác nhau Các thông tin được chọn lọc sao cho có chứa nhiều thông tin liên quan tới lĩnh vực cần phát hiện tri thức đã xác định trong giai đoạn xác định vấn đề

b Làm sạch dữ liệu: Dữ liệu thực tế, đặc biệt dữ liệu lấy từ nhiều nguồn khác nhau

thường không đồng nhất Do đó cần có biện pháp xử lý để đưa về một cơ sở dữ liệu thống nhất phục vụ cho khai thác Nhiệm vụ làm sạch dữ liệu thường bao gồm:

 Điều hòa dữ liệu: Nhằm giảm bớt tính không nhất quán do dữ liệu lấy từ nhiều nguồn khác nhau Phương pháp thông thường là khử các trường hợp trùng lặp

dữ liệu và thống nhất các ký hiệu Chẳng hạn, một khách hàng có thể có nhiều bản ghi do việc nhập sai tên hoặc do quá trình thay đổi một số thông tin cá nhân gây ra và tạo sự lầm tưởng có nhiều khách hàng khác nhau

 Xử lý các giá trị khuyết: Tính không đầy đủ của dữ liệu có thể gây ra hiện tượng dữ liệu chứa các giá trị khuyết Đây là hiện tượng khá phổ biến Thông thường, người ta có thể lựa chọn các phương pháp khác nhau để thực hiện việc

xử lý các giá trị khuyết như: bỏ qua các bộ có giá trị khuyết, điểm bổ sung bằng tay, dùng một hằng chung để điền vào giá trị khuyết, dùng giá trị trung bình của mọi bản ghi cùng lớp hoặc dùng các giá trị mà tần suất xuất hiện lớn

Trang 12

 Xử lý nhiễu và các ngoại lệ: Thông thường, nhiễu dữ liệu có thể là nhiễu ngẫu nhiên hoặc các giá trị bất thường Để làm sạch nhiễu, người ta có thể sử dụng phương pháp làm trơn nhiễu hoặc dùng các giải thuật phát hiện ra các ngoại lệ

để xử lý

c Làm giàu dữ liệu: Việc thu thập dữ liệu đôi khi không đảm bảo tính đầy đủ của dữ

liệu Một số thông tin quan trọng có thể thiếu hoặc không đầy đủ Chẳng hạn, dữ liệu

về khách hàng lấy từ một nguồn bên ngoài không có hoặc không đầy đủ thông tin về thu nhập Nếu thông tin về thu nhập là quan trọng trong quá trình khai phá dữ liệu để phân tích hành vi khách hàng thì không thể chấp nhận đưa các dữ liệu khuyết thiếu vào được

Quá trình làm giàu dư liệu cũng bao gồm việc tích hợp và chuyển đổi dữ liệu Các dữ liệu từ nhiều nguồn khác nhau được tích hợp thành một kho thống nhất Các khuôn dạng khác nhau của dữ liệu cũng được quy đổi, tính toán lại để đưa về một kiểu thống nhất, tiện cho quá trình phân tích Đôi khi, một số thuộc tính mới có thể được xây dựng dựa trên các thuộc tính cũ

d Mã hóa: Các phương pháp dùng để chọn lọc, làm sạch, làm giàu dữ liệu sẽ được

mã hóa dưới dạng các thủ tục, chương trình hay tiện ích nhằm tự động hóa việc kết xuất, biến đổi và di chuyển dữ liệu Các hệ thống con đó có thể được thực thi định kỳ làm tươi dữ liệu phục vụ cho việc phân tích [3]

1.2.3 Khai phá dữ liệu

Giai đoạn khai phá dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và tiến hành xử lý Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai phá dữ liệu, tiến hành lựa chọn phương pháp khai thác phù hợp với dữ liệu có được và tách ra các tri thức cần thiết

Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính

chất mô tả - đưa ra những tính chất chung nhất của các dữ liệu, các bài toán khai thác

dự báo – bao gồm cả việc thực hiện các suy diễn trên dữ liệu Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp

1.2.4 Minh họa và đánh giá

Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ quyết định khác nhau Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độ tốt/xấu khác nhau Việc đánh giá các kết quả thu được là cần thiết, giúp tạo cơ sở cho những quyết định chiến lược Thông thường chúng được tổng hợp, so sánh bằng các biểu đồ và được kiểm

Trang 13

nghiệm, tin học hóa Công việc này thường là của các chuyên gia, các nhà phân tích

và quyết định

1.2.5 Đưa kết quả vào thực tế

Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong những lĩnh vực khác nhau Do các kết quả có thể là các dự báo hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hóa quá trình này

Quá trình phát hiện tri thức có thể được tiến hành theo các bước trên Ngoài ra trong quá trình khai thác người ta có thể thực hiện các cải tiến, nâng cấp cho phù hợp.[3]

1.3 Khai phá dữ liệu

1.3.1 Các định nghĩa về khai phá dữ liệu

Khai phá dữ liệu được dung để mô tả quá trình phát hiện tri thức trong cơ sở

dữ liệu Qúa trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp dự bóa trong kinh doanh, các hoạt động sản xuất, … Khai phá dữ liệu làm giảm chi phí về thời gian so với các phương pháp truyên thống trước kia (Ví dụ như phương pháp thống kê) Sau đây là các định nghĩa mang tính mô tả của nhiều tác giả:

dung trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ

và các mẫu chưa biết bên trong dữ liệu

 Định nghĩa của Parsaye: Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm mẫu thông tin chưa biết và bất ngờ trong cơ sở dữ liệu lớn

các mô hình trong dữ liệu với các tính chất: Đúng đắn, mới, khả ích và có thể hiểu được

nhận thức được, có thể tác động được từ CSDL lớn và sử dụng chúng để tạo ra quyết định công tác

KPDL là một bước trong quá trình khám phá tri thức bao gồm các thuật toán KPDL chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu và các mô hình trong dữ liệu

Trang 14

Như vậy, mục đích của khám phá tri thức và KPDL là tìm ra các mẫu hoặc mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu khổng lồ [2]

1.3.2 Nhiệm vụ của khai phá dữ liệu

Các bài toán liên quan đến KPDL về bản chất là các bài toán thống kê Điểm khác biệt giữa các kỹ thuật KPDL và các công cụ phục vụ tính toán thống kê mà chúng ta đã biết là ở khối lượng cần tính toán Khi dữ liệu đã trở nên khổng lồ thì những khâu như: thu thập dữ liệu, tiền xử lý và xử lý dữ liệu đều đòi hỏi phải được tự động hóa Tuy nhiên ở công đoạn cuối cùng, việc phân tích kết quả sau khi đã KPDL vẫn luôn là công việc của con người

Do là một lĩnh vực đa ngành, KPDL thu hút các lĩnh vực khoa học khác như trí tuệ nhân tạo, cơ sở dữ liệu, hiển thị dữ liệu, marketing, toán học, vận trù học, tin sinh học, nhận dạng mẫu, tính toán thống kê …

Điều mà KPDL có thể làm rất tốt là phát hiện ra những giả thuyết mạnh trước khi sử dụng những công cụ tính toán thống kê Mô hình dự báo sử dụng kỹ thuật phân cụm (Crustering) để chia nhóm các sự vật, sự kiện sau đó rút ra các luật nhằm tìm ra đặc trưng cho mỗi nhóm và cuối cùng đề nghị một mô hình Ví dụ, những bạn đọc đăng ký dài hạn của một tạp chí có thể phân nhóm dựa theo nhiều tiêu chí khác nhau (lứa tuổi, giới tính, thu nhập…), sau đó tạp chí căn cứ vào đặc trưng riêng của từng nhóm để đề ra mức phí thu trong năm sao cho phù hợp nhất

Những nhiệm vụ cơ bản nhất của KPDL là:

dữ liệu mới thu thập sẽ thuộc về nhóm nào? Quá trình này thường được thực hiện một cách tự động

của các bản ghi giao dịch Luật kết hợp X=>Y có dạng tổng quát là: Nếu một giao dịch đã sở hữu các tính chất X thì đồng thời nó cũng sở hữu các tính chất

Y, ở một mức độ nào đó Khai phá luật kế thợp được hiểu theo nghĩa: Biết trước các tính chất X, vậy các tính chất Y là những tính chất nào?

một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các trường hợp khác

tượng không tuân theo mô hình dữ liệu Các đối tượng dữ liệu như vậy gọi là

Trang 15

các đối tượng ngoài cuộc Hầu hết các phương pháp KPDL đều coi các đối tượng ngoài cuộc là nhiễu và loại bỏ chúng Tuy nhiên trong một số ứng dụng, chẳng hạn như phát hiện nhiễu thì sự kiện hiếm khi xảy ra lại được chú ý hơn những gì thường xuyên gặp phải Sự phân tích dữ liệu ngoài cuộc được coi như

là phai phá các đối tượng ngoài cuộc Một số phương pháp được ứng dụng để phát hiện đối tượng ngoài cuộc: Sử dụng các hình thức kiểm tra mang tính thống kê trên cơ sở một phân phối dữ liệu hay một mô hình xác suất cho dữ liệu, dùng các độ đo khoảng cách mà theo đó các đối tượng có một khoảng cách đáng kể đến cụm bất kỳ khác được coi là đối tượng ngoài cuộc, dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong những đặc trưng chính của các nhóm đối tượng

hóa các quy luật hay khuynh hướng của những đối tượng mà ứng xử của chúng thay đổi theo thời gian Phân tích sự tiến hóa có thể bao gồm cả đặc trưng hóa, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ và phân tích dữ liệu dựa trên tính tương tự [3]

1.3.3 Một số ứng dụng khai phá dữ liệu

Hiện nay, kỹ thuật KPDL đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và đời sống khác nhau như:

định cho vay, phát hiện gian lận, …

quả thử nghiệm, …

địa lý: dự báo động đất, …

1.3.4 Các kỹ thuật khai phá dữ liệu

Hình 1.2 biểu diễn một tập dữ liệu giả hai chiều bao gồm 23 trường hợp Mỗi một điểm trên hình đại diện cho một người vay tiền ngân hàng tại một thời điểm trong quá khứ Dữ liệu được phân loại thành hai lớp: những người không có khả năng trả nợ và những người tình trạng vay nợ đang ở trạng thái tốt

Hai mục đích chính của KPDL trong thực tế là dự đoán và mô tả

Trang 16

Hình 1.2 Tập dữ liệu với hai lớp: có và không có khả năng trả nợ

1.3.4.1 Khai phá dữ liệu dự đoán

Nhiệm vụ của KPDL dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên

cơ sở dữ liệu hiện thời Nó sử dụng các biễn hay các trường trong cơ sở dữ liệu để dự đoán các giá trị không biết hay các giá trị tương lai Bao gồm các kỹ thuật: Phân loại (Classification); Hồi qui (Regression … )

a) Phân loại

Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu

dữ liệu Quá trình phân loại dữ liệu thường gồm hai bước : xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu

 Bước 1: Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước Mỗi mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính lớp Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này được gọi là học có giám sát

 Bước 2: Sử dụng mô hình để phân loại dữ liệu Trước hết chúng ta phải tính độ chính xác của mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được

sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai

Hay nói các khác, phân loại là học một hàm ánh xạ một mục dữ liệu vào trong số các lớp cho trước Hình 1.3 cho thấy sự phân loại của các dữ liệu vay nợ trong hai miền lớp Ngân hàng có thể sử dụng các miền phân loại để tự động quyết định liệu những người vay nợ trong tương lai có nên cho vay hay không

Trang 17

Hình 1.3 Phân loại của các dữ liệu vay nợ trong hai miền lớp

b) Hồi quy

Phương pháp hối quy khác với phương pháp phân loại dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tục còn phân loại dữ liệu chỉ dùng để dự đoán về các giá trị rời rạc

Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực Có rất nhiều ứng dụng KPDL với nhiệm vụ hồi quy, chẳng hạn như khả năng đánh giá tử vong của bệnh nhân khi biết các kết quả xét nghiệm; chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo

1.3.4.2 Khai phá dữ liệu mô tả

Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của

dữ liệu trong CSDL hiện có Bao gồm các kỹ thuật: Phân cụm; Khai phá luật kết hợp

a) Phân cụm

Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát Phân cụm

dữ liệu đòi hỏi phải định nghĩa trước các dữ liệu huấn luyện

Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web

Hình 1.4 cho thấy sự phân cụm tập dữ liệu cho vay vào trong 3 cụm: Lưu ý rằng các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một cụm

Trang 18

Hình 1.4 : Phân cụm tập dữ liệu cho vay thành 3 cụm

b) Khai phá luật kết hợp

Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật KPDL là luật kết hợp tìm được Chẳng hạn, phân tích cơ sở dữ liệu bán hàng nhận được thông tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau: “Máy tính=>Phần mềm quản lý tài chính” (Độ hỗ trợ: 2%, độ tin cậy: 60%)

Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật Chúng phản ánh sự hữu ích vá sự chắc chắn của luật đã khám phá Độ hỗ trợ 2% có nghĩa là 2% của tất cả các vụ đang phân tích chỉ ra rằng máy tính và phần mềm quản lý tài chính là đã được mua cùng nhau Còn độ tin cậy 60% có nghĩa là: 60% các khách hàng mua máy tính cũng mua phần mềm

Khai phá luật kết hợp được thực hiện qua hai bước:

qua tính hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu

mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như maketing có chủ đích, phân tích quyết định, quản lý kinh doanh, phân tích giá thị trường …[3]

1.3.5 Kiến trúc của hệ thống khai phá dữ liệu

Kiến trúc điển hình của một hệ thống KPDL được trình bày trong hình 1.5 Trong kiến trúc hệ thống này, các nguồn dữ liệu cho các hệ thống KPDL bao gồm hoặc Cơ sở dữ liệu, hoặc Kho dữ liệu, hoặc World Wide Web, hoặc kho chứa dữ liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nói trên

Trang 19

Cơ sở tri thức, bao chứa các tri thức miền ứng dụng hiện có, được sử dụng trong thành phần hệ thống KPDL để làm tăng tính hiệu quả của thành phần này Một

số tham số của thuật toán KPDL tương ứng sẽ được tinh chỉnh theo tri thức miền sẵn

có từ cơ sở tri thức trong hệ thống Cơ sở tri thức còn được sử dụng trong việc đánh giá các mẫu đã khai phá được xem chúng có thực sự hấp dẫn hay không, trong đó có việc đối chứng mẫu mới với các tri thức đã có trong cơ sở tri thức Nếu mẫu khai phá được là thực sự hấp dẫn thì chúng được bổ sung vào cơ sở tri thức để phục vụ cho hoạt động tiếp theo của hệ thống Như vậy, nguồn tri thức bổ sung vào cơ sở tri thức

ở đây không chỉ từ lập luận lôgic theo các hệ toán lôgic để có tri thức mới, không chỉ

do con người hiểu biết thêm về thế giới khách quan để bổ sung vào mà còn là tri thức được phát hiện một cách tự động từ nguồn dữ liệu

Hình 1.5 : Kiến trúc điển hình của một hệ thống khai phá dữ liệu

Trang 20

CHƯƠNG 2 – CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

2.1 Tổng quan cơ sở dữ liệu đa phương tiện

Multimedia đã trở thành một phần quan trọng trong đời sống xã hội, trong văn hóa, công nghệ và giáo dục Trên thực tế, bất kỳ một loại thông tin nào cũng có thể phân loại là Multimedia như tạp chí, truyền hình, các trang Web hay các bộ phim.[4]

Công nghệ multimedia liên quan tới việc mô tả sự kết hợp các dạng thức thông tin khác nhau (văn bản, dữ liệu, hình ảnh, âm thanh, video) dưới dạng tín hiệu

số Có thể nêu ra đây một số ứng dụng multimedia như :

 E-learning

 Hiện tại ảo (Vitual Reality)

Các công nghệ chủ yêu liên quan đến multimedia bao gồm:

 Kỹ thuật nén

 Video Servers

chúng không phụ thuộc vào thời gian trình diễn Media tĩnh bao gồm dữ liệu văn bản, hình ảnh tĩnh

vào tốc độ trình diễn Media động bao gồm annimation, video, audio Media động phụ thuộc chặt chẽ vào tốc độ trình diễn

Trang 21

Ví dụ, để cảm nhận chuyển động trơn tru, video phải được trình chiếu với tốc độ 25 frame/sec (hay 30 frame/sec phụ thuộc vào loại hệ thống video) Tương tự, khi ta cho phát ra tiếng nói, âm nhạc, chúng chỉ được cảm nhận tự nhiên khi đạt được tốc độ nhất định, nếu không chúng làm giảm chất lượng và

ý nghĩa âm thanh Vì các media này phải được trình diễn liên tục và ở tốc độ cố định cho nên chúng còn được gọi là media liên tục Hay còn gọi chúng là

media đẳng thời vì quan hệ giữa các đơn vị media và thời gian là cố định.[1]

2.1.1.2 Đa phương tiện (Multimedia)

Khái niệm multimedia đề cập đến tập hợp các kiểu media được tích hợp với nhau trong đó ít nhất có một kiểu media không phải là văn bản (nói cách khác là ít nhất có một media trong đó là ảnh, audio hay video)

Ví dụ: Một trang Web về chủ đề của Mozart có văn bản liên quan đến nhà soạn nhạc cùng với một tập tin âm thanh của một số bản nhạc của ông và thậm chí có thể

là một video âm nhạc của ông đang được chơi

2.1.1.3 Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu

CSDL: Được hiểu là một bộ sưu tập hoặc một kho dữ liệu hoặc các mục

media

Hệ quản trị cơ sở dữ liệu (DBMS): Là một hệ thống dùng để quản trị cơ sở dữ liệu

2.1.1.4 Truy tìm thông tin tài liệu văn bản

Hệ thống truy tìm thông tin tự động hóa (IR) được tạo lập từ năm 1940 nhằm quản lý lượng lớn các tài liệu khoa học Một hệ thống IR có chức năng lưu trữ và quản lý số lượng lớn các tài liệu khoa học theo cách thích hợp để các truy vấn có thể truy tìm thông tin một cách nhanh chóng theo yêu cầu của người sử dụng

2.1.1.5 Truy xuất và truy tìm Multimedia

Các DBMS truy xuất các khoản mục dựa trên các số liệu có cấu trúc Việc truy xuất dữ liệu dựa vào những đặc trưng của từng lợi dữ liệu: màu sắc, lời giải thích văn bản về media đó Việc truy xuất nội dung là tương tự thay vì đối sánh chính xác giữa các truy vấn và các mục media

MIRS: Là một hệ thống cơ sở cung cấp việc truy xuất thông tin Multimedia khi

sử dụng tổ hợp DBMS Trong một MIRS các vấn đề về bảo mật hay phiên bản không được thực hiện đầy đủ Một MIRS đầy đủ gọi là một Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)

Trang 22

2.1.1.6 Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục

Một trong những nhiệm vụ quan trọng của MIRS là trích chọn đặc trưng hay biểu diễn nội dung Trích chọn đặc trưng là tiến trình tự động hay bán tự động Trong một số tài liệu còn gọi tiến trình trích chọn đặc trưng là chỉ mục (chỉ số hóa)

Chỉ mục là danh từ, đề cập đến cấu trúc dữ liệu hay đề cập đến tổ chức các đặc trưng đã trích chọn để tìm kiếm hiệu quả

2.1.2 Vai trò của MIRS

Cần phải có MIRS vì:

 Ngày càng có nhiều dữ liệu đa phương tiện được thu thập và lưu trữ, để sử dụng tốt cần phải có hệ thống truy tìm và chỉ số hóa tốt

đặc biệt, một CSDL truyền thống không phù hợp trong việc quản lý cơ sở dữ liệu đa phương tiện

 Các kỹ thuật truy tìm thông tin có thể giúp truy tìm đa phương tiện nhưng chúng chưa có khả năng quản lý hiệu quả dữ liệu đa phương tiện

2.1.2.1 Các DBMS và vai trò của chúng trong việc xử lý dữ liệu Multimedia

Các DBMS ngày nay được phát triển khá tốt và được sử dụng rộng rãi cho các

dữ liệu có cấu trúc DBMS quen thuộc là DBMS quan hệ (Ralational Database Management System - RDBMS) Trong RDBMS, thông tin được tổ chức thành bảng hoặc các quan hệ Các dòng của bảng tương ứng với các khoản mục thông tin hoặc các record, trong khi đó các cột tương ứng với các thuộc tính Ngôn ngữ truy vấn có cấu trúc (SQL) được sử dụng để t ạo ra các bảng như thế và để chèn và truy xuất thông tin từ các bảng đó.[1]

Một dạng khác của các DBMS là hệ thống quản trị CSDL hướng đối tượng (OODBMS- Object Oriented Database Management System) Các OODBMS kết nối các khả năng của cơ sở dữ liệu (như lưu trữ và tìm kiếm) và các đặc trưng hướng đối tượng (tóm lược, sự thừa kế, tính đồng nhất đối tượng) Một phương pháp tiếp cận chung là kết nối các đặc điểm hướng đối tượng với cơ sở dữ liệu quan hệ Hệ thống

đã được kết nối thì được gọi là một hệ thống cơ sở dữ liệu hướng đối tượng quan hệ Trong một hệ thống như vậy, các đối tượng được xác định một cách thích hợp trong hướng đối tượng Trong đó mỗi đối tượng chứa các đặc tính hoặc thuộc tính và các phương pháp hoặc các hàm được sử dụng để chế tác ra các đặc tính khác

Khả năng cần có trong hệ thống như sau:

Trang 23

phương tiện

2.1.2.2 Hệ thống IR và vai trò của nó trong việc truy xuất multimedia

Ngoài các DBMS, có loại hệ thống quản lý thông tin khác tập trung vào việc truy xuất tài liệu văn bản Loại hệ thống này được gọi là hệ thống truy xuất thông tin (IR) Công nghệ IR rất quan trọng trong hệ thống quản lý thông tin multimedia vì hai

lý do chính:

như các thư viện Văn bản là một nguồn thông tin quan trọng trong bất kỳ một

tổ chức nào Để sử dụng các thông tin đã được lưu trữ trong các tài liệu này, cần có một hệ thống IR hiệu quả

thanh, hình ảnh, video Thông thường thì công nghệ IR có thể được sử dụng cho việc phục hồi thông tin đa truyền thông

Tuy nhiên, việc sử dụng chỉ để xử lý dữ liệu truyền thông phải tuân theo các hạn chế sau:

 Việc chú giải nhìn chung phải làm bằng tay và tiêu tốn thời gian

 Các kỹ nghệ IR không thể điều khiển các câu hỏi từ văn bản khác (như âm thanh và hình ảnh)

khác nhau, nếu không thì cũng chỉ là cùng mô tả một văn bản

2.1.2.3 Tích hợp truy tìm và chỉ số hóa thông tin đa phương tiện

Có thể thấy DBMS và IR không thể đáp ứng đầy đủ các yêu cầu về chỉ số hoá

và truy xu ất multimedia, vì vậy cần có các công nghệ mới để vận dụng những đặc trưng riêng của multimedia

Tuy vậy, các DBMS và IR vẫn đóng vai trò quan trọng trong các MDBMS Các phần của dữ liệu multimedia như ngày và tác giả tạo lập của tài liệu multimedia

Trang 24

là có cấu trúc Dữ liệu có kết cấu này có thể được điều khiển bằng các kỹ nghệ DBMS Văn bản chú giải vẫn là phương pháp hiệu lực trong việc ghi lại nội dung

2.1.3 Khái quát về MIRS

Các thao tác MIRS được mô tả trên hình 2.1 Dữ liệu (các mục thông tin) trong CSDL được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa Sau đó chúng được chỉ số hóa trên cơ sở đặc trưng và ngữ nghĩa

Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử lý và các đặc trưng của nó được trích chọn Các đặc trưng này sau đó được so sánh với các đặc trưng hay chỉ mục dữ liệu trong CSDL Các mục thông tin nào có đặc trưng gần giống nhất với các đặc trưng của câu truy vấn thì được tìm ra và trình diễn cho người

sử dụng

Hình 2.1 Một mẫu truy xuất thông tin tổng quát

Mô hình trên đây cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:

 Các mục thông tin có thể là tổ hợp bất kỳ các loại media

mờ và mềm dẻo?

Trang 25

Multimedia?

2.1.4 Khả năng mong đợi và các ứng dụng của MIRS

MIRS cần phải mạnh và mềm dẻo Khả năng của chúng được miêu tả bằng các kiểu truy vấn mà chúng có thể hỗ trợ Các loại truy vấn mong đợi của MIRS như sau:

 Truy vấn trên cơ sở meta-data: Meta-data là các thuộc tính hình thức của các

mục trong CSDL như tên tác giả, ngày tạo lập Thí dụ truy vấn trong ứng dụng VOD (Video on Demand) có thể là “Liệt kê các phim do ông NAME đạo diễn vào năm 2004” DBMS đáp ứng loại truy vấn này

 Truy vấn trên cơ sở mô tả: Mô tả (annotation) đề cập đến miêu tả (description)

bằng văn bản nội dung các mục CSDL Các câu truy vấn theo từ khóa hay text form, việc truy tìm thực hiện trên cơ sở tương tự giữa câu truy vấn và mô

free-tả Thí dụ truy vấn có thể là “Chỉ ra các đoạn video trong đó ACTOR đang đi

xe đạp” Với loại truy vấn này, ta giả sử rằng các mục đã được mô tả đầy đủ và

có thể quản lý bởi các kỹ thuật IR

 Truy vấn trên cơ sở mẫu (pattern) hay đặc trưng: Mẫu dữ liệu là các thông

tin tĩnh về dữ liệu đa phương tiện như phân bổ màu, cường độ âm thanh, mô tả kết cấu bề mặt Thí dụ của loại truy vấn này có thể là “Chỉ ra khung (frame) video với phân bổ màu như THIS” Để trả lời loại truy vấn này, các thông tin thống kê về các mục CSDL phải được chuẩn bị và lưu trữ trước

 Truy vấn theo thí dụ (by example): Truy vấn trong các đối tượng đa phương

tiện như ảnh, bản vẽ và đoạn âm thanh Thí dụ truy vấn có thể là “Hãy chỉ ra phim trong đó có đoạn tương tự như THIS PICTURE” Loại truy vấn này có thể phức tạp hơn khi bổ sung yếu tố quan hệ thời gian và không gian giữa các đối tượng

dụ, truy vấn trên cơ sở thông tin chi tiết, cụ thể như kích thước đối tượng hay tuổi cá nhân

rãi, bao gồm các ứng dụng trong các lĩnh vực Y tế, An ninh, Giáo dục, Báo trí, Giải trí, Đăng ký bản quyền…

Cuối cùng, các MIRS sẽ tập trung vào chính thông tin thay thế các loại truyền thông và việc miêu tả chúng có thể được sắp xếp hoặc dịch ra từ loại truyền thông

Trang 26

này đến loại truyền thông khác Ví dụ, một video tài li ệu cần phải được sử dụng video, hình ảnh, văn từ, âm thanh, lời nói Vì vậy phương tiện dò tìm phải kết nối các

câu hỏi (dữ liệu) với các mục cơ sở dữ liệu [1]

2.2 Dữ liệu đa phương tiện

Dữ liệu multimedia được chia thành hai lớp là các dữ liệu liên tục và các dữ liệu không liên tục Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo thời gian Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào thời gian, các loại dữ liệu đặc trưng cho dạng này là các dữ liệu văn bản (có hoặc không

có định dạng), hình ảnh tĩnh và các đối tượng đồ họa Các kiểu dữ liệu thông thường của một CSDL multimedia bao gồm:

JPEG hoặc MPEG

 Video

Các đặc tính chung của dữ liệu multimedia bao gồm:

các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hoá, tìm kiếm nội dung, truy vấn dữ liệu thường là không áp dụng được

hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến việc lưu trữ, thao tác và mô tả chúng

lưu trữ lớn

phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các ứng dụng CSDL multimedia [4]

2.3 Hệ quản trị cơ sở dữ liệu đa phương tiện

2.3.1 Mục đích của MDBMS

Một MMDBMS cung cấp một môi trường thích hợp để sử dụng và quản lý các thông tin cơ sở dữ liệu đa phương tiện Vì vậy, nó phải hỗ trợ các kiểu dữ liệu đa phương tiện khác nhau bên cạnh việc phải cung cấp đầy đủ các chức năng của một

Trang 27

DBMS truyền thống như khai báo và tạo lập cơ sở dữ liệu, khai phá dữ liệu, truy cập

và tổ chức dữ liệu, độc lập dữ liệu, tính riêng, toàn vẹn dữ liệu, kiểm soát phiên bản Các chức năng của MDBMS cơ bản tương tự như các chức năng của DBMS, tuy nhiên, bản chất của thông tin tạo ra các đòi hỏi mới Bằng cách sử dụng các chức năng tổng quát của DBMS chúng ta có thể trình bày mục đích của MMDBMS như sau:

trình khác nhau đòi hỏi dữ liệu đó

các chương trình ứng dụng

qua các quy tắc được áp dụng trên các giao dịch đồng thời

cũng như các yêu cầu của chương trình

cách trái phép

 Kiểm soát sự toàn vẹn: Bảo đảm sự toàn vẹn của CSDL một giao dịch này sang một giao dịch khác thông qua việc áp đặt các ràng buộc

của các giao dịch thất bại không làm ảnh hưởng đến dữ liệu lưu trữ

tiện

tượng lưu trữ có thể được yêu cầu bởi các ứng dụng

2.3.2 Các yêu cầu của một MMDBMS

Để có được một MMDBMS đáp ứng được các yêu cầu đã nêu ra ở trên, chúng

ta cần phải có được một số các yêu cầu cụ thể cho nó, các yêu cầu ở đây bao gồm:

Trang 28

Bên cạnh các yêu cầu trên, để cho hệ thống hoạt động có thể hoạt động tốt cần phải giải quyết các vấn đề sau:

gồm các lĩnh vực ứng dụng khác nhau

độ nào? Các công nghệ, cấu trúc nền tảng được sắp xếp và sử dụng như thế nào?

để có thể phát triển được một ngôn ngữ truy vấn đáng tin cậy và có hiệu quả để

hỗ trợ cho nhiều phương thức truy nhập và các kiểu đối tượng khác nhau Làm thế nào để ngôn ngữ truy vấn hỗ trợ được các đặc tính và hình thái khác nhau của dữ liệu đa phương tiện

đạt được các yêu cầu và cách thức thể hiện khác nhau Làm cách nào để hỗ trợ việc đồng bộ hoá việc thể hiện các dữ liệu tạm thời cũng như các dữ liệu bộ phận của các dữ liệu đa phương tiện khác nhau

khác nhau thì hệ thống sẽ cập nhật các thành phần này như thế nào

2.3.2.1 Khả năng quản trị lưu trữ lớn

Hình 2.2 Cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của hệ thống lưu trữ

Trang 29

Các yêu cầu về khả năng lưu trữ của các hệ thống multimedia có thể được đặc trưng bởi khả năng lưu trữ lớn và cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của hệ thống lưu trữ Việc lưu trữ theo thứ bậc đặt các đối tượng dữ liệu multimedia trong một hệ thống phân bậc bao gồm các thiết bị khác nhau, có thể là trực tuyến (online), không trực tuyến (offline)

Một cách tổng quát, mức cao nhất của hệ thống sẽ cho ta hiệu suất cao nhất, khả năng lưu trữ nhỏ nhất, chi phí cao nhất và sự cố định ít nhất Các lớp cao trong hệ thống phân cấp này có thể sử dụng để lưu trữ các đối tượng tóm tắt nhỏ hơn của một

dữ liệu multimedia hoàn chỉnh với mục đích cung cấp khả năng duyệt và xem trước nhanh đối với nội dung của dữ liệu Chi phí và hiệu suất (tính về mặt thời gían) sẽ giảm dần nếu ta đi xuống các lớp phía dưới của hệ thống phân cấp, cùng với điều này

là sự tăng của khả năng lưu trữ và tính cố định

Thông thường trong hầu hết các hệ thống lưu trữ multimedia, mức cao nhất của lưu trữ thường là RAM, tiếp theo đó là đĩa từ, các thiết bị này cung cấp các dịch vụ trực tuyến (online services) Các thiết bị lưu trữ quang học cung cấp mức lưu trữ tiếp theo, khái niệm trực tuyến ở đây có thể hiểu là gần như, tiêu biểu cho các thiết bị lưu trữ kiểu này là các jukebox (CD-DVD jukebox) Mức thấp nhất trong hệ thống lưu trữ phân cấp có thể là các thiết bị như băng từ, đĩa quang hoặc các thiết bị tương tự, các thiết bị này cung cấp khả năng lưu trữ offline và có thể không cần kết nối trức tiếp với máy tính Chúng cung cấp khả năng lưu trữ và tính cố định cao hơn nhưng cũng có hiệu suất kém nhất về thời gian truy nhập

Vì những lý do trên, một MMDBMS phải quản lý và tổ chức việc lưu trữ đối với bất kỳ mức nào của hệ thống phân cấp, nó phải có cơ chế tự động để chuyển các đối tượng dữ liệu đa phương tiện từ một mức này của hệ thống lưu trữ phân cấp sang mức khác, việc chuyển cấp này phải dựa trên tần suất sử dụng của dữ liệu đa phương tiện Trong trường hợp dữ liệu đa phương tiện được lưu trữ ở các thiết bị offline thì MMDBMS cũng phải có được các thông tin trợ giúp cho việc dễ dàng xác định các thiết bị cụ thể có chứa các thông tin cần truy xuất [4]

2.3.2.2 Hỗ trợ truy vấn và khai thác dữ liệu

Truy vấn đối với dữ liệu đa phương tiện bao gồm các kiểu dữ liệu khác nhau, các từ khoá, thuộc tính, nội dung… Do người dùng có thể có các cách suy nghĩ khác nhau về dữ liệu đa phương tiện vì vậy kết quả thu được từ việc truy vấn dữ liệu đa phương tiện có thể không hoàn toàn chính xác và có thể chỉ là các kết quả tương tự hoặc là một phần của kết quả hơn là các kết quả chuẩn xác

Trang 30

Do việc có thể kết quả là không chính xác nên chúng ta phải có khả năng phân hạng các kết quả thu được sao cho chúng gần với yêu cầu truy vấn nhất, tương tự như vậy chúng ta cũng phải có các phương thức để loại bỏ bớt những kết quả không thoả mãn yêu cầu truy vấn Việc làm này sẽ giảm thiểu các sai sót về mặt tính toán trong

quá trình tìm kiếm

2.3.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện

Giả sử tính đa dạng của các kiểu dữ liệu đã được hỗ trợ, một MMDBMS cũng phải cung cấp khả năng để tích hợp các loại dữ liệu này để tạo nên các kiểu dữ liệu

Đa phương tiện mới và thể hiện các dữ liệu này khi có yêu cầu trong một khung thời gian yêu cầu Độ phức tạp của việc tích hợp, tổng hợp và thể hiện bị tăng thêm bởi các đặc tính cơ bản của dữ liệu đa phương tiện như tính liên tục (tạm thời) của dữ liệu đa phương tiện đặc biệt là với các kiểu dữ liệu như video, hoạt hình hoặc

âm thanh Hơn nữa, một vài ứng dụng cụ thể như các hệ thống thông tin địa lý có thể đòi hỏi MMDBMS cung cấp các thông tin bộ phận (về một vùng, miền nào đó) Tất

cả các yếu tố này kết hợp với nhau làm cho việc tổng hợp và thể hiện đa phương tiện trở thành một quy trình phức tạp mà MDBMS phải cung cấp để đáp ứng các yêu cầu

mà người dùng đòi hỏi

Các vấn đề về tích hợp có thể được cải thiện trong một số trường hợp, đặc biệt

là khi các hệ thống CSDL đa phương tiện được xây dựng nhằm phục vụ cho các cộng đồng người dùng xác định trước Trong các trường hợp đặc biệt này, MMDBMS có

thể hỗ trợ một số tính năng mà các ứng dụng khác không cần đến [1]

2.3.2.4 Giao diện và tương tác

Sự khác nhau về bản chất của các dữ liệu Multimedia đòi hỏi phải có các giao diện khác nhau để tương tác với dữ liệu Thông thường, mỗi loại dữ liệu có các phương thức truy nhập và thể hiện riêng của mình, ví dụ như dữ liệu video và âm thanh sẽ đòi hỏi các giao diện người dùng khác nhau để thể hiện và truy vấn

Đối với một vài ứng dụng Multimedia, đặc biệt là sự có mặt của các loại dữ liệu có tính liên tục người dùng thường đòi hỏi phải có các khả năng tương tác với dữ liệu (chẳng hạn như đối với dữ liệu VCR thì người dùng thường mong muốn có chức năng như tua lên (fast forward) hoặc tua ngược lại (reverse) Khi mà một hệ thống multimedia cung cấp các dịch vụ như vậy thì nó phải được liên kết vào CSDL đặc

biệt là việc khai thác các đối tượng, tổng hợp và đồng bộ chúng

2.3.2.5 Hiệu suất

Hiệu suất là một vấn đề quan trọng cần được xem xét đối với một MDBMS Các hệ thống CSDL Multimedia tạo ra hiệu suất dựa trên sự tối ưu hoá việc truy nhập

Định dạng
Số trang	60
Dung lượng	1,19 MB