[3] Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được.. Khai phá
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ BIÊN
KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU
ĐA PHƯƠNG TIỆN
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội, 2012
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ BIÊN
KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU
ĐA PHƯƠNG TIỆN
Ngành: CÔNG NGHỆ THÔNG TIN
Chuyên ngành: CÔNG NGHỆ PHẦN MỀM
Mã số: 60 48 10
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC
Hà Nội, 2012
Trang 3MỤC LỤC
LỜI CAM ĐOAN 1
MỤC LỤC 4
BẢNG KÝ HIỆU CHỮ VIẾT TẮT 6
DANH MỤC CÁC BẢNG 7
DANH MỤC CÁC HÌNH 8
MỞ ĐẦU 9
CHƯƠNG 1- TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 10
1.1 Phát hiện tri thức và khai phá dữ liệu 10
1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu 10
1.2.1 Xác định vấn đề 11
1.2.2 Thu thập và tiền xử lý dữ liệu 12
1.2.3 Khai phá dữ liệu 13
1.2.4 Minh họa và đánh giá 13
1.2.5 Đưa kết quả vào thực tế 14
1.3 Khai phá dữ liệu 14
1.3.1 Các định nghĩa về khai phá dữ liệu 14
1.3.2 Nhiệm vụ của khai phá dữ liệu 15
1.3.3 Một số ứng dụng khai phá dữ liệu 16
1.3.4 Các kỹ thuật khai phá dữ liệu 16
1.3.4.1 Khai phá dữ liệu dự đoán 17
1.3.4.2 Khai phá dữ liệu mô tả 18
1.3.5 Kiến trúc của hệ thống khai phá dữ liệu 19
CHƯƠNG 2 – CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 21
2.1 Tổng quan cơ sở dữ liệu đa phương tiện 21
2.1.1 Một số khái niệm cơ bản 21
2.1.1.1 Media 21
2.1.1.2 Đa phương tiện (Multimedia) 22
2.1.1.3 Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu 22
2.1.1.4 Truy tìm thông tin tài liệu văn bản 22
2.1.1.5 Truy xuất và truy tìm Multimedia 22
2.1.1.6 Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục 23
2.1.2 Vai trò của MIRS 23
2.1.2.1 Các DBMS và vai trò của chúng trong việc xử lý dữ liệu Multimedia 23
2.1.2.2 Hệ thống IR và vai trò của nó trong việc truy xuất multimedia 24
2.1.2.3 Tích hợp truy tìm và chỉ số hóa thông tin đa phương tiện 24
2.1.3 Khái quát về MIRS 25
2.1.4 Khả năng mong đợi và các ứng dụng của MIRS 26
2.2 Dữ liệu đa phương tiện 27
2.3 Hệ quản trị cơ sở dữ liệu đa phương tiện 27
2.3.1 Mục đích của MDBMS 27
2.3.2 Các yêu cầu của một MMDBMS 28
2.3.2.1 Khả năng quản trị lưu trữ lớn 29
2.3.2.2 Hỗ trợ truy vấn và khai thác dữ liệu 30
2.3.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện 31
2.3.2.4 Giao diện và tương tác 31
2.3.2.5 Hiệu suất 31
Trang 4CHƯƠNG 3 – LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 33
3.1 Bài toán kinh điển dẫn đến việc khai phá luật kết hợp 33
3.2 Định nghĩa về luật kết hợp 34
3.3 Một số hướng tiếp cận trong khai phá luật kết hợp 38
3.4 Một số thuật toán phát hiện luật kết hợp 40
3.4.1 Thuật toán Apriori 40
3.4.2 Thuật toán Apriori-TID 45
3.4.3 Thuật toán Apriori-Hybrid 46
CHƯƠNG 4 – KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU HÌNH ẢNH 48
4.1 Dữ liệu hình ảnh 48
4.1.1 Biểu diễn ảnh số 48
4.1.2 Các tham số chính của ảnh số 49
4.2 Trích chọn đặc trưng trong khai phá ảnh 49
4.2.1 Trích chọn đặc trưng màu sắc 50
4.2.2 Trích chọn đặc trưng Texture 51
4.2.3 Trích chọn đặc trưng Edge 52
4.2.4 Kết hợp các đặc trưng 53
4.3 Khai phá luật kết hợp dựa trên nội dung ảnh bằng thuật toán Apriori 54
KẾT LUẬN 60
TÀI LIỆU THAM KHẢO 61
Trang 57
MIRS:
Multimedia Indexing and Retrieval System
Hệ thống truy xuất thông tin đa phương tiện
Trang 6DANH MỤC CÁC BẢNG
Bảng 3.1 Giao dịch mua hàng
Bảng 3.2 Tính độ hỗ trợ cho các tập hợp chứa các mặt hàng
Bảng 3.3 Các luật kết hợp và độ tin cậy của chúng
Bảng 3.4 Dùng thuật toán Apriori tính ra các tập hợp xuất hiện –thường xuyên
Bảng 3.5 Ma trận biểu diễn cơ sở dữ liệu
Bảng 3.6 Vector biểu diễn nhị phân cho tập 1 thuộc tính
Bảng 3.7 Vector biểu diễn nhị phân cho các tập 2 thuộc tính
Bảng 3.8 Vector biểu diễn nhị phân cho các tập 3 thuộc tính
Bảng 3.9 Vector biểu diễn nhị phân cho các tập 4 thuộc tính
Bảng 4.1 Ví dụ minh họa sự kết hợp các đặc trưng
Bảng 4.2 Đánh giá kết cấu của hình ảnh
Bảng 4.3 Đánh giá Texture của hình ảnh chụp quang tuyến vú
Trang 7DANH MỤC CÁC HÌNH
Hình 1.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu
Hình 1.2 Tập dữ liệu với hai lớp: có và không có khả năng trả nợ
Hình 1.3 Phân loại của các dữ liệu vay nợ trong hai miền lớp
Hình 1.4 : Phân cụm tập dữ liệu cho vay thành 3 cụm
Hình 1.5 : Kiến trúc điển hình của một hệ thống khai phá dữ liệu
Hình 2.1 Một mẫu truy xuất thông tin tổng quát
Hình 2.2 Cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của hệ thống lưu trữ Hình 4.1: Sử dụng YCBCR làm cơ sở trích chọn đặc trưng màu sắc
Hình 4.2 Trích chọn đặc trưng Edge
Hình 4.3 Kết hợp các đặc trưng
Hình 4.4 Hiệu suất thuật toán khai phá luật kết hợp sử dụng ABBM và Apriori
Trang 8MỞ ĐẦU
Trong điều kiện và yêu cầu của thương trường, đòi hỏi phải có những phương pháp nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị Các tri thức chiết xuất được từ cơ sở dữ liệu sẽ là một nguồn tài liệu
hỗ trợ cho lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất kinh doanh Vì vậy, tính ứng dụng của khai thác luật kết hợp từ cơ sở dữ liệu là một vấn đề đang được quan tâm
Khai phá dữ liệu là giai đoạn quan trọng trong tiến trình khai thác tri thức từ cơ
sở dữ liệu, các tri thức này hỗ trợ cho việc ra quyết định trong khoa học và kinh doanh
Công nghệ Multimedia liên quan tới việc mô tả sự kết hợp các dạng thông tin khác nhau (âm thanh, hình ảnh, văn bản, video) dưới dạng tín hiệu số Một cơ sở dữ liệu Multimedia đòi hỏi phải có các phương thức đặc biệt nhằm mục đích tối ưu hóa việc lưu trữ, truy cập và khai thác các dạng thông tin đặc biệt này
Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong dữ liệu Khai phá luật kết hợp trong cơ sở dữ liệu Multimedia cho phép tiết kiệm chi phí và làm tăng hiệu suất làm việc
Trang 9CHƯƠNG 1- TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
1.1 Phát hiện tri thức và khai phá dữ liệu
Sự phát triển mạnh mẽ của công nghệ thông tin làm cho khả năng thu thập và
xử lý thông tin của các hệ thống thông tin tăng một cách nhanh chóng Số liệu
thống kê đưa ra vào năm 2006 cho thấy tình trạng “ngập tràn thông tin mà thiếu
thốn tri thức” hiện nay, tồn tại nhiều kho chứa dữ liệu khổng lồ có dung lượng tăng
trưởng với tốc độ cao Hàng triệu cơ sở dữ liệu đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý , trong đó có nhiều cơ sở dữ liệu cực lớn cỡ
Gigabyte, thậm chí là Terabyte Ví dụ điển hình là Yahoo! có hơn 100TB, Google
đã lưu trữ hơn 4 tỷ trang Web với dung lượng nhiều trăm TB; Alexa sau 7 năm đã
có 500 TB [3]
Việc thu thập và lưu trữ các kho chứa dữ liệu khổng lồ được liệt kê trên đây dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ thành các tri thức có ích Do vậy, khai phá dữ liệu (KPDL) nhằm phát hiện các tri thức mới giúp ích cho hoạt động của con người
đã trở thành một lĩnh vực quan trọng của ngành Công nghệ thông tin
1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu
Thông tin là một khái niệm trừu tượng, được thể hiện dưới nhiều dạng thức khác nhau Thông tin có thể được phát sinh, lưu trữ, biến đổi trong những vật mang tin (gọi là giá)
Dữ liệu là sự biểu diễn thông tin và được thể hiện bằng các tín hiệu vật lý
Dữ liệu là một dãy các bit, các số và các ký hiệu, hoặc các “đối tượng” có một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định Sử dụng các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các
dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu
Có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học Nói cách khác, tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao [3]
Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được Khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Nói một cách khác, mục đích của phát hiện tri thức và KPDL là tìm ra các mẫu và các mô
Trang 10hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi hàng
“núi” dữ liệu Quá trình phát hiện tri thức được mô tả tóm tắt trên Hình 1.1:
Hình 1.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu
Làm sạch dữ liệu (Data cleaning): Loại bỏ dữ liệu nhiễu hoặc dữ liệu không thích hợp
Chọn dữ liệu (Data Selection): Chọn những dữ liệu liên quan trực tiếp đến nhiệm vụ
hợp cho việc khai phá
hoặc các mẫu điển hình trong dữ liệu
được cho người sử dụng
Nhiều người coi KPDL và khám phá tri thức trong cơ sở dữ liệu là như nhau Tuy nhiên trên thực tế, KPDL là một bước trong quá trình phát hiện tri thức trong
cơ sở dữ liệu, thi hành một thuật toán KPDL để tìm ra các mẫu từ dữ liệu theo
khuôn dạng thích hợp
1.2.1 Xác định vấn đề
Trang 11Là một quá trình mang tính định tính với mục đích xác định được lĩnh vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết Trong thực tế, các cơ sở dữ liệu được chuyên môn hóa và phân chia theo các lĩnh vực khác nhau như sản phẩm, kinh doanh, tài chính, … Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnh vực này nhưng lại không mang nhiều ý nghĩa đối với một lĩnh vực khác Vì vậy mà việc xác định lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu thập và tiền xử lý dữ liệu
1.2.2 Thu thập và tiền xử lý dữ liệu
Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt Vì vậy, giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ
cơ sở dữ liệu Có thể nói rằng giai đoạn này chiếm từ 70% đến 80% giá thành trong toàn bộ bài toán
Người ta chia giai đoạn thu thập và tiền xử lý dữ liệu thành các công đoạn như: lựa chọn dữ liệu, làm sạch, làm giàu, mã hóa dữ liệu Các công đoạn được thực hiện theo trình tự đưa ra được một cơ sở dữ liệu thích hợp cho các giai đoạn sau Tuy nhiên, tùy từng dữ liệu cụ thể mà quá trình trên được điều chỉnh cho phù hợp vì người ta đưa ra một phương pháp cho mọi loại dữ liệu
a Chọn lọc dữ liệu: Đây là bước chọn lọc các dữ liệu có liên quan trong các nguồn
dữ liệu khác nhau Các thông tin được chọn lọc sao cho có chứa nhiều thông tin liên quan tới lĩnh vực cần phát hiện tri thức đã xác định trong giai đoạn xác định vấn đề
b Làm sạch dữ liệu: Dữ liệu thực tế, đặc biệt dữ liệu lấy từ nhiều nguồn khác nhau
thường không đồng nhất Do đó cần có biện pháp xử lý để đưa về một cơ sở dữ liệu thống nhất phục vụ cho khai thác Nhiệm vụ làm sạch dữ liệu thường bao gồm:
Điều hòa dữ liệu: Nhằm giảm bớt tính không nhất quán do dữ liệu lấy từ nhiều nguồn khác nhau Phương pháp thông thường là khử các trường hợp trùng lặp
dữ liệu và thống nhất các ký hiệu Chẳng hạn, một khách hàng có thể có nhiều bản ghi do việc nhập sai tên hoặc do quá trình thay đổi một số thông tin cá nhân gây ra và tạo sự lầm tưởng có nhiều khách hàng khác nhau
Xử lý các giá trị khuyết: Tính không đầy đủ của dữ liệu có thể gây ra hiện tượng dữ liệu chứa các giá trị khuyết Đây là hiện tượng khá phổ biến Thông thường, người ta có thể lựa chọn các phương pháp khác nhau để thực hiện việc
xử lý các giá trị khuyết như: bỏ qua các bộ có giá trị khuyết, điểm bổ sung bằng tay, dùng một hằng chung để điền vào giá trị khuyết, dùng giá trị trung bình của mọi bản ghi cùng lớp hoặc dùng các giá trị mà tần suất xuất hiện lớn
Trang 12 Xử lý nhiễu và các ngoại lệ: Thông thường, nhiễu dữ liệu có thể là nhiễu ngẫu nhiên hoặc các giá trị bất thường Để làm sạch nhiễu, người ta có thể sử dụng phương pháp làm trơn nhiễu hoặc dùng các giải thuật phát hiện ra các ngoại lệ
để xử lý
c Làm giàu dữ liệu: Việc thu thập dữ liệu đôi khi không đảm bảo tính đầy đủ của dữ
liệu Một số thông tin quan trọng có thể thiếu hoặc không đầy đủ Chẳng hạn, dữ liệu
về khách hàng lấy từ một nguồn bên ngoài không có hoặc không đầy đủ thông tin về thu nhập Nếu thông tin về thu nhập là quan trọng trong quá trình khai phá dữ liệu để phân tích hành vi khách hàng thì không thể chấp nhận đưa các dữ liệu khuyết thiếu vào được
Quá trình làm giàu dư liệu cũng bao gồm việc tích hợp và chuyển đổi dữ liệu Các dữ liệu từ nhiều nguồn khác nhau được tích hợp thành một kho thống nhất Các khuôn dạng khác nhau của dữ liệu cũng được quy đổi, tính toán lại để đưa về một kiểu thống nhất, tiện cho quá trình phân tích Đôi khi, một số thuộc tính mới có thể được xây dựng dựa trên các thuộc tính cũ
d Mã hóa: Các phương pháp dùng để chọn lọc, làm sạch, làm giàu dữ liệu sẽ được
mã hóa dưới dạng các thủ tục, chương trình hay tiện ích nhằm tự động hóa việc kết xuất, biến đổi và di chuyển dữ liệu Các hệ thống con đó có thể được thực thi định kỳ làm tươi dữ liệu phục vụ cho việc phân tích [3]
1.2.3 Khai phá dữ liệu
Giai đoạn khai phá dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và tiến hành xử lý Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai phá dữ liệu, tiến hành lựa chọn phương pháp khai thác phù hợp với dữ liệu có được và tách ra các tri thức cần thiết
Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính
chất mô tả - đưa ra những tính chất chung nhất của các dữ liệu, các bài toán khai thác
dự báo – bao gồm cả việc thực hiện các suy diễn trên dữ liệu Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp
1.2.4 Minh họa và đánh giá
Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ quyết định khác nhau Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độ tốt/xấu khác nhau Việc đánh giá các kết quả thu được là cần thiết, giúp tạo cơ sở cho những quyết định chiến lược Thông thường chúng được tổng hợp, so sánh bằng các biểu đồ và được kiểm
Trang 13nghiệm, tin học hóa Công việc này thường là của các chuyên gia, các nhà phân tích
và quyết định
1.2.5 Đưa kết quả vào thực tế
Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong những lĩnh vực khác nhau Do các kết quả có thể là các dự báo hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hóa quá trình này
Quá trình phát hiện tri thức có thể được tiến hành theo các bước trên Ngoài ra trong quá trình khai thác người ta có thể thực hiện các cải tiến, nâng cấp cho phù hợp.[3]
1.3 Khai phá dữ liệu
1.3.1 Các định nghĩa về khai phá dữ liệu
Khai phá dữ liệu được dung để mô tả quá trình phát hiện tri thức trong cơ sở
dữ liệu Qúa trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp dự bóa trong kinh doanh, các hoạt động sản xuất, … Khai phá dữ liệu làm giảm chi phí về thời gian so với các phương pháp truyên thống trước kia (Ví dụ như phương pháp thống kê) Sau đây là các định nghĩa mang tính mô tả của nhiều tác giả:
dung trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ
và các mẫu chưa biết bên trong dữ liệu
Định nghĩa của Parsaye: Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm mẫu thông tin chưa biết và bất ngờ trong cơ sở dữ liệu lớn
các mô hình trong dữ liệu với các tính chất: Đúng đắn, mới, khả ích và có thể hiểu được
nhận thức được, có thể tác động được từ CSDL lớn và sử dụng chúng để tạo ra quyết định công tác
KPDL là một bước trong quá trình khám phá tri thức bao gồm các thuật toán KPDL chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu và các mô hình trong dữ liệu
Trang 14Như vậy, mục đích của khám phá tri thức và KPDL là tìm ra các mẫu hoặc mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu khổng lồ [2]
1.3.2 Nhiệm vụ của khai phá dữ liệu
Các bài toán liên quan đến KPDL về bản chất là các bài toán thống kê Điểm khác biệt giữa các kỹ thuật KPDL và các công cụ phục vụ tính toán thống kê mà chúng ta đã biết là ở khối lượng cần tính toán Khi dữ liệu đã trở nên khổng lồ thì những khâu như: thu thập dữ liệu, tiền xử lý và xử lý dữ liệu đều đòi hỏi phải được tự động hóa Tuy nhiên ở công đoạn cuối cùng, việc phân tích kết quả sau khi đã KPDL vẫn luôn là công việc của con người
Do là một lĩnh vực đa ngành, KPDL thu hút các lĩnh vực khoa học khác như trí tuệ nhân tạo, cơ sở dữ liệu, hiển thị dữ liệu, marketing, toán học, vận trù học, tin sinh học, nhận dạng mẫu, tính toán thống kê …
Điều mà KPDL có thể làm rất tốt là phát hiện ra những giả thuyết mạnh trước khi sử dụng những công cụ tính toán thống kê Mô hình dự báo sử dụng kỹ thuật phân cụm (Crustering) để chia nhóm các sự vật, sự kiện sau đó rút ra các luật nhằm tìm ra đặc trưng cho mỗi nhóm và cuối cùng đề nghị một mô hình Ví dụ, những bạn đọc đăng ký dài hạn của một tạp chí có thể phân nhóm dựa theo nhiều tiêu chí khác nhau (lứa tuổi, giới tính, thu nhập…), sau đó tạp chí căn cứ vào đặc trưng riêng của từng nhóm để đề ra mức phí thu trong năm sao cho phù hợp nhất
Những nhiệm vụ cơ bản nhất của KPDL là:
dữ liệu mới thu thập sẽ thuộc về nhóm nào? Quá trình này thường được thực hiện một cách tự động
của các bản ghi giao dịch Luật kết hợp X=>Y có dạng tổng quát là: Nếu một giao dịch đã sở hữu các tính chất X thì đồng thời nó cũng sở hữu các tính chất
Y, ở một mức độ nào đó Khai phá luật kế thợp được hiểu theo nghĩa: Biết trước các tính chất X, vậy các tính chất Y là những tính chất nào?
một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các trường hợp khác
tượng không tuân theo mô hình dữ liệu Các đối tượng dữ liệu như vậy gọi là
Trang 15các đối tượng ngoài cuộc Hầu hết các phương pháp KPDL đều coi các đối tượng ngoài cuộc là nhiễu và loại bỏ chúng Tuy nhiên trong một số ứng dụng, chẳng hạn như phát hiện nhiễu thì sự kiện hiếm khi xảy ra lại được chú ý hơn những gì thường xuyên gặp phải Sự phân tích dữ liệu ngoài cuộc được coi như
là phai phá các đối tượng ngoài cuộc Một số phương pháp được ứng dụng để phát hiện đối tượng ngoài cuộc: Sử dụng các hình thức kiểm tra mang tính thống kê trên cơ sở một phân phối dữ liệu hay một mô hình xác suất cho dữ liệu, dùng các độ đo khoảng cách mà theo đó các đối tượng có một khoảng cách đáng kể đến cụm bất kỳ khác được coi là đối tượng ngoài cuộc, dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong những đặc trưng chính của các nhóm đối tượng
hóa các quy luật hay khuynh hướng của những đối tượng mà ứng xử của chúng thay đổi theo thời gian Phân tích sự tiến hóa có thể bao gồm cả đặc trưng hóa, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ và phân tích dữ liệu dựa trên tính tương tự [3]
1.3.3 Một số ứng dụng khai phá dữ liệu
Hiện nay, kỹ thuật KPDL đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và đời sống khác nhau như:
định cho vay, phát hiện gian lận, …
quả thử nghiệm, …
địa lý: dự báo động đất, …
1.3.4 Các kỹ thuật khai phá dữ liệu
Hình 1.2 biểu diễn một tập dữ liệu giả hai chiều bao gồm 23 trường hợp Mỗi một điểm trên hình đại diện cho một người vay tiền ngân hàng tại một thời điểm trong quá khứ Dữ liệu được phân loại thành hai lớp: những người không có khả năng trả nợ và những người tình trạng vay nợ đang ở trạng thái tốt
Hai mục đích chính của KPDL trong thực tế là dự đoán và mô tả
Trang 16Hình 1.2 Tập dữ liệu với hai lớp: có và không có khả năng trả nợ
1.3.4.1 Khai phá dữ liệu dự đoán
Nhiệm vụ của KPDL dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên
cơ sở dữ liệu hiện thời Nó sử dụng các biễn hay các trường trong cơ sở dữ liệu để dự đoán các giá trị không biết hay các giá trị tương lai Bao gồm các kỹ thuật: Phân loại (Classification); Hồi qui (Regression … )
a) Phân loại
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu
dữ liệu Quá trình phân loại dữ liệu thường gồm hai bước : xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu
Bước 1: Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước Mỗi mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính lớp Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này được gọi là học có giám sát
Bước 2: Sử dụng mô hình để phân loại dữ liệu Trước hết chúng ta phải tính độ chính xác của mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được
sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai
Hay nói các khác, phân loại là học một hàm ánh xạ một mục dữ liệu vào trong số các lớp cho trước Hình 1.3 cho thấy sự phân loại của các dữ liệu vay nợ trong hai miền lớp Ngân hàng có thể sử dụng các miền phân loại để tự động quyết định liệu những người vay nợ trong tương lai có nên cho vay hay không
Trang 17Hình 1.3 Phân loại của các dữ liệu vay nợ trong hai miền lớp
b) Hồi quy
Phương pháp hối quy khác với phương pháp phân loại dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tục còn phân loại dữ liệu chỉ dùng để dự đoán về các giá trị rời rạc
Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực Có rất nhiều ứng dụng KPDL với nhiệm vụ hồi quy, chẳng hạn như khả năng đánh giá tử vong của bệnh nhân khi biết các kết quả xét nghiệm; chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo
1.3.4.2 Khai phá dữ liệu mô tả
Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của
dữ liệu trong CSDL hiện có Bao gồm các kỹ thuật: Phân cụm; Khai phá luật kết hợp
a) Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát Phân cụm
dữ liệu đòi hỏi phải định nghĩa trước các dữ liệu huấn luyện
Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web
Hình 1.4 cho thấy sự phân cụm tập dữ liệu cho vay vào trong 3 cụm: Lưu ý rằng các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một cụm
Trang 18Hình 1.4 : Phân cụm tập dữ liệu cho vay thành 3 cụm
b) Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật KPDL là luật kết hợp tìm được Chẳng hạn, phân tích cơ sở dữ liệu bán hàng nhận được thông tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau: “Máy tính=>Phần mềm quản lý tài chính” (Độ hỗ trợ: 2%, độ tin cậy: 60%)
Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật Chúng phản ánh sự hữu ích vá sự chắc chắn của luật đã khám phá Độ hỗ trợ 2% có nghĩa là 2% của tất cả các vụ đang phân tích chỉ ra rằng máy tính và phần mềm quản lý tài chính là đã được mua cùng nhau Còn độ tin cậy 60% có nghĩa là: 60% các khách hàng mua máy tính cũng mua phần mềm
Khai phá luật kết hợp được thực hiện qua hai bước:
qua tính hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu
mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như maketing có chủ đích, phân tích quyết định, quản lý kinh doanh, phân tích giá thị trường …[3]
1.3.5 Kiến trúc của hệ thống khai phá dữ liệu
Kiến trúc điển hình của một hệ thống KPDL được trình bày trong hình 1.5 Trong kiến trúc hệ thống này, các nguồn dữ liệu cho các hệ thống KPDL bao gồm hoặc Cơ sở dữ liệu, hoặc Kho dữ liệu, hoặc World Wide Web, hoặc kho chứa dữ liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nói trên
Trang 19Cơ sở tri thức, bao chứa các tri thức miền ứng dụng hiện có, được sử dụng trong thành phần hệ thống KPDL để làm tăng tính hiệu quả của thành phần này Một
số tham số của thuật toán KPDL tương ứng sẽ được tinh chỉnh theo tri thức miền sẵn
có từ cơ sở tri thức trong hệ thống Cơ sở tri thức còn được sử dụng trong việc đánh giá các mẫu đã khai phá được xem chúng có thực sự hấp dẫn hay không, trong đó có việc đối chứng mẫu mới với các tri thức đã có trong cơ sở tri thức Nếu mẫu khai phá được là thực sự hấp dẫn thì chúng được bổ sung vào cơ sở tri thức để phục vụ cho hoạt động tiếp theo của hệ thống Như vậy, nguồn tri thức bổ sung vào cơ sở tri thức
ở đây không chỉ từ lập luận lôgic theo các hệ toán lôgic để có tri thức mới, không chỉ
do con người hiểu biết thêm về thế giới khách quan để bổ sung vào mà còn là tri thức được phát hiện một cách tự động từ nguồn dữ liệu
Hình 1.5 : Kiến trúc điển hình của một hệ thống khai phá dữ liệu
Trang 20CHƯƠNG 2 – CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
2.1 Tổng quan cơ sở dữ liệu đa phương tiện
Multimedia đã trở thành một phần quan trọng trong đời sống xã hội, trong văn hóa, công nghệ và giáo dục Trên thực tế, bất kỳ một loại thông tin nào cũng có thể phân loại là Multimedia như tạp chí, truyền hình, các trang Web hay các bộ phim.[4]
Công nghệ multimedia liên quan tới việc mô tả sự kết hợp các dạng thức thông tin khác nhau (văn bản, dữ liệu, hình ảnh, âm thanh, video) dưới dạng tín hiệu
số Có thể nêu ra đây một số ứng dụng multimedia như :
E-learning
Hiện tại ảo (Vitual Reality)
Các công nghệ chủ yêu liên quan đến multimedia bao gồm:
Kỹ thuật nén
Video Servers
chúng không phụ thuộc vào thời gian trình diễn Media tĩnh bao gồm dữ liệu văn bản, hình ảnh tĩnh
vào tốc độ trình diễn Media động bao gồm annimation, video, audio Media động phụ thuộc chặt chẽ vào tốc độ trình diễn
Trang 21Ví dụ, để cảm nhận chuyển động trơn tru, video phải được trình chiếu với tốc độ 25 frame/sec (hay 30 frame/sec phụ thuộc vào loại hệ thống video) Tương tự, khi ta cho phát ra tiếng nói, âm nhạc, chúng chỉ được cảm nhận tự nhiên khi đạt được tốc độ nhất định, nếu không chúng làm giảm chất lượng và
ý nghĩa âm thanh Vì các media này phải được trình diễn liên tục và ở tốc độ cố định cho nên chúng còn được gọi là media liên tục Hay còn gọi chúng là
media đẳng thời vì quan hệ giữa các đơn vị media và thời gian là cố định.[1]
2.1.1.2 Đa phương tiện (Multimedia)
Khái niệm multimedia đề cập đến tập hợp các kiểu media được tích hợp với nhau trong đó ít nhất có một kiểu media không phải là văn bản (nói cách khác là ít nhất có một media trong đó là ảnh, audio hay video)
Ví dụ: Một trang Web về chủ đề của Mozart có văn bản liên quan đến nhà soạn nhạc cùng với một tập tin âm thanh của một số bản nhạc của ông và thậm chí có thể
là một video âm nhạc của ông đang được chơi
2.1.1.3 Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu
CSDL: Được hiểu là một bộ sưu tập hoặc một kho dữ liệu hoặc các mục
media
Hệ quản trị cơ sở dữ liệu (DBMS): Là một hệ thống dùng để quản trị cơ sở dữ liệu
2.1.1.4 Truy tìm thông tin tài liệu văn bản
Hệ thống truy tìm thông tin tự động hóa (IR) được tạo lập từ năm 1940 nhằm quản lý lượng lớn các tài liệu khoa học Một hệ thống IR có chức năng lưu trữ và quản lý số lượng lớn các tài liệu khoa học theo cách thích hợp để các truy vấn có thể truy tìm thông tin một cách nhanh chóng theo yêu cầu của người sử dụng
2.1.1.5 Truy xuất và truy tìm Multimedia
Các DBMS truy xuất các khoản mục dựa trên các số liệu có cấu trúc Việc truy xuất dữ liệu dựa vào những đặc trưng của từng lợi dữ liệu: màu sắc, lời giải thích văn bản về media đó Việc truy xuất nội dung là tương tự thay vì đối sánh chính xác giữa các truy vấn và các mục media
MIRS: Là một hệ thống cơ sở cung cấp việc truy xuất thông tin Multimedia khi
sử dụng tổ hợp DBMS Trong một MIRS các vấn đề về bảo mật hay phiên bản không được thực hiện đầy đủ Một MIRS đầy đủ gọi là một Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)
Trang 222.1.1.6 Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục
Một trong những nhiệm vụ quan trọng của MIRS là trích chọn đặc trưng hay biểu diễn nội dung Trích chọn đặc trưng là tiến trình tự động hay bán tự động Trong một số tài liệu còn gọi tiến trình trích chọn đặc trưng là chỉ mục (chỉ số hóa)
Chỉ mục là danh từ, đề cập đến cấu trúc dữ liệu hay đề cập đến tổ chức các đặc trưng đã trích chọn để tìm kiếm hiệu quả
2.1.2 Vai trò của MIRS
Cần phải có MIRS vì:
Ngày càng có nhiều dữ liệu đa phương tiện được thu thập và lưu trữ, để sử dụng tốt cần phải có hệ thống truy tìm và chỉ số hóa tốt
đặc biệt, một CSDL truyền thống không phù hợp trong việc quản lý cơ sở dữ liệu đa phương tiện
Các kỹ thuật truy tìm thông tin có thể giúp truy tìm đa phương tiện nhưng chúng chưa có khả năng quản lý hiệu quả dữ liệu đa phương tiện
2.1.2.1 Các DBMS và vai trò của chúng trong việc xử lý dữ liệu Multimedia
Các DBMS ngày nay được phát triển khá tốt và được sử dụng rộng rãi cho các
dữ liệu có cấu trúc DBMS quen thuộc là DBMS quan hệ (Ralational Database Management System - RDBMS) Trong RDBMS, thông tin được tổ chức thành bảng hoặc các quan hệ Các dòng của bảng tương ứng với các khoản mục thông tin hoặc các record, trong khi đó các cột tương ứng với các thuộc tính Ngôn ngữ truy vấn có cấu trúc (SQL) được sử dụng để t ạo ra các bảng như thế và để chèn và truy xuất thông tin từ các bảng đó.[1]
Một dạng khác của các DBMS là hệ thống quản trị CSDL hướng đối tượng (OODBMS- Object Oriented Database Management System) Các OODBMS kết nối các khả năng của cơ sở dữ liệu (như lưu trữ và tìm kiếm) và các đặc trưng hướng đối tượng (tóm lược, sự thừa kế, tính đồng nhất đối tượng) Một phương pháp tiếp cận chung là kết nối các đặc điểm hướng đối tượng với cơ sở dữ liệu quan hệ Hệ thống
đã được kết nối thì được gọi là một hệ thống cơ sở dữ liệu hướng đối tượng quan hệ Trong một hệ thống như vậy, các đối tượng được xác định một cách thích hợp trong hướng đối tượng Trong đó mỗi đối tượng chứa các đặc tính hoặc thuộc tính và các phương pháp hoặc các hàm được sử dụng để chế tác ra các đặc tính khác
Khả năng cần có trong hệ thống như sau:
Trang 23phương tiện
2.1.2.2 Hệ thống IR và vai trò của nó trong việc truy xuất multimedia
Ngoài các DBMS, có loại hệ thống quản lý thông tin khác tập trung vào việc truy xuất tài liệu văn bản Loại hệ thống này được gọi là hệ thống truy xuất thông tin (IR) Công nghệ IR rất quan trọng trong hệ thống quản lý thông tin multimedia vì hai
lý do chính:
như các thư viện Văn bản là một nguồn thông tin quan trọng trong bất kỳ một
tổ chức nào Để sử dụng các thông tin đã được lưu trữ trong các tài liệu này, cần có một hệ thống IR hiệu quả
thanh, hình ảnh, video Thông thường thì công nghệ IR có thể được sử dụng cho việc phục hồi thông tin đa truyền thông
Tuy nhiên, việc sử dụng chỉ để xử lý dữ liệu truyền thông phải tuân theo các hạn chế sau:
Việc chú giải nhìn chung phải làm bằng tay và tiêu tốn thời gian
Các kỹ nghệ IR không thể điều khiển các câu hỏi từ văn bản khác (như âm thanh và hình ảnh)
khác nhau, nếu không thì cũng chỉ là cùng mô tả một văn bản
2.1.2.3 Tích hợp truy tìm và chỉ số hóa thông tin đa phương tiện
Có thể thấy DBMS và IR không thể đáp ứng đầy đủ các yêu cầu về chỉ số hoá
và truy xu ất multimedia, vì vậy cần có các công nghệ mới để vận dụng những đặc trưng riêng của multimedia
Tuy vậy, các DBMS và IR vẫn đóng vai trò quan trọng trong các MDBMS Các phần của dữ liệu multimedia như ngày và tác giả tạo lập của tài liệu multimedia
Trang 24là có cấu trúc Dữ liệu có kết cấu này có thể được điều khiển bằng các kỹ nghệ DBMS Văn bản chú giải vẫn là phương pháp hiệu lực trong việc ghi lại nội dung
2.1.3 Khái quát về MIRS
Các thao tác MIRS được mô tả trên hình 2.1 Dữ liệu (các mục thông tin) trong CSDL được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa Sau đó chúng được chỉ số hóa trên cơ sở đặc trưng và ngữ nghĩa
Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử lý và các đặc trưng của nó được trích chọn Các đặc trưng này sau đó được so sánh với các đặc trưng hay chỉ mục dữ liệu trong CSDL Các mục thông tin nào có đặc trưng gần giống nhất với các đặc trưng của câu truy vấn thì được tìm ra và trình diễn cho người
sử dụng
Hình 2.1 Một mẫu truy xuất thông tin tổng quát
Mô hình trên đây cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:
Các mục thông tin có thể là tổ hợp bất kỳ các loại media
mờ và mềm dẻo?
Trang 25Multimedia?
2.1.4 Khả năng mong đợi và các ứng dụng của MIRS
MIRS cần phải mạnh và mềm dẻo Khả năng của chúng được miêu tả bằng các kiểu truy vấn mà chúng có thể hỗ trợ Các loại truy vấn mong đợi của MIRS như sau:
Truy vấn trên cơ sở meta-data: Meta-data là các thuộc tính hình thức của các
mục trong CSDL như tên tác giả, ngày tạo lập Thí dụ truy vấn trong ứng dụng VOD (Video on Demand) có thể là “Liệt kê các phim do ông NAME đạo diễn vào năm 2004” DBMS đáp ứng loại truy vấn này
Truy vấn trên cơ sở mô tả: Mô tả (annotation) đề cập đến miêu tả (description)
bằng văn bản nội dung các mục CSDL Các câu truy vấn theo từ khóa hay text form, việc truy tìm thực hiện trên cơ sở tương tự giữa câu truy vấn và mô
free-tả Thí dụ truy vấn có thể là “Chỉ ra các đoạn video trong đó ACTOR đang đi
xe đạp” Với loại truy vấn này, ta giả sử rằng các mục đã được mô tả đầy đủ và
có thể quản lý bởi các kỹ thuật IR
Truy vấn trên cơ sở mẫu (pattern) hay đặc trưng: Mẫu dữ liệu là các thông
tin tĩnh về dữ liệu đa phương tiện như phân bổ màu, cường độ âm thanh, mô tả kết cấu bề mặt Thí dụ của loại truy vấn này có thể là “Chỉ ra khung (frame) video với phân bổ màu như THIS” Để trả lời loại truy vấn này, các thông tin thống kê về các mục CSDL phải được chuẩn bị và lưu trữ trước
Truy vấn theo thí dụ (by example): Truy vấn trong các đối tượng đa phương
tiện như ảnh, bản vẽ và đoạn âm thanh Thí dụ truy vấn có thể là “Hãy chỉ ra phim trong đó có đoạn tương tự như THIS PICTURE” Loại truy vấn này có thể phức tạp hơn khi bổ sung yếu tố quan hệ thời gian và không gian giữa các đối tượng
dụ, truy vấn trên cơ sở thông tin chi tiết, cụ thể như kích thước đối tượng hay tuổi cá nhân
rãi, bao gồm các ứng dụng trong các lĩnh vực Y tế, An ninh, Giáo dục, Báo trí, Giải trí, Đăng ký bản quyền…
Cuối cùng, các MIRS sẽ tập trung vào chính thông tin thay thế các loại truyền thông và việc miêu tả chúng có thể được sắp xếp hoặc dịch ra từ loại truyền thông
Trang 26này đến loại truyền thông khác Ví dụ, một video tài li ệu cần phải được sử dụng video, hình ảnh, văn từ, âm thanh, lời nói Vì vậy phương tiện dò tìm phải kết nối các
câu hỏi (dữ liệu) với các mục cơ sở dữ liệu [1]
2.2 Dữ liệu đa phương tiện
Dữ liệu multimedia được chia thành hai lớp là các dữ liệu liên tục và các dữ liệu không liên tục Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo thời gian Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào thời gian, các loại dữ liệu đặc trưng cho dạng này là các dữ liệu văn bản (có hoặc không
có định dạng), hình ảnh tĩnh và các đối tượng đồ họa Các kiểu dữ liệu thông thường của một CSDL multimedia bao gồm:
JPEG hoặc MPEG
Video
Các đặc tính chung của dữ liệu multimedia bao gồm:
các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hoá, tìm kiếm nội dung, truy vấn dữ liệu thường là không áp dụng được
hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến việc lưu trữ, thao tác và mô tả chúng
lưu trữ lớn
phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các ứng dụng CSDL multimedia [4]
2.3 Hệ quản trị cơ sở dữ liệu đa phương tiện
2.3.1 Mục đích của MDBMS
Một MMDBMS cung cấp một môi trường thích hợp để sử dụng và quản lý các thông tin cơ sở dữ liệu đa phương tiện Vì vậy, nó phải hỗ trợ các kiểu dữ liệu đa phương tiện khác nhau bên cạnh việc phải cung cấp đầy đủ các chức năng của một
Trang 27DBMS truyền thống như khai báo và tạo lập cơ sở dữ liệu, khai phá dữ liệu, truy cập
và tổ chức dữ liệu, độc lập dữ liệu, tính riêng, toàn vẹn dữ liệu, kiểm soát phiên bản Các chức năng của MDBMS cơ bản tương tự như các chức năng của DBMS, tuy nhiên, bản chất của thông tin tạo ra các đòi hỏi mới Bằng cách sử dụng các chức năng tổng quát của DBMS chúng ta có thể trình bày mục đích của MMDBMS như sau:
trình khác nhau đòi hỏi dữ liệu đó
các chương trình ứng dụng
qua các quy tắc được áp dụng trên các giao dịch đồng thời
cũng như các yêu cầu của chương trình
cách trái phép
Kiểm soát sự toàn vẹn: Bảo đảm sự toàn vẹn của CSDL một giao dịch này sang một giao dịch khác thông qua việc áp đặt các ràng buộc
của các giao dịch thất bại không làm ảnh hưởng đến dữ liệu lưu trữ
tiện
tượng lưu trữ có thể được yêu cầu bởi các ứng dụng
2.3.2 Các yêu cầu của một MMDBMS
Để có được một MMDBMS đáp ứng được các yêu cầu đã nêu ra ở trên, chúng
ta cần phải có được một số các yêu cầu cụ thể cho nó, các yêu cầu ở đây bao gồm:
Trang 28Bên cạnh các yêu cầu trên, để cho hệ thống hoạt động có thể hoạt động tốt cần phải giải quyết các vấn đề sau:
gồm các lĩnh vực ứng dụng khác nhau
độ nào? Các công nghệ, cấu trúc nền tảng được sắp xếp và sử dụng như thế nào?
để có thể phát triển được một ngôn ngữ truy vấn đáng tin cậy và có hiệu quả để
hỗ trợ cho nhiều phương thức truy nhập và các kiểu đối tượng khác nhau Làm thế nào để ngôn ngữ truy vấn hỗ trợ được các đặc tính và hình thái khác nhau của dữ liệu đa phương tiện
đạt được các yêu cầu và cách thức thể hiện khác nhau Làm cách nào để hỗ trợ việc đồng bộ hoá việc thể hiện các dữ liệu tạm thời cũng như các dữ liệu bộ phận của các dữ liệu đa phương tiện khác nhau
khác nhau thì hệ thống sẽ cập nhật các thành phần này như thế nào
2.3.2.1 Khả năng quản trị lưu trữ lớn
Hình 2.2 Cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của hệ thống lưu trữ
Trang 29Các yêu cầu về khả năng lưu trữ của các hệ thống multimedia có thể được đặc trưng bởi khả năng lưu trữ lớn và cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của hệ thống lưu trữ Việc lưu trữ theo thứ bậc đặt các đối tượng dữ liệu multimedia trong một hệ thống phân bậc bao gồm các thiết bị khác nhau, có thể là trực tuyến (online), không trực tuyến (offline)
Một cách tổng quát, mức cao nhất của hệ thống sẽ cho ta hiệu suất cao nhất, khả năng lưu trữ nhỏ nhất, chi phí cao nhất và sự cố định ít nhất Các lớp cao trong hệ thống phân cấp này có thể sử dụng để lưu trữ các đối tượng tóm tắt nhỏ hơn của một
dữ liệu multimedia hoàn chỉnh với mục đích cung cấp khả năng duyệt và xem trước nhanh đối với nội dung của dữ liệu Chi phí và hiệu suất (tính về mặt thời gían) sẽ giảm dần nếu ta đi xuống các lớp phía dưới của hệ thống phân cấp, cùng với điều này
là sự tăng của khả năng lưu trữ và tính cố định
Thông thường trong hầu hết các hệ thống lưu trữ multimedia, mức cao nhất của lưu trữ thường là RAM, tiếp theo đó là đĩa từ, các thiết bị này cung cấp các dịch vụ trực tuyến (online services) Các thiết bị lưu trữ quang học cung cấp mức lưu trữ tiếp theo, khái niệm trực tuyến ở đây có thể hiểu là gần như, tiêu biểu cho các thiết bị lưu trữ kiểu này là các jukebox (CD-DVD jukebox) Mức thấp nhất trong hệ thống lưu trữ phân cấp có thể là các thiết bị như băng từ, đĩa quang hoặc các thiết bị tương tự, các thiết bị này cung cấp khả năng lưu trữ offline và có thể không cần kết nối trức tiếp với máy tính Chúng cung cấp khả năng lưu trữ và tính cố định cao hơn nhưng cũng có hiệu suất kém nhất về thời gian truy nhập
Vì những lý do trên, một MMDBMS phải quản lý và tổ chức việc lưu trữ đối với bất kỳ mức nào của hệ thống phân cấp, nó phải có cơ chế tự động để chuyển các đối tượng dữ liệu đa phương tiện từ một mức này của hệ thống lưu trữ phân cấp sang mức khác, việc chuyển cấp này phải dựa trên tần suất sử dụng của dữ liệu đa phương tiện Trong trường hợp dữ liệu đa phương tiện được lưu trữ ở các thiết bị offline thì MMDBMS cũng phải có được các thông tin trợ giúp cho việc dễ dàng xác định các thiết bị cụ thể có chứa các thông tin cần truy xuất [4]
2.3.2.2 Hỗ trợ truy vấn và khai thác dữ liệu
Truy vấn đối với dữ liệu đa phương tiện bao gồm các kiểu dữ liệu khác nhau, các từ khoá, thuộc tính, nội dung… Do người dùng có thể có các cách suy nghĩ khác nhau về dữ liệu đa phương tiện vì vậy kết quả thu được từ việc truy vấn dữ liệu đa phương tiện có thể không hoàn toàn chính xác và có thể chỉ là các kết quả tương tự hoặc là một phần của kết quả hơn là các kết quả chuẩn xác
Trang 30Do việc có thể kết quả là không chính xác nên chúng ta phải có khả năng phân hạng các kết quả thu được sao cho chúng gần với yêu cầu truy vấn nhất, tương tự như vậy chúng ta cũng phải có các phương thức để loại bỏ bớt những kết quả không thoả mãn yêu cầu truy vấn Việc làm này sẽ giảm thiểu các sai sót về mặt tính toán trong
quá trình tìm kiếm
2.3.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện
Giả sử tính đa dạng của các kiểu dữ liệu đã được hỗ trợ, một MMDBMS cũng phải cung cấp khả năng để tích hợp các loại dữ liệu này để tạo nên các kiểu dữ liệu
Đa phương tiện mới và thể hiện các dữ liệu này khi có yêu cầu trong một khung thời gian yêu cầu Độ phức tạp của việc tích hợp, tổng hợp và thể hiện bị tăng thêm bởi các đặc tính cơ bản của dữ liệu đa phương tiện như tính liên tục (tạm thời) của dữ liệu đa phương tiện đặc biệt là với các kiểu dữ liệu như video, hoạt hình hoặc
âm thanh Hơn nữa, một vài ứng dụng cụ thể như các hệ thống thông tin địa lý có thể đòi hỏi MMDBMS cung cấp các thông tin bộ phận (về một vùng, miền nào đó) Tất
cả các yếu tố này kết hợp với nhau làm cho việc tổng hợp và thể hiện đa phương tiện trở thành một quy trình phức tạp mà MDBMS phải cung cấp để đáp ứng các yêu cầu
mà người dùng đòi hỏi
Các vấn đề về tích hợp có thể được cải thiện trong một số trường hợp, đặc biệt
là khi các hệ thống CSDL đa phương tiện được xây dựng nhằm phục vụ cho các cộng đồng người dùng xác định trước Trong các trường hợp đặc biệt này, MMDBMS có
thể hỗ trợ một số tính năng mà các ứng dụng khác không cần đến [1]
2.3.2.4 Giao diện và tương tác
Sự khác nhau về bản chất của các dữ liệu Multimedia đòi hỏi phải có các giao diện khác nhau để tương tác với dữ liệu Thông thường, mỗi loại dữ liệu có các phương thức truy nhập và thể hiện riêng của mình, ví dụ như dữ liệu video và âm thanh sẽ đòi hỏi các giao diện người dùng khác nhau để thể hiện và truy vấn
Đối với một vài ứng dụng Multimedia, đặc biệt là sự có mặt của các loại dữ liệu có tính liên tục người dùng thường đòi hỏi phải có các khả năng tương tác với dữ liệu (chẳng hạn như đối với dữ liệu VCR thì người dùng thường mong muốn có chức năng như tua lên (fast forward) hoặc tua ngược lại (reverse) Khi mà một hệ thống multimedia cung cấp các dịch vụ như vậy thì nó phải được liên kết vào CSDL đặc
biệt là việc khai thác các đối tượng, tổng hợp và đồng bộ chúng
2.3.2.5 Hiệu suất
Hiệu suất là một vấn đề quan trọng cần được xem xét đối với một MDBMS Các hệ thống CSDL Multimedia tạo ra hiệu suất dựa trên sự tối ưu hoá việc truy nhập