2.2 Khai phá dữ liệu và WebCƠ SỞ DỮ LIỆU WEB Giao diện đồ hoạ cho người dùng Đánh giá mẫu Máy khai mỏ dữ liệu Máy chủ cơ sở dữ liệu hay kho dữ liệu Cơ sở dữ liệu Làm sạch và tích hợp L
Trang 1CHƯƠNG 2
CƠ SỞ DỮ LIỆU WEB
CƠ SỞ DỮ LIỆU WEB & XML
Trang 22.1 Cở sở dữ liệu Web
2.2 Khai phá dữ liệu và Web
2.3 Kiến trúc cơ sở dữ liệu web
2.4 Mối quan hệ với XML
Chương 2: Cơ sở dữ liệu web
Trang 3 MỤC TIÊU
- Trình bày được:
+ Các khái niệm về web, csdl web+ Thu thập và khai phá các loại dữ liệu+ Các kiến trúc csdl trên web
+ Quan hệ giữa csdl web và xml
CƠ SỞ DỮ LIỆU WEB
Trang 42.1 Cở sở dữ liệu Web
- Cần có lược đồ trình bày dữ liệu thích hợp:
mô hình dữ liệu web được nghiên cứu năm 1996
sự phát triển xml (1998) đã hỗ trợ cho web
XML mở rộng cho nhiều ứng dụng khác
CƠ SỞ DỮ LIỆU WEB
Trang 52.1 Cở sở dữ liệu Web
CƠ SỞ DỮ LIỆU WEB
Mô hình dữ liệu cho Web
W3C
SGML, HTML, ODA Models
Data Models for Database systems
XML Specifications by
W3C
Models for web and other Extensions
Trang 62.1 Cở sở dữ liệu Web
Cơ sở dữ liệu web là csdl cho các website trên internet.
- quản lý cơ sở dữ liệu web bao gồm:
xử lý vấn tin
cập nhật dữ liệu
quản lý siêu dữ liệu
bảo mật và toàn vẹn dữ liệu
CƠ SỞ DỮ LIỆU WEB
Trang 7 phân quyền cập nhật (read only, write,…)
CƠ SỞ DỮ LIỆU WEB
Trang 82.1 Cở sở dữ liệu Web
- Quản lý siêu dữ liệu
mô tả các thông tin liên quan đến cơ sở dữ liệu (người
dùng, điều khiển truy cập và các chính sách )
môi trường động
CƠ SỞ DỮ LIỆU WEB
Trang 9 tích hợp công nghệ quản lý csdl với lưu trữ khối
CƠ SỞ DỮ LIỆU WEB
Trang 10 dữ liệu từ nhiều nguồn khác nhau
duy trì tính toàn vẹn, chất lượng dữ liệu là cần thiết
CƠ SỞ DỮ LIỆU WEB
Trang 112.1 Cở sở dữ liệu Web
- Dữ liệu có cấu trúc là dữ liệu có một cấu trúc hoàn toàn xác
định, mỗi phần tử có kiểu cụ thể như interger, string, real,
- Dữ liệu không có cấu trúc là dữ liệu không có một cấu trúc
nhất định (dữ liệu đa phương tiện, văn bản, hình ảnh,…)
- Dữ liệu bán cấu trúc là dữ liệu có cấu trúc không đầy đủ nhưng
có cấu trúc từng phần (phân đoạn tiêu đề, tác giả)
CƠ SỞ DỮ LIỆU WEB
Trang 122.1 Cở sở dữ liệu Web
- nghiên cứu phát triển mô hình để trình bày dữ liệu bán cấu trúc
mô hình đầu tiên dựa trên cơ sở đối tượng
mô hình đối tượng quan hệ
lược đồ trình bày phổ biến là XML
XML không phải là mô hình dữ liệu, nhưng thay vào đó làsiêu mô hình để trình bày nhiều tài liệu khác nhau
CƠ SỞ DỮ LIỆU WEB
Trang 132.2 Khai phá dữ liệu và Web
- Khai phá dữ liệu là việc trích rút tri thức một cách tự động và hiệu quả từ một khối lượng dữ liệu rất lớn và có tiềm năng mang lại lợi ích
thông tin trên web ngày càng lớn
khai thác dữ liệu, chiết xuất mẫu và tìm kiếm thông tin cho người dùng là cần thiết
khai phá dữ liệu còn gọi là phát hiện tri thức trong cơ sở dữ liệu
CƠ SỞ DỮ LIỆU WEB
Trang 142.2 Khai phá dữ liệu và Web
CƠ SỞ DỮ LIỆU WEB
Trang 152.2 Khai phá dữ liệu và Web
CƠ SỞ DỮ LIỆU WEB
Giao diện đồ hoạ cho người dùng
Đánh giá mẫu
Máy khai mỏ dữ liệu
Máy chủ cơ sở dữ liệu hay
kho dữ liệu
Cơ sở dữ liệu Làm sạch và tích hợp Lọc
Cơ sở tri thức
Kiến trúc hệ thống khai mỏ dữ liệu
Kho dữ liệu
Trang 162.2 Khai phá dữ liệu và Web
- Cơ sở dữ liệu, kho dữ liệu:
lưu trữ thông tin
các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể
được thực hiện tại đây
- Máy chủ cơ sở dữ liệu hay kho dữ liệu: lấy dữ liệu thích hợp dựa trên những yêu cầu khai phá của người dùng
- Cơ sở tri thức: miền tri thức được dùng để tìm kiếm hay đánh giá độ quan trọng của các mẫu kết quả
CƠ SỞ DỮ LIỆU WEB
Trang 172.2 Khai phá dữ liệu và Web
- Máy khai phá dữ liệu: một tập các module chức năng
đặc trưng hóa, phân lớp, phân cụm
phân tích sự tiến hóa và sự chệch hướng
- Đánh giá mẫu :
duyệt tìm các mẫu đáng được quan tâm
có thể được tích hợp vào module khai phá
CƠ SỞ DỮ LIỆU WEB
Trang 182.2 Khai phá dữ liệu và Web
- Giao diện đồ hoạ cho người dùng:
người dùng giao tiếp với hệ thống
đặc tả yêu cầu khai phá, cung cấp thông tin trợ giúp cho việc tìm kiếm và thực hiện khai phá
xem các lược đồ cơ sở dữ liệu, kho dữ liệu, đánh giá mẫu
và hiển thị các mẫu trong các khuôn dạng khác nhau
CƠ SỞ DỮ LIỆU WEB
Trang 192.2 Khai phá dữ liệu và Web
- Quá trình khai phá tri thức gồm các bước sau:
Biểu diễn tri thức
CƠ SỞ DỮ LIỆU WEB
Trang 202.2 Khai phá dữ liệu và Web
thông tin trên web rất nhiều
làm thế nào để chuyển dữ liệu thành thông tin và sau đó làtri thức để người dùng lấy đúng những thông tin họ muốn
tích hợp công cụ khai thác dữ liệu vào trong dữ liệu web
CƠ SỞ DỮ LIỆU WEB
Trang 212.2 Khai phá dữ liệu và Web
kho dữ liệu (Data Warehousing) có thể cần thiết
CƠ SỞ DỮ LIỆU WEB
Trang 222.2 Khai phá dữ liệu và Web
CƠ SỞ DỮ LIỆU WEB
Khai mỏ dữ liệu đa phương tiện
Web Miner
Intergration through the web
with tools like XML
Video Data Multimedia Data Text Data
Trang 232.2 Khai phá dữ liệu và Web
Nhiều chuẩn truy cập và quản lý dữ liệu web được phát triển bao gồm nhiều mô hình, ngôn ngữ đặc tả và kiến trúc:
International Standards Organization - ISO
W3C (XML – DTD)
Object Management Group - OMG
chúng ta mong đợi có ngôn ngữ khai thác dữ liệu để phát
triển web
CƠ SỞ DỮ LIỆU WEB
Trang 242.2 Khai phá dữ liệu và Web
Trang 252.2 Khai phá dữ liệu và Web
CƠ SỞ DỮ LIỆU WEB
Phân tích mẫu và dự đoán
Web information Management
Analyze Usage Pattern
Guidance
to User
Trang 262.2 Khai phá dữ liệu và Web
thương mại điện tử
giải trí trên mạng
tìm kiếm thông tin
CƠ SỞ DỮ LIỆU WEB
Ứng dụng Mining trong thương mại điện tử
Commerce Site
E-Strategy to Improve website
Mine Public and Private Databases
Mine Usage Patterns
Ứng dụng Mining trong tìm kiếm
Web search
Engine
Web Miner/
Interfaces Tích hợp mạnh/yếu
Trang 272.3 Kiến trúc cơ sở dữ liệu web
các xử lý tập trung vào một máy tính trung tâm
Máy chủ (File-Server) lưu giữ các tập tin dữ liệu
Các ứng dụng và các hệ quản trị CSDL chạy trên mỗi trạm làm việc (workstation) yêu cầu các tập tin dữ liệu
Máy chủ hoạt động như một đĩa cứng chứa dữ liệu có thểchia sẻ
CƠ SỞ DỮ LIỆU WEB
Trang 282.3 Kiến trúc cơ sở dữ liệu web
CƠ SỞ DỮ LIỆU WEB
Trang 292.3 Kiến trúc cơ sở dữ liệu web
Kiến trúc này có những nhược điểm sau đây:
Lượng dữ liệu truyền qua lại trên mạng rất nhiều
Mỗi trạm làm việc phải có một bản sao của hệ quản trị
CSDL
Việc giải quyết các vấn đề tương tranh, khôi phục dữ liệu
và bảo đảm tính nhất quán của dữ liệu sẽ phức tạp hơn do
có nhiều hệ quản trị CSDL truy cập vào cùng các tập tin dữliệu
CƠ SỞ DỮ LIỆU WEB
Trang 302.3 Kiến trúc cơ sở dữ liệu web
các bộ phận phần mềm tương tác với nhau tạo nên hệ thống:
tiến trình máy khách (client) yêu cầu cung cấp tài nguyên .
tiến trình máy chủ (server) cung cấp tài nguyên
hai tiến trình này chạy trên hai máy tính khác nhau
CƠ SỞ DỮ LIỆU WEB
Trang 312.3 Kiến trúc cơ sở dữ liệu web
Quá trình hoạt động:
tiến trình máy khách nhận yêu cầu của người dùng, kiểm tra cú pháp và tạo ra các câu truy vấn (SQL hoặc ngôn ngữCSDL)
gửi thông điệp đến máy chủ, chờ nhận trả lời và định dạng
dữ liệu trả lại cho NSD đầu cuối
tiến trình máy chủ tiếp nhận và xử lý các yêu cầu về CSDL rồi trả kết quả về lại cho máy khách (kiểm tra quyền truy cập
dữ liệu, truy vấn, đảm bảo tính toàn vẹn dữ liệu, )
CƠ SỞ DỮ LIỆU WEB
Trang 322.3 Kiến trúc cơ sở dữ liệu web
CƠ SỞ DỮ LIỆU WEB
Trang 332.3 Kiến trúc cơ sở dữ liệu web
Ưu điểm:
khả năng truy cập rộng rãi đến các CSDL
nâng cao khả năng thực hiện
chi phí cho phần cứng có thể được giảm
chi phí cho truyền thông được giảm
nâng cao tính nhất quán của dữ liệu
CƠ SỞ DỮ LIỆU WEB
Trang 342.3 Kiến trúc cơ sở dữ liệu web
CƠ SỞ DỮ LIỆU WEB
Trang 352.3 Kiến trúc cơ sở dữ liệu web
2.3.3 Truy c ậ p cơ s ở d ữ li ệ u
gọi SQL vào trong chương trình
thông qua JDBC
phương thức truy cập cơ sở dữ liệu gateway
Gateway mang kết quả của csdl và định dạng theo khuôn dạng của web server Khi client yêu cầu đến server, dữ liệu từ csdl
được thu thập thông qua gateway và trả về cho người dùng.
CƠ SỞ DỮ LIỆU WEB
Trang 362.3 Kiến trúc cơ sở dữ liệu web
2.3.3 Truy c ậ p cơ s ở d ữ li ệ u
CƠ SỞ DỮ LIỆU WEB
Truy cập cơ sở dữ liệu qua gateway
Web Client
INTERNET
Database DBMS Gateway Web Server
Trang 372.3 Kiến trúc cơ sở dữ liệu web
2.3.3 Truy c ậ p cơ s ở d ữ li ệ u
Sử dụng XML: Nếu tất cả tài liệu được biểu diễn trong tài liệu XML, thì có thể cả web server và client đều hiểu được
CƠ SỞ DỮ LIỆU WEB
Truy cập cơ sở dữ liệu không qua gateway
Web Client
INTERNET
Database DBMS XML Web Server
Trang 382.3 Kiến trúc cơ sở dữ liệu web
là mô hình giao tiếp giữa client và server
server cung cấp dữ liệu
client yêu cầu dữ liệu
giao tiếp thông qua web
CƠ SỞ DỮ LIỆU WEB
Trang 392.3 Kiến trúc cơ sở dữ liệu web
Mô hình client yêu cầu dữ liệu
Tác tử web tìm kiếm dữ liệu trên các server thích hợp vàlấy dữ liệu về cho client
CƠ SỞ DỮ LIỆU WEB
Mô hình Yêu cầu – hồi đáp
Data Consumer
Data Producer
WEB
Searches for Data Request
Response
Trang 402.3 Kiến trúc cơ sở dữ liệu web
Mô hình đẩy (Push model)
client không yêu cầu dữ liệu Server phát sinh dữ liệu và đẩy về cho client
CƠ SỞ DỮ LIỆU WEB
Data Consumer
Data Producer
WEB
Searches for Data Push
Push
Trang 412.3 Kiến trúc cơ sở dữ liệu web
mô hình kéo (Pull model)
client kéo dữ liệu từ server
CƠ SỞ DỮ LIỆU WEB
Mô hình kéo
Data Consumer
Data Repository
WEB
Searches for Data
Go and get the Data
Pull Pull
Data Producer
Trang 422.3 Kiến trúc cơ sở dữ liệu web
các cấu trúc csdl quan hệ, đối tượng, …đều có thể được chuyển vào trong tài liệu XML
những tài liệu XML có thể khai phá hiệu quả
XML rất phù hợp với việc di chuyển dữ liệu và thao tác giữa các phần
CƠ SỞ DỮ LIỆU WEB
Trang 43HỌC GÌ – NHỚ GÌ?
CƠ SỞ DỮ LIỆU WEB