Bài giảng slide cơ sở dữ liệu_BKA_C6:Thiết kế cơ sở dữ liệu vật lý và hiệu suất
Trang 1Chương 6
Thiết kế cơ sở dữ liệu vật lý
Hiệu suất
Trang 2Nội dung
Trang 3Thiết kế cơ sở dữ liệu vật lý
Mục đích: chuyển mô tả dữ liệu luận lý thành các mô tả kỹ thuật để lưu trữ và truy xuất dữ liệu.
đạt hiệu quả thích đáng và bảo đảm tính toàn vẹn CSDL, bảo mật và tính phục hồi.
Trang 4Quá trình thiết kế vật lý
• Normalized relations
• Volume estimates
• Attribute definitions
• Response time expectations
• Data security needs
• File organizations
• Indexes and database architectures
• Query optimization Leads to
Decisions
Hình 6.1 Quá trình thiết kế vật lý.
Trang 5Quá trình thiết kế vật lý
Trang 6Quá trình thiết kế vật lý
Hình 6.2b Sơ đồ sử dụng phức hợp.
Trang 7Quá trình thiết kế vật lý
Data volumes
Trang 8Quá trình thiết kế vật lý
Access Frequencies
(per hour)
Hình 6.2d Sơ đồ sử dụng phức hợp.
Trang 9Quá trình thiết kế vật lý
Usage analysis: 140 purchased parts accessed per hour Î80 quotations accessed from these 140
purchased part accesses Î70 suppliers accessed from these 80 quotation accesses
Trang 10Quá trình thiết kế vật lý
Usage analysis: 75 suppliers accessed per hour Î40
quotations accessed from these 75 supplier accesses Î 40
purchased parts accessed from these
40 quotation accesses
Hình 6.2f Sơ đồ sử dụng phức hợp.
Trang 12Chọn kiểu dữ liệu
đổi.
âm thanh, …).
Trang 13Chọn kiểu dữ liệu
Code saves space, but costs
an additional lookup to obtain actual value
Hình 6.3 Ví dụ về bảng tra cứu mã.
Trang 14Toàn vẹn dữ liệu của vùng tin
Giá trị mặc định (default value) – giá trị qui
định nếu không chỉ định giá trị khác.
Kiểm tra miền – các giới hạn của giá trị cho phép (các ràng buộc hoặc qui tắc hợp lệ).
Kiểm tra giá trị rỗng – cho phép hoặc không cho phép các vùng tin rỗng.
Ràng buộc tham chiếu (referential
integrity) – kiểm tra miền (có thể có giá trị
rỗng) của khóa ngoại so khớp với khóa chính.
Trang 15thiếu trừ khi giá trị này có ý nghĩa.
được sử dụng để thực hiện các tác vụ này.
Trang 17Giải chuẩn hóa
các mẩu tin chưa chuẩn hóa.
Lợi ích
f Có thể cải tiến hiệu quả (tốc độ), làm giảm số lượng bảng cần truy xuất (giảm số lượng các truy vấn kết bảng).
Chi phí (do trùng lặp dữ liệu)
f Tốn vùng nhớ lưu trữ.
f Duy trì tính toàn vẹn / nhất quán dữ liệu.
Trang 18Giải chuẩn hóa
Các trường hợp giải chuẩn hóa
f Mối liên kết một - một.
f Mối liên kết nhiều - nhiều có các thuộc tính.
f Tham chiếu dữ liệu (mối liên kết một – nhiều
mà dữ liệu bên phía một không được sử dụng trong các mối liên kết khác).
Trang 19Extra table access required
Data duplication
Trang 20Phân mảnh
Phân mảnh ngang
nhiều tập tin riêng biệt.
f Có ích trong trường hợp nhiều người sử dụng truy xuất đến các hàng khác nhau.
f Có ba loại: phân mảnh theo miền khóa, phân mảnh băm, phân mảnh hỗn hợp.
Trang 21các lược đồ của người sử dụng (khung
Trang 22Phân mảnh
Ưu điểm của phân mảnh
f Hiệu quả: các mẩu tin được sử dụng thành nhóm.
f Tối ưu hóa cục bộ: mỗi mảnh có thể được tối
ưu hóa để tăng hiệu quả.
Trang 23Phân mảnh
Nhược điểm của phân mảnh
f Tốc độ truy xuất không nhất quán: các truy xuất trên nhiều mảnh sẽ bị chậm.
f Phức tạp: phân mảnh không trong suốt.
f Tốn nhiều vùng nhớ và thời gian cập nhật: trùng lặp dữ liệu; truy xuất trên nhiều mảnh.
Trang 24Phân mảnh trong Oracle9i
Phân mảnh theo miền khóa
Trang 25Nhân bản dữ liệu
trí khác nhau của CSDL.
nhiều người sử dụng truy xuất đồng thời cùng dữ liệu mà ít bị tranh chấp.
nhân bản dữ liệu.
cập nhật.
Trang 26Thiết kế tập tin vật lý
Tập tin vật lý
f physical file
f Tập tin vật lý là một phần được đặt tên của
bộ nhớ ngoài để lưu trữ các mẩu tin vật lý.
f Vùng bảng (tablespace) – tập hợp được đặt
tên gồm các phần tử lưu trữ của đĩa để chứa các tập tin vật lý mà các tập tin này chứa các bảng của CSDL.
f Vùng mở rộng (extent) – vùng đĩa kế tiếp.
Trang 28Hình 6.5 Các thuật ngữ tập tin vật lý trong môi trường Oracle.
Trang 29Tổ chức tập tin
tập tin trong vùng nhớ thứ cấp.
Các yếu tố để chọn tổ chức tập tin
f Thông lượng và truy hồi dữ liệu nhanh.
f Sử dụng hiệu quả vùng lưu trữ.
f Tránh hư hỏng và mất dữ liệu.
f Giảm tối thiểu yêu cầu tái tổ chức.
f Phù hợp với sự gia tăng.
f Bảo mật đối với việc sử dụng không có thẩm quyền.
Các loại tổ chức tập tin
f Tuần tự (sequential).
Chỉ mục (indexed).
Trang 30Tổ chức tập tin
1 2
n
Records of the file are stored in sequence by the primary key field values
If not sorted Average time to find desired
record = n/2
If sorted – every insert or delete requires resort
Hình 6.6 Tổ chức tập tin
tuần tự.
Trang 31f Chỉ mục B-cây (B-tree index)
f Chỉ mục bitmap (bitmap index)
f Chỉ mục băm (hash index)
Trang 32Tổ chức tập tin chỉ mục
uses a tree search
Average time to find desired
record = depth of the tree
Leaves of the tree are all
at same level Æ consistent access time
Hình 6.7 Chỉ mục B-cây.
Trang 33Tổ chức tập tin chỉ mục
Hash algorithm
Usually uses remainder to determine record position Records with same position are grouped in lists
Trang 34division-Tổ chức tập tin chỉ mục
Bitmap saves on space requirements
Rows - possible values of the attribute Columns - table rows
Bit indicates whether the attribute of a row has the values
Hình 6.9 Chỉ mục bitmap.
Trang 35Tổ chức tập tin chỉ mục
Trang 36Hình 6.11 So sánh các đặc điểm của các tổ chức tập tin khác nhau.
Trang 37Gom cụm các tập tin
liên quan với nhau trong các bảng khác nhau có thể được lưu trữ chung trong cùng một vùng đĩa.
các phép kết.
được lưu trữ kế tiếp các mẩu tin khóa ngoại của bảng phụ thuộc.
Oracle sử dụng lệnh CREATE CLUSTER để
gom cụm các tập tin.
Trang 38Các qui tắc sử dụng chỉ mục
(các vùng tin thường xuất hiện trong mệnh
đề WHERE).
GROUP BY của lệnh SELECT.
nhưng không nên sử dụng chỉ mục khi có
ít hơn 30 giá trị.
Trang 40đơn đối với người sử dụng.
song (nâng cao tốc độ truy xuất).
Trang 41Here, pages 1-4
can be read/written
simultaneously
Trang 42 Raid 0
f Cực đại hóa cơ chế song song.
f Không dư thừa.
f Không sửa sai.
f Không có khả năng chịu sai (fault-tolerance).
Raid 1
f Dư thừa dữ liệu.
f Có khả năng chịu sai.
f Dạng chung nhất.
Trang 43 Raid 2
f Không dư thừa.
f Một mẩu tin được chứa ở nhiều đĩa dữ liệu.
f Sửa sai trên nhiều đĩa – phục hồi dữ liệu bị
hư hỏng.
Raid 3
f Sửa sai trên một đĩa.
f Một mẩu tin được chứa ở nhiều đĩa dữ liệu (nhiều hơn RAID2).
f Không tốt cho các môi trường nhiều người
sử dụng.
Trang 44 Raid 4
f Sửa sai trên một đĩa.
f Nhiều mẩu tin trên một sọc.
f Cơ chế song song, nhưng cập nhật chậm do sửa sai.
Raid 5
f Quay vòng dãy chẵn lẻ (parity array).
f Sửa sai xảy ra trên cùng các đĩa.
f Cơ chế song song, hiệu suất tốt hơn so với RAID4.
Trang 45Kiến trúc cơ sở dữ liệu
Legacy Systems
Current Technology
Data Warehouses