Tổ chức tệp: sắp xếp các bản ghi trên thiết bị nhớ ngoài – RID (record id): xác định địa chỉ vật lý của các bản ghi – Chỉ số: cấu trúc dữ liệu xác định sự tương ứng giữa RID của bản ghi và giá trị của trường (khoá) • Vùng nhớ đệm: trung gian giữa thiết bị nhớ ngoài và bộ nhớ trong Bộ xử lý câu hỏi Bộ quản lý Giao dịch Bộ quản lý lưu trữ Data index Quản lý buffer Quản lý tệp Quản lý giao dịch Bộ quản lý lưu trữ Metadata Data dictionary 3 Lưu trữ dữ liệu trong cơ sở dữ liệu quan hệ • Dữ liệu lớn hơn kích thước bộ nhớ RAM • Tính lưu trữ lâu dài của dữ liệu – Disk – Memory • Giá của đơn vị lưu trữ 4 Các thiết bị nhớ ngoài • Đĩa từ, băng từ, trống từ, ... • Đĩa từ: được tổ chức thành từng trang – Chí phí truy nhập đến các trang bất k
Trang 1Tổ chức dữ liệu vật lý
Trần Việt Trung
trungtv@soict.hust.edu.vn
Bộ môn Hệ thống thông tin, Viện CNTT&TT
Đại học Bách Khoa Hà Nội
1
Trang 3định sự tương ứng giữa RID
của bản ghi và giá trị của
Quản
lý giao dịch
Bộ quản lý lưu trữ
Metadata &
Data dictionary
3
Trang 4Lưu trữ dữ liệu trong cơ sở dữ
Trang 5Các thiết bị nhớ ngoài
• Đĩa từ, băng từ, trống từ,
• Đĩa từ: được tổ chức thành từng trang
– Chí phí truy nhập đến các trang bất kỳ là tương
đương
– Chí phí đọc nhiều trang liền nhau < chí phí đọc các trang đó theo thứ tự bất kỳ
• Băng từ:
– chỉ có thể đọc được các trang liền nhau
– rẻ hơn đĩa từ nhưng chi phí truy nhập thương lớn hơn
•
5
Trang 6ổn định (kể cả khi mất điện) vs tạm thời
4KB vs 1Byte
Trang 7Tổ chức bộ nhớ ngoài
không cần thiết trên thiết bị nhớ ngoài
– Cấu trúc lưu trữ
– Các phép toán (thêm, xoá, sửa, tìm kiếm)
7
Trang 8• A secondary organization or auxiliary access structure allows efficient access to file
–
Trang 10• Physically order the records of a file on disk
•
•
Trang 12Tổ chức tệp băm ( Hash File )
– Sử dụng chỉ số để hạn chế số lượng phép truy xuất đĩa bằng các phân nhóm các bản ghi (giả
thiết n nhóm)
– Mapping giá trị khoá với vị trí của (nhóm) bản ghi
tương ứng
– Hàm băm (hash function)
Trang 1313
Trang 14Ví dụ
Trang 15Collision resolution
15
Trang 20Tổ chức tệp chỉ dẫn ( Index File )
• Tệp chỉ dẫn theo khoá được chọn trong bản ghi
• Tệp chỉ dẫn bao gồm các cặp (k,d), trong đó k là giá trị của khoá của bản ghi đầu tiên, d là địa chỉ của khối (hay con trỏ khối)
• Tệp chỉ dẫn được sắp xếp theo giá trị của khoá
Trang 21Cây cân bằng ( BalanceTree )
các tính chất sau đây:
– Gốc của cây hoặc là một nút lá hoặc ít nhất có
hai con
– Mỗi nút (trừ nút gốc và nút lá) có từ [m/2] đến m con
– Mỗi đường đi từ nút gốc đến bất kỳ nút lá nào
đều có độ dài như nhau
21
Trang 22Ví dụ
Trang 24Kết luận
một phần nhỏ các bản ghi trong một tệp dữ liệu hay một vài trường (đặc biệt là các
trường khoá) của các bản ghi dữ liệu
Ø Xác định các yêu cầu này cho phép thiết kế dữ liệu vật lý hiệu quả thông qua việc sử dụng các tổ chức lưu trữ đặc biệt
để tăng hiệu quả của lưu trữ dữ liệu
Ø Hiệu quả của các cấu trúc chỉ dẫn khác nhau phụ
Trang 2525
Trang 26Các điểm cần lưu ý
Trang 27B+ Tree Index
With B+ tree, a full index is maintained, allowing the ordering of the
records in the file to be independent of the index This allows multiple B+ tree indices to be kept for the same set of data records
n the lowest level in the index has one entry for each data record
n the index is created dynamically as data is added to the file
n as data is added the index is expanded such that each record requires the
same number of index levels to reach it (thus the tree stays ‘balanced’)
n the records can be accessed via an index or in insertion order
27
Trang 29B+ Tree Build Example
90 70
65
55 60 30
70
60 55
29
Trang 30B+ Tree Build Example Cont…
90 70
65 60
70
60 55
30 55 10
30
Add 10
65 60
60 55
30 55 10
30
Add 69
70 69
90 70
69
Trang 31Tổ chức tệp đống ( Heap File )
• Lưu trữ kế tiếp các bản ghi trong các trang
không tuân theo một thứ tự đặc biệt nào
• Để thực hiện các phép toán, cần:
– Ghi nhớ số trang trong 1 tệp
– Ghi nhớ không gian trống trên các trang
– Ghi nhớ các bản ghi trên các trang
Ø Có các con trỏ trỏ tới tất cả các trang của tệp và các con trỏ này được lưu trữ ở bộ nhớ trong
31
Trang 32Cài đặt tệp đống bằng danh sách
Header
Page
Data Page
Data Page
Data Page
Data Page
Data Page
Data Page Pages with
Free Space Full Pages
Trang 34Sử dụng trang danh bạ
trên trang đó
Data Page 1
Data Page 2
Data Page N
Header Page
DIRECTORY
Trang 35– Tại mỗi lần chia hạn chế được ½ số bản ghi cần
Trang 36–
–
•
Trang 39• Refer to how the file records are physically placed on the disk, and how the records can