LƯU TRỮ THÔNG TIN TRONG TẬP TIN

Chương 4: CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT LƯU TRỮ NGOÀI

4.5 LƯU TRỮ THÔNG TIN TRONG TẬP TIN

Trong phần này ta sẽ nghiên cứu các cấu trúc dữ liệu và giải thuật cho lưu trữ (storing) và lấy thông tin (retrieving) trong các tập tin được lưu trữ ngoài. Chúng ta sẽ coi một tập tin như là một chuỗi tuần tự các mẩu tin, mỗi mẩu tin bao gồm nhiều trường (field). Một trường có thể có độ dài cố định hoặc độ dài thay đổi. Ở đây ta sẽ xét các mẩu tin có độ dài cố định và khảo sát các thao tác trên tập tin là:

• Insert: Thêm một mẩu tin vào trong một tập tin,

• Delete: Xoá một mẩu tin từ trong tập tin,

• Modify: Sửa đổi thông tin trong các mẩu tin của tập tin, và

• Retrieve: Tìm lại thông tin được lưu trong tập tin.

Sau đây ta sẽ nghiên cứu một số cấu trúc dữ liệu dùng để lưu trữ tập tin. Với mỗi cấu trúc chúng ta sẽ trình bày tổ chức, cách thức tiến hành các thao tác tìm, thêm, xoá mẩu tin và có đánh giá về cách tổ chức đó. Sự đánh giá ở đây chủ yếu là đánh giá xem để tìm một mẩu tin thì phải đọc bao nhiêu khối vì các thao tác khác đều phải sử dụng thao tác tìm.

4.5.1 Tập tin tuần tự

4.5.1.1 Tổ chức

Tập tin tuần tự là một danh sách liên kết của các khối, các mẩu tin được lưu trữ trong các khối theo một thứ tự bất kỳ.

4.5.1.2 Tìm mẩu tin

Việc tìm kiếm một mẩu tin có giá trị xác định được thực hiện bằng cách đọc từng khối, với mỗi khối ta tìm mẩu tin cần tìm trong khối, nếu không tìm thấy ta lại đọc tiếp một khối khác. Quá trình cứ tiếp tục cho đến khi tìm thấy mẩu tin hoặc duyệt qua toàn bộ các khối của tập tin và trong trường hợp đó thì mẩu tin không tồn tại trong tập tin.

4.5.1.3 Thêm mẩu tin mới

Việc thêm một mẩu tin có thể thực hiện đơn giản bằng cách đưa mẩu tin này vào khối cuối cùng của tập tin nếu như khối đó còn chỗ trống. Ngược lại nếu khối cuối cùng đã hết chỗ thì xin cấp thêm một khối mới, thêm mẩu tin vào khối mới và nối khối mới vào cuối danh sách.

4.5.1.4 Sửa đổi mẩu tin

Ðể sửa đổi một mẩu tin có giá trị cho trước, ta tìm mẩu tin cần sửa đổi rồi thực hiện các sửa đổi cần thiết sau đó ghi lại mẩu tin vào vị trí cũ trong tập tin.

4.5.1.5 Xoá mẩu tin

Ðể xoá một mẩu tin, trước hết ta cũng cần tìm mẩu tin đó, nếu tìm thấy ta có thể thực hiện một trong các cách xoá sau đây:

Một là xoá mẩu tin cần xoá trong khối lưu trữ nó, nếu sau khi xoá, khối trở nên rỗng thì xoá khối khỏi danh sách (giải phóng bộ nhớ).

Hai là đánh dấu xoá mẩu tin bằng một cách nào đó. Nghĩa là chỉ xoá mẩu tin một cách logic, vùng không gian nhớ vẫn còn dành cho mẩu tin. Việc đánh dấu có thể được thực hiện bằng một trong hai cách:

• Thay thế mẩu tin bằng một giá trị nào đó mà giá trị này không bao giờ là giá trị thật của bất kỳ một mẩu tin nào.

• Mỗi một mẩu tin có một bít xóa, bình thường bit xóa của mẩu tin có giá trị 0, muốn xóa mẩu tin ta đặt cho bit xóa giá trị 1. Với phương pháp này thì một mẩu tin sau khi bị đánh dấu xoá cũng có thể phục hồi được bằng cách đặt bit xoá của mẩu tin giá trị 0.

4.5.1.6 Ðánh giá

Ðây là một phương pháp tổ chức tập tin đơn giản nhất nhưng kém hiệu quả nhất. Ta thấy tập tin là một danh sách liên kết của các khối nên các thao tác trên tập tin đều đòi hỏi phải truy xuất hầu như tất cả các khối, từ khối đầu tiên đến khối cuối cùng.

Giả sử tập tin có n mẩu tin và mỗi khối lưu trữ được k mẩu tin thì toàn bộ tập tin được lưu trữ trong kn khối, do đó mỗi lần tìm (hoặc thêm hoặc sửa hoặc xoá) một mẩu tin thì phải truy xuất kn khối.

4.5.2 Tăng tốc độ cho các thao tác tập tin

Nhược điểm của cách tổ chức tập tin tuần tự ở trên là các thao tác trên tập tin rất chậm. Ðể cải thiện tốc độ thao tác trên tập tin, chúng ta phải tìm cách giảm số lần truy xuất khối. Muốn vậy phải tìm các cấu trúc sao cho khi tìm một mẩu tin chỉ cần phép truy xuất một số nhỏ các khối của tập tin.

Ðể tạo ra các tổ chức tập tin như vậy chúng ta phải giả sử rằng mỗi mẩu tin có một khoá (key), đó là một tập hợp các trường mà căn cứ vào đó ta có thể phân biệt các mẩu tin với nhau. Hai mẩu tin khác nhau thì khoá của chúng phải khác nhau.

Chẳng hạn mã sinh viên trong mẩu tin về sinh viên, biển số xe trong quản lí các phương tiện vận tải đường bộ.

Sau đây ta sẽ xét một số cấu trúc như thế.

4.5.3 Tập tin băm (hash files)

4.5.3.1 Tổ chức

Ta sẽ sử dụng bảng băm mở để lưu trữ tập tin. Bảng băm là một bảng có m phần tử, mỗi phần tử được đánh số từ 0 đến m-1 (đơn giản nhất là mảng một chiều B gồm m phần tử B[0], B[1], ..., B[m-1]). Mỗi phần tử là một con trỏ, trỏ tới phần tử đầu tiên của danh sách liên kết các khối.

Ðể phân phối các mẩu tin có khóa x vào trong các danh sách liên kết, ta dùng hàm băm (hash function). Hàm băm h(x) ánh xạ mỗi giá trị khoá x với một số nguyên từ 0 đến m-1. Nếu h(x) = i thì mẩu tin r có khóa x sẽ được đưa vào một khối nào đó trong danh sách liên kết được trỏ bởi B[i].

Có nhiều phương pháp để xác định hàm băm. Cách đơn giản nhất là “nguyên hóa”

giá trị khóa x (nếu x không phảl là một số nguyên) sau đó ta cho h(x) = x MOD m.

Ví dụ 4-5: Một tập tin có 24 mẩu tin với giá trị khóa là các số nguyên: 3, 5, 12, ,65, 34, 20, 21, 17, 56, 1, 16, 2, 78, ,94, 38 ,15 ,23, 14, 10, 29, 19, 6, 45, 36

Giả sử chúng ta có thể tổ chức tập tin này vào trong bảng băm gồm 7 phần tử và giả sử mỗi khối có thể chứa được tối đa 3 mẩu tin. Với mỗi mẩu tin r có khóa là x ta xác định h(x) = x MOD 7 và đưa mẩu tin r vào trong một khối của danh sách liên kết được trỏ bởi B[h(x)].

0 21 56 14 •

1 1 78 15 29 36 •

2 65 16 2 23 •

3 3 17 94 38 10 45 •

4 •

5 5 12 19 •

6 34 20 6 •

Mảng B Các lô được tổ chức bởi các danh sách liên kết.

Hình 4-2: Tập tin được tổ chức bởi bảng băm 4.5.3.2 Tìm mẩu tin

Ðể tìm một mẩu tin r có khóa là x, chúng ta xác định h(x) chẳng hạn h(x) = i, khi đó ta chỉ cần tìm r trong danh sách liên kết được trỏ bởi B[i]. Chẳng hạn để tìm mẩu tin r có khóa là 36, ta tính h(36) = 36 MOD 7 = 1. Như vậy nếu mẩu tin r tồn tại trong tập tin thì nó phải thuộc một khối nào đó được trỏ bởi B[1].

4.5.3.3 Thêm mẩu tin

Ðể thêm mẩu tin r có khoá x, trước hết ta phải tìm xem đã có mẩu tin nào trong tập tin có khóa x chưa. Nếu có ta cho một thông báo “mẩu tin đã tồn tại” vì theo giả thiết các mẩu tin không có khoá trùng nhau. Ngược lại ta sẽ tìm một khối (trong danh sách các khối của lô được trỏ bởi B[h(x)]) còn chỗ trống và thêm r vào khối này. Nếu không còn khối nào đủ chổ cho mẩu tin mới ta yêu cầu hệ thống cấp phát một khối mới và đặt mẩu tin r vào khối này rồi nối khối mới này vào cuối danh sách liên kết của lô.

4.5.3.4 Xoá mẩu tin

Ðể xoá mẩu tin r có khoá x, trước hết ta phải tìm mẩu tin này. Nếu không tìm thấy thì thông báo “Mẩu tin không tồn tại”. Nếu tìm thấy thì đặt bít xoá cho nó. Ta cũng có thể xoá hẳn mẩu tin r và nếu việc xoá này làm khối trở nên rỗng thì ta giải phóng khối này (xoá khối khỏi danh sách liên kết các khối).

4.5.3.5 Ðánh giá

k Giả sử tập tin có n mẩu tin và mỗi khối lưu trữ được k mẩu tin thì tập tin cần n khối. Trung bình mỗi danh sách liên kết (mỗi lô) của bảng băm có m.kn khối (do bảng băm có m lô), mà chúng ta chỉ tìm trong một danh sách liên kết nên ta chỉ phải truy xuất m.kn khối. Số này nhỏ hơn m lần so với cách tổ chức tập tin tuần tự (trong tập tin tuần tự ta cần truy xuất tất cả các khối, tức là kn khối). Chẳng hạn với 24 mẩu tin như trong ví dụ trên, với cách tổ chức tập tin tuần tự ta cần đúng 8 khối để lưu trữ (vì mỗi khối chứa tối đa 3 mẩu tin). Như vậy để tìm một mẩu tin, chẳng hạn mẩu tin có khóa 36 chúng ta phải đọc đúng 8 khối (do mẩu tin có khóa 36 nằm trong khối cuối cùng). Nhưng với cách tổ chức tập tin bảng băm chúng ta chỉ cần trung bình 78 lần đọc khối . Trong thực tế ta chỉ cần 2 lần đọc khối (vì mẩu tin có khóa 36 nằm trong khối thứ 2 của lô được trỏ bởi B[1]).

4.5.4 Tập tin chỉ mục (index file)

4.5.4.1 Tổ chức

Một cách khác thường gặp là tập tin được sắp xếp theo khoá, rồi chúng ta tiến hành tìm kiếm như là tìm một từ trong từ điển, tức là tìm kiếm theo từ đầu tiên trên mỗi trang.

Ðể thực hiện được điều đó ta sử dụng hai tập tin: Tập tin chính và tập tin chỉ mục thưa (sparse index). Tập tin chính bao gồm các khối lưu các mẩu tin sắp thứ tự theo giá trị khóa. Tập tin chỉ mục thưa bao gồm các khối chứa các cặp (x,p) trong đó x là khoá của mẩu tin đầu tiên trong một khối của tập tin chính, còn p là con trỏ, trỏ đến khối đó.

Ví dụ 4-6: Ta có tập tin được tổ chức thành tập tin chỉ mục với mỗi khối trong tập tin chính lưu trữ được tối đa 3 mẩu tin, mỗi khối trong tập tin chỉ mục lưu trữ được tối đa 4 cặp khoá – con trỏ. Hình sau minh hoạ tập tin chỉ mục này.

TT chỉ mục (3, ) (10, ) (23, ) (28, ) (42, ) (48, ) •

3 5 8 10 11 16 23 25 27 28 31 38 42 46 48 52 60 TT

chính BB1 B2 B3 B4 B5 BB6

Hình 4-3: Tập tin chỉ mục 4.5.4.2 Tìm kiếm

Ðể tìm mẩu tin r có khoá x, ta phải tìm cặp (z,p) với z là giá trị lớn nhất và z ≤ x.

Mẩu tin r có khoá x nếu tồn tại thì sẽ nằm trong khối được trỏ bởi p.

Chẳng hạn để tìm mẩu tin r có khoá 46 trong tập tin của ví dụ 4-6, ta tìm trong tập tin chỉ mục được cặp (42, p), trong đó 42 là giá trị khoá lớn nhất trong tập tin chỉ mục mà 42 ≤ 46 và p là con trỏ, trỏ tới khối B5 của tập tin chính. Trong khối B5, ta tìm thấy mẩu tin có khoá 46.

Việc tìm một mẩu tin trong một khối của tập tin chính có thể tiến hành bằng tìm kiếm tuần tự hoặc bằng tìm kiếm nhị phân bởi lẽ các mẩu tin trong một khối đã được săp thứ tự.

4.5.4.3 Thêm mẩu tin

Giả sử tập tin chính được lưu trong các khối B1, B2, ..., Bm. Ðể xen một mẩu tin r với khóa x vào trong tập tin, ta phải dùng thủ tục tìm kiếm để xác định một khối Bi

nào đó. Nếu tìm thấy thì thông báo “mẩu tin đã tồn tại”, ngược lại, Bi là nơi có thể chứa mẩu tin r. Nếu Bi còn chỗ trống thì xen r vào đúng vị trí của nó trong Bi. Ta phải chỉnh lại tập tin chỉ mục nếu mẩu tin mới trở thành mẩu tin đầu tiên trong khối Bi. Nếu Bi không còn chỗ trống để xen thì ta phải xét khối Bi+1 để có thể chuyển mẩu tin cuối cùng trong khối Bi thành mẩu tin đầu tiên của khối Bi+1 và xen mẩu tin r vào đúng vị trí của nó trong khối Bi . Ðiều chỉnh lại tập tin chỉ mục cho phù hợp với trạng thái mới của B . Quá trình này có thể dẫn đến việc ta phải xét khối Bi+1 m, nếu Bm đã hết chỗ thì yêu cầu hệ thống cấp thêm một khối mới Bm+1, chuyển mẩu tin cuối cùng của Bm sang Bm+1, mẩu tin cuối cùng của B sang Bm-1 m… Xen mẩu tin r vào khối Bi và cập nhật lại tập tin chỉ mục. Việc cấp phát thêm khối mới Bm+1 đòi hỏi phải xen thêm một cặp khoá-con trỏ vào khối cuối cùng của tập tin chỉ mục, nếu khối này hết chỗ thì xin cấp thêm một khối mới để xen cặp khóa-con trỏ này.

Ví dụ 4-7: Chẳng hạn ta cần xen mẩu tin r với khóa x = 24 vào trong tập tin được biểu diễn trong hình 4-3. Thủ tục tìm x trong tập tin chỉ mục xác định được khối cần xen r là khối B3. Vì khối B3 đã có đủ 3 mẩu tin nên phải xét khối B4. Khối B4 cũng đã có đủ 3 mẩu tin nên ta lại xét khối B5. Vì B5 còn chỗ trống nên ta chuyển mẩu tin có khoá 38 từ B4 sang B5 và chuyển mẩu tin có khóa 27 từ B3 sang B4 và xen r vào khối B3. Vì mẩu tin đầu tiên của khối B4 bây giờ có khóa 27 nên ta phải sửa lại giá trị này trong cặp của tập tin chỉ mục tương ứng với khối B4. Ta cũng phải làm tương tự đối với khối B5. Cấu trúc của tập tin sau khi thêm mẩu tin r có khóa 24 như sau:

TT chỉ mục (3, ) (10, ) (23, ) (27, ) (38, ) (48, ) •

3 5 8 10 11 16 23 24 25 27 28 31 38 42 46 48 52 60 TT

chính BB1 B2 B3 B4 B5 BB6

Hình 4-4: Xen mẩu tin vào tập tin chỉ mục 4.5.4.4 Xoá mẩu tin

Ðể xoá mẩu tin r có khoá x, trước hết ta cần tìm r, nếu không tìm thấy thì thông báo

“Mẩu tin không tồn tại”, ngược lại ta xoá mẩu tin r trong khối chứa nó, nếu mẩu tin bị xoá là mẩu tin đầu tiên của khối thì phải cập nhật lại giá trị khoá trong tập tin chỉ mục. Trong trường hợp khối trở nên rỗng sau khi xoá mẩu tin thì giải phóng khối đó và xoá cặp (khoá, con trỏ) của khối trong tập tin chỉ mục. Việc xoá trong tập tin chỉ mục cũng có thể dẫn đến việc giải phóng khối trong tập tin này.

4.5.4.5 Ðánh giá

Ta thấy việc tìm một mẩu tin chỉ đòi hỏi phải đọc chỉ một số nhỏ các khối (một khối trong tập tin chính và một số khối trong tập tin chỉ mục). Tuy nhiên trong việc xen thêm mẩu tin, như trên đã nói, có thể phải đọc và ghi tất cả các khối trong tập tin chính. Ðây chính là nhược điểm của tập tin chỉ mục.

4.5.5 Tập tin B-cây

4.5.5.1 Cây tìm kiếm m-phân

Cây tìm kiếm m-phân (m-ary tree) là sự tổng quát hoá của cây tìm kiếm nhị phân trong đó mỗi nút có thể có m nút con. Giả sử n1 và n2 là hai con của một nút nào đó, n1 bên trái n2 thì tất cả các con của n1 có giá trị nhỏ hơn giá trị của các nút con của n2.

Chúng ta có thể sử dụng cây m-phân để lưu trữ các mẩu tin trong tập tin trên bộ nhớ ngoài. Mỗi một nút biểu diễn cho một khối vật lý trong bộ nhớ ngoài. Trong đó các nút lá lưu trữ các mẩu tin của tập tin. Các nút trong lưu trữ m con trỏ, trỏ tới m nút con.

Nếu ta dùng cây tìm kiếm nhị phân n nút để lưu trữ một tập tin thì cần trung bình logn phép truy xuất khối để tìm kiếm một mẩu tin. Nếu ta dùng cây tìm kiếm m- phân để lưu trữ một tập tin thì chỉ cần logmn phép truy xuất khối để tìm kiếm một mẩu tin. Sau đây chúng ta sẽ nghiên cứu một trường hợp đặc biệt của cây tìm kiếm m-phân là B-cây.

4.5.5.2 B-cây (B-tree)

B-cây bậc m là cây tìm kiếm m-phân cân bằng có các tính chất sau:

• Nút gốc hoặc là lá hoặc có ít nhất hai nút con,

• Mỗi nút, trừ nút gốc và nút lá, có từ ⎡m/2⎤ đến m nút con và

• Các đường đi từ gốc tới lá có cùng độ dài.

Tổ chức: Ta có thể sử dụng B-cây bậc m để lưu trữ tập tin như sau:

Mỗi nút trên cây là một khối trên đĩa, các mẩu tin của tập tin được lưu trữ trong các nút lá trên B-cây và lưu theo thứ tự của khoá. Giả sử mỗi nút lá lưu trữ được nhiều nhất b mẩu tin.

Mỗi nút không phải là nút lá có dạng (p0,k1,p1,k2,p2,...,kn,pn), với pi (0 ≤ i ≤ n) là con trỏ, trỏ tới nút con thứ i của nút đó và ki là các giá trị khóa. Các khoá trong một nút được sắp thứ tự, tức là k1 < k2 < ... < kn.

Tất cả các khoá trong cây con được trỏ bởi p0 đều nhỏ hơn k1. Tất cả các khoá nằm trong cây con được trỏ bởi pi (0 < i < n) đều lớn hơn hoặc bằng ki và nhỏ hơn ki+1. Tất cả các khoá nằm trong cây con được trỏ bởi pn đều lớn hơn hoặc bằng kn.

Ví dụ 4-8: Cho tập tin bao gồm 20 mẩu tin với giá trị khóa là các số nguyên được tổ chức thành B-cây bậc 5 với các nút lá chứa được nhiều nhất 3 mẩu tin.

GỐC

18 • • •

P 1 P2

10 12 • • 22 28 34 38

4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42

L1 L2 L3 L4 L5 L6 L7 L8

Hình 4-5: Tập tin B-cây bậc 5 4.5.5.3 Tìm kiếm

Ðể tìm kiếm một mẩu tin r có khoá là x chúng ta sẽ lần từ nút gốc đến nút lá chứa r (nếu r tồn tại trong tập tin). Tại mỗi bước ta đưa nút trong (p0, k1, p1, ..., kn, pn) vào bộ nhớ trong và xác định mối quan hệ giữa x với các giá trị khóa ki.

• Nếu ki ≤ x < k (0 < i < n) chúng ta sẽ xét tiếp nút được trỏ bởi pi+1 i,

• Nếu x < k1 ta sẽ xét tiếp nút được trỏ bởi p0 và

• Nếu x ≥ kn ta sẽ xét tiếp nút được trỏ bởi pn.

Quá trình trên sẽ dẫn đến việc xét một nút lá. Trong nút lá này ta sẽ tìm mẩu tin r với khóa x bằng tìm kiếm tuần tự hoặc tìm kiếm nhị phân.

4.5.5.4 Thêm mẩu tin

Ðể thêm một mẩu tin r có khoá là x vào trong B-cây, trước hết ta áp dụng thủ tục tìm kiếm nói trên để tìm r. Việc tìm kiếm này sẽ dẫn đến nút lá L. Nếu tìm thấy thì thông báo “Mẩu tin đã tồn tại”, ngược lại thì L là nút lá mà ta có thể xen r vào trong đó. Nếu khối L này còn đủ chỗ cho r thì ta thêm r vào sao cho đúng thứ tự của nó trong khối L và giải thuật kết thúc. Nếu L không còn chỗ cho r thì ta yêu cầu hệ thống cấp phát một khối mới L'. Dời ⎡b/2⎤ (b là số mẩu tin nhiều nhất có thể lưu

KĨ THUẬT CHIA ÐỂ TRỊ

MÔ HÌNH XỬ LÝ NGOÀI