Mức vật lý (physical level)

Một phần của tài liệu Hệ thống thông tin kế toán tập 1 (Trang 39 - 44)

1. MỘT SỐ KHÁI NIỆM

1.2. Các mỏ hình CO’ sỏ* dữ liêu (database modeling)

1.2.3. Mức vật lý (physical level)

Mức vật lý chỉ ra dữ liệu được lưu trữ như thế nào trên các giá mang ngoại vi của máy tính. Người ta có thể xem sự mô tả này ở mức chi tiết hơn bằng cách xem mỗi bít được đặt trên giá mang và bằng cách cho một ý nghĩa và địa chỉ của nó. Hoặc ở mức cao hơn như các record, file mà chúng đã được diễn dịch trong các ngôn ngữ lập trình bậc cao.

Một tập hợp các tập tin (file) và các chi mục (index), hoặc các cấu trúc lưu trữ khác (bảng băm) được dùng để truy xuất chúng một cách hiệu quả gọi là cơ sở dữ liệu vật lý (physical database), nhằm mục đích truy xuất hiệu quả và bao gồm cả tập tin phục vụ cho việc tìm kiếm.

Cơ sở dữ liệu vật lý thường trú trên các thiết bị lưu trữ thứ cấp và nhiều cơ sở dữ liệu vật lý khác nhau có thể được quản lý bời cùng một phần mềm quản trị cơ sở dữ liệu.

Như vậy, mức vật lý quan tâm đến vấn dề lưu trữ và xử lý dữ liệu trong cơ sỏ dữ liệu. Ba phương pháp xử lý tập tin quan trọng được trình bày ngay sau đây:

Xử lý theo phương pháp tuần tự (Sequential Access Method), xử lý theo lô (Batch processing) - Các kiêu tập tin (Program, Data, Master, Transactions, Backup, Archive, Scratch)

Xử lý tập tin tuần tự: Trong kiểu xử lý này, các mấu tin trong tập tin được xử lý theo ưật tự tuần tự, hết mẩu tin này đến mẩu tin khác. Ví dụ trong tập tin có 100 mâu tin, nếu muốn xử lý mẩu tin cuối cùng thì chương trình phải xử lý qua 99 mâu tin đầu tiên. Trật tự cùa các mấu tin được sắp xếp dựa trên vùng khóa được chỉ dịnh và chúng có thể được sắp tăng hoặc giảm dần. Kiểu tập tin tuần tự không có lợi khi dùng để lưu trữ những dữ liệu có số lượng rất lớn mà việc xử lý các mẩu tin chi được thực hiện trên một số nhỏ hữu

Chương II: Tỏ Chức Dữ Liệu Trong Điều Kiện ứng Dụng Máy Tính 43

hạn. Ví dụ trong tập tin có một triệu mẩu tin, nếu muốn xử lý mẩu tin cuối cùng thì chưong trình phải xử lý qua 999.999 mẩu tin đầu tiên. Điều này gây ra nhiều phiền toái, mất nhiều thòi gian. Xử lý tập tin tuần tự được dùng trong các hệ thống xử lý theo lô vì những hệ thốngmày luôn xử lý mọi mẩu tin trong tập tin. Mọi chưong trình xử lý đều tiến hành sắp xếp tập tin nghiệp vụ và tập tin chính theo cùng một khóa trước khi tiến hành xử lý. Ví dụ trong hệ thống ghi nhận khách hàng thanh toán, chưong trình truức tiên sẽ sắp xếp cả hai tập tin chính và tập tin nghiệp vụ theo trật tự tăng dần của mã số khách hàng. Kế đến, chương trình sẽ đọc một mẩu tin trên mỗi tập tin. Nếu mã số khách hcàng trên cả hai mẩu tin được đọc là giống nhau, thông tin về số thanh toán của khách hàng (ghi trong tập tin nghiệp vụ) sẽ được cập nhật vào vùng tin số dư trong tập tin chính khách hàng. Mẩu tin đã được cập nhật này sẽ được ghi vào tập tin chính khách hàng mới. Thủ tục này được lặp lại cho đến khi cả hai tập tin đều được đọc hết và xử lý mọi mẩu tin trong chúng.

Xử lý theo lô sẽ không thực hiện được hay nói khác di, sẽ cho kết quả sai nếu các tập tin không được sấp cùng thứ tự theo cùng một khóa. Lưu đồ chưong trình dưới đây trình bày giai thuật cho công việc ở ví dụ trên. Theo đó, nếu mẩu tin khách hàng có mã số lớn nhất được đặt ò' đầu tập tin nghiệp vụ - thay vì nằm ở cuối tcập tin theo trật tự tăng dần của mã số khách hàng - thì sau khi đọc mầu tin khách hcàng, chương trình sẽ tìm và cập nhật cho mấu tin chính khách hàng có mã số khách hàng bằng với số khách hàng trong mẩu tin của tập tin nghiệp vụ vừa đọc. Vì xử lý tuần tự, chưong trình phải quét đến cuối tập tin chính khách hàng mới đến giá trị mã số khách hàng cần xử lý. Như thế, sau khi cập nhật cho mẩu tin cuối cùng này ở tập tin chính khách hàng, chưong trình cung kết thúc vì đã đọc đến mẩu tin cuối cùng của tập tin chính khách hàng, mặc dù trong tập tin nghiệp vụ còn nhũng mầu tin nghiệp vụ chưa xử lý.

Theo phương pháp này, các kiểu tập tin sau đay thường được thiêt lập:

Tập tin chính (Master files). Kiểu tập tin này bao gồm các mấu tin chứa dữ liệu của cùng một tài khoản. Dữ liệu bao gồm thôrn*

tin chi tiết của loại tài khoản và số dư cùa từng tài khoản chi tiết.

Tập tin này sẽ lưu trữ cập nhật sô dư cùa các mẩu tin chi tiết và các thao tác xóa, thêm mới các mẩu tin trong tập tin chính Là không thường xuyên thực hiện.

44 Chương II: Tổ Chức Dữ Liệu Trong Điều Kiện ứng Dụng Máy Tính

Tập tin nghiệp vụ (Transaction Files). Kiểu tập tin này được dùng trong các hệ thống xử lý theo lô. Một lô nghiệp vụ khi nhập vào hệ thống sẽ hình thành một tập tin nghiệp vụ. Mỗi nghiệp vụ cùng kiêu sẽ ghi vào tập tin nghiệp vụ, và sau đó, một chươngtrình khác sẽ xử lý cho toàn bộ các nghiệp vụ trong tập tin này và ghi vào tập tin chính.

Tập tin dự phòng (Backup Files). Kiểu tập tin này bao gồm các bản sao của những tập tin trong cơ sở dữ liệu, nhăm dự phòng trường hợp các tập tin bị hư hỏng, mât mát... Tập tin dự phòng có the chỉ là dữ liệu, cũng có thể là các chương trình và các tài liệu khác của hệ thống.

Tập tin lưu trữ (Archive Files). Thông thường là bản sao của các tập tin dữ liệu của những kỳ kế toán trước, của những năm tài chính trước. Nếu chương trình xử lý có thay đổi, chúng cũng phải đưa vào danh sách tập tin lưu trữ tương thích với các tập tin dữ liệu để có được phiên bản xử lý dữ liệu phù hợp.

Tập tin tạm (Scratch Files). Là những tập tin phục vụ trong quá trình xử lý của hệ thống, thường chúng sẽ được xóa bỏ ngay khi không còn cần dùng nữa.

Xử lý theo phương pháp tuần tự chi mục (Indexed-Sequential Access Method), xử lý theo lô kèm vấn tin trực tuyến (Batch processing with On-line Inquiry) - Các kiêu tập tin (Indexed File, Indexed-Sequential File)

Xử lý theo phương pháp tuần tự chỉ mục: Phương pháp này sử dụng một bảng chỉ mục. Bảng chỉ mục là một tập tin, có nội dung là trật tự của các mẩu tin trong tập tin dữ liệu. Các trật tự này được tạo ra theo yêu cầu của người dùng. Them vào đó, trong bảng chỉ mục còn chứa địa chỉ của mâu tin dược lưu trên thiêt bị lưu trữ. Khi xử lý tập tin, bảng chỉ mục SC dược nạp Vtào bộ nhớ của máỵ, chương trình sẽ dò tìm tuân tự trên bảng chỉ mục, khi tìm đến mẩu tin cần truy xuất - giả sử điều kiện tìm được thỏa mãn - địa chỉ của mẩu tin SC được dùng để truy cập trực tiếp den vị trí của nó trcn thiết bị lưu trữ. Điều này cũng tương tự viộc ta tra bảng chi mục của một cuốn sách, roi căn cứ trcn số trang dẻ lật đến trang đề cập dến vấn đề cằn tra cứu. Mâu tin này sẽ dược đọc và nạp Vcào bộ nhó’. Sau quá trình xử lý, nó sẽ được ghi lại lên dĩa/băng.

Phương phấp này làm tăng tôc độ xử lý tập tin, vì duyệt một bảng chỉ mục nhanh hơn việc nạp tập tin dữ liệu để duyệt, trừ trường hợp tạp tin chi mục quá phức tạp, có dung lượng lớn hơn dung lượng bộ nhó'.

Chương II: Tổ Chức Dữ Liệu Trong Điều Kiện ứng Dụng Máy Tính 45

Bảng chỉ mục cũng được dùng trong phương pháp xử lý theo lô kèm vân tin trực tuyến. Theo đó, một thông tin cân truy vân sể được dưa ra từ việc dùng bảng chỉ mục, sau đó, nêu nghiệp vụ phát sinh được ghi vào hệ thông, nó sẽ được xử lý theo lô. Ví dụ: đê xét duyệt cho một nghiệp vụ bán chịu, một nhân viên tại bộ phận xét duyệt bán chịu cân biết số dư nọ cùa một khách hàng có quá giới hạn định mức chua. Nêu áp dụng phương pháp xử lý theo lô, yêu câu nàv sẽ được giải quyêt băng một báo cáo in ra từ máy in sau khi đã phải xử lý qua toàn bộ tập tin chính khách hàng. Nếu dùng vấn tin trực tuyến, kết quả vấn tin có thê đưa ngay ra màn hình - chứ không cần phải in báo cáo ra từ máy in- và đông thời kết quả này có dược ngay khi tìm thấy mà không cân xử lý toàn bộ tập tin chính khách hàng Xử lý theo lô kèm vấn tin trực tuyến tuy đã có những tiến bộ nhưng vẫn tồn tại nhược điểm là thông tin có thể không chính xác, vì dữ liệu trong tập tin chinh khách

46 Chưong II: Tổ Chức Dữ Liệu Trong Điều Kiện ứng Dụng Máy Tính

hàng được xử lý theo lô có thể chưa được cập nhật từ các lô dữ liệu của tập tin nghiệp vụ, tại thời điểm vấn tin.

'Xử lý theo phương pháp trực tiếp (Direct Access Method), xử ĩý-ứực tuyến thời gian thực (On-line Real Time Processing), các khái niệm xử lý ngẫu nhiên (Random Access Processing), bảng Hash

Xử lý theo phương pháp trực tiếp chỉ áp dụng cho các thiết bị lưu trữ cho phép truy xuất ngẫu nhiên như đĩa từ, đĩa quang.

Phương pháp này cho phép truy cập mẩu tin trong tập tin gần như tức thời, không cần dùng thủ tục duyệt để tìm kiếm. Người ta dùng một giải thuật gọi là giải thuật “băm” (Hash) để tính ra địa chỉ vật lý của mẩu tin cần xử lý, dựa trên khóa của mẩu tin này. Giải thuật này khá phức tạp và cần nhiều bước tính hỗ trở trung gian, phần trình bày sau đây nhằm giúp bạn đọc nắm bắt yếu tố cơ bản của giải thuật. Những chi tiết sâu hơn có thể tìm thấy trong các giáo trình về cơ sờ dữ liệu chuyên ngành công nghệ thông tin.

Giả sử có một tập tin gồm bốn mẩu tin cần nạp từ đĩa vào hệ thống, và giải thuật băm được áp dụng là lấy phần dư của phép chia khóa của các mẩu tin cho 7, lấy kết quả cộng vói hệ số thay thế - hệ số này là vùng địa chỉ bắt đầu ghi tập tin - để thu được địa chỉ vật lý của mẩu tin. Theo đó, ta có:

Mẩu tin Khóa Phần dư Hệ số thay thế Địa chỉ

1 15 1 11 12

2 17 3 11 14

3 11 4 11 15

4 16 2 11 13

Bảng trên đây là một minh họa cho khái niệm bảng Hash.

Một vấn đề nảy sinh dễ thấy là sẽ có nhiều mẩu tin có khóa khác nhau sẽ có cùng địa chỉ. Ví dụ nếu mâu tin thứ tư có khóa là 22, thì địa chỉ của nó sẽ trùng vói địa chỉ của mẩu tin thú nhất trong bảng. Vấn đề này do việc lấy phần dư của phép chia khóa của mẩu tin cho 7. và như thế sẽ chỉ thu được 7 kết quả phân biệt (từ 0 đến 6), các kết quả khác chắn chăn sẽ bị trùng, người ta gọi vấn đề này là tràn số (overflow). Đẻ giải quyết vấn đề này, người ta dùng một vùng chứa các mâu tin bị “tràn” Vcà từ bảng

Chương II: Tổ Chức Dữ Liệu Trong Điều Kiện úng Dụng Máy Tính 47

băm đầu tiên, những mẩu tin trùng địa chỉ sẽ được gán thuộc tính nhận dạng tràn -hoặc dùng kỹ thuật con trỏ chỉ đến bảng băm kế tiếp. Khi xử lý những mẩu tin này, hệ quản trị dữ liệu sẽ (i) dùng giải thuật tính tiếp - vì thế được gọi là băm - nêu lại bị tràn thì lại tiếp tục chuyển đổi ngẫu nhiên (ii) dò tìm tuần tự trên vùng tràn cho đến khi gặp được khóa của mẩu tin.

Xử lý theo phương pháp trực tiếp/ngẫu nhiên thường dùng trong các hệ thống đòi hỏi tính thời gian thực (real-time) cao và trực tuyến (on-line), vì nó đáp ứng gân như tức thời các yêu cầu truy xuất dữ liệu và không cần phải thực hiện các quá trình sắp xếp, duyệt tìm và xử lý theo lô. Một hệ thông thông tin kế toán trực tuyến thời gian thực cho phép kiểm soát số liệu, ra các quyết định nhanh chóng trên các dữ liệu chính xác và cập thời.

Một phần của tài liệu Hệ thống thông tin kế toán tập 1 (Trang 39 - 44)

Tải bản đầy đủ (PDF)

(257 trang)