Đây chính là các bản chỉ mục của TL, ghi trên phiếu hay biểu ghi mô tả th mục của TL, ở mục “Từ khoá” Đây chính là các bản chỉ mục của TL, ghi trên phiếu hay biểu ghi mô tả th mục của TL
Trang 1bài giảng thông tin học
chươngư4
l u trữ và tìm kiếm thông tin
Khi Ta Bộ Tháng 4 - 2008
Trang 21 nguyên tắc l u trữ thông tin
D={1,2,3,4,5,6,7,8}
1,2,3, là các số hiệu của tài liệu, nó là đặc tr ng hình
thức của tài liệu
T={A,B,C,D,E,F,G,H}
Các từ khoá A=cây lúa, B=hoa màu, C=sâu bệnh, D=đất phèn E= cây ngô, F=thuỷ lợi,G=kỹ thuật trồng trọt, H=chăn nuôi,
là đặc tr ng nội dung của tài liệu
iRx nếu Tài liệu i nói về chủ đề x“Tài liệu i nói về chủ đề x” ”
các D*T Quan hệ này có thể biểu diễn bằng một ma trận, gọi là ma trận t liệu
Trang 3ma trËn t liÖu
T
D
Trang 4ma trận t liệu thể hiện hai nguyên tắc l u trữ thông
tin
– Cắt ma trận theo chiều ngang: mỗi TL ứng với một phiếu nêu lên những chủ đề của TL
TL 1 ứng với t 1 ={A,C,G}
TL 2 ứng với t2={B,D,E,H}
– Cắt ma trận theo chiều dọc: mỗi TK ứng với một
phiếu ghi số hiệu của tất cả những TL có nội dung
đề cập tới chủ đề đó
Chủ đề A ứng với dA={1,3,5,8}
Chủ đề B ứng với dB={2,4,5,7,8}
Đây chính là các bản chỉ mục của TL, ghi trên phiếu hay biểu ghi mô tả th mục của TL, ở mục “Từ khoá”
Đây chính là các bản chỉ mục của TL, ghi trên phiếu hay biểu ghi mô tả th mục của TL, ở mục “Từ khoá”
Đây chính là các bảng đảo của
TL Chúng lập thành bộ phiếu
đảo (phiếu lỗ soi, phiếu uniterm, biểu ghi trong tệp đảo của CSDL
th mục)
Đây chính là các bảng đảo của
TL Chúng lập thành bộ phiếu
đảo (phiếu lỗ soi, phiếu uniterm, biểu ghi trong tệp đảo của CSDL
th mục)
Trang 5các ph ơng tiện l u trữ thông tin
Ph ơng tiện l u trữ thông tin truyền thống:
– Các bộ phiếu mục lục:
Mục lục tác giả
Mục lục chủ đề
Mục lục địa lý
Mục lục thời gian
Mục lục xếp kho,
– Phiếu lỗ mép
– Phiếu lỗ soi
– Các biểu ghi trong các tệp dữ liệu của CSDL th mục
Tệp chủ
Tệp đảo
Trang 62 l u trữ thông tin trên máy tính điện tử
Trong MTĐT thông tin đ ợc tổ chức và l u trữ d ới dạng tệp dữ liệu Các tệp lại có thể cấu trúc thành các biểu ghi, biểu ghi lại gồm nhiều tr ờng
Trong công tác TTTL, các tệp l u trữ các thông tin th
mục, gọi là tệp dữ liệu th mục, ở đó:
– Mỗi biểu ghi là một bản mô tả th mục
– Mỗi chỉ dẫn th mục là một tr ờng.
Có 3 loại tệp:
– Tệp kế tiếp
– Tệp truy nhập trực tiếp
– Tệp đảo
Việc quản lý dữ liệu trên máy tính đ ợc thực hiện bởi hai dạng ch ơng trình:
– Hệ thống quản lý tệp
– Hệ thống quản trị CSDL
Phần mềm quản trị CSDL tài liệu, gọi là phần mềm t liêu, ví dụ: CDS/ISIS
Trang 73 Tìm tin
3.1 Ph ơng thức tìm tin cơ bản
Ph ơng thức tìm tin cơ bản là ph ơng trình, tìm còn gọi
là biểu thức tìm
Cú pháp của biểu thức tìm đ ợc xây dựng trên cơ sở của các phép toán của logic mệnh đề: AND, OR,
NOT, và một số phép toán khác
– AND: nối 2 từ chuẩn trong bản chỉ mục của cùng một TL.
– OR: nối 2 từ chuẩn mà ít nhất một trong hai từ đó có trong bản chỉ mục của TL.
– NOT: nối 2 từ chuẩn mà từ thứ nhất có trong bản chỉ mục của TL, còn từ thứ hai thì không.
Ví dụ:
– Q = C and (A or B) not E hay Q = C*(A+B)^E (trong ISIS)
– Câu trả lời là tập hợp: d Q = d c (d A d B )\dd E
Trang 83.2 Quá trình tìm tin
– 1 Xác định câu hỏi
– 2 Thể hiện câu hỏi bằng ngôn ngữ t liệu: lập biểu thức tìm (lệnh tìm)
– 3 Vạch ra chiến l ợc tìm: xác định bộ máy tra cứu
sẽ sử dụng để tìm tin (mẫu tìm)
– 4 Thực hiện tìm: so sánh lệnh tìm với mẫu tìm để tìm ra tài liệu thích hợp
– 5 Phân tích kết quả tìm, từ đó đánh giá tính đúng
đắn của chiến l ợc tìm (có thể phải quay về b ớc 3)
– 6 Chuyển kết quả tìm cho ng ời dùng tin
– 7 Đánh giá tính phù hợp của thông tin nhận đ ợc (có thể phải quay về b ớc 1)
Trang 93.3 Tìm tin trên MTĐT thông qua bộ
phiếu đảo
tệp dữ liệu:
– Tệp chủ: chứa các biểu ghi th mục
– Các tệp đảo kết hợp với tệp chủ: chứa các giá trị của các tr ờng, đ ợc lấy ra từ các biểu ghi trong tệp chủ, đ ợc coi là những điểm truy nhập thông tin
– Cấu trúc logic của biểu ghi trong tệp đảo:
Sâu bệnh 71,88
Cây lúa 25,71,88
Việt Nam 44,88 Chúng gọi chung là các bảng đảo
Chúng gọi chung là các bảng đảo
Trang 10tìm tin với bộ phiếu đảo:
– Thể hiện câu hỏi bằng biểu thức tìm
– So sánh các điểm tiếp cận TT trong biểu thức tìm với các bảng đảo của chúng
– Các bảng đảo ứng với các yếu tố trong biểu thức tìm đ ợc đ a ra trên một phiếu làm việc
– Phiếu làm việc dùng để thực hiện các phép toán logic trong biểu thức tìm
– Số hiệu các biểu ghi thoả mãn biểu thức tìm sẽ đ
ợc chuyển qua bộ phiếu chủ để đ a ra câu trả lời
– Xem sơ đồ trang 237 GT
Trang 11lmô hình hoá quá trình tìm tin
Giả sử D là tập hợp các TL, Q là tập hợp các câu hỏi
Tìm tin thực chất là một quan hệ R ứng tập con D’D
với câu hỏi qQ
Việc thực hiện quan hệ R trong thực tế là rất khó, vì
số TL th ờng rất lớn
Vì thế ng ời ta không chọn trên D các tài liệu thoả mãn câu hỏi q, mà chọn trên mô hình của chúng Đó là tập
F các ảnh y của x D, cho bởi song ánh I:DF, ứng
x D với y=I(x) xác định nh sau: I= {ax, bx, mx, rx},
trong đó:
– ax là địa chỉ của x
– b x là các đặc trung hình thức của x
– mx các đặc trung nội dung của x
– r x tóm tắt của x
Để thực hiện ánh xạ I ng ời ta dùng ngôn ngữ t liệu
Chúng gọi chung là các mẫu tìm của x
Chúng gọi chung là các mẫu tìm của x
Trang 12mô hình hoá quá trình tìm tin (tiếp)
d ới dạng một biểu thức tìm Nh vậy biểu thức tìm cũng có thể coi là ảnh của q qua ánh xạ I, I:qI(q)
biểu thức tìm (lệnh tìm) với mẫu tìm để xem tài liệu có phù hợp hay không.
máy tra cứu: các bộ phiếu mục lục, các th
mục, các tệp của CSDL.