Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ thuật tìm kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng được những nhu cầu cấp thiết của thời đại bù
Trang 1HÀ THANH THỦY
TÌM KIẾM VĂN BẢN THEO NỘI DUNG VÀ ỨNG DỤNG
Luận văn thạc sĩ khoa học máy tính
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Thái nguyên – 2012
Trang 2LỜI CẢM ƠN
Để hoàn thành chương trình cao học, tôi đã nhận được sự hướng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trường Đại học Công nghệ thông tin - Truyền thông, Đại học Thái Nguyên
Trước hết, tôi xin chân thành cảm ơn quí thầy cô trường Đại học Công nghệ thông tin - Truyền thông, đặc biệt là những thầy cô đã tận tình dạy bảo cho tôi suốt thời gian học tập tại trường
Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Đặng Văn Đức người
thầy đã dành rất nhiều thời gian, tâm huyết và sự tận tình giúp đỡ, hướng dẫn tôi trong suốt quá trình nghiên cứu để hoàn thành luận văn này
Đồng thời, tôi xin chân thành cảm ơn Sở Giáo dục và đào tạo tỉnh Thái Nguyên, Ban Giám hiệu trường THPT Lương Ngọc Quyến đã tạo điều kiện giúp đỡ tôi về mọi mặt để tôi học tập và hoàn thành tốt khóa học
Cuối cùng tôi xin chân thành cảm ơn gia đình và bạn bè, những người
đã động viên, khuyến khích tôi trong suốt quá trình học tập và nghiên cứu
Mặc dù đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng lực của mình, tuy nhiên vẫn không thể tránh khỏi những thiếu sót, tôi rất mong nhận được những đóng góp quí báu của quí thầy cô và các bạn
Thái Nguyên, ngày 20 tháng 6 năm 2012
Học viên
Hà Thanh Thủy
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Thái Nguyên, ngày 20 tháng 6 năm 2012
Học viên
Hà Thanh Thủy
Trang 4DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT
MMDBMS (Multimedia Database
Management System)
Hệ quản trị cơ sở dữ liệu đa phương tiện
Trang 5Hình 2.1 Mô tả các sự kết hợp của Boolean
Hình 2.2 Sử dụng các khái niệm cho truy vấn
Hình 2.3 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ-tài liệu
Hình 2.4 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu Hình 2.5 Đồ thị Recall – Precision của thuật toán LSI
Hình 2.6 Mô hình khái niệm cơ bản
Hình 3.1 Sơ đồ các chức năng thành phần của dtSearch
Trang 6MỤC LỤC
MỞ ĐẦU 1
CHƯƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM 4
THÔNG TIN THEO NỘI DUNG 4
1.1 Khái quát về cơ sở dữ liệu đa phương tiện 4
1.1.1 Giới thiệu 4
1.1.2 Mục tiêu chính 6
1.1.3 Mô hình dữ liệu đa phương tiện 6
1.2 Hệ thống truy tìm thông tin 8
1.2.1 Khái quát 8
1.2.2 Vấn đề truy tìm tài liệu văn bản 10
1.2.3 Phân biệt các hệ thống IR và DBMS 12
1.3 Trích chọn đặc trưng, chỉ mục và đo tính tương tự 14
1.3.1 Trích chọn đặc trưng 14
1.3.2 Chỉ số hoá cấu trúc 16
1.3.3 Đo tính tương tự 17
1.4 Xếp hạng tài liệu 17
CHƯƠNG II: MỘT SỐ KỸ THUẬT TÌM KIẾM THÔNG TIN VĂN 23
BẢN THEO NỘI DUNG 23
2.1 Mô hình tìm kiếm thông tin Bool 23
2.1.1 Truy vấn Boolean 23
2.1.2 Cấu trúc tệp chỉ mục 25
2.1.3 Chỉ mục tự động 28
2.1.4 Tổng kết về chỉ mục tự động tài liệu 31
2.2 Tìm kiếm văn bản trên cơ sở mô hình không gian vector 32
2.3 Tìm kiếm văn bản trên cơ sở kỹ thuật LSI 34
2.3.1 Ý tưởng cơ bản của LSI 34
2.3.2 Một số khái niệm cơ bản 36
2.3.3 Kỹ thuật SVD (singular value decomposition) 38
2.4 Mô hình tìm kiếm theo xác suất 41
2.4.1 Lịch sử của mô hình xác suất trong IR 41
2.4.2 Không gian biến cố 42
2.4.3 Một mô hình khái niệm 43
2.4.4 Về các khái niệm “liên quan” và “xác suất liên quan” 45
2.4.5 Nguyên tắc xếp hạng xác suất 45
Trang 72.4.6 Mô hình nhị phân độc lập (BIM) 46
CHƯƠNG III: NGHIÊN CỨU THỬ NGHIỆM THƯ VIỆN TÌM 48
KIẾM VĂN BẢN DTSEARCH 48
3.1 Bài toán 48
3.2 Thư viện tìm kiếm văn bản DTSearch 49
3.2.1 Giới thiệu chung 49
3.2.2 Yêu cầu phần cứng 50
3.2.3 Cấu trúc các chức năng và thành phần của dtSearch 50
3.2.4 Sử dụng dtSearch trong môi trường lập trình Java 52
KẾT LUẬN 58
TÀI LIỆU THAM KHẢO 59
Trang 8MỞ ĐẦU
Công nghệ thông tin trên thế giới đang phát triển rất nhanh trong giai đoạn hiện nay Những tiến bộ của khoa học công nghệ thông tin được áp dụng phục vụ công tác nghiên cứu khoa học, công tác quản lý, sản xuất và phục vụ đời sống con người hàng ngày Càng ngày, người ta càng nhận thấy tính hiệu quả, tiện ích của khoa học trí tuệ đã từng bước thay thế lao động thủ công, giảm bớt thời gian lao động, tiết kiệm chi phí và tạo nên rất nhiều tiện ích khác Có thể khẳng định rằng: công nghệ thông tin đã mở ra một kỉ nguyên mới, kỉ nguyên của tự động hoá và đã tạo ra một bước nhảy vọt của nền khoa học thế giới cũng như nền văn minh nhân loại
Trong xu thế phát triển chung của xã hội cũng như định hướng của Đảng và Nhà nước ta trong việc áp dụng công nghệ thông tin trong tất cả các lĩnh vực đời sống, với sự phát triển mạnh mẽ của công nghệ thông tin, tất cả các lĩnh vực đời sống trong xã hội đã tạo ra một khối lượng dữ liệu khổng lồ Trong rất nhiều tình huống, chúng ta phải tìm ra những thông tin cần thiết từ kho dữ liệu khổng lồ đã có ấy Tuy nhiên, vì khối lượng dữ liệu lớn, vì thời gian hạn hẹp cho nên nhiều khi việc tìm kiếm dữ liệu gặp rất nhiều khó khăn
Do đó, cần có các hệ thống tìm kiếm thông tin để hỗ trợ người dùng tìm kiếm nhanh và hiệu quả những thông tin mà họ quan tâm Việc tìm tòi nghiên cứu ứng dụng những thuật toán giúp cho việc tìm kiếm dữ liệu được nhanh chóng, tiết kiệm thời gian, có hệ thống và khoa học là một việc làm hết sức cần thiết trong giai đoạn hiện nay
Văn bản là một trong số các dạng của dữ liệu đa phương tiện, nó được quan tâm từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ Tài liệu văn bản chiếm đa số trong mọi cơ quan tổ chức, đặc biệt là trong thư viện
Trang 9và còn được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video, audio, hình ảnh Số lượng tài liệu văn bản ngày càng lớn và có vai trò
vô cùng quan trọng, vì thế việc lưu trữ, xử lý và truy tìm thủ công trước đây không thể hoặc khó có thể thực hiện được
Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ thuật tìm kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng được những nhu cầu cấp thiết của thời đại bùng nổ thông tin điện tử
Trên thực tế, đã có nhiều công trình nghiên cứu về vấn đề này được
công bố ở cả trong và ngoài nước Mục tiêu luận văn với đề tài”Tìm kiếm văn
bản theo nội dung và ứng dụng” mà tôi hướng tới là nghiên cứu một số kỹ
thuật/phương pháp mới, thử đánh giá so sánh và ứng dụng vào môi trường cụ thể
Đối tượng và phạm vi nghiên cứu
Hệ thống đa phương tiện là một vấn đề phức tạp và rộng lớn, do vậy phạm vi nghiên cứu của luận văn chỉ giới hạn trong việc sử dụng một số kỹ thuật tìm kiếm văn bản theo nội dung, sau đó phát triển chương trình demo ứng dụng tìm kiếm văn bản theo nội dung
Hướng nghiên cứu của đề tài
- Nắm vững qui trình thiết kế CSDL đa phương tiện, trong đó CSDL văn bản là thành phần quan trọng
- Nghiên cứu một số kỹ thuật tìm kiếm văn bản theo nội dung như: mô hình tìm kiếm Bool, mô hình tìm kiếm không gian vector, mô hình tìm kiếm theo xác suất, kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (Latent Sematic Indexing-LSI)
- Nghiên cứu các độ đo phù hợp để đánh giá hiệu năng hệ thống
Trang 10- Xây dựng thử nghiệm chương trình demo tìm kiếm văn bản theo nội dung trên cơ sở bộ thư viện dtSearch
Phương pháp nghiên cứu
- Tổng hợp tài liệu từ nhiều nguồn khác nhau
- Phân tích, liệt kê, so sánh, đối chiếu, trực quan, thực nghiệm,…
Cấu trúc luận văn
Ngoài phần mở đầu giới thiệu ý nghĩa của chủ đề nghiên cứu và phần kết luận nêu lên các kết quả chính đã đạt được, luận văn gồm các chương sau đây:
Chương I: Giới thiệu tổng quan về hệ thống tìm kiếm thông tin theo nội
dung
Chương II: Một số kỹ thuật tìm kiếm thông tin văn bản theo nội dung
Chương III: Nghiên cứu thử nghiệm thư viện tìm kiếm văn bản dtSearch
Trang 11
CHƯƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM
THÔNG TIN THEO NỘI DUNG 1.1 Khái quát về cơ sở dữ liệu đa phương tiện
1.1.1 Giới thiệu
Trên thế giới tồn tại một lượng rất lớn dữ liệu số, các dữ liệu từ tivi, Internet, qua phương tiện truyền thông hay có được từ nhiều phương tiện khác nhau như máy quay (video) kỹ thuật số Các dòng dữ liệu số càng ngày càng tăng, gồm các loại dữ liệu đa phương tiện kết hợp với dữ liệu hình ảnh, âm thanh và văn bản Hiện nay, chúng ta đều biết Internet đang được phát triển như thế nào Trong quá trình trao đổi thông tin, người sử dụng có xu hướng chủ yếu là xử lý trên kiểu dữ liệu đa phương tiện Tầm quan trọng của việc vận dụng thông tin sẽ dần dần thay đổi từ thông tin số tới thông tin ở dạng đa phương tiện: dữ liệu hình ảnh, âm thanh và tài liệu văn bản Vì thế, đa phương tiện là thông điệp cho xã hội thông tin ngày nay
Đa phương tiện có thể trở thành dạng giao tiếp tự nhiên, nhưng nó không hoàn toàn tự do Ngữ nghĩa của một thông điệp trong thông tin số và xác thực hơn là dòng bit của hình ảnh và âm thanh Tín hiệu hình ảnh biểu thị cái gì, ý nghĩa của văn bản và nói gì về âm thanh là không dễ dàng lập luận với một máy tính Những điều thuộc về ngữ nghĩa đó cần được xử lý từ dữ liệu thô bằng việc tổ chức, chuyển đổi, phân tích và phân lớp
Có rất nhiều định nghĩa khác nhau về CSDL đa phương tiện: Theo nghiên cứu EURESCOM thì CSDL đa phương tiện là một CSDL có hiệu năng cao, sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa phương tiện cũng như các kiểu dữ liệu chữ số cơ bản khác và nó có thể quản lý một khối lượng rất lớn thông tin đa phương tiện
Trang 12Dữ liệu âm thanh (audio data): Tín hiệu âm thanh bao gồm tiếng nói,
âm nhạc, tiếng động và mọi sự kết hợp các âm thanh khác nhau Việc lưu lại một bài diễn thuyết, một cuộc đàm thoại, các đoạn audio theo một chủ đề nào
đó có ý nghĩa rất lớn trong thực tế Ví dụ, qua đài phát thanh chúng ta có thể thu thập được nhiều thông tin với các chủ đề khác nhau, có thể tìm kiếm các bài hát trên internet, thu thập các đoạn audio bài giảng trong đào tạo từ xa, học ngoại ngữ qua các đoạn audio
Dữ liệu hình ảnh (image data): Dữ liệu ảnh có thể được dùng để lưu trữ
dấu vân tay, nhận dạng khuôn mặt trong điều tra tội phạm; ảnh thẻ trong quản
lý nhân sự; trong những yêu cầu lưu lại hình ảnh như dữ liệu ảnh cổ vật, hiện tượng thiên nhiên, trái đất… Hơn nữa, trong y học cần có một cơ sở dữ liệu ảnh để có thể truy vấn các triệu trứng để tìm ra những căn bệnh tương tự không chỉ bằng văn bản mà bằng cả hình ảnh, ảnh chụp X quang, ảnh chụp cắt lớp Trong thời gian gần đây, việc sử dụng CSDL ảnh đã mang lại hiệu quả
to lớn trong nhiều lĩnh vực khác nhau của đời sống, kinh tế và xã hội
Dữ liệu video (video data): Video giống như một tập các hình ảnh ở các
thời điểm được sắp xếp, biểu diễn theo một chuỗi thời gian nhất định Trên thực tế chính là chuyển động của các điểm ảnh từ trạng thái này sang trạng thái khác, hay là sự chuyển động của mỗi đối tượng riêng lẻ được phân tách từ
dữ liệu video Dữ liệu video được ứng dụng nhiều trong công nghệ giải trí (phim ảnh, clip âm nhạc ), trong đào tạo từ xa (qua những video bài giảng)
Dữ liệu văn bản (text data): Sự biểu diễn cơ bản của văn bản là cách
tiếp cận với “túi các từ” (bag – of – words) Các dữ liệu văn bản tiêu biểu như: Các trang web, tiêu đề bài viết, các bản báo cáo, bài báo được công bố, các ứng dụng hỗ trợ nghiên cứu, các trang tài liệu, bách khoa toàn thư, thư mục, chép sử, thư điện tử, các bản sao xét xử của toà án, kho thư viện Điều quan
Trang 13trọng là khối lượng dữ liệu văn bản ngày càng lớn và được sử dụng lưu trữ tài liệu trong mọi cơ quan tổ chức Vì thế, quan tâm đến xử lý văn bản là rất cần thiết
1.1.2 Mục tiêu chính
Theo cách nhìn trên đây ta nhận thấy cơ sở dữ liệu đa phương tiện bao gồm năm mục tiêu chính như sau:
- Hỗ trợ các kiểu dữ liệu (Type=Structure+Operations) đa phương tiện
- Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả
- Có các khả năng của hệ CSDL truyền thống
- Có khả năng truy tìm thông tin đa phương tiện
1.1.3 Mô hình dữ liệu đa phương tiện
Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng
Tầng đối tượng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và thời gian xác định, như với một đối tượng đa phương tiện là một trang bao gồm một vài hình ảnh và âm thanh kèm theo Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và thời gian Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục thời gian, trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên cơ sở đồng hồ chung Phương pháp khác là mô hình điều khiển theo sự kiện
Trang 14
Hình 1.1 Mô hình dữ liệu đa phương tiện Tầng loại media
Tầng này bao gồm các loại media như văn bản, hình ảnh, audio và
video Các loại này được suy diễn từ lớp media trừu tượng chung
Tại mức này, các đặc trưng và thuộc tính được đặc tả Ví dụ loại media ảnh:
kích thước, biểu đồ màu, các đối tượng chính chứa trong nó được đặc tả Các
đặc trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách
Tầng khuôn mẫu media
Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ Thông
thường, media có nhiều khuôn mẫu, ví dụ ảnh có thể là nén hay ảnh thô Hơn
nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau Thông tin chứa trong tầng
này được sử dụng để giải mã, phân tích và trình diễn
Các nhiệm vụ khác
Hình ảnh
Tầng kiểu media
Tầng khuôn mẫu media
Trang 15Chú ý rằng, các ứng dụng khác nhau có thể cần các mô hình dữ liệu khác nhau Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng yêu cầu ứng dụng cụ thể
Đến nay, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên Bởi các ứng dụng MIRS hiện nay chủ yếu là đặc thù, chỉ tập trung vào giới hạn số đặc trưng và loại media Rất nhiều công việc phải làm khi mô hình hóa
dữ liệu đa phương tiện để phát triển MIRS và MMDBMS (MultiMedia DataBase Manager System)
1.2 Hệ thống truy tìm thông tin
Sự phát triển của CSDL đa phương tiện cùng với sự phát triển mạnh mẽ của mạng máy tính làm cho hệ thống IR (Information retrieval) ngày càng được quan tâm nhiều hơn
1.2.1 Khái quát
Từ những năm 1940, vấn đề lưu trữ và truy tìm thông tin đã thu hút sự chú ý của các nhà nghiên cứu Vấn đề truy tìm đó là: chúng ta có lượng thông tin rất lớn, yêu cầu truy tìm chính xác và nhanh chóng đang trở nên cần thiết Yếu tố được quan tâm là thông tin liên quan có thể bị bỏ qua khi nó chưa được tìm đến, dần dần lặp lại nhiều lần quá trình và kết quả đó Với sự xuất hiện của máy tính điện tử, rất nhiều ý tưởng về việc sử dụng chúng để cung cấp những hệ thống truy tìm thông tin nhanh chóng và thông minh Ví dụ: trong thư viện luôn có bài toán về truy tìm và lưu trữ thông tin, hay một số nhiệm vụ thông thường như việc lập danh mục, việc quản lý chung và đã có cách thực hiện đem lại kết quả tốt bằng những chiếc máy tính Tuy nhiên, vấn
đề của hiệu quả truy tìm phần lớn vẫn chưa được giải quyết
Trang 16Khi những chiếc máy tính tốc độ cao sẵn sàng cho công việc không thuộc số hóa (non-numerical), nhiều người cho rằng một máy tính có thể đọc toàn bộ tập hợp tài liệu để trích những tài liệu có liên quan Nó nhanh chóng trở nên hiển nhiên rằng, việc sử dụng ngôn ngữ tự nhiên của một tài liệu vấn
đề không chỉ là đầu vào (input) và kho lưu trữ mà còn vấn đề tri thức thuộc đặc trưng nội dung tài liệu chưa được giải quyết Có thể hy vọng sự phát triển trong tương lai có thể tạo đầu vào (input) và kho ngôn ngữ tự nhiên khả thi hơn Nhưng việc mô tả tự động mà những phần mềm cố gắng “sao” lại quá trình “đọc” của con người quả thực là một vấn đề hết sức khó khăn Khó khăn hơn, “việc đọc” bao gồm việc rút trích thông tin, cú pháp và ngữ nghĩa, từ văn bản và sử dụng nó để quyết định xem là mỗi tài liệu có liên quan hay không đến một yêu cầu cụ thể Khó khăn không chỉ làm thế nào để trích thông tin mà còn làm sao để sử dụng nó quyết định sự phù hợp
“Sự phù hợp”, đó là khái niệm trung tâm của truy tìm thông tin Mục đích của một chiến lược truy tìm tự động là truy tìm tất cả các tài liệu phù hợp
ở cùng thời điểm truy tìm, có thể bao gồm một vài tài liệu không thỏa mãn Tìm ra các đặc trưng của tài liệu để khi tài liệu phù hợp với truy vấn, nó cho phép tài liệu được truy tìm để trả lời truy vấn Khi chỉ mục được làm tự động,
nó được giả thiết bằng việc đẩy văn bản của một tài liệu hoặc truy vấn vào cùng bộ phân tích tự động, output sẽ là một biểu diễn của nội dung và nếu tài liệu là phù hợp với truy vấn thì một thủ tục tính toán sẽ cho thấy điều này
Truy tìm dựa trên cơ sở nội dung (Content- based retrieval): Người sử
dụng có thể chỉ rõ các điều kiện lựa chọn dựa trên những nội dung của các đối tượng đa phương tiện Ví dụ, người sử dụng tìm kiếm ảnh, sử dụng truy vấn như: “Tìm tất cả các ảnh giống với ảnh này” và “Tìm tất cả các ảnh chứa ít nhất 3 máy bay” Các hình ảnh được thêm vào cơ sở dữ liệu, DBMS
Trang 17(DataBase Manager System) phải phân tích chúng và tự động trích chọn các đặc điểm (extract features) để đưa ra câu trả lời giống với các truy vấn Thông tin này có thể được sử dụng để tìm kiếm các hình ảnh thoả mãn với một truy vấn đưa ra Một cách tiếp cận khác, người sử dụng muốn tìm các tài liệu mà mình quan tâm có thể sử dụng các kỹ thuật truy tìm thông tin và tìm kiếm từ khoá Nó vẫn không thực sự rõ ràng là làm thế nào để truy tìm các miền cụ thể
đó và các kỹ thuật tìm kiếm có thể được kết hợp hiệu quả với các truy vấn DBMS truyền thống
1.2.2 Vấn đề truy tìm tài liệu văn bản
Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm thông tin (IR) Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text)
và kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính sau đây:
- Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện Văn bản là tài nguyên rất quan trọng đối với các cơ quan tổ chức Cần có IR đủ tốt để sử dụng có hiệu quả các thông tin lưu trữ trong các tài liệu
- Văn bản được sử dụng để mô tả các phương tiện khác như video, audio, ảnh
để có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông tin đa phương tiện
Mục đích của người sử dụng hệ truy tìm:
- Độ chính xác: Truy tìm đúng thông tin mà người sử dụng mong muốn, đúng
với truy vấn Có thể có một vài tài liệu trong câu trả lời là không chính xác song tất cả các câu trả lời phù hợp đều được truy vấn
- Tốc độ truy tìm: Việc truy tìm phải được thực hiện nhanh chóng
Nhiệm vụ chính của thiết kế hệ thống IR là để nhằm giải quyết hai vấn đề:
- Trình diễn và truy vấn tài liệu như thế nào
Trang 18- So sánh tính tương đồng giữa các tài liệu và biểu diễn truy vấn ra sao
Các mô hình truy vấn sẽ xác định hai khía cạnh này Để nâng cao hiệu năng truy vấn, việc xử lý ngôn ngữ tự nhiên và các kỹ thuật trí tuệ nhân tạo được áp dụng Vì tính nhập nhằng và tồn tại nhiều biến thể của ngôn ngữ tự nhiên, hầu như không thể truy vấn mọi tài liệu liên quan hay loại đi mọi tài liệu không liên quan Do vậy, thước đo hiệu năng IR là rất quan trọng
Một hệ thống truy tìm thông tin tiêu biểu
Một hệ thống IR tiêu biểu được minh hoạ bằng phương pháp hộp đen Gồm ba thành phần: input, bộ xử lý và output
Bắt đầu với đầu vào (input), vấn đề chính ở đây là có được biểu diễn của tài liệu và truy vấn thích hợp bằng máy tính Có thể nói các hệ thống truy tìm hầu hết dựa trên máy tính chỉ lưu trữ biểu diễn của tài liệu (hoặc truy vấn),
có nghĩa là một tài liệu văn bản không sử dụng nữa khi nó đã được xử lý để đưa ra các đặc trưng Ví dụ, một biểu diễn tài liệu có thể là một danh sách các
từ được xem là quan trọng được trích ra
Hình 1.2 Hệ thống IR tiêu biểu
Trang 19Khi một hệ thống truy tìm trực tuyến (on-line), người sử dụng có khả năng thay đổi yêu cầu trong một phiên tìm kiếm ở trạng thái truy tìm mẫu, do
đó hy vọng cải thiện được quá trình truy tìm xảy ra sau Một thủ tục như vậy
thông thường cho phép phản hồi (Feedback)
Hơn nữa, bộ xử lý, một phần của hệ thống truy tìm có liên quan tới quá trình truy tìm Bộ xử lý có thể bao gồm cấu trúc thông tin theo cách thích hợp nào
đó, giống như phân loại Trên thực tế, nó cũng bao gồm cả việc biểu diễn chức năng truy tìm, đó là thực hiện chiến lược tìm kiếm câu trả lời cho một truy vấn Trong biểu đồ, các tài liệu được đặt vào một ô riêng biệt để nhấn mạnh thực tế là không có đầu vào (input) rõ ràng nhưng có thể sử dụng trong suốt
- DBMS: Chứa các bản ghi có cấu trúc đồng nhất Mỗi bản ghi được đặc
trưng bởi tập các thuộc tính Các giá trị thuộc tính được gán cho bản ghi để
mô tả bản ghi này một cách rõ ràng và đầy đủ
Truy vấn ở đây dựa trên cơ sở đối sánh chính xác giữa câu truy vấn và các giá trị thuộc tính trong bản ghi Mỗi bản ghi truy vấn chứa các giá trị thuộc tính chính xác được đặc tả trong câu truy vấn (có thể cả giá trị thuộc tính không được đề cập đến trong câu truy vấn)
- Hệ thống IR: Các bản ghi không có cấu trúc Chúng không chứa các
thuộc tính cố định, chỉ đơn thuần là tài liệu văn bản Các tài liệu này có thể chỉ
Trang 20mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục
Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội dung văn bản Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể Bởi
vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ khóa, chỉ mục
Tóm lại, các tài liệu kết quả truy vấn trong DBMS là hoàn toàn liên quan đến câu truy vấn và có ích với người sử dụng Nhưng trong hệ thống IR, các tài liệu được xem là liên quan đến câu truy vấn nhưng có thể không liên quan và không có ích với người sử dụng
Hình 1.3 Tiến trình truy vấn tài liệu
Bên phải hình 1.3 chỉ ra các tài liệu được xử lý off-line để có đại diện (mô tả) Các đại diện này được lưu trữ cùng với các tài liệu
Đại diện câu truy vấn
Đại diện tài liệu
Đối sánh (tính toán độ tương đồng)
Kết quả truy vấn
Đánh giá mức
độ thích hợp phản hồi
Trang 21Bên trái hình 1.3 chỉ ra quá trình truy vấn Người sử dụng đưa ra câu truy vấn và được xử lý on-line để có đại diện của câu truy vấn Sau đó đối sánh đại diện truy vấn với đại diện tài liệu Các tài liệu được xem như tương đồng sẽ được trình diễn cho người sử dụng Họ đánh giá tài liệu cho lại và quyết định tài liệu nào thực sự tương đồng với thông tin họ cần Một hệ thống
IR tốt cần phải cho phép người sử dụng cung cấp phản hồi thích hợp cho hệ thống Hệ thống sử dụng thông tin này để điều chỉnh truy vấn, đại diện truy vấn và đại diện tài liệu Truy tìm khác tiếp theo được thực hiện trên cơ sở câu truy vấn đại diện tài liệu đã hiệu chỉnh Nếu cần, tiến trình phản hồi truy tìm được thực hiện lặp vài lần Chú ý rằng, không phải tất cả các hệ thống IR đều
có tiến trình phản hồi thích hợp
1.3 Trích chọn đặc trưng, chỉ mục và đo tính tương tự
Các đặc trưng và thuộc tính của dữ liệu (items) trong MIRS được trích chọn, tham số hóa và lưu trữ chung với chính các dữ liệu Các đặc trưng và thuộc tính của truy vấn cũng được trích chọn theo cùng cách thức nếu nó không được xác định rõ ràng trước Hệ thống tìm kiếm các items trong CSDL với các thuộc tính và đặc trưng tương tự trên cơ sở thước đo tính tương tự nhất định Để tìm kiếm hiệu quả, các đặc trưng và thuộc tính phải được tổ chức thành các cấu trúc có chỉ mục
1.3.1 Trích chọn đặc trưng
Các mục thông tin đa phương tiện trong CSDL được tiền xử lý để trích chọn đặc trưng và thuộc tính.Trong tiến trình tìm kiếm, các đặc trưng và thuộc tính này được tìm kiếm và so sánh thay cho chính các mục thông tin Do vậy, chất lượng của trích chọn đặc trưng xác định hiệu quả tìm kiếm Nếu đặc trưng không được tách ra từ item nào thì không thể tìm thấy chúng từ CSDL theo đặc trưng đó Đó là một trong sự khác biệt lớn nhất giữa MIRS và
Trang 22DBMS Trong DBMS thì mọi thuộc tính là có sẵn và đầy đủ, trong khi đó các đặc trưng và thuộc tính phải được trích chọn theo loại truy vấn và thường là không đầy đủ trong MIRS.Trích chọn đặc trưng phải thỏa mãn các yêu cầu sau: Đặc trưng và thuộc tính trích chọn phải đầy đủ nhất có thể để biểu diễn nội dung của các mục thông tin Các đặc trưng phải được trình diễn và lưu trữ một cách chặt chẽ, mạch lạc Các đặc trưng phức tạp và đặc trưng lớn không phải là mục đích của trích chọn, nó phải có khả năng tìm kiếm và so sánh nhanh các mục thông tin với nhau Tính toán khoảng cách giữa các đặc trưng phải hiệu quả, nếu không thời gian đáp ứng của hệ thống rất lớn
Tổng thể có 4 mức đặc trưng và thuộc tính như sau:
Metadata: bao gồm các thuộc tính của các đối tượng đa phương tiện như tên
tác giả, ngày tạo lập, tiêu đề đối tượng Không mô tả hay diễn giải nội dung của đối tượng Các thuộc tính này được quản lý bằng kỹ thuật DBMS
Mô tả bằng văn bản: Mô tả nội dung đối tượng bằng văn bản Mô tả dưới hình
thức nhiều từ khóa hay văn bản thông thường Chỉ mục và tìm kiếm trên cơ sở
mô tả bằng văn bản được quản lý bằng kỹ thuật IR Mặc dù mô tả bằng văn bản có hạn chế là còn tính chủ quan và chưa đầy đủ, nhưng đây vẫn là phương pháp hay được sử dụng và hiệu quả Nên sử dụng mô tả bằng văn bản kết hợp với các đặc trưng khác trong ứng dụng đa phương tiện Hiện tại, mô tả văn bản là tiến trình bằng tay, khá vất vả Cần phát triển các công cụ bán tự động
để hỗ trợ tiến trình này Tri thức lĩnh vực và từ điển liệt kê luôn có ích trong việc đem lại hiệu quả truy vấn
Đặc trưng nội dung mức thấp: Thu thập các mẫu và thống kê đối tượng đa
phương tiện và các quan hệ không gian, thời gian giữa các phần đối tượng Mỗi media khác nhau có các đặc trưng nội dung mức thấp khác nhau
Đặc trưng nội dung mức cao: Cố gắng nhận biết và hiểu đối tượng Ngoài
Trang 23nhận dạng văn bản và tiếng nói, việc nhận dạng và hiểu đoạn âm thanh và các đối tượng nhìn là rất khó khăn Trong ứng dụng với giới hạn số lượng đối tượng, việc mô tả và nhận biết các đối tượng chung là rất hiệu quả Ví dụ, dự báo tới 95% các video có mục tiêu chính là quay người hay nhóm người Nó hữu ích cho các hệ thống để nhận biết và diễn giải con người Hiện tại, tiến trình nhận dạng và diễn giải được thực hiện bán tự động
Việc truy vấn trên cơ sở hai loại đặc trưng nội dung mức thấp và mức cao gọi là truy vấn trên cơ sở nội dung Một hệ thống cần sử dụng toàn bộ bốn mức đặc trưng sao cho hỗ trợ được các câu truy vấn mềm dẻo của người sử dụng Các kỹ thuật này hỗ trợ nhau để hình thành mô tả đầy đủ về đối tượng
Ví dụ, mô tả văn bản tốt cho việc thu thập các khái niệm trừu tượng như cảm giác (vui, buồn ) nhưng không có khả năng mô tả mẫu dữ liệu đầy đủ về các hình dạng không đều hay texture Mặt khác, các đặc trưng nội dung mức thấp
có thể thu thập các mẫu dữ liệu này nhưng không mô tả được các khái niệm trừu tượng
Khi đối tượng đa phương tiện có nhiều kiểu media, các quan hệ và tương tác giữa các media phải được sử dụng để trích chọn đặc trưng, diễn giải
và truy tìm Có một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác,
ta có thể sử dụng sự hiểu biết về một hay vài kiểu giúp hiểu và trích chọn đặc trưng cho các kiểu khác Ví dụ, nếu đối tượng đa phương tiện bao gồm rãnh hình (video) và rãnh tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri thức về đối tượng và sử dụng tri thức này để phân đoạn, trích chọn các đặc trưng và đối tượng trên rãnh hình (video)
1.3.2 Chỉ số hoá cấu trúc
Sau khi trích chọn đặc trưng, chúng ta phải chỉ số hóa cấu trúc để tổ chức các đặc trưng sao cho truy vấn được hiệu quả
Trang 24Chỉ số hóa trong MIRS phải là phân cấp và nhiều mức:
Mức cao nhất là phân lớp ứng dụng
Các đặc trưng khác nhau cần chỉ số hóa khác nhau
đối tượng
1.3.3 Đo tính tương tự
Truy vấn đa phương tiện trên cơ sở tính tương tự thay cho đối sánh chính xác giữa các item truy vấn và các item trong CSDL Tính tương tự được tính toán trên cơ sở các đặc trưng, thuộc tính trích chọn và dưới dạng một hay nhiều giá trị Tuy nhiên, tương quan của kết quả truy vấn do con người quyết định Các kiểu đặc trưng được sử dụng để mô tả các đối tượng đóng vai trò quan trọng để phù hợp với yêu cầu này Thước đo tính tương tự rất phức tạp
vì quyết định của người sử dụng là chủ quan và phụ thuộc ngữ cảnh
1.4 Xếp hạng tài liệu
Một truy vấn Boolean cho một máy tìm kiếm có thể đáp ứng tới hàng vài nghìn tài liệu phù hợp, nhưng một người sử dụng thông thường sẽ chỉ có thể xem xét được một số lượng nhỏ các tài liệu tìm được đó Vì thế, xếp hạng các tài liệu phù hợp theo mức độ tương thích với người dùng là một vấn đề quan trọng, cũng là tiêu điểm trong việc đánh giá một phương pháp truy tìm
Chỉ qua một phần thông tin của người sử dụng được trích lọc biểu thị qua truy vấn, hệ thống sẽ tìm kiếm và trả lời bằng một tập các tài liệu phù hợp Yêu cầu đó không có thuật toán cụ thể, nhưng được đảm bảo chiến lược xếp hạng luôn ưu tiên cho những tài liệu hữu ích, tài liệu được coi là “gần” với truy vấn hơn sẽ được xếp lên trên tài liệu khác trong danh sách tài liệu trả lời Trên thực tế, thuật toán xếp hạng trong hệ thống IR phần lớn dựa trên mô
Trang 25hình không gian vectơ các tài liệu Biểu diễn các truy vấn như các vectơ thuật ngữ, thành phần vectơ nhận giá trị 1 nếu thuật ngữ xuất hiện trong truy vấn và
0 trong trường hợp ngược lại
Biểu diễn vectơ thuật ngữ với các tài liệu sử dụng trọng số TF-IDF cho các thành phần trong vectơ sử dụng thước đo khoảng cách cosin để xếp hạng các tài liệu theokhoảng cách thuật ngữ với truy vấn
Mô hình trọng số TF-IDF được chứng minh rất hữu ích trong thực tế Trong
đó, TF (Term Frequency) là tần số xuất hiện thuật ngữ, nghĩa là mỗi thành phần trong một vectơ thuật ngữ được tính bởi số lần thuật ngữ đó xuất hiện trong tài liệu; IDF (Inverse Document Frequency) được tính bằng công thức IDF = log(N/ni), với N là toàn bộ tài liệu trong tập hợp và ni là số các tài liệu chứa thuật ngữ i Chỉ với TF, nếu một thuật ngữ xuất hiện thường xuyên trong các tài liệu thì nó không phải là lựa chọn tốt làm thuật ngữ chỉ mục, vì nó không giúp phân biệt các tài liệu người sử dụng quan tâm với các tài liệu khác, tức là số lượng tài liệu được truy hồi lớn nhưng độ chính xác không cao IDF giúp cải thiện vấn đề này, trọng số của thuật ngữ sẽ rất cao nếu nó xuất hiện thường xuyên chỉ trong một vài tài liệu, tức là giúp tăng cường sự phân biệt Cho Di = (di1, di2, …, diM) là tập hợp các tài liệu, với truy vấn Q biểu diễn như một tài liệu Trong đó, dij là trọng số thuật ngữ j trong tài liệu i, Q(j) biểu thị trọng số của thuật ngữ j trong truy vấn Q (i =1, 2 , N; j = 1, 2, , M) Các trọng số dij và Q(j) có thể là 1 (nếu chứa thuật ngữ) hay 0 (nếu không chứa thuật ngữ) trong đại số quan hệ; hoặc tính bằng TF-IDF hoặc có thể bằng nhiều cách khác Tài liệu Di được đánh giá là “gần” với truy vấn Q dựa vào thước đo sau:
Trang 26Khoảng cách thuật ngữ (term distance):
2 1
))((
Khoảng cách cosin (cosin distance): Thước đo này được sử dụng khá phổ biến trong các mô hình thực tế và được mô tả như sau:
Q
d j
Q
1
2 1
((
Trong trường hợp xấu nhất, cần đến O(N) phép so sánh, mỗi so sánh cho một tài liệu, mỗi so sánh cần O(M) thời gian cho từng thuật ngữ Vậy, sẽ cần O(M×N) thời gian để tìm giải pháp tốt nhất Kỹ thuật chỉ số ngữ nghĩa tiềm tàng (LSI) sẽ làm giảm đáng kể thời gian nói trên
1.5 Thước đo hiệu năng
Thông thường hiệu năng truy tìm thông tin được đo bằng ba tham số :
- Tốc độ tìm kiếm (Retrieval speed)
- Độ trung thực (Recall)
- Độ chính xác(Precision)
Ba tham số này chủ yếu xác định bằng cách lập chỉ mục và đo sự tương đồng
- Speed: Tốc độ truy tìm càng cao hiệu năng càng cao
- Recall: Được sử dụng để đo hiệu năng của hệ thống tìm kiếm thông tin
Đo độ trung thực là biện pháp tốt để đo công suất tìm kiếm các mục thông tin liên quan từ cơ sở dữ liệu Nó được xác định bởi tỷ lệ giữa số mục
Trang 27(0,0) 1
1
Recall Precision
có liên quan được tìm ra và tổng só các mục liên quan trong cơ sở dữ liệu
Độ trung thực càng cao thì hiệu năng càng cao
- Precision: Đo độ truy tìm chính xác Nó được xác định bởi tỷ lệ giữa
số mục được chỉ ra mà nó liên quan với tổng số mục được tìm thấy Độ chính xác càng cao hiệu năng hệ thống càng cao
Trong thực tế phải xem xét precision và recall đồng thời Thông thường
là recall càng cao thì precision càng thấp Với hệ thống có recall cao và
precision thấp có nghĩa rằng hệ thống cho lại danh sách dài các mục, nhưng
nhiều mục trong đó không liên quan Ngược lại hệ thống có precision cao và
recall thấp có nghĩa là còn nhiều mục liên quan câu truy vấn mà không tìm
ra Do vậy khi so sánh hiệu năng hai hệ thống thì phải so sánh cả recall và
precision
Một kỹ thuật so sánh có thể là xác định các giá trị gán cho recall và
precision trong khoảng 0 đến 1 và vẽ đồ thị cho chúng như hình 1.4 Hệ
thống nào có đồ thị xa gốc tọa độ hơn thì có hiệu năng cao hơn
Hình 1.4 Đồ thị so sánh hiệu năng
Giả sử rằng CSDL có 1000 mục thông tin, trong đó có 10 mục liên quan đến câu truy vấn Ví dụ truy vấn trong hệ thống cho lại danh sách như sau: R, R, I, I, R, R, I, I, R, I, R, R, R, I, I Trong đó, R là các mục liên quan
Trang 28đến câu truy vấn, I là các mục không liên quan đến câu truy vấn theo kết luận của người sử dụng
Bảng sau đây là các tính toán recall, precision dành cho các item khác nhau:
Bảng này cho thấy càng nhiều item cho lại thì recall càng cao và
precision càng thấp Khi đánh giá hiệu năng ta thường tính precision với các
Trang 29giá trị recall cố định (thí dụ 0.1, 0.2, 0.9, 1.0) Thực nghiệm cần thực hiện nhiều truy vấn Sau đó tính trung bình cộng các giá trị precision tại cùng giá trị recall để có tập các cặp trung bình cộng recall-precision của hệ thống Tại giá trị recall cố định, precision càng cao thì hiệu năng hệ thống càng cao
Chỉ mục ảnh hưởng đến recall và precision cũng như ảnh hưởng đến hiệu năng hệ thống Nếu chỉ mục không bao phủ toàn bộ items thì hệ thống không thể tìm ra mọi item liên quan với câu truy vấn dẫn tới recall thấp Nếu chỉ mục không chính xác, một số item không liên quan được lấy ra từ hệ thống, dẫn tới precision thấp
Trang 30CHƯƠNG II: MỘT SỐ KỸ THUẬT TÌM KIẾM THÔNG TIN VĂN BẢN THEO NỘI DUNG
Mục tiêu của các hệ thống tìm kiếm thông tin là trả về các tài liệu càng liên quan đến câu hỏi càng tốt Vì lý do đó mà có nhiều mô hình tìm kiếm thông tin ra đời để tính toán chính xác độ tương quan này Sau đây là một số
mô hình tìm kiếm cơ bản:
2.1 Mô hình tìm kiếm thông tin Bool
2.1.1 Truy vấn Boolean
Mô hình Boolean hình thành trên cơ sở lý thuyết tập hợp và đại số Boolean Các mô hình Boolean là mô hình đầu tiên truy tìm thông tin Ví dụ, thuật ngữ truy vấn “kinh tế” chỉ đơn giản là xác định các tập của tất cả các tài liệu được lập chỉ mục với thuật ngữ “kinh tế” Sử dụng các toán tử logic toán học George Boole, thuật ngữ truy vấn và các tập tài liệu tương ứng có thể được kết hợp để hình thành tập tài liệu mới Boole đã xác định ba toán tử cơ bản: AND, OR, NOT Kết hợp các thuật ngữ với toán tử AND sẽ định nghĩa một tài liệu là một tập mà nhỏ hơn hoặc bằng các tập tài liệu của bất kỳ các thuật ngữ Ví dụ, truy vấn “xã hội” AND “kinh tế” sẽ sản xuất tập các tài liệu được lập chỉ mục cả với thuật ngữ “xã hội” và thuật ngữ “kinh tế”, tức là giao của cả hai tập Kết hợp các thuật ngữ với toán tử OR sẽ định nghĩa một tài liệu
là một tập lớn hơn hoặc bằng các tập tài liệu của bất kỳ các thuật ngữ Vì vậy, truy vấn “xã hội” OR “chính trị” sẽ sản xuất tập các tài liệu được lập chỉ mục với một trong hai thuật ngữ “xã hội” hoặc thuật ngữ “chính trị”, hoặc cả hai, tức là sự kết hợp của cả hai tập Điều này được mô tả ở hình 2.1, trong đó mỗi tập tài liệu được mô tả bằng một đĩa, các tập truy tìm được mô tả bởi các khu vực bóng mờ Đối với người dùng chưa qua đào tạo, mô hình có một số nhược điểm rõ ràng Nhược điểm chính của nó là nó không cung cấp một bảng xếp
Trang 31hạng lấy tài liệu Ví dụ, truy vấn “xã hội” AND “người lao động” AND “công
đoàn” sẽ không truy tìm một tài liệu được lập chỉ mục với “bữa tiệc”, “sinh
nhật” và “bánh”, nhưng tương tự như vậy sẽ không truy tìm một tài liệu được
lập chỉ mục với “xã hội” và “người lao động” mà thiếu thuật ngữ “công
đoàn”
Xã hội Chính trị Xã hội Chính trị Xã hội Chính trị
Kinh tế Kinh tế Kinh tế
X ã h ộ i A N D K i n h t ế X ã h ộ i OR Chính trị Xã hội OR Chính trị) AND NOT
Hình 2.1 Mô tả các sự kết hợp của Boolean
Trong mô hình tìm kiếm Bool, tài liệu được lập chỉ mục bởi tập các từ
khoá Các truy vấn được đại diện bởi một tập từ khoá kết nối với tập phép
toán Bool để thể hiện mối quan hệ giữa các thuật ngữ truy vấn
Quy tắc truy tìm kiếm như sau:
- Toán tử OR: Xem xét hai thuật ngữ đồng nghĩa Ví dụ, cho trước câu
truy vấn (term1 OR term2) thì hiện diện của một trong hai thuật ngữ trong bản
ghi (hay trong tài liệu) đủ để đáp ứng truy tìm bản ghi này
- Toán tử AND: Tổ hợp các thuật ngữ (hay từ khóa) vào một câu thuật
ngữ Vậy, truy vấn (term1 AND term2) chỉ ra cả hai thuật ngữ phải hiện diện
trong tài liệu để đem lại kết quả là tìm thấy
Trang 32- Toán tử NOT: Là hạn chế hay thuật ngữ hẹp, thông thường nó được
sử dụng với toán tử AND Câu truy vấn (term1 AND NOT term2) dẫn tới truy
tìm bản ghi có term1 nhưng không có term2
2.1.2 Cấu trúc tệp chỉ mục
Một trong các vấn đề cơ bản trong thiết kế hệ thống IR là quyết định sử dụng loại cấu trúc tệp nào để lưu trữ CSDL tài liệu Cấu trúc tệp sử dụng trong các hệ thống IR bao gồm các tệp phẳng (không chỉ mục, tìm kiếm trên
cơ sở text-pattern), tệp mục lục (inverted), tệp chữ ký (các mẫu bit làm đại
diện tài liệu) và các tệp khác như cây PAT và đồ thị
Với quan điểm tệp phẳng, một hay nhiều tài liệu lưu trữ trong tệp, thông thường trong mã ASCII hay EBCDIC Không chỉ mục tài liệu Tìm kiếm tệp phẳng thông qua tìm kiếm mẫu Trong UNIX, khi lưu trữ tập hợp các tài liệu người ta lưu trữ mỗi tài liệu trong một tệp, trong danh mục Các tệp này có thể tìm kiếm nhờ các công cụ tìm kiếm theo mẫu như “grep”, “awk” Tiệm cận này không hiệu quả vì mỗi lần truy vấn thì toàn bộ tập hợp tài liệu
phải được duyệt để tìm ra mẫu văn bản
Các tệp chữ ký (signature files): chứa các chữ ký (mẫu bit) đại diện cho
tài liệu Có nhiều cách để sinh chữ ký tài liệu Câu truy vấn được đại diện bởi
chữ ký mà nó sẽ được so sánh với chữ ký tài liệu trong khi truy tìm
Cách sử dụng chung nhất là tệp mục lục (inverted) Đó là loại tệp chỉ mục
Những nội dung cơ bản về tệp mục lục được trình bày dưới đây:
Các tệp mục lục (Inverted Files)
Trong tệp mục lục, chỉ mục được xây dựng cho mỗi thuật ngữ để lưu trữ chỉ danh (ID) bản ghi cho toàn bộ bản ghi chứa thuật ngữ này Một đầu vào tệp mục lục thông thường chứa từ khóa (thuật ngữ) và một số ID tài liệu Mỗi từ khóa và các ID tài liệu (mà nó chứa từ khóa) được tổ chức thành một hàng
Trang 33Ví dụ tệp mục lục như sau:
Term1: Record1, Record3
Term2: Record1, Record2
Term3: Record2, Record3, Record4
Term4: Record1, Record2, Record3, Record4
Trong đó:
Termi (i = 1, 2, 3, 4) là số ID của chỉ mục thuật ngữ chỉ mục i
Recordi (i = 1, 2, 3, 4) là số ID của bản ghi i hay tài liệu i
Dòng 1 có nghĩa rằng Record1 và Record3 chứa Term1 Các dòng khác
có ý nghĩa tương tự Sử dụng tệp mục lục, việc tìm kiếm sẽ được thực hiện nhanh chóng Không cần phải tìm kiếm mọi bản ghi trong CSDL mà chỉ truy tìm các hàng có chứa thuật ngữ tìm kiếm
Quy tắc tìm kiếm bằng mô hình Bool trên cơ sở các tệp mục lục như sau:
- Truy vấn AND: Ví dụ (Termi AND Termj) Sinh danh sách trộn hàng i với hàng j trong tệp mục lục và mọi bản ghi đều chứa Termi và Termj sẽ là kết
quả truy tìm ở đầu ra Áp dụng tệp mục lục trên:
+ Với câu truy vấn (Term 1 AND Term 3) cho kết quả là Record3 + Với câu truy vấn (Term 1 AND Term 2) cho kết quả là Record1 + Với câu truy vấn (Term 2 AND Term 3) cho kết quả là Record2
- Truy vấn OR: Ví dụ (Termi OR Term j) Sinh danh sách trộn cho hàng i và
hàng j, mọi mục trong danh sách trộn là đầu ra kết quả