Hệ thống tỡm kiếm thụng tin và thuật toỏn đối sỏnh đa mẫu trong hệ thống tỡm kiếm Nguyễn Thị Kim Phượng Trường Đại học Cụng nghệ Luận văn Thạc sĩ ngành: Cụng nghệ thụng tin; Mó số: 1.0
Trang 1Hệ thống tỡm kiếm thụng tin và thuật toỏn đối
sỏnh đa mẫu trong hệ thống tỡm kiếm
Nguyễn Thị Kim Phượng
Trường Đại học Cụng nghệ Luận văn Thạc sĩ ngành: Cụng nghệ thụng tin; Mó số: 1.01.10
Người hướng dẫn: PGS.TS Đoàn Văn Ban
Năm bảo vệ: 2003
Abstract: Luận văn trỡnh bày tổng quan về hệ tỡm kiếm thụng tin trờn Internet Giới
thiệu một số thuật toỏn đối sỏnh mẫu trong văn bản và đề xuất thuật toỏn đối sỏnh
nhanh đa mẫu để cài đặt vào hệ thống tỡm kiếm thụng tin
Keywords: Hệ tỡm kiếm thụng tin; Internet; Mạng; Tin học; Tỡm kiếm thụng tin Content
mở đầu
Ngày nay, nhu cầu về thông tin của con ng-ời trong cuộc sống rất lớn Trong thực tế, thông tin
đáp ứng nhu cầu của con ng-ời không chỉ ngày càng nhiều mà còn đa dạng Với sự đa dạng và l-ợng thông tin khổng lồ hiện nay, con ng-ời cần có sự hỗ trợ của các hệ thống phần mềm để nhận ra và tìm đ-ợc thông tin chính xác đầy đủ mà con ng-ời cần
Đáp ứng nhu cầu đó, ng-ời ta đã đ-a ra nhiều hình thức cung cấp thông tin, hay nói cách khác
có nhiều nguồn cung cấp thông tin theo nhu cầu của con ng-ời Và ngày nay, nguồn cung cấp l-ợng thông tin vô cùng to lớn và đa dạng đó là Internet Sự phát triển nhanh chóng và không ngừng của Internet đã mang lại một l-ợng thông tin ngày càng hữu ích, phong phú đa dạng và
đầy đủ hơn Đó là một nguồn dữ liệu đ-ợc tập hợp từ nhiều nơi, nhiều ng-ời, nhiều tổ chức khác nhau trên toàn cầu Vì thế, các thông tin đó có mặt rải rác, phân tán khắp nơi, không phân biệt ranh giới địa lý, trải khắp trên toàn cầu Thông tin không những phân tán, phức tạp,
đồ sộ mà còn thuộc nhiều lĩnh vực khác nhau nh-: quản lí, sản xuất, kinh doanh, giáo dục, nghiên cứu khoa học, vui chơi giải trí,…Và hầu hết các thông tin trên Internet đ-ợc l-u trữ d-ới dạng các tài liệu văn bản Khối l-ợng và sự đa dạng của thông tin đã mang lại không ít khó khăn trong việc thu thập, chọn lọc thông tin
Để giải quyết vấn đề này, ng-ời ta đã xây dựng các hệ thống tìm kiếm thông tin _IRS Công
cụ hỗ trợ cho phép ng-ời dùng chọn lọc, thu thập thông tin trên Internet là máy tìm kiếm thông tin, chúng trợ giúp tìm và chọn lọc ra những tài liệu có chứa thông tin cần thiết
Ng-ời dùng luôn yêu cầu kết quả tìm kiếm phải chính xác, đầy đủ và với tốc độ tìm kiếm nhanh Yêu cầu đó đ-ợc đáp ứng chỉ khi các hệ thống tìm kiếm sử dụng các kỹ thuật, thuật toán hiệu quả, tối -u nhất
Do vậy, chúng tôi chọn đề tài “Hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm” để làm luận văn tốt nghiệp cao học
Luận văn đ-ợc tổ chức thành 3 ch-ơng và phần kết luận
Trang 2Ch-ơng 1: Trình bày tổng quan về hệ tìm kiếm thông tin trên Internet Ch-ơng này giới thiệu chung môi tr-ờng, sự phát triển của hệ tìm kiếm, các khái niệm, định nghĩa cơ bản và qui trình hoạt động của hệ tìm kiếm cùng một số tiêu chuẩn để đánh giá các hệ tìm kiếm
Ch-ơng 2: Giới thiệu chi tiết các kỹ thuật, phân tích, xây dựng và đánh giá hai thành phần cơ bản của hệ tìm kiếm là bộ tìm duyệt và bộ tạo chỉ mục
Ch-ơng 3: Trên cơ sở phân tích các cấu trúc cũng nh- quy trình hoạt động của hệ tìm kiếm trong hai ch-ơng tr-ớc Ch-ơng này tập trung nghiên cứu một số thuật toán đối sánh mẫu trong văn bản Phân tích, cài đặt và đánh giá các thuật toán đối sánh đa mẫu nh- Aho_Crasick, Boyer Moore_Horspool và đề xuất thuật toán đối sánh nhanh đa mẫu dựa vào hai thuật toán trên để cài đặt vào hệ thống tìm kiếm thông tin
References
Tài liệu tiếng việt
1 Nguyễn Hoàng Long (2002), Hệ thống tìm kiếm thông tin theo chủ đề dựa trên cơ sở lý thuyết tập mờ, Luận văn tốt nghiệp cao học, Hà Nội, tr.15-35
2 Bùi Quang Minh (2002), Máy tìm kiếm VietSeek, Báo cáo kết quả nghiên cứu thuộc đề tài khoa học đặc biệt cấp ĐHQG Hà Nội, mã số QG-02-02
3 Phạm Thanh Nam (2003), Một số giải pháp cho bài toán tìm kiếm trong cơ sở dữ liệu Hypertext, Luận văn tốt nghiệp cao học, Hà Nội, tr.23-40
Tài liệu tiếng anh
4 Amihood Amir, Moshe Lewenstein, ElyForat (2000), “Faster Algorithms for string Matching with k mismatches”, Proceedings of the eleventh annual ACM-SIAM symposium
on Discrete algorithms Bar-Ilan University and Georgia Tech, Weizmann Institute San Francisco, 5 California, United States, ISBN:0-89871-453-2, pp.794 – 803
5 Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke, Sriram Raghavan (2001), “Searching the Web”, Technical Report Computer Science Department, Standfort University TOIT 1(1), pp.2-43
http://rose.cs.ucla.edu/~cho/papers/cho-toit01.pdf
6 A Nayak (2003), World wide Web, Data Mining for Web-Enabled Electronic Business Applications, pp.128-138
http:zSzzSzwww.eng.auburn.eduzSz~wenchenzSzpaper.pdf/world-wide-web-search.pdf
7 C.J Van Rjjsbergen (1992), “Information Retrieval”, Deparment of computing Science - University of Glasgow, 2nd edn Butterworths London, ISBN:0-89791-523-2, pp.37-50
8 Christian Charras Thierry Lecroq (2002), Hand book of Exact String-Matching Algorithms, pp.165-343
http:zSzzSzwww-igm.univ-lv.frzSz~lecroqzSzcpm98.pdf/charras98very.pdf
Trang 39 Hosam M.Mahmoud, Robert T.Smythe, Mireille Regnier (1997), “Analysis of Boyer– Moore-Horspool String–matching Heuristic” Deparment of Statistics, The George Washington University, Washington, USA, pp.169-186
10 Kin Kolyshkin, Alexander F.Avdonkin (2002), ASPSeck User’s Guide, SWSoft
http://www.aspseek.org/man/manual.pdf
11 Maxime Crochemore, Institut Gaspard Monge (2003), “Pattern Matching in String” UniversitÐ de Marne-la-vallÐe Christophe Hancart, Laboratoire d’Informatique de Rouen, UniversitÐ de Rouen
12 Michael W.Berry and Murray Browne (1999), “World Wide Web Seach Technologies’
13 Robert Sedgewick (1988), Second Edition Algorithms, Princeton University
14 Sunny Lam (2001), “The Overview of The Web search Engine”, Department of computer Science University of Waterloo Canada
15 Sun Wu (1994), “A Fast Algorithms for Multi-Pattern Searching”, Department of Computer Science Chung-Cheng University Chia-Yi, Taiwan
16 Sergey Brin and Lawrence Page (2000), “The Anatomy of a Large –Seale Hypertextual, Stanford, USA
http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm