NGHIÊN CỨU HỆ TỐNG SEARCH ENGINE VÀ XÂY DỰNG ỨNG DỤNG TÌM KIẾM NỘI DUNG TÀI LIỆU
Trang 1Dai hoc Bach Khoa
Khoa Cong Nghé Thong Tin
HIEN CUU HE THONG SEARCH ENGINE VA XAY
ie UNG DUNG TIM KIEM NOI DUNG TAI LIEU
Trang 2NOI DUNG
¢ Phan tich va thiét ké
+ _ Kết luận & Hướng phát triển
Trang 3thong tin S6 luong
Trang 4Môi trường tìm kiếm Web :
port and further research within
ai Conference (TREC), co-sponsored by
achnology (NIST) and US Department o
k at the TREC conference questions and the standar
Trang 5Môi trường tìm kiêm máy tính cá nhần
Trang 6NOI DUNG
¢ Phan tich va thiét ké
+ _ Kết luận & Hướng phát triển
Trang 7c_— ¬ File
Trang 8NOI DUNG
¢ Phan tich va thiét ké
+ _ Kết luận & Hướng phát triển
Trang 9quan li file
da quét
Tach HTML Tach PDF Tach DOC
( Chuyén déi font VN)
Trang 10Thuật toán :
GÍ &eœ |- Đúng loại file? ¬ Da lap index ?
Trang 11Bóc t A
ac h nội dung tài liệu
Trang 12
Phương pháp :
Trang 14
Tính trọng sô và loại bỏ các từ có trọng sô Íf
Phương pháp :
Dựa trên mô hình không gian vector và được tính theo công thức :
score(q, đ) = coord(d,q) - queryNorm(q) : 3» (tŒ, đ) - idƒ(Đ)Ÿ - boost(£E) - norm(t, d))
ting
Trang 16Phương pháp lưu trữ từ :
postings lists
to be merged
with d1,d2,d3,d5 killed d8 noble d5
Trang 17
Tài liệu , trọng số (2.w1) 3.w2).(4.w3)
(3,w4) (4,.w5).(5.w6)
Table 5 : Bang cac muc tir nghich dao
Trang 18Index File (Lucene)
¢ CFS File : Luu tri chi muc cua hé thong
¢ gen :Tong hop luu trit cc segment nhỏ
¢ lock :ngan nhiéu xt li index trong 1 thoi gian
(Mỗi chỉ mục bao gôm nhiêu seøment nhỏ , sau đó
nhập lại seement lớn )
18
Trang 19Tìm kiem
19
Trang 20Tôi ưu hóa hoạt động của các Module
Thu thập thông tin : Nhanh (Cân Giảm)
- Su dung thong tin file
Trang 21-Nhiêu luông thu thập thông tin
-Một luông lập chỉ mục (Tránh lỗïi)->tăng số lượng
Trang 22Giảm hoạt động các luông thu thập
thông tin
1.Chuyén trạng thái “Sleep” trong 1 khoảng
thời gian nêu tìm được một file hợp lệ
2.Chuyén trang thai “Sleep” trong 1 khoang
thời gian sau khi đã lướt qua n file không
hợp lệ
55)
Trang 23Tăng tốc độ hiển thị th
T= Tmax > T=TI+T2
T : Thời gian hiến thị tât cả kết quả
T1: Thời gian hiền thị kết quả sô 1
23
Trang 27Sơ đô lớp Data
Data Index
Trang 28
Sơ đô lớp gói Core
XmlExtrador RữEa
nt reactor
PdfExtractor
(name _ ®DocPriorityn me ®Start/)
@\WVrite ocFriority() ~
Trang 29
Sơ đô lớp gói UI
Main TabControl
MainForm
Static TabPage Search TabPage Index TabPage
TabPage
29
Trang 30NOI DUNG
¢ Phan tich va thiét ké
+ _ Kết luận & Hướng phát triển
30
Trang 31Bang so sánh ứng dụng
FoxIt Reader pdf 150(~200MB) “Lucene” 5,05 phút
Notepad ++ Html,xml 30(~40MB) “Lucene” 1,34 phút
3l
Trang 33
¢Em xin chan thanh
cam on
ce