1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU HỆ TỐNG SEARCH ENGINE VÀ XÂY DỰNG ỨNG DỤNG TÌM KIẾM NỘI DUNG TÀI LIỆU

33 577 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Hệ Thống Search Engine Và Xây Dựng Ứng Dụng Tìm Kiếm Nội Dung Tài Liệu
Trường học Đại học Bách Khoa
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Tốt Nghiệp
Định dạng
Số trang 33
Dung lượng 2,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

NGHIÊN CỨU HỆ TỐNG SEARCH ENGINE VÀ XÂY DỰNG ỨNG DỤNG TÌM KIẾM NỘI DUNG TÀI LIỆU

Trang 1

Dai hoc Bach Khoa

Khoa Cong Nghé Thong Tin

HIEN CUU HE THONG SEARCH ENGINE VA XAY

ie UNG DUNG TIM KIEM NOI DUNG TAI LIEU

Trang 2

NOI DUNG

¢ Phan tich va thiét ké

+ _ Kết luận & Hướng phát triển

Trang 3

thong tin S6 luong

Trang 4

Môi trường tìm kiếm Web :

port and further research within

ai Conference (TREC), co-sponsored by

achnology (NIST) and US Department o

k at the TREC conference questions and the standar

Trang 5

Môi trường tìm kiêm máy tính cá nhần

Trang 6

NOI DUNG

¢ Phan tich va thiét ké

+ _ Kết luận & Hướng phát triển

Trang 7

c_— ¬ File

Trang 8

NOI DUNG

¢ Phan tich va thiét ké

+ _ Kết luận & Hướng phát triển

Trang 9

quan li file

da quét

Tach HTML Tach PDF Tach DOC

( Chuyén déi font VN)

Trang 10

Thuật toán :

GÍ &eœ |- Đúng loại file? ¬ Da lap index ?

Trang 11

Bóc t A

ac h nội dung tài liệu

Trang 12

Phương pháp :

Trang 14

Tính trọng sô và loại bỏ các từ có trọng sô Íf

Phương pháp :

Dựa trên mô hình không gian vector và được tính theo công thức :

score(q, đ) = coord(d,q) - queryNorm(q) : 3» (tŒ, đ) - idƒ(Đ)Ÿ - boost(£E) - norm(t, d))

ting

Trang 16

Phương pháp lưu trữ từ :

postings lists

to be merged

with d1,d2,d3,d5 killed d8 noble d5

Trang 17

Tài liệu , trọng số (2.w1) 3.w2).(4.w3)

(3,w4) (4,.w5).(5.w6)

Table 5 : Bang cac muc tir nghich dao

Trang 18

Index File (Lucene)

¢ CFS File : Luu tri chi muc cua hé thong

¢ gen :Tong hop luu trit cc segment nhỏ

¢ lock :ngan nhiéu xt li index trong 1 thoi gian

(Mỗi chỉ mục bao gôm nhiêu seøment nhỏ , sau đó

nhập lại seement lớn )

18

Trang 19

Tìm kiem

19

Trang 20

Tôi ưu hóa hoạt động của các Module

Thu thập thông tin : Nhanh (Cân Giảm)

- Su dung thong tin file

Trang 21

-Nhiêu luông thu thập thông tin

-Một luông lập chỉ mục (Tránh lỗïi)->tăng số lượng

Trang 22

Giảm hoạt động các luông thu thập

thông tin

1.Chuyén trạng thái “Sleep” trong 1 khoảng

thời gian nêu tìm được một file hợp lệ

2.Chuyén trang thai “Sleep” trong 1 khoang

thời gian sau khi đã lướt qua n file không

hợp lệ

55)

Trang 23

Tăng tốc độ hiển thị th

T= Tmax > T=TI+T2

T : Thời gian hiến thị tât cả kết quả

T1: Thời gian hiền thị kết quả sô 1

23

Trang 27

Sơ đô lớp Data

Data Index

Trang 28

Sơ đô lớp gói Core

XmlExtrador RữEa

nt reactor

PdfExtractor

(name _ ®DocPriorityn me ®Start/)

@\WVrite ocFriority() ~

Trang 29

Sơ đô lớp gói UI

Main TabControl

MainForm

Static TabPage Search TabPage Index TabPage

TabPage

29

Trang 30

NOI DUNG

¢ Phan tich va thiét ké

+ _ Kết luận & Hướng phát triển

30

Trang 31

Bang so sánh ứng dụng

FoxIt Reader pdf 150(~200MB) “Lucene” 5,05 phút

Notepad ++ Html,xml 30(~40MB) “Lucene” 1,34 phút

3l

Trang 33

¢Em xin chan thanh

cam on

ce

Ngày đăng: 26/04/2013, 11:45

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w