1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1 potx

40 253 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Hệ Thống Tìm Kiếm Thông Tin Tiếng Việt Dựa Trên Các Chỉ Mục Là Từ Ghép
Tác giả Nguyễn Thanh Hà, Nguyễn Trung Hiếu
Trường học Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn
Năm xuất bản 2005
Thành phố Hà Nội
Định dạng
Số trang 40
Dung lượng 312,42 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trang 1

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

I C M N

Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ã

n tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này

Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,

ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng connghiên c u h c t p

Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,

gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h cqua

m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n

a chúng tôi

c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót,mong nh n c s thông c m và góp ý c a th y cô và các b n

Tháng 7 n m 2005Sinh viênNguy n Th Thanh Hà – Nguy n Trung Hi u

Trang 2

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

NH N XÉT C A GIÁO VIÊN H NG D N

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

Ngày…… tháng……n m 2005

Ký tên

Trang 3

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

NH N XÉT C A GIÁO VIÊN PH N BI N

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

Ngày…… tháng……n m 2005

Ký tên

Trang 4

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

C L C

DANH SÁCH CÁC B NG 8

DANH SÁCH CÁC HÌNH V 8

Ph n 1 : TÌM HI U LÝ THUY T 11

Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN 11

1 Gi i thi u v tìm ki m thông tin 11

1.1 Khái ni m v tìm ki m thông tin 11

1.2 M t s v n trong vi c tìm ki m thông tin: 11

2 H tìm ki m thông tin – IRS 12

3 Các thành ph n c a m t h tìm ki m thông tin [1.1] 13

4 So sánh IRS v i các h th ng thông tin khác 14

4.1 H qu n tr c s d li u (DBMS) 15

4.2 H qu n lý thông tin (IMS) 15

4.3 H h tr ra quy t nh (DSS) 16

4.4 H tr l i câu h i (QAS) 16

4.5 So sánh IRS v i các h th ng thông tin khác 17

Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN 18

1 Ki n trúc c a h tìm ki m thông tin [1.3] 18

2 M t s mô hình xây d ng m t h tìm ki m thông tin [1.2] 19

2.1 Mô hình không gian vector 19

2.2 Tìm ki m Boolean 21

2.3 Tìm ki m Boolean m r ng 22

2.4 M r ng trong vi c thêm vào tr ng s c a câu h i 23

2.4.1 M r ng cho s t tu ý 23

2.4.2 Thêm toán t t ng 24

2.5 Mô hình xác su t 24

2.6 ánh giá chung v các mô hình 25

3 Các b c xây d ng m t h tìm ki m thông tin [3.2] 25

3.1 Tách t t ng cho t p các tài li u 25

3.2 L p ch m c cho tài li u 25

3.3 Tìm ki m 26

3.4 S p x p các tài li u tr v (Ranking) 26

4 Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t 26

4.1 Khó kh n trong vi c tách t ti ng Vi t 27

Trang 5

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

4.3 Các khó kh n khác 27

Ch ng 3: TÁCH T T NG 29

1 Tách t trong Ti ng Anh 29

2 Tách t trong Ti ng Vi t 29

2.1 M t s c m chính v t ti ng Vi t [2.2] 29

2.1.1 Ti ng 29

2.1.2 T 30

2.2 Tách t t ng ti ng Vi t 30

3 Các ph ng pháp tách t ti ng Vi t 30

3.1 fnTBL (Fast Transformation-based learning) [3.1] 30

3.1.1 Mô t 30

3.1.2 Áp d ng tách t ti ng Vi t 31

3.2 Longest Matching [1.4] 37

3.3 K t h p gi a fnTBL và Longest Matching 37

Ch ng 4: L P CH M C 38

1 Khái quát v h th ng l p ch m c 38

2 Ph ng pháp l p ch m c [1.1] 38

2.1 Xác nh các t ch m c 38

2.2 Các ph ng pháp tính tr ng s c a t 40

2.2.1 T n s tài li u ngh ch o 40

2.2.2 nhi u tín hi u (The Signal – Noise Ratio) 40

2.2.3 Giá tr phân bi t t (The Term Discrimination Value) 42

2.3 L p ch m c t ng cho tài li u ti ng Anh 43

3 L p ch m c cho tài li u ti ng Vi t 45

4 T p tin ngh ch o tài li u 46

4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p 46

4.2 T i sao s d ng t p tin ngh ch o l p ch m c 47

Ph n 2 : PHÂN TÍCH VÀ THI T K 49

Ch ng 5: PHÂN TÍCH 49

1 S UseCase h th ng 49

2 S L p 51

2.1 S các l p th hi n 51

2.2 S các l p x lý 52

3 Tách t 53

Trang 6

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

3.3 S C ng tác 54

3.4 S L p 54

4 L p ch m c 55

4.1 S UseCase 55

4.2 S Tu n t 56

4.2.1 T o m i ch m c 56

4.2.2 C p nh t ch m c 57

4.3 S C ng tác 58

4.3.1 T o m i ch m c 58

4.3.2 C p nh t ch m c 59

4.4 S L p 60

5 Tìm ki m 61

5.1 S UseCase 61

5.2 S Tu n t 61

5.3 S C ng tác 62

5.4 S L p 63

Ch ng 6: THI T K VÀ CÀI T 64

1 C u trúc l u tr d li u 64

1.1 T p tin l u n i dung tài li u 64

1.1.1 C u trúc DTD / XSD 64

1.1.2 Tài li u XML 66

1.2 T p tin sau khi tách t tài li u 67

1.2.1 C u trúc DTD / XSD 67

1.2.2 Tài li u XML 68

1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list) 70

1.3.1 C u trúc DTD / XSD 70

1.3.2 Tài li u XML 71

1.4 T p tin ch m c o ( Inverted ) 71

1.4.1 C u trúc DTD / XSD 71

1.4.2 Tài li u XML 73

1.5 T p tin sau khi tách t câu h i 74

1.5.1 C u trúc DTD / XSD 74

1.5.2 Tài li u XML 75

1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sách StopList 76

1.6.1 C u trúc DTD / XSD 76

1.6.2 Tài li u XML 77

1.7 T p tin ch a các t trong câu h i và các tài li u liên quan 77

Trang 7

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

1.7.2 Tài li u XML 79

1.8 T p tin ch a t ng quan gi a câu h i và các tài li u 80

1.8.1 C u trúc DTD / XSD 80

1.8.2 Tài li u XML 82

2 Chi ti t các l p i t ng 83

2.1 Các l p trong quá trình tách t 83

2.1.1 S các l p 83

2.1.2 L p tách t ghép 83

2.1.3 L p tách t 86

2.1.4 L p giao di n tách t 89

2.2 Các l p trong quá trình l p ch m c 91

2.2.1 S các l p 91

2.2.2 L p l p ch m c 92

2.2.3 L p giao di n t o m i ch m c 94

2.2.4 L p giao di n c p nh t ch m c 96

2.3 Các l p trong quá trình tìm ki m 98

2.3.1 S các l p 98

2.3.2 L p tìm ki m 99

2.3.3 L p giao di n tìm ki m 105

3 M t s màn hình giao di n khác 109

3.1 Màn hình chính c a ch ng trình 109

3.2 Màn hình tìm ki m nhi u câu h i 110

3.3 Màn hình tìm ki m chính ( giao di n Web) 112

3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) 113

3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web) 114

Ph n 3 : T NG K T 115

1 Ch ng trình th nghi m 115

2 ánh giá k t qu t c 115

3 H ng phát tri n 116

TÀI LI U THAM KH O 117

1 Sách 117

2 Lu n v n 117

3 Website 117

Trang 8

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

DANH SÁCH CÁC B NG

ng 1-1 So sánh IRS v i các h th ng thông tin khác 17

ng 4-1 Cách t p tin ngh ch o l u tr 47

ng 4-2 Cách t p tin tr c ti p l u tr 47

ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o 48

ng 5-1 Danh sách các Actor 50

ng 5-2 Danh sách các UseCase 50

DANH SÁCH CÁC HÌNH V Hình 1-1 Môi tr ng c a h tìm ki m thông tin 13

Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin 14

Hình 2-1 H tìm ki m thông tin tiêu bi u 18

Hình 3-1 Quá trình h c 35

Hình 3-2 Giai n xác nh t cho tài li u m i 36

Hình 4-1 Các t c s p theo th t 39

Hình 4-2 Quá trình ch n t làm ch m c 45

Hình 5-1 S Use-case c a h th ng 49

Hình 5-2 S các l p th hi n 51

Hình 5-3 S các l p x lý 52

Hình 5-4 S Use-case tách t 53

Hình 5-5 S tu n t tách t 53

Hình 5-6 S c ng tác tách t 54

Hình 5-7 S l p tách t 54

Hình 5-8 S use-case l p ch m c 55

Hình 5-9 S tu n t t o m i ch m c 56

Hình 5-10 S tu n t c p nh t ch m c 57

Hình 5-11 S c ng tác t o m i ch m c 58

Hình 5-12 S c ng tác c p nh t ch m c 59

Hình 5-13 S l p l p ch m c 60

Hình 5-14 S use-case tìm ki m 61

Hình 5-15 S tu n t tìm ki m 61

Hình 5-16 S c ng tác tìm ki m 62

Hình 5-17 S l p tìm ki m 63

Hình 6-1 S l p tách t 83

Trang 9

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Hình 6-3 L p tách t 86

Hình 6-4 L p giao di n tách t 89

Hình 6-5 Màn hình tách t 89

Hình 6-6 Màn hình chi ti t tách t 90

Hình 6-7 S l p l p ch m c 91

Hình 6-8 L p l p ch m c 92

Hình 6-9 L p giao di n t o m i ch m c 94

Hình 6-10 Màn hình t o m i ch m c 95

Hình 6-11 L p Màn hình c p nh t ch m c 96

Hình 6-12 Màn hình c p nh t ch m c 97

Hình 6-13 S l p tìm ki m 98

Hình 6-14 L p x lý tìm ki m 99

Hình 6-15 L p giao di n tìm ki m 105

Hình 6-16 Màn hình tìm ki m 106

Hình 6-17 Xem t khóa câu h i 106

Hình 6-18 Xem t khóa tài li u 107

Hình 6-19 Màn hình chính 109

Hình 6-20 Màn hình tìm ki m nhi u câu h i 110

Hình 6-21 Giao di n tìm ki m trên Web 112

Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m 113

Hình 6-23 Giao di n chi ti t n i dung c a tài li u 114

Trang 10

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

U

Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máytính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u i

i m i ng i trong m i l nh v c Internet hi n nay ã tr thành m t kho t li u kh ng

mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công ctìm ki m (search engine) t t Các h th ng tìm ki m thông tin thông d ng nh Google,Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i Tuy nhiên, các h

th ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a

th t s phù h p cho các v n b n ti ng Vi t Do ó nhu c u ph i có m t công c tìm

Trang 11

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ph n 1 : TÌM HI U LÝ THUY T

1 Gi i thi u v tìm ki m thông tin

1.1 Khái ni m v tìm ki m thông tin

Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà

ng i tìm ki m quan tâm

t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thôngtin ã thu hút s chú ý r t l n V i m t l ng thông tin kh ng l thì vi c tìm ki mchính xác và nhanh chóng càng tr nên khó kh n h n V i s ra i c a máy tính, r tnhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh vàchính xác Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t

nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n Gi s

có m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u

a mình Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quan

và b i các tài li u không liên quan Rõ ràng gi i pháp này không th c t b i vì t n r tnhi u th i gian

Trang 12

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho con

ng i trích ra các tài li u có liên quan trong toàn b t p d li u Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan n câu h i M c ích c a

t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quan

n yêu c u

2 tìm ki m thông tin – IRS

Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi :[2.1]

Salton (1989):

“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u vthông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u vthông tin Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a cácthông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c acác thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.”

Kowalski (1997) :

“H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm vàduy trì thông tin Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình

nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”

Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ng i

d ng tìm ki m thông tin m t cách nhanh chóng và d dàng Ng i s d ng có

th a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm

ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng

Trang 13

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n và

tr v cho ng i s d ng

3 Các thành ph n c a m t h tìm ki m thông tin [1.1]

m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR) xác nh các tài li u áp ng cho các yêu c u

Hình 1-1 Môi tr ng c a h tìm ki m thông tin

Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m tcách tr c ti p Nh ng trên th c t thì u này không th c vì các câu h i và các t ptài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên h

gi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh con

ng i c Chính vì th xác nh c m i liên h gi a các câu h i và các t p tài

li u ph i qua m t b c trung gian

Trang 14

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin

Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n idung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG) Tách t trongcác t p tài li u và l p ch m c cho tài li u Lúc này có th so sánh tr c ti p gi a các t

a câu h i và các t ch m c c a t p tài li u Và t ó ta s d dàng h n xác nh

t ng quan gi a các câu h i và t p tài li u

4 So sánh IRS v i các h th ng thông tin khác

th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tinkhác Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i(QAS) và h tìm ki m thông tin (IR)

Trang 15

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

t c h th ng thông tin t ng nào c ng d a trên m t t p các m c c l u

tr (g i là s d li u) c n thi t cho vi c truy c p Do ó h qu n tr c s d li u

n gi n là m t h th ng c thi t k nh m thao tác và duy trì u khi n c s d

li u

DBMS t ch c l u tr các d li u c a mình d i d ng các b ng M i m t c s

li u c l u tr thành nhi u b ng khác nhau M i m t c t trong b ng là m t thu ctính, và m i m t dòng là m t b d li u c th Trong m i m t b ng có m t thu c tínhduy nh t i di n cho b ng, nó không c trùng l p và ta g i ó là khoá chính Các

ng có m i liên h v i nhau thông qua các khoá ngo i DBMS có m t t p các l nh

tr cho ng i s d ng truy v n n d li u c a mình Vì v y mu n truy v n nCSDL trong DBMS ta ph i h c h t các t p l nh này Nh ng ng c l i nó s cung c pcho ta các d li u y và hoàn toàn chính xác Hi n nay DBMS c s d ng r ngrãi trên th gi i M t s DBMS thông d ng : Access, SQL Server, Oracle

qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c

nh ng v vi c qu n lý Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u

ki u d li u khác nhau Nói chung b t k h th ng nào có m c ích c bi t ph c vcho vi c qu n lý thì ta g i nó là h qu n lý thông tin

Trang 16

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h crút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t a

ra nh ng quy t nh thay cho con ng i

th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óannh

tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng tnhiên Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liênquan n các l nh v c riêng bi t và các ki n th c t ng quát Câu h i c a ng i dùng có

th d ng ngôn ng t nhiên Công vi c c a h tr l i câu h i là phân tích câu truy

n c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liênquan l i a ra câu tr l i thích h p

Tuy nhiên, h tr l i câu h i ch còn ang th nghi m Vi c xác nh ý ngh a

a ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi h

th ng này

Trang 17

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

4.5 So sánh IRS v i các h th ng thông tin khác

IRS DBMS QAS MIS

Tìm ki m

i dungtrong các tài

Các câu truy

n có c utrúc

th t c( Tính

ng, tínhtrung bình,phép chi u…)

ng 1-1 So sánh IRS v i các h th ng thông tin khác

Trang 18

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

THÔNG TIN

1 Ki n trúc c a h tìm ki m thông tin [1.3]

t h th ng thông tin tiêu bi u nh sau:

Hình 2-1 H tìm ki m thông tin tiêu bi u

th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n

n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v

Trang 19

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

(1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n

n thu th p c thành các t riêng bi t T ng t , khi ng i dùng nh p câu truy v nthì câu truy v n c ng c phân tích thành các t riêng bi t

(2) ph n l p ch m c : các t trích c t các v n b n thu th p c s

c b ph n này l a ch n làm các t ch m c Các t ch m c ph i là các t th

hi n c n i dung c a v n b n

(3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câutruy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li uliên quan n câu truy v n M i tài li u có m t t ng quan v i câu h i Các tài li unày s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng

2 t s mô hình xây d ng m t h tìm ki m thông tin [1.2]

c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liênquan n câu h i càng t t Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh mtính toán m t cách chính xác t ng quan này Sau ây là m t s mô hình tìm ki m

b n:

2.1 Mô hình không gian vector

Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ngcách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu

i [ Salton, 1875] Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì phthu c vào các t c s d ng bên trong nó Vector tài li u và vector câu h i sau ó s

Trang 20

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Gi s m t t p tài li u ch g m có hai t là t1 và t2 Vector xây d ng c s

i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i

p các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t Ý t ng chính

là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t tphân b trong nhi u tài li u Tr ng s c tính d a trên t n s tài li u ngh ch o(Inverse Document Frequency) liên quan n các t c cho:

n: s t phân bi t trong t p tài li u

c gán tr ng s t ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s

xu t hi n c a m i t trong m t tài li u riêng bi t Tr ng s c a m t t t ng n u t ó

xu t hi n th ng xuyên trong m t tài li u và gi m n u t ó xu t hi n th ng xuyên

Ngày đăng: 12/08/2014, 12:21

HÌNH ẢNH LIÊN QUAN

Hình 1-1 Môi tr ng c a h  tìm ki m thông tin - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1 potx
Hình 1 1 Môi tr ng c a h tìm ki m thông tin (Trang 13)
Hình 2-1 H  tìm ki m thông tin tiêu bi u - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1 potx
Hình 2 1 H tìm ki m thông tin tiêu bi u (Trang 18)
Hình 3-1 Quá trình h c - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1 potx
Hình 3 1 Quá trình h c (Trang 35)
Hình 3-2 Giai  n xác  nh t  cho tài li u m i - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1 potx
Hình 3 2 Giai n xác nh t cho tài li u m i (Trang 36)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w