1. Trang chủ
  2. » Công Nghệ Thông Tin

Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép

118 464 1
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
Tác giả Nguyễn Thị Thanh Hà, Nguyễn Trung Hiếu
Người hướng dẫn Thầy Hồ Bảo Quốc
Trường học Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn
Năm xuất bản 2005
Thành phố Hồ Chí Minh
Định dạng
Số trang 118
Dung lượng 2,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép.

Trang 1

LỜI CẢM ƠN Chúng em xin gởi lời cảm ơn chân thành nhất đến thầy Hồ Bảo Quốc, người đã

tận tình hướng dẫn, giúp đỡ chúng em trong suốt thời gian thực hiện luận văn này

Chúng con cảm ơn Cha, Mẹ và gia đình, những người đã dạy dỗ, khuyến khích, động viên chúng con trong những lúc khó khăn, tạo mọi điều kiện cho chúng con

nghiên cứu học tập

Chúng em cảm ơn các thầy, cô trong khoa Công Nghệ Thông Tin đã dìu dắt, giảng dạy chúng em, giúp chúng em có những kiến:thức quý báu trong những năm học qua

Cảm ơn chị Lê Thúy Ngọc và các bạn đã tận tình đóng góp ý kiến cho luận văn của chúng tôi

Mặc dù rất cỗ găng nhưng luận văn của chúng em không tránh khỏi sai sót, mong nhận được sự thông cảm và góp ý của thầy cô và các bạn

Tháng 7 năm 2005 Sinh viên Nguyễn Thị Thanh Ha — Nguyễn Trung Hiểu

Trang 2

NHAN XET CUA GIAO VIEN HUONG DAN

Ky tén

Nguyễn Thi Thanh Hà - 0112215 2 Nguyễn Trung Hiếu - 0112216

Trang 3

NHAN XET CUA GIAO VIEN PHAN BIEN

Ky tén

Trang 4

MỤC LỤC

DANH SÁCH CÁC BẢNG <2 S 21111151511 1 1111111111111 E11 111k ck 8 DANH SÁCH CÁC HÌNH VẼP - + 1111121 3 1 121212515111 111111 11101111 tk 8

Phần 1 : TÌM HIỂU LÝ TIHHUY ÊTT - 5-5-5 <£ «se es2 s£s£ses£Sssseseesese 11

Chwong 1: TONG QUAN VE TIM KIÊM THÔNG TIN - 11

1 Giới thiệu vé tim kiém thong tin cccesesecscsseseesesscescsssestsceeetevenaeees 11 1.1 Khái niệm về tìm kiếm thông tin ¿2-2 +52 kk+EEEE+E+E+E+EEeEsEekrxrereree 11 1.2 Một số vẫn đề trong việc tìm kiếm thông tin: .‹¿ 5-5-5 2 + +s+s+s+s s2 11

2 Hệ tìm kiếm thông tin — IRS woe cece ccc ceceseseseeedbecseDbessscsessssestessessesteeeeeeen 12

3 Các thành phân của một hệ tìm kiếm thông tin [LA] eee cece eee 13

4 So sánh IRS với các hệ thống thông tin khác .¿ - ¿2 5 +2 £+£zx+z+ezse 14

4.1 Hệ quản trị cơ sở dữ liệu (DBMS) 2 000001 nh re 15

4.2 Hệ quản lý thông tin (IMS) - Q.0 0191 HH ng nh 15 4.3 Hệ hỗ trợ ra quyết định (DSS) - 2 2 212121 S1 k 2115 515111 111 111cc l6

4.4 Hệ trả lời câu hỏi (QAAS) é - HN s1 111 151515111512111 111111111111 11 11T cee l6

4.5 So sánh IRS với các hệ thông thông tin khác - s2 2 + s+s+s+s s2 17

Chương 2: XÂY DỰNG MỘT HỆ THÓNG TÌM KIÊM THÔNG TIN 18

1 Kiến trúc của hệ tìm kiếm thông tin [ Ï.3] - <5 32211 sses 18

2 Một số mô hình để xây-dựng một hệ tìm kiếm thông tin [I.2] 19 2.1 M6 hinh khOng Gian VECO“ e 19

2.2 Tìm kiém Boolean .cc.ccccccccsccsceccescescescescesceseescesecseescescesecscsseesesseessesenseeees 21

2.3 Tim kiếm Boolean mở rộng ¿+ 22+ k+EEEE+EE#E£EESESEeErErErererrkred 22 2.4 Mở rộng trong việc thêm vào trọng số của câu hỏi - + 2 +s+s+s s2 23 2.4.1 Mở rộng cho số từ tuỳ ý .-. 2 2 1212k 2E SE 5 511111 151511111 E1 1ee 23

2.4.2 Thêm toán tử tự động - c2 1111111111111 11 11111112 xe 24

2.5 Mô hình xác SuẤT + ¿+ 2 222 1911511311 3 1 3 1 1 5252511111111 1111 24 2.6 Đánh giá chung về các mô hình . 5 2+8 +8 E2 E+E+£+E#EeE+E+EEsEsEzered 25

3 Các bước để xây dựng một hệ tìm kiếm thông tin [3.2] - 5-5255: 25

3.1 Tách từ tự động cho tập các tài LIỆU - c2 2231313111111 xe 25 3.2 Lập chỉ mục cho tài lIỆU + + + + + c2 090310 1010 0 1 1 9 111v ng vế 25

3.3 Tìm kiẾm - - - E121 5151515 1151521311 111111 11010101050110 111111111111 TX 26 3.4 Sắp xếp các tài liệu trả về (Ranking) . ¿- ¿5s s+s+EE+xeE ke eEskrkrereree 26

4 Những khó khăn trong việc xây dựng một hệ thống tìm kiếm thông tin tiếng

Trang 5

4.3 Các khó khăn khác - + 2 sẻ Sẻ SE SESE2EESEEEEEE 1E EEE5E111315 1151313 30 27 Chương 3: TÁCH TỪ TU ĐỘỘNG 2 2s s2 9E SE s9 sex 29

1 Tách từ trong Tiếng Anh - ¿Sẻ 2 2 Sx SE 3 1121231515111 5151111115111 cee6 29

2 Tach từ trong Tiếng ViỆ( - St S121 21151511111 111111 1111111301 1x 29 2.1 Một số đặc điểm chính về từ tiếng Việt [2.2] - 5+ +s+E 2 +x+x+ercsz 29

2.2 Tách từ tự động tiếng VIỆC . -G + 11T SH 1121211515111 11 1111115111 ce 30

3 Các phương pháp tách từ tiếng ViỆt - + S133 S E222 51 1e 30

3.1 fnTBL (Fast Transformation-based learning) |3 Ï ] ‹ -««««««-s+ 30 BLL MG tase -.- 30

3.1.2 Áp dụng tách từ tiếng Việt - sa TỒN TH TH HH Hư 31 3.2 Longest Matching [ Ï.4] - + + 111 1 n k nnngn 37 3.3 Kết hợp giữa fnTBL và Longest Matching - 5+ 2+ c+E+x+kzsrsrsesed 37 Chương 4: LẬP CHÍ MỤC sos 2s 56s 9< <5 9x sex eves se ee 38

1 Khái quát về hệ thông lập chỉ mụcC ¿¿z¿: à G52 2E SE E22 ESESESEEEESEeEserkrkee 38

2.3 Lập chỉ mục tự động cho tài liệu tiếng Anh ¿- + + +5 s+2+z£+x+x+e+szx2 43

3 Lập chỉ mục cho tài liệu tiếng TVIỆC Q0 nn HH HH HH HH nh nh kh nh, 45 ðJY i68 :i8 0 aˆ”- 46

4.1 Phân biệt giữa tập tin nghịch đảo và tập tin trực tiẾp -5-5-scs¿ 46

4.2 Tai sao su dung tap tin nghich dao dé lập chỉ mục . - 47 Phần 2 : PHÂN TÍCH VÀ THIẾT KÊ: .-5 << << «se S2 4s eseEeseeses 49 Chương 5: PHAN 'TÍCH - 5 2 5 9 5# 99989 98953 3 3 2s 49

1 Sơ đồ UseCase hệ thống G- + E E123 SE S1 kEETvT 1111118 5151111115151 1x6 49

Trang 6

3.3 Sơ đỗ Cộng tÁC + - ST S111 5 511111151110111111111 111111115111 11 111111211 rkg 54 3.4 Sơ đỖ LỚP s11 1211115151 11111111 111111151111 11T111 1111111011111 11 1xx rêu 54

4 Lập chỉ mục - + - + «+ + + 111 1 x9 1 Tnhh 55

4.2 Sơ đồ Tuần tự - c2 CS 1311311385153 1 1311111115551 1111111111111 E11 51111 11x cey 56

4.2.1 Tạo mới Chỉ TỤC . - - << << << c2 c3 322331 3£ seesxeees 56

Chương 6: THIẾT KẾ VÀ CÀI ĐẶT ‹c< s2 s2 S2 Se sSs s2 sex 64

1 Cấu trúc lưu trữ dữ liệu -c+-c- ccc ST tt HE Sx K21 E1 1123111151111 11 11111111 xrrcreg 64 1.1 Tập tin lưu nội dung tài liệu ¿ Sẻ S2 2S SE *EEEEEEEEEEeEerererrkrkd 64 1.1.1 Cầu trúc DTD / XSÏD G c Ea S23 E SE E51 55 18 581155858 5115558 E151 EE reo 64 1.1.2 Tai QU XML oo ceeccecessslbeececcsceccececcececescesecesescescecssceccseeccaeescacescseeseaeees 66 1.2 Tập tin sau khi tachtir tab Tu oo cs eececsescscscscseessessesescsnstansnsces 67 1.2.1 Cau trtic DID / XSD wi.ceececcccccsecceccecescescescsecscescccsceseescnsvsecsctsseseseeseeaes 67 1.2.2 Tai QU XML 0 ceccececccceccececcscecccescscesescesessesescescsesseeesseeecseescscescseereaeees 68

1.3 Tap tin chứa các từ không thể hiện nội dung cua van ban (stop list) 70

1.3.1 Catotrtic DTD / XSD o.ceececcecccsccceccecescescescsecscescsccsceecescnsvsecsetssestseeseeaes 70 1.3.2 Tai QU XML o eeeccceccccecccceccscecccesescecescesescesescescscssesecscsecaeescscecseeseaeees 71

1.4 Tap tin.chi muc dao ( Inverted ) 0.0 cecccccccececeececeeeeeeeesssnessseeeeseeeeeeeees 71

1.4.1 Cau tric DTD / XSD occeececcecccseccecceseccescescsecscescsecsceecescesvsecseesseetaeeseeees 71 1.4.2 TAD]IQU XML o eeeccccecccceccececcsceccecesceceseccscescscescseescseescsescuecsceescaeeaceees 73 1.5 Tap tin sau khi tách ttr CaU OL cece ccececececeeseeceececeseeeseeeceeeseesaaeseeeeess 74 1.5.1 Cau tric DTD / XSD voeceecceccccccseceeccsceceescesescescecescesceecsecseescscseeaeestaceaees 74 1.5.2 Tai QU XML o eeeecccecccceccsceccsceccecescecesesecsceecscescscescseescseescuscscseescateaeaeas 75 1.6 Tập tin chứa các từ của câu hỏi sau khi loại bỏ các từ trong danh sách

1.6.1 Cầu trúc DTD / XSÌD - ESe St S3 S123 151 5581311315111 1 11 13111111 re cez 76 1.6.2 Tài liệu XMLL - St n S1 12319115123 15151 1551511111511 11 1511115111 111 Ee kg 77 1.7 Tap tin chứa các từ trong câu hỏi và các tài liệu liên quan 77 1.7.1 Cau tric DTD / XSD ceececccccccccesceccscecceccseescesccescesceccasescescescsenseestaceaees 77

Nguyễn Thi Thanh Hà - 0112215 6 Nguyễn Trung Hiếu - 0112216

Trang 7

1.7.2 Tat HOU XML oo — 79 1.8 Tập tin chứa độ tương quan giữa câu hỏi và các tài liệu - S0

1.8.1 Câu trúc DTD / XSD 5:5: 22t 2 2x2 2 2 2121.11.1212 80

Y8 009,0 82

2 Chi tiết các lớp đối tượng - ¿+ + 2k1 9K 121239151111 151111111111 ge 83 2.1 Các lớp trong quá trình tách từ - - «+ + + S311 11v 11111111111 x reg 83 QAL SO d6 CAC 16Peiceecccesecccecssescsescessceesesssvscsssestevscssesestessesesesseseavseseen 83 2.1.2 LOp tach tty SHEP 83

2.1.4 Lớp giao diện tach tre cccessesescecceceseseseeceeecesaeseeeeeeeeesaeaaaeeeees 89 2.2 Các lớp trong quá trình lập Chi MUC - - 2< 11111 vs, 9Ị 2.2.1 Sơ đồ các lỚp SE xxx th ẤT CỒN TT TH HH HH 91

2.2.3 LOp giao di€n tao MGI CHI MUC «00.00 dice cedeeeeeeeececcceceeeeeneeeeccceeeaseeeeees 94 2.2.4 Lớp giao diện cập nhật chỉ mục .: -«xs c1 1 vs 96

2.3 Các lớp trong quá trình tìm kiẾm È2¿ ¿+ +2 s++E+E+EEEEEE+E+E£E£EEEeEskrereree 98

2.3.2 Lop tim Ki@M ee dleccesescecselbaecevececscestetevevsseststsvevsssstseseevseeeen 99 2.3.3 Lớp giao diện tìm kiếm - 2 St S2 E2 28+ S5ESEEEEEEEEEEErkrerrerred 105

3 Một số màn hình 520000019084 na 4 109

3.1 Màn hình chính của chương trình + + + «+ + + 33111183 33x sxy 109

3.2 Màn hình tìm kiếm nhiều câu hỏi 5+ 25225 Sc>vsEtsrzrtrrsrrerviei 110

3.3 Màn hình tìm kiếm chính ( giao diện Web) 2 5 c2 c+x+E+esecsrse2 112

3.4 Màn hình trả về các tài liệu tìm được ( giao diện Web) 113 3.5 Màn hình chi tiết của một tài liệu ( giao diện Web) cà seo 114

Phần 3 : TỎÓNG KK”T‹ 5° << % <9 h0 0 88091.01085004 090 115

1 Chương trình thử nghiỆm - - << c2 0202110111313 31 131111 11 1 1 11111111111 xe II5

2 Đánh giá kết quả đạt được . -c + 13T S S111 21 515151211111 1.11 re 115

3 Hướng phát triỂn ¿- ¿+ +5 se SE 912328 8 9 E11 E118 E9 1111151511111 15111111111 1e 116

TÀI LIỆU THAM KHẢO S5: c2 222 112211212111 ree 117

` 117

2 LUAN VAD cece ceccceccceccceeccesccnccceecceuccecceeeceeecceucesceeccesceeuceeeeceseeesesenseenesenecens 117

SA) 0 — 117

Trang 8

DANH SACH CAC BANG

Bang 1-1 So sdnh IRS voi cdc hé thong thong tin Khac wee cece cee cseecesescetestsesceecevscsssevensens 17 Bang 4-1 Cach tập tin nghịch đảo Ïưu tTỮ - - - + - << << 122112111111 111 1111111111111 111 11111111 x55 47

Bảng 4-2 Cách tập tin trực tiếp lưu tr Ữ ¿-c k3 E311 1 1E 1 11T TH HH re 47

Bảng 4-3 Thêm một tài liệu mới vào tập tin nghịch đảo 2 2222213211111 111152 48

Bang 5-1 Danh sách các ACOT - 01111111 vn vn ẤT kg ng ng 50

DANH SACH CAC HINH VE

Hình 1-1 Môi trường của hệ tìm kiếm thông tin eee cece cecesessseeeeeseseeeees 13 Hình 1-2 Tổng quan về chức năng của một hệ tìm kiếm thông tin 2-2 2 2 s5 se: 14 Hình 2-1 Hệ tìm kiếm thông tin tiêu biỀU SỐ, ¿ - 1 62621213 E9E51515123E5 5 51512111115 1E Xe 18

Hinh 3-1 Qua trinh HOC ^ 1 35 Hình 3-2 Giai đoạn xác định từ cho tài liỆU mỚI - cc <5 c2 S223 xeresss 36

Hình 4-I Các từ được sắp theo thỨ tHỰ -.::¿¿ cà ST S1 ST 51111 1111 TT Tiện 39

Hình 4-2 Quá trình chọn từ làm Chỉ mỤC ‹¿ 7-5-2 22222130 1131031313 1111 1111 1111 113 xe 45

Hình 5-I Sơ đồ Use-case của hệ thống + - SE Sx SE ST SE SE 11511111 81111 5E Hye 49

Hình 5-2 Sơ đồ các lớp thể hiện - - - - << S32 1131191 1111515111111 111111 111111111 Hye 51 Hình 5-3 Sơ đồ các lớp Xử lý - + E121 1 1 1 1512121211111 2211110111111 211118 1 re 52 Hình 5-4 Sơ đồ Use-case tách (Ù - 2-1 1212 11115121 2111515 11111511171 11111 010111 5 1T 53 Hình 5-5 Sơ đồ tuần tự tấch (Ù: - - + E112 E3 5 115151 1212115151111 1121111101151 101111 TC 53 Hình 5-6 Sơ đồ cộng tác tách tỪ -¿ ¿2 S1 k ST 111111 TS 1T 111111111011 1111 1E Triệu 54 Hình 5-7 Sơ:đồ lớp tách tỪ - S111 1111111111111 11111 5111111 1H TH HT TH TH 54

Hình 5-8 Sơ đỒ use-case I0) ¡1! 1v SgHaỶỶŨmŨDOÒ—OđẲẮQÒOỒỔỒđdddddẳẦđẳẮÄẦẮỒ 55

Hình 5-9 Sơ đồ tuần tự tạo mới chỉ mỤC + - + S311 51212115 1111 511111115111 Exrkrke 56 Hình 5-10 Sơ đồ tuần tự cập nhật chỉ mục . ¿-¿-¿ SE +38 9E *EEE SE SE SE ryg 57

Hình 5-11 Sơ đồ cộng tác tạo mới Chỉ TỤC - - c1 220110111111 1111 11 11111111111 1 key 58 Hình 5-12 Sơ đồ cộng tác cập nhật chỉ mục . + c 1111111111111 331111111111 11111111 xez 59

Hình 5-13 Sơ đồ lớp lập chỉ mục . ¿- ¿6 kẻ E1 S 5 SE EE SE 1E S111 1E E111 5181111 1111 T rynrkt 60

Hình 5-14 Sơ đồ use-case tìm kiẾm + x11 SE E1 SE 5111951111111 5111 1111111111111 rkg 61 Hình 5-15 Sơ đô tuần tự tìm kiếm 1S S11 S118 1 5 111121 111111 5111111 E1 HH rưyn 61 Hình 5-16 Sơ đồ cộng tác tìm kiẾm - SE Sx SE SE 1111111111111 8111111111111 111kg 62 Hình 5-17 Sơ đồ lớp tìm kiẾm G6 Sẻ SE x SE E11 1111111111111 1111111 111111111 Trời 63 Hình 6-I Sơ đồ lớp tách tỪ - - S1 k2 1111111111 1 511111 111111 5111111111111 11T TT HH 83

Nguyễn Thi Thanh Hà - 0112215 8 Nguyễn Trung Hiếu - 0112216

Trang 9

Hình 6-3 Lớp tách từ ¿+ +11 11 11x 11111111111 1111111111111 11111111111 1H11 01T x11 86

Hình 6-4 Lớp giao diện tách tỪ - - - c9 1 ST nh ng vớ 89

Hinh 6-5 Man hinh tach tiv c.cccccccccceccccccscscesceccscescsccsecscescsecseeseesesacsccseseesacsesscsecseuseescsecaeesesees 89 Hình 6-6 Màn hình chỉ tiết tách ttt e.cc.cccccccccscccesceseeseccescsccscescescscescseeseesecscecsecsesscsecseescseeseesees 90 Hình 6-7 Sơ đồ lớp lập chỉ mục - ¿- + S1 xSxS 1111 E1 515111111 11111511111 1H 91

Hình 6-8 Lớp lập chỉ mục - - - + + + - + + 2991111 1n ng và 92 Hinh 6-9 Lop giao dién tao mMO1 Chi MUC eee eeceeccc cee nnneeeeeeceecececeeaaaeeeeeececceeceeaaaeseeeeeeeeeeeeas 94

Hình 6-10 Màn hình tạo mới chỉ mụỤcC - - << c + E211 21061111 11 11 111 11 11 1 cv re 95 Hinh 6-11 Lop Man hình cập nhật chi mUC ccc eecccccceceeneceeeeseeeeceeceseeeeeeceeaueeeeeeeenaaaes 96 Hình 6-12 Màn hình cập nhật chỉ mục .- + + + - 2211103311111 3 11111113 11111 1 ng ve 97

Hình 6-13 Sơ đồ lớp tìm kiẾm ¿- 2E S232 51515151 52111515 1131111511111 01110117011 TXĐ 98 Hình 6-14 Lớp xử lý tìm kiẾm -. ¿+ E11 S321 E115151 1 1 TIẾT n1 T TT T1 10101101 H111 He 99

Hình 6-15 Lớp giao diện tìm kiếm ¿ - 5 1S 3X Ế TM 1 121 121 1511111111111 xe 105

Hình 6-16 Màn hình tìm kiếm - c2 S2 1211211311311 5 ẤT xnxx 1n HỀN ng TH rryeg 106

Hình 6-17 Xem từ khóa câu hIi - - - - c- c3 SH HH g0 000 ni Hy KH Ki nh ky ky cà 106

Hình 6-18 Xem từ khóa tài liệu - it n St SẾN n3 tn Ö tk En HS S115 1111311315511 exei 107 Hình 6-19 Màn hình chính - 2 E3 S233 1588539355312 5Ö cv 1 S3 0111111113113 111 11511113155 Ex 5e reg 109 Hình 6-20 Màn hình tìm kiếm nhiều câu hỏi s S SE knỀ te tt S3 v23 Se SE SE rrrsreg 110

Hinh 6-21 Giao dién tim kiếm tr@n Web .c.ccstlllitscccstbeccsccsecsscsscesccsscssceseessessecaeessessecaeessens 112

Hình 6-22 Giao diện các tài liệu trả về sau khi tìm kiếm o.0) eececccececcesceccecceceeceeseeeeseeseeseaes 113

Hình 6-23 G1ao diện chi tiết nội dung của tài TIỆU - -cc c1 1133115531111 11111 xxx xs 114

Trang 10

MO DAU

Trong thời đại bùng nỗ thông tin như hiện nay, thông tin được lưu trữ trên máy

tính ngày càng nhiều do đó việc tìm kiếm thông tin chính xác là nhu cầu thiết yếu đối với mọi người trong mọi lĩnh vực Internet hiện nay đã trở thành một kho tư liệu khong

16 ma viéc tim kiém thông tin trên kho tư liệu này cần phải được hỗ trợ bởi các công cụ

tìm kiếm (search engine) tốt Các hệ thống tìm kiếm thông tin thông dụng như Google, Yahoo Search đã đáp ứng được phần nào nhu cầu đó của mọi người Tuy nhiên, các hệ thống này được xây dựng đề xử lý và tìm kiếm các văn bản tiếng Châu Au, chúng chưa thật sự phù hợp cho các văn bản tiếng Việt Do đó nhu câu phải có một công cụ tìm kiêm “hiêu” và xử lý tot các văn bản tíêng Việt

Các hệ tìm kiếm thong tin déu phải thực hiện giai đoạn lập chỉ mục (indexing) cho văn bản để trích các từ chỉ mục (index term) biểu diễn tốt nhất nội dung của văn

bản Giai đoạn này phụ thuộc vào ngôn ngữ của văn bản và phương pháp xử lý tự động ngôn ngữ đó Hiện nay chưa có nhiều hệ thống tìm kiếm thông tin trên kho tài liệu

tiếng Việt có khai thác các đặc trưng của tiếng Việt cho việc lập chỉ mục

Vì vậy mục tiêu của luận văn này nhăm xây dựng một hệ thong tim kiếm thông tin bằng tiếng Việt có sử dụng các kết quả của xử lý ngôn ngữ tự nhiên tự động để xác

định được các chỉ mục là các từ (word) hay từ ghép (compound word) của tiếng Việt

Nguyễn Thị Thanh Hà - 0112215 10 Nguyễn Trung Hiếu - 0112216

Trang 11

Phan 1: TIM HIEU LY THUYET

Chuong 1: TONG QUAN VE TIM KIEM THONG TIN

1 Giới thiệu về tìm kiếm thông tin

1.1 Khái niệm về tìm kiếm thông tin

Tìm kiếm thông tin là tìm kiếm trong một tập tài liệu để lấy ra các thông tin mà người tìm kiêm quan tâm

1.2 Một số vẫn đề trong việc tìm kiếm thông tin:

Kế từ những năm 40, các vẫn đề trong việc lưu trữ thông tin và tìm kiếm thông tin đã thu hút sự chú ý rất lớn Với một lượng thông tin không lồ thì việc tìm kiếm chính xác và nhanh chóng càng trở nên khó khăn hơn Với sự ra đời của máy tính, rất nhiều ý tưởng lớn được đưa ra nhằm cung cấp một hệ thống tìm kiếm thông minh và chính xác Tuy nhiên, vân đề tìm kiêm sao cho hiệu quả vần chưa được giải quyết

Về nguyên tắc, việc lưu trữ thông tin và tìm kiếm thông tin thì đơn giản Giả sử

có một kho chứa các tài liệu và một người muốn tìm các tài liệu liên quan đến yêu câu của mình Người đó có thể đọc tất cả các tài liệu trong kho, giữ lại các tài liệu liên quan

và bỏ đi các tài liệu không liên quan Rõ ràng giải pháp này không thực tế bởi vì tốn rất nhiều thời gian

Trang 12

Với sự ra đời của máy vi tính tốc độ cao, máy tính có thể “đọc” thay cho con người để trích ra các tài liệu có liên quan trong toàn bộ tập dữ liệu Tuy nhiên vấn để lúc này là làm sao để xác định được tài liệu nào liên quan đến câu hỏi Mục đích của một hệ thông tìm kiếm thông tin tự động là truy lục được tất cả các tài liệu có liên quan đền yêu câu

2 Hệ tìm kiếm thông tin —- IRS

Sau đây là định nghĩa về hệ thống tìm kiếm thông tn của một số tác giả: [2.]|

Salton (1989):

“Hệ thống tìm kiếm thông tin xử lý các tập tin lưu trữ và những yêu câu về thông tin, xác định và tìm từ các tập tin những thông tin phù hợp với những yêu cầu về

thông tin Việc truy tìm những thông tin đặc thù phụ thuộc vào sự tương tự giữa các

thông tin được lưu trữ và các yêu cầu, được đánh giá bằng cách so sánh các giá trị của các thuộc tính đối với thông tin được lưu trữ và các yêu cầu về thông tin.”

Kowalski (1997) :

“Hệ thống truy tìm thông tin là một hệ thống có khả năng lưu trữ, truy tìm và duy trì thông tin Thông tin trong những trường hợp này có thể bao gồm văn bản, hình ảnh, âm thanh, video và những đối tượng đa phương tiện khác.”

Hiểu đơn giản hệ thống tìm kiếm thông tin là một hệ thống hỗ trợ cho người

sử dụng tìm kiếm thông tin một cách nhanh chóng và dễ dàng Người sử dụng có thể đưa vào những câu hỏi, những yêu cầu (dạng ngôn ngữ tự nhiên) và hệ thống sẽ tìm

kiếm trong tập các tài liệu (dạng ngôn ngữ tự nhiên) đã được lưu trữ để tìm ra những

Nguyễn Thị Thanh Hà - 0112215 12 Nguyễn Trung Hiếu - 0112216

Trang 13

tài liệu có liên quan, sau đó sẽ sắp xếp các tài liệu theo mức độ liên quan giảm dân và trả về cho người sử dụng

3 Các thành phân của một hệ tìm kiêm thông tỉn [1.1|

Gồm: tập các tài liệu (DOCS) đã được lưu trữ trong kho dữ liệu, tập các yêu cầu (REQS) của người dùng, và một số phương pháp tính độ tương quan (SIMILAR) để xác định các tài liệu đáp ứng cho các yêu câu

“~

Hình 1-1 Môi trường của hệ tìm kiếm thong tin

Theo lý thuyết thì mối liên hệ giữa các câu hỏi và các tài liệu có thể so sánh một

cách trực tiếp Nhưng trên thực tế thì điều này không thể được vì các câu hỏi và các tập tài liệu đều ở dạng văn bản, chỉ có con người đọc vào thì thấy ngay được môi liên hệ giữa chúng, nhưng ở đây chỉ là một hệ thống máy móc không thể suy luận như con người được Chính vì thế để xác định được mối liên hệ giữa các câu hỏi và các tập tài liệu phải qua một bước trung gian

Trang 14

Hình 1-2 Tống quan về chức năng của một hệ tìm kiếm thông tin

Trước hết chuyển đổi các câu hỏi thành các từ riêng biệt đủ để biểu hiện cho nội dung của câu hỏi gọi là ngôn ngữ chỉ mục (Indexing language - LANG) Tách từ trong

các tập tài liệu và lập chỉ mục cho tài liệu Lúc này có thể so sánh trực tiếp giữa các từ của câu hỏi và các từ chỉ mục của tập tài hệu Và từ đó ta sẽ dễ đàng hơn để xác định

độ tương quan giữa các câu hỏi và tập tài liệu

4 So sánh IRS với các hệ thông thông tin khác

Hệ thống tìm Kiếm thông tin cũng tương tự như nhiều hệ thống xử lý thông tin khác Hiện nay các hệ thống thông tin quan trọng nhất là: hệ quản trị cơ sở dữ liệu

(DBMS), hệ quản lý thông tin (MIS), hệ hỗ trợ ra quyết dinh (DSS), hé tra loi cau hoi

(QAS) và hệ tìm kiếm thông tin (IR)

Nguyễn Thị Thanh Hà - 0112215 14 Nguyễn Trung Hiếu - 0112216

Trang 15

4.1 Hệ quản trị cơ sở dữ liệu (DBMS)

Bắt cứ hệ thống thông tin tự động nào cũng dựa trên một tập các mục được lưu

trữ (gọi là cơ sở đữ liệu) cần thiết cho việc truy cập Do đó hệ quản trị cơ sở dữ liệu

đơn giản là một hệ thông được thiết kế nhằm thao tác và duy trì điều khiến cơ sở dữ

liệu

DBMS tổ chức lưu trữ các đữ liệu của mình dưới dạng các bảng Mỗi một cơ sở

dữ liệu được lưu trữ thành nhiều bảng khác nhau Mỗi một cột trong bảng là một thuộc tính, và mỗi một dòng là một bộ dữ liệu cụ thé Trong mỗi một bảng có một thuộc tính

duy nhất đại diện cho bảng, nó không được trùng lắp và ta gọi đó là khoá chính Các bảng có mối liên hệ với nhau thông qua các khoá ngoại DBMS có một tập các lệnh để

hỗ trợ cho người sử dụng truy vẫn đến dữ liệu của mình Vì vậy muốn truy vấn đến CSDL trong DBMS ta phải học hết các tập lệnh này Nhưng ngược lại nó sẽ cung cấp cho ta các dữ liệu đầy đủ và hoàn toàn chính xác Hiện nay DBMS được sử dụng rộng rãi trên thế giới Một số DBMS thông dụng : Access, SQL Server, Oracle

4.2 Hệ quản lý thông tỉn (IMS)

Hệ quản lý thông tin là hệ quản trị cơ sở dữ liệu nhưng có thêm nhiều chức nhưng về việc quản-lý Những chức năng quản lý này phụ thuộc vào giá trị của nhiều kiểu dữ liệu khác nhau Nói chung bất kỳ hệ thống nào có mục đích đặc biệt phục vụ cho việc quản lý thì ta gọi nó là hệ quản lý thông tin

Trang 16

4.3 Hệ hỗ trợ ra quyết định (DSS)

Hệ hô trợ ra quyêt định sẽ dựa vào các tập luật được học, từ những luật đã học rút ra những luật mới, sau khi gặp một vân đề nó sẽ căn cứ vào vào tập các luật đê đưa

ra những quyết định thay cho con người

Hệ thống này đang được áp dụng nhiều cho công việc nhận dạng và chuẩn đóan

bệnh

4.4 Hệ trả lòi cầu hỏi (QAS)

Hệ trả lời câu hỏi cung cấp việc truy cập đến các thông tin bằng ngôn ngữ tự nhiên Việc lưu trữ cơ sở dữ liệu thường bao gồm một số lượng lớn các vẫn đề liên quan đến các lĩnh vực riêng biệt và các kiến thức tổng quát Câu hỏi của người dùng có thể ở dạng ngôn ngữ tự nhiên Công việc của hệ trả lời câu hỏi là phân tích câu truy vẫn của người dùng, so sánh với các tri thức được lưu trữ, và tập hợp các vấn đề có liên quan lại để đưa ra câu trả lời thích hợp

Tuy nhiên, hệ trả lời câu hỏi chỉ còn đang thử nghiệm Việc xác định ý nghĩa của ngôn ngữ tự nhiên dường như vân là chướng ngại lớn đề có thê sử dụng rộng rãi hệ thống này

Nguyễn Thị Thanh Hà - 0112215 l6 Nguyễn Trung Hiếu - 0112216

Trang 17

4.5 So sánh IRS với các hệ thông thông tin khác

Bang 1-1 So sánh IRS với các hệ thông thông tin khác

Trang 18

Chuong 2: XAY DUNG MOT HE THONG TIM KIEM

THONG TIN

1 Kiến trúc của hệ tìm kiếm thong tin [1.3]

Một hệ thống thông tin tiêu biểu như sau:

ranked docs

Hình 2-1 Hệ tìm kiếm thông tin tiêu biểu

Hệ thống tìm kiếm thông tin gồm có 3 bộ phận chính : bộ phận phân tích văn

bản, bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả vê

Nguyễn Thị Thanh Hà - 0112215 18 Nguyễn Trung Hiéu - 0112216

Trang 19

(1) Bộ phận phân tích văn bản: bộ phận này có nhiệm vụ phân tích các văn bản thu thập được thành các từ riêng biệt Tương tự, khi người dùng nhập câu truy vẫn thì câu truy vấn cũng được phân tích thành các từ riêng biệt

(2) Bộ phận lập chỉ mục : các từ trích được từ các văn bản thu thập được sẽ

được bộ phận này lựa chọn để làm các từ chỉ mục Các từ chỉ mục phải là các từ thể hiện được nội dung của văn bản

(3) Bộ phận so khớp và sắp xêp các tài liệu trả về: Các từ trích được từ câu

truy vân và các từ chỉ mục của văn bản sẽ được so khớp với nhau đê tìm ra các tài liệu liên quan đền câu truy vân Môi tài liệu có một độ tương quan với câu hỏi Các tài liệu

này sẽ được sắp xêp theo độ tương quan giảm dân và trả về cho người sử dụng

2 Một số mô hình để xây dựng một hệ tìm kiếm thông tin [1.2]

Mục tiêu của các hệ thông tìm kiêm thông tin là trả vê các tài liệu càng liên quan đên câu hỏi càng tôt,.Vì thê người ta đã đưa ra rât nhiêu mô hình tìm kiêm nhăm tính toán một cách chính xác độ tương quan này Sau đây là một sô mô hình tìm kiêm

cơ bản:

2.1 Mô hình không gian vector

Mô hình không gian vector tính toán độ tương quan giữa câu hỏi và tài liệu bằng

cách định nghĩa một vector biểu diễn cho mỗi tài liệu, và một vector biểu diễn cho câu hoi [ Salton, 1875] M6 hình dựa trên ý tưởng chính là ý nghĩa của một tài liệu thì phụ thuộc vào các từ được sử dụng bên trong nó Vector tài liệu và vector câu hỏi sau đó sẽ

được tính toán để xác định độ tương quan giữa chúng Độ tương quan càng lớn chứng

tỏ tài liệu đó càng liên quan đên câu hỏi

Trang 20

Giả sử một tập tài liệu chỉ gôm có hai từ là t¡ và t; Vector xây dựng được sẽ

gôm có 2 thành phân: thành phần thứ nhất biểu diễn sự xuất hiện của t¡, và thành phần

thứ hai biểu diễn cho sự xuất hiện của tạ Cách đơn giản nhất để xây dựng vector là

đánh 1 vào thành phân tương ứng nếu từ đó xuất hiện, và đánh 0 nếu từ đó không xuất hiện Gñả sử tài liệu chỉ gom có 2 từ t Ta biểu diễn cho tài liệu này bởi vector nhị

phân như sau: <1,0> Tuy nhiên, biểu diễn như vậy không cho thay được tần số xuất hiện của mỗi từ trong tài liệu Trong trường hợp này, vector nên được biểu diễn như

sau: <2,0>

Đối với một câu hỏi đã cho, thay vì chỉ căn cứ so sánh các từ trong tài liệu với

tập các từ trong câu hỏi, ta nên xem xét đến tầm quan trọng của mỗi từ Ý tưởng chính

là một từ xuất hiện tập trung trong một số tài liệu thì có trọng số cao hơn so với một từ phân bố trong nhiều tài liệu Trọng số được tính dựa trên tần số tài liệu nghịch đảo

(Inverse Document Frequeney) liên quan đến các từ được cho:

n: số từ phân biệt trong tập tài liệu

ti : số lần xuất hiện của từ {¡ trong tài liệu D, (tần số)

dĩ; : sô tài liệu có chứa từ t;

idf, = lesa rong đó đ là tổng số tài liệu

Trang 21

trong tất cả các tài liệu Để tính trọng số của từ thứ t¡ trong tài liệu D;, dựa vào công thức:

dij = ttij * 1dÍ;

dị : là trọng số của từ t; trong tài liệu D;

Đối với hệ thống tìm kiếm thông tin theo mô hình vector, mỗi tài liệu là một

vector có dạng : D¡(d¡, dị, ., địy ) Tương tự, câu truy vẫn Q cũng là một vector có

dạng : Q(wui, Wq2; sees Wan)

w,¡ : là trọng số của từ t; trong câu truy van Q

Độ tương quan (SC: similarity coeficient) giữa câu truy vấn Q và tài liệu D,

được tính như sau:

SC(Q,D,) = » Woy” i

j=]

2.2 Tim kiém Boolean

Mô hình tìm kiếm Boolean khá đơn giản Câu hỏi đưa vào phải ở dạng biểu thức Boolean Nghia là phar thỏa:

Ngữ nghĩa rõ rang

Hình thức ngăn gon

Do các từ hoặc xuất hiện hoặc là không xuất hiện, nên trọng số wạj £ {0,1} Gia su dua vao mot cau hoi dang biểu thức Boolean như sau: t¡ and t¿ Sau khi tìm kiêm ta xác định được các tài liệu liên quan đên t; là { dị, d;, d;} và các tài liệu liên

Trang 22

quan đến t; là {d;, d;, d;} Như vậy với phép and, các tài liệu thỏa yêu cầu của người dùng là {d;, ds} Phuong pháp này có một số khuyết điểm như sau:

Các tài liệu trả về không được sắp xếp (ranking)

Câu hỏi tìm kiếm đòi hỏi phải đúng định dạng của biểu thức Boolean gây khó khăn cho người dùng

Kết quả trả về có thể là quá ít hoặc quá nhiều tài liệu 2.3 Tìm kiếm Boolean mở rộng

Mô hình tìm kiêm Boolean không hô trợ việc sặp xêp kêt quả trả về bởi vì các

tài liệu hoặc thỏa hoặc không thỏa yêu câu Boolean Tât cả các tài liệu thỏa mãn đêu được trả về, nhưng không có sự ước lượng nào được tính toán cho sự liên quan của

chúng đôi với câu hỏi

Mô hình tìm kiếm Boolean mở rộng ra đời nhằm hỗ trợ việc sắp xếp (ranking)

kết quả trả về dựa trên ý tưởng cơ bản là đánh trọng số cho mỗi từ trong câu hỏi và

trong tài liệu Giả sử một cầu hỏi yêu cầu (t¡ OR t;) và một tài liệu D có chứa t¡ với trọng số w¡ và f¿ với trọng số w; Nếu w¡ và w¿ đều bằng 1 thì tài liệu nào có chứa cả

hai từ này sẽ có thứ tự sắp xếp cao nhất Tài liệu nào không chứa một trong hai từ này

sẽ có thứ tự sắp xếp thấp nhất Ý tưởng đơn giản là tính khoảng cách Eclide từ điểm

Trang 23

SC(Q,D;) = 42 = 1.414

Đề đưa SC vào khoảng [0,1], SC duoc tinh nhu sau:

SC(Quy a+) = SOP

Công thức này giả sử là câu hỏi chỉ có toán tử OR Déi voi todn tir AND, thay

vì tính khoảng cách tới gốc, ta sẽ tính khoảng cách đến điểm (1,1) Câu hỏi nào càng gân đến điểm (1,1) thì nó càng thoả yêu cầu của toán tử AND:

(1-w,)+(-w,

SC(Qu A 12> di) = |- ý v2

2.4 Mỏ rộng trong việc thêm vào trọng sô của câu hỏi

Nêu câu hỏi có trọng sô là q¡ và q› thì độ tương quan sẽ được tính như sau:

Trang 24

Nếu p — = : chuyến về hệ thống Boolean thông thường (không có trọng số)

Nếu p = I : chuyển về hệ thống không gian vector

là đầu mối để xác định tài liệu liên quan Ý tưởng chính là tính xác suất của mỗi từ trong câu hỏi và sau đó sử dụng chúng để tính xác suất mà tài liệu liên quan đến câu hỏi

Nguyễn Thị Thanh Hà - 0112215 24 Nguyễn Trung Hiếu - 0112216

Trang 25

2.6 Đánh giá chung về các mô hình

Mô hình Boolean được xem là mô hình yêu nhât trong các mô hình bởi vì như đã trình bày nó còn rât nhiêu khuyêt điểm

Theo kinh nghiệm của Salton và Buckley thì nhìn chung mô hình vector

làm tốt hơn mô hình xác suât

Luận văn của chúng em sử dụng mô hình không gian vector đề xây dựng một

hệ thống tìm kiếm thông tin tiếng Việt

3 Các bước để xây dựng một hệ tìm kiếm thông tin [3.2]

3.1 Tách từ tự động cho tập các tài liệu

Đối với tiếng Anh, ta tách từ dựa vào khoảng trăng Tuy nhiên đối với tiếng Việt, giai đoạn này tương đối khó khăn Câu trúc tiếng Việt rất phức tạp, không chỉ đơn thuần dựa vào khoảng trắng để tách từ Hiện nay có rất nhiều công cụ dùng để tách từ tiếng Việt, mỗi phương pháp có ưu, khuyết điểm riêng Các phương pháp này sẽ được trình bày chỉ tiết hơn ở chương II : Tach từ tự động

3.2 Lập chỉ mục cho tài liệu

Sau khi có được tập các từ đã được trích, ta sẽ chọn các từ để làm từ chỉ mục

Tuy nhiên, không phải từ nào cũng được chọn làm từ chỉ mục Các từ có khả năng đại

điện cho tài liệu sẽ được chọn, các từ này được gọi là key word, do đó trước khi lập chỉ mục sẽ là giai đoạn tiên xử lý đối với các từ trích được để chọn ra các key word thích hợp Ta sẽ loại bỏ danh sách các từ ít có khả năng đại diện cho nội dung văn bản dựa

Trang 26

vào danh sách gọi là stop list Đối với tiếng Anh hay tiếng Việt đều có danh sách stop list Chi tiết về quá trình lập chỉ mục sẽ được mô tả ở chương IV: Lập chỉ mục

3.3 Tìm kiếm

Người dùng nhập câu hỏi và yêu câu tìm kiếm, câu hỏi mà người dùng nhập vào cũng sẽ được xử lý, nghĩa là ta sẽ tách từ cho câu hỏi Phương pháp tách từ cho câu hỏi cũng nên là phương pháp tách từ cho các tài liệu thu thập được để đảm bảo sự tương thích Sau đó, hệ thông sẽ tìm kiếm trong tập tin chỉ mục để xác định các tài liệu liên quan đền câu hỏi của người dùng

3.4 Sắp xếp các tài liệu trả về (Ranking)

Các tài liệu sau khi đã xác định là liên quan đên câu hỏi của người dùng sẽ được sap xêp lại, bởi vì trong các tài liệu đó có những tài liệu liên quan đền câu hỏi nhiêu hơn Hệ thông sẽ dựa vào một sô phương pháp đề xác định tài liệu nào liên quan nhiêu nhất, sắp xép lai (ranking) va trả về cho người dùng theo thứ tự ưu tiên

4 Những khó khăn trong việc xây dựng một hệ thống tìm kiếm

thông tin tiếng Việt

Hiện nay, chúng ta đã quen thuộc với rất nhiều công cụ hỗ trợ việc tìm kiếm thông tin như Google, Yahoo Search, AltaVista, Tuy nhiên, đây là các công cụ của

người nước ngoài nên chúng chỉ giải quyết tốt đối với các yêu cầu của họ Chúng ta cũng có một số công cụ hỗ trợ tìm kiếm thông tin tiếng Việt như: Vinaseek, NetNam Các công cụ này cũng tách từ chủ yếu dựa vào khoảng trăng nên việc tìm kiếm cũng chưa được cải thiện Nhìn chung, để xây dựng một hệ thống tìm kiếm thông

Nguyễn Thị Thanh Hà - 0112215 26 Nguyễn Trung Hiếu - 0112216

Trang 27

tin tiếng Việt, chúng ta gặp khó khăn trong việc tách từ tiếng Việt và xác định bảng mã tiếng Việt

4.1 Khó khăn trong việc tách từ tiếng Việt

Có thể nói tách từ là giai đoạn khó khăn nhất khi xây dựng một hệ tìm kiếm thông tin tiếng Việt Đối với tiếng Anh, việc xác định từ chỉ đơn giản dựa vào khoảng

trắng dé tach tir Vi du, cau: “I am a student” sẽ được tách thành 4 từ : L am, a, student

Tuy nhiên, đối với tiếng Việt, tách dựa vào khoảng trăng chỉ thu được các tiếng Từ có thể được ghép từ một hay nhiều tiếng Từ phải có ý nghĩa hoàn chỉnh và có cấu tạo ôn

định Câu: ““Fôi là một sinh viên” được tách thành 4từ: Tôi, là, một, sinh viên Trong

đó, từ “sinh viên” được hình thành từ 2 tiêng: sinh và viên

Hiện nay, có rất nhiều phương pháp được sử dụng để tách từ tiếng Việt Tuy nhiên, với sự phức tạp của ngữ pháp tiếng Việt nên chưa có phương pháp nào đạt được chính xác 100% Và việc lựa chọn phương pháp nào là tốt nhất cũng đang là vấn dé

tranh cãi

4.2 Vẫn đề bảng mã tiếng Việt

Không như tiếng Anh, tiếng Việt có rất nhiều bảng mã đòi hỏi phải xử lý Một

số công cụ tìm kiếm tiếng Việt hỗ trợ bảng mã rất tốt như Vinaseek, hỗ trợ mọi bảng

ma (VNI, TCVN3, ViQR., )

4.3 Cac kho khan khac

Tiếng Việt có các từ đồng nghĩa nhưng khác âm Các công cụ hiện nay không

hô trợ việc xác định các từ đông nghĩa Vì vậy, kêt quả trả vê sẽ không đây đủ

Trang 28

Ngược lại, có những từ đông âm khác nghĩa Các hệ thông sẽ trả vê các tài liệu

có chứa các từ đã được tách trong câu hỏi mà không cân xác định chúng có thực

sự liên quan hay không Vì vậy, kết quả trả về sẽ không chính xác

Một sô từ xuât hiện rât nhiều nhưng không có ý nghĩa trong tài liệu Các từ như:

và, với, nhưng, có tân sô xuât hiện rât lớn trong bât cứ văn bản nào Nêu tìm cách trả về các tài liệu có chứa những từ này sẽ thu được kêt quả vô ích, không

cân thiệt Do đó, chúng ta cân tìm cách loại bỏ các từ này trước khi tìm kiêm

Nguyễn Thị Thanh Hà - 0112215 28 Nguyễn Trung Hiếu - 0112216

Trang 29

Chương 3: TÁCH TỪ TỰ ĐỘNG

Trước khi lập chỉ mục là giai đoạn tách từ cho các tài liệu, đây là công việc quan trọng trong một hệ thống tìm kiếm thông tin Đối với tiếng Anh chỉ đơn giản dựa vào khoảng trăng để tách từ Nhưng đối với tiếng Việt không thể dựa vào khoảng trắng được vì tiếng Việt là ngôn ngữ đơn lập

Hiện nay, có rất nhiều phương pháp được đề xuất để tách từ cho tiếng Việt, nhưng vẫn chưa thống nhất là phương pháp nào tốt nhất Chương này sẽ trình bày chỉ tiết về một số phương pháp tách từ

1 Tách từ trong Tiếng Anh

Do đặc điểm ngữ pháp của tiếng Anh, tách từ chỉ đơn giản dựa vào khoảng trăng dé phân biệt từ

2 Tách từ trong Tiếng Việt

2.1 Một số đặc điểm chính về từ tiếng Việt [2.2]

2.1.1 Tiếng

Về mặt ngữ âm, tiếng là âm tiết Âm tiết bao gồm những đơn vị ở bậc thấp hơn gọi

là âm vị Mỗi âm vị được ghi bằng một ký tự gọi là chữ

Trang 30

Về mặt ngữ nghĩa, tiêng là đơn vị nhỏ nhật có nghĩa, nhưng cũng có một sô tiêng không có nghĩa

VỀ giá trị ngữ pháp, tiếng là đơn vị cấu tạo từ Sử dụng tiếng để tạo thành từ, ta có hai trường hợp như sau:

Từ một tiếng: gọi là từ đơn Trường hợp này một từ chỉ có một tiếng Ví dụ như:

Tách từ tự động tiếng Việt dựa trên một số phương pháp có sẵn Sau đây chúng

ta sẽ nghiên cứu một số phương pháp được sử dụng để tách từ cho các văn bản tiếng

Việt

3 Các phương pháp tách từ tiếng Việt

3.1 fnTBL (Fast Transformation-based learning) [3.1]

3.1.1 M6 ta

Nguyễn Thi Thanh Hà - 0112215 30 Nguyễn Trung Hiếu - 0112216

Trang 31

Ý tưởng chính của phương pháp học dựa trên sự biến đối (TBL) là để giải quyết một vẫn đề nào đó ta sẽ áp dụng các phép biến đối, tại mỗi bước, phép biến đổi nào cho

kết quả tốt nhất sẽ được chọn và được áp dụng lại với van đề đã đưa ra Thuật toán kết

thúc khi không còn phép biến đổi nào được chọn Hệ thống fnTBL gồm hai tập tin

chính:

Táp tin đữ liệu học (Traming): Tập tin đữ liệu học được làm thủ công, đòi hỏi

độ chính xác Mỗi mẫu (template) được đặt trên một dòng riêng biệt Ví dụ: tập

dữ liệu học cho việc xác định từ loại của một văn bản có thể có định dạng như

Sau:

Cong ty danhtu

An Dong danhturieng

bi dongtu giam sat dongtu

Trong ví dụ nầy mỗi mẫu gồm có hai phân: phần đầu tiên là từ, phần thứ

hai là từ loại tương ứng

Táp tin chứa các mẫu luật ( rule-tempiare): Mỗi luật được đặt trên một dòng, hệ

thống fTBL sẽ dựa vào các mẫu luật để áp dụng vào tập tin dữ liệu học Ví dụ:

chunk_-2 chunk_-Ï => chunk

Áp dụng đối với việc xác định từ loại, với chunk_-2 = động từ, chunk_-

I= số từ, chunk=danh từ thì luật trên có ý nghĩa như sau: nếu hai từ trước đó là động từ và số từ thì chuyền từ loại hiện hành thành danh từ

3.1.2 Áp dụng tách từ tiếng Việt

Trang 32

Sau khi nghiên cứu về fnTBL, chúng em nhận thấy có thể áp dụng phương pháp này để tách từ cho tiếng Việt, chỉ cần thay đối một số định dạng cho phù hợp

Xây dựng tập tin dữ liệu học: Tập tin đã liệu cho việc tách từ tiếng Việt có dạng

bi B dat B vao B tinh B trang I

Các ký tự B, I gọi là các chunk và có ý nghĩa như sau:

Tiếng có chunk=B nghĩa là tiếng đó bắt đầu một từ (begin)

Tiếng có chunk=I nghĩa là tiếng đó năm ở trong một từ (inside)

Trong ví dụ trên, ta có được các từ: Vì, sao, công ty, Việt Hà, bị, đặt, vào, tình

trang,

Xây dựng tập tin chứa các mẫu luật: Sau khi tìm hiểu về từ trong tiếng Việt,

chúng em xây dựng được 3 luật áp dụng cho việc tách từ tiếng Việt như sau:

chunk_Ø word_0 => chunk

Nguyễn Thị Thanh Hà - 0112215 32 Nguyễn Trung Hiếu - 0112216

Trang 33

chunk_Ø word_-Ï word_0 => chunk chunk_0 word_O word_1 => chunk

3.1.2.1 Qua trinh hoc

(1) Từ tập dữ liệu học xây dựng từ điển các từ

(2) Khởi tạo các từ

(3) Rút ra tập luật

Ở bước (1) từ tập dữ liệu học đã có sẵn, sử dụng phương pháp thống kê — ta sẽ

có từ điển các tiếng (Lexicon) Các tiếng có thể xuất hiện trong các từ với các chunk khác nhau, ta sẽ ghi nhận lại số lần xuất hiện của mỗi tiếng với các chunk tương ứng

Ví dụ, đối với từ “công ty” thì tiếng “công” “€ó chunk=B nhưng trong từ “của công” thì tiếng công có chunk=IL

Ở bước (2) từ tập dữ liệu họe; tạo ra tập dữ liệu học không có chunk bằng cách

xóa hết các chunk tương ứng: Tập dữ liệu mới này sẽ được sử dụng để khởi tạo lại các chunk thông dụng nhất dựa vào từ điển

Ở bước (3) so sánh tập dữ liệu học với tập dữ liệu đang xét, dựa vào các mẫu luật đã cho, ta sẽ rút ra được các luật ứng viên, ứng với mỗi luật ứng viên ta lại áp dụng vào tập dữ liệu đang xét và tính điểm cho nó (dựa vào số lỗi phát sinh khi so sánh với

tập dữ liệu học là tập dữ liệu chuẩn) Chọn luật có điểm cao nhất và lớn hơn một

ngưỡng cho trước để đưa vào danh sách luật được chọn

Kết quả ta sẽ được một tập các luật được chọn Các luật có dạng như sau:

SCORE:414 RULE: chunk_0=B word_0=té => chunk=I

SCORE:312 RULE: chunk_0=B word_-l=cua word_O=c6ng=>chunk=I

Trang 34

SCORE:250 RULE: chunk_0=B word_O=h6a => chunk=I

SCORE:231 RULE: chunk_0=B word_0=d6ng => chunk=I

SCORE:205 RULE: chunk_0=B word_O=nghiép => chunk=I

SCORE: 175 RULE: chunk_0=B word_-1=phat word_O=trién => chunk=I

SCORE: 133 RULE: chunk_O=B word_-1=xa4 word_O=h6i => chunk=I

SCORE:109 RULE: chunk_0=B word_-1=đầu word_0=tư => chunk=I

SCORE:100 RULE: chunk_0=B word_0=thé => chunk=I

O đòng 2 ta có luật: nếu từ hiện hành là “công” (word-0=công) và từ trước đó là

“cua” (word_-l=cua) va chunk của từ hiện hành là B.( chunk_O0=B) thì chuyển chunk

của từ hiện hành là L, nghĩa là “của công” phải là một từ

Toàn bộ quá trình học được mô tả như sau:

Nguyễn Thị Thanh Hà - 0112215 34 Nguyễn Trung Hiếu - 0112216

Trang 35

Tập các luật chụn luật | Ap dung |

3.1.2.2 Xác định từ cho tài liệu mới

(1) Tài liệu mới đưa vào phải có định dạng giống như tập tin dữ liệu học, nghĩa

là mỗi tiếng trên một dòng

(2) Dựa vào từ điển, sán chunk thông dụng nhất cho các tiếng trong tài liệu mới

Nguyễn Thị Thanh Hà - 0112215 35 Nguyễn Trung Hiếu - 0112216

Trang 36

(3) Áp dụng các luật có được từ giai đoạn học vào tài liệu đang xét ta sẽ tách được các từ hoàn chỉnh

Cai đoạn xác định từ cho tài liệu mới được mô tả như sau:

Trang 37

3.2 Longest Matching [1.4]

Phương pháp Longest Matching tách từ dựa vào từ điển có sẵn

Theo phương pháp này, để tách từ tiếng Việt ta đi từ trái sang phải và chọn từ có

nhiều âm tiết nhất mà có mặt trong từ điển, rồi cứ tiếp tục cho từ kế tiếp cho đến hết câu Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như: ”hợp tác| mua

bán”; “thành lập | nước|Việt Nam| dân chủ |cộng hòa” Tuy nhiên, phương pháp này sẽ tách từ sai trong trường hợp như: “học sinh |học sinh |học”; “một| ông | quan tài | giỏi”,

“trước | bàn là | một | Iy| nước”

3.3 Kết hợp giữa fnTBL và Longest Matching

Chúng ta có thể kết hợp giữa hai phương pháp fnTBL và Longest Matching để

có được kết quả tách từ tốt nhất Đầu tiên ta sẽ tách từ bằng Longest Matching, đầu ra của phương pháp này sẽ là đầu vào-cho phương pháp fnTBL học luật

Trang 38

Chương 4: LẬP CHÍ MỤC

1 Khái quát về hệ thông lập chỉ mục

Một cách để tăng tốc độ tìm kiếm thông tin lên là tạo chỉ mục cho các tài liệu Tuy nhiên, việc lập chỉ mục có một nhược điểm lớn, đó là khi thêm một tài liệu mới,

phải cập nhật lại tập tin chỉ mục Nhưng đối với hệ thống fìm kiếm thông tin, chỉ cần

cập nhật lại tập tin chỉ mục vào một khoảng thời gian định kỳ Do đó, chỉ mục là một

công cụ rất có giá trị

Lập chỉ mục bao gồm các công việc sau:

Xác định các từ có khả năng đại diện cho nội dung của tài liệu

Đánh trọng số cho các từ này, trọng số phản ánh tầm quan trọng của từ trong một tài liệu

2 Phương pháp lập chỉ mục [1.1]

2.1 Xác định các từ chỉ mục

Cho một tập gồm có n tài liệu Với mỗi tài liệu, tính tần số của mỗi từ riêng biệt trong tài liệu đó Goi FREQ,,: là tần số xuất hiện của từ k trong tài liệu ¡

Xác định tần số của từ k trong tập tài liệu, ký hiệu là TOTFREQ, bằng

cách tính tong tan so xuat hiện của k trong tât cả n tài liệu:

Nguyễn Thị Thanh Hà - 0112215 38 Nguyễn Trung Hiếu - 0112216

Trang 39

TOTFREQx = )_FREQ,,

i=l

Sắp xếp các từ giảm dần dựa vào tần số xuất hiện của nó trong tập tài liệu Xác định giá trị ngưỡng cao và loại bỏ tất cả các từ có tần số xuất hiện lớn hơn giá trị này

Tương tự, loại bỏ các từ có tân sô thâp Nghĩa là, xác định ngưỡng thâp

và loại bỏ tât cả các từ có tân sô xuât hiện nhỏ hơn giá trị này Điêu này sẽ loại bỏ các

từ ít xuât hiện trong tập tài liệu, nên sự có mặt của các từ này cũng không ảnh hưởng đền việc thực hiện truy vân

Các từ có tân sô xuât hiện trung bình còn lại sẽ được sử dụng làm từ chỉ

mục

(lac tr cd trang cA can (lac tr cA trang số thắp

Chiyết định các từ có ý nghĩa Tân

Trang 40

2.2 Các phương pháp tính trọng số của từ

Trọng số của một từ phản ánh tầm quan trọng của từ đó trong tài liệu Ý tưởng chính là một từ xuất hiện thường xuyên trong tất cả các tài liệu thì ít quan trọng hơn là

từ chỉ xuất hiện tập trung trong một số tài liệu

2.2.1 Tần số tài liệu nghịch đảo

Đây là phương pháp tính trọng số mà mô hình không gian vector đã sử dụng dé tính trọng số của từ trong tài liệu

n: số từ phân biệt trong tập tài liệu

FREQ), : s6 lan xuat hiện của từ k trong tài liệu D; (tần số từ)

DOCFREQ, : sé tai ligu có chứa từ k

Khi d6, trong số của từ k trong tài liệu D, được tính như sau:

WEIGHT = FREQ * [log (n) — log (DOCFREQ,)]

Trọng sô của từ k trong tài liệu D; tăng nêu tân sô xuât hiện của từ k trong tai

liệu ¡ tăng và giảm nêu tổng số tài liệu có chứa từ k tăng

2.2.2 Độ nhiễu tín hiệu (The Signal — Noise Ratio)

Một quan điểm tương tự được xem xét đó là dựa vào thông tin để đánh giá tầm

quan trọng của từ Trong thực tế, nội dung thông tin của một đoạn hay một từ có thể xác định dựa vào xác suất xuất hiện của các từ trong văn bản đã cho Rõ ràng, xác suất xuât hiện của một từ càng cao thì thông tin mà nó chứa càng ít

Nội dung thông tin của một từ được xác định như sau:

Nguyễn Thị Thanh Hà - 0112215 40 Nguyễn Trung Hiếu - 0112216

Ngày đăng: 08/11/2012, 15:29

HÌNH ẢNH LIÊN QUAN

Hình  2-1  Hệ  tìm  kiếm  thông  tin  tiêu  biểu - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 2-1 Hệ tìm kiếm thông tin tiêu biểu (Trang 18)
Hình  3-1  Quá  trình  học - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 3-1 Quá trình học (Trang 35)
Hình  3-2  Giai  đoạn  xác  định  từ  cho  tài  liệu  mới - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 3-2 Giai đoạn xác định từ cho tài liệu mới (Trang 36)
Hình  4-2  Quá  trình  chọn  từ  làm  chỉ  mục - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 4-2 Quá trình chọn từ làm chỉ mục (Trang 45)
Hình  5-1  Sơ  đồ  Use-case  của  hệ  thống - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-1 Sơ đồ Use-case của hệ thống (Trang 49)
Hình  5-3  Sơ  đồ  các  lớp  xử  lý - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-3 Sơ đồ các lớp xử lý (Trang 52)
Hình  5-5  Sơ  đồ  tuần  tự  tách  từ - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-5 Sơ đồ tuần tự tách từ (Trang 53)
Hình  5-6  Sơ  đồ  cộng  tác  tách  từ - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-6 Sơ đồ cộng tác tách từ (Trang 54)
Hình  5-8  Sơ  đồ  use-case  lập  chỉ  mục - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-8 Sơ đồ use-case lập chỉ mục (Trang 55)
Hình  5-9  Sơ  đồ  tuần  tự  tạo  mới  chỉ  mục - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-9 Sơ đồ tuần tự tạo mới chỉ mục (Trang 56)
Hình  5-10  Sơ  đồ  tuần  tự  cập  nhật  chỉ  mục - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-10 Sơ đồ tuần tự cập nhật chỉ mục (Trang 57)
Hình  5-12  So  đồ  cộng  tác  cập  nhật  chỉ  mục - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-12 So đồ cộng tác cập nhật chỉ mục (Trang 59)
Hình  5-13  Sơ  đồ  lớp  lập  chỉ  mục - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 5-13 Sơ đồ lớp lập chỉ mục (Trang 60)
Hình  6-16  Màn  hình  tìm  kiếm - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 6-16 Màn hình tìm kiếm (Trang 106)
Hình  6-21  Giao  diện  tìm  kiếm  trên  Web - Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép
nh 6-21 Giao diện tìm kiếm trên Web (Trang 112)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w