Hiện nay chưa có nhiều hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt có khai thác các đặc trưng của tiếng Việt cho việc lập chỉ mục.. Vì vậy mục tiêu của luận văn này nhằm xâ
Trang 1LOI CAM ON
Chúng em xin gởi lời cảm ơn chân thành nhất đến thầy Hồ Bảo Quốc, người
đã tận tình hướng dẫn, giúp đỡ chúng em trong suốt thời gian thực hiện luận văn này
Chúng con cảm ơn Cha, Mẹ và gia đình, những người đã dạy dỗ, khuyến
khích, động viên chúng con trong những lúc khó khăn, tạo mọi điều kiện cho chúng con nghiên cứu học tập
Chúng em cảm ơn các thầy, cô trong khoa Công Nghệ Thông Tin đã dìu dắt, giảng day chúng em, giúp chúng em có những kiến thức quý báu trong những năm học qua
Cảm ơn chị Lê Thúy Ngọc và các bạn đã tận tình đóng góp ý kiến cho luận
văn của chúng tôi
Mặc dù rất có gắng nhưng luận văn của chúng em không tránh khỏi sai sót, mong nhận được sự thông cảm và góp ý của thầy cô và các bạn
Tháng 7 năm 2005 Sinh viên Nguyễn Thị Thanh Hà —- Nguyễn Trung Hiếu
Trang 2NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Ký tên
Nguyễn Thị Thanh Hà - 0112215 2 Nguyễn Trung Hiếu - 0112216
Trang 3NHAN XET CUA GIAO VIEN PHAN BIEN
Ky tén
Trang 4MỤC LỤC
DANH SÁCH CÁC HÌNH VẼ 5c 2t tt 2 21211212111212121 21x, 7 Phần 1 : TÌM HIỂU LÝ THUYÊÊT << << SE eEseEeEsrssssse 10
Chuong 1: TONG QUAN VE TIM KIEM THONG TIN - 10
1 Giới thiệu vé tim kiém thong tin cee cceccecscsescssscscecscscestetecssessesesenees 10 1.1 Khái niệm về tìm kiếm thông tỉn 5-2 s+sEE+EzSExezz£zEzxerzed 10 1.2 Một số vẫn đề trong việc tìm kiếm thông tỉn: - 5-s-+cscsx=sd 10
2 Hệ tìm kiếm thông tin — IRVS 2E + EE*EEEEEEESESE RE rkrkrk re vat 11
3 Các thành phần của một hệ tìm kiếm thông tin [1 1] ¿-+c<csxes¿ 12
4 So sánh IRS với các hệ thống thông tin khác .- - + +s+s+s+z+s+xsez 13 4.1 Hệ quản trị cơ sở dữ liệu (DBMS) SS Sn nh x 14 4.2 Hệ quản lý thông tin (IMS) 0000011111111 111 vu y g 14 4.3 Hệ hỗ trợ ra quyết định (DSS) - + -kSxSE2E2EEExEEEErrzrkerred 15 4.4 Hệ trả lời câu hỏi (QAS) SH HH HH vn gen 15 4.5 So sánh IRS với các hệ thống thông tin khác - 5-5 s++zsxs£sxd 16 Chuong 2: XAY DUNG MOT HE THONG TIM KIEM THONG TIN 17
1 Kiến trúc của hệ tim kiém thong tin [1.3] cssescessssecsessecseessceeeenees 17
2 Một số mô hình để xây dựng một hệ tìm kiếm thông tin [1.2] 18 2.1 Mô hình không gian Ve€CfOT - S111 111 gu 18 2.2 Tìm kiếm Boollean - Gv Sv cư Bề 1kg ưu 20 2.3 Tìm kiếm Boolean mở rộng - + + + + x+x+x+E E2 SE EExekexrxrv cv re 21 2.4 Mở rộng trong việc thêm vào trọng số của câu hỏi - c2 << sa 22 2.4.1 Mở rộng cho số từ tuỳ ý Gà ST ru 22 2.4.2 Thêm toán tử tự động . 000001111111 11v 1x y gy 23
2.5 Mô hình xác Suất - ¿5+ St 2t E2 2 2111 23
2.6 Đánh giá chung về các mô hình .- - - + + SE EEEeEex£xrx ve ceở 24
3 Các bước để xây đựng một hệ tìm kiếm thông tin [3.2] -: -¿ 24 3.1 Tach tir tự động cho tập các tài liệu ẶSSSS + Ssssssrsee 24 3.2 Lập chỉ mục cho tài lIỆU - - c nnSSn SH ng ven vyn 24
ky 8 001018 25
3.4 Sắp xếp các tài liệu trả về (R.anking) - 2 s-s+s sex xzxzrzxrererxes 25
4 Những khó khăn trong việc xây dựng một hệ thống tìm kiếm thông tin tiếng
5 — 25 4.1 Khó khăn trong việc tách từ tiếng ViỆP Sàn nrvereed 26 4.2 Vẫn đề bảng mã tiếng ViỆP G1 TT Yêu 26 4.3 Các khó khăn khác - - -c S10 TS HS SH ng ng 26
Chương 3: TÁCH TỪ TỰ ĐỘNG 5° << << +ss+eEee+eeeerssreeseree 28
Nguyễn Thị Thanh Hà - 0112215 4 Nguyễn Trung Hiếu - 0112216
Trang 51 Tách từ trong Tiếng Anh 22 s+s+kEx SE S4 E151 Ek S21 1 1x nh ret 28
2 Tách từ trong Tiếng VIiỆ( -G- can THEEE chnTT TT nHhnr cư ncreg 28 2.1 Một số đặc điểm chính về từ tiếng Việt [2.2] 5s cs+sxsrsreed 28 2.1.1 TiẾngg - - << S11 311 1131511 515151111 8151515 1111118111051 711 Ex 28
2.2 Tách từ tự động tiếng ViỆt -Ă- G HT TT TH HH ưu 29
3 Các phương pháp tách từ tiếng VIỆT LG tt H vn Hiệu 30 3.1 nTBL (Fast Transformation-based learning) [3 l - 30 sông cá: 30 3.1.2 Áp dụng tách từ tiếng VIiỆt - ch H TH HT HH ru 31
3.3 Kết hợp giữa fnTBL và Longest Matching 5-5 s cecsrcrererees 36
Chương 4: LẬP CHỈ MỤC 5< << seEe£ EeeEserereeEserserseere 37
1 Khái quát về hệ thống lập chỉ mụcc ¿+22 E+E+xcEcExceckrkrkrerereree 37
2.3 Lập chỉ mục tự động cho tài liệu tiếng ẢAnh ccc sen ca 42
3 Lập chỉ mục cho tài liệu tiếng VIỆT., QQ nh chu kế 44
4 Tập tin nghịch đảo tài liệu .- S19 101111111311 111111111111 xà 45
4.1 Phân biệt giữa tập tin nghịch đảo và tập tin trực tiếp -sccs¿ 45
4.2 Tại sao sử dụng tập tin nghịch đảo dé lập chỉ mục 46
Phần 2 : PHÂN TÍCH VÀ THIẾT KKÉ -e- << sssesssezseseessee 48 01 10/0000 (9.0077 48
1 Sơ đồ UseCase hệ thống - + 52 xE+E xxx SE EEE E1 HT nh ret 48
2 Sơ đỒ LỚPp - + s11 S111 33 51113151 11111115111 111111111 H111 net 50 2.1 Sơ đồ các lớp thể hiện - 6 tt KỲ cư ST v ngưng 50 2.2 Sơ đồ các lớp XỬ lý + cSss ST S111 1111111111111 errkg 51
3 Tách ẨỪ HH HH ng ng nọ Ti TT 52 3.1 Sơ đỒ Use€Ca§e -. ¿ST k S113 2111111111 1111111515111 11 g1 ke, 52
3.2 Sơ đồ Tuần tự - + tt nh St E2 1111111112111111110111111T 11x xr 52
3.3 Sơ đồ Cộng tÁC - Ác HH 1H11 1110 111111151311 1111111111115 1111 Ex 0 53 3.4 Sơ đồ LỚp - - - S111 1 1311111101111 1151511111111 18 111151315 711kg 53
“vn vn 54
4.1 Sơ đỒ S€Case - xxx TT KT HH TT TH Hưng HH nh 54
4.2 Sơ đồ Tuần tự ác tt tt nh HH1 re 55
4.2.1 Tạo mới Chỉ muc - - cĂ Ăn SE k nh ckv rếp 5S
Trang 6ý Ất si nuini nh 56 4.3 Sơ đồ Cộng tÁC - ch KH HH TT 1 1n 57 4.3.1 Tao m61 Chi mic 2.0 cceccccssscesccscessesceseuucescesnseceeenecesueseuenenses 57
LÔ V0 si nên 58 4.4 Sơ đỒ LỚP - G1 TT TH TT HH TT TH ng rêu 59
Si 2 60
5.1 Sơ đỒ US€Ca§€ - - G G1 T1 TT TT TH HH TT TT: 60
5.2 Sơ đồ Tuần tự . + tt St HH HH1 21111111211111111111111111 1 tre 60
5.3 Sơ đồ Cộng tác - -cschnvnvT TT T1 TT TT TT HH TT Trà: 61 5.4 Sơ đỒ LỚP St 1H T1 1 TT TT TH HH TT TT rà: 62 Chương 6: THIẾT KẾ VÀ CÀI ĐẶT << << <eseses£es<ses£sesessee 63
1 Câu trúc lưu trữ đữ liệu ¿2+ +t+22 SE 2E xEEEkEEkEEkrkkrkrkrrrrrrrrerrie 63
1.1 Tập tin lưu nội dung tài liệu - 5< ĂĂSSSSSS + SSSEEsresssrsrres 63
1.5.1 Câu trúc DTD / XSD 5c 5+2 2 tre 73
1.5.2 Tai QU XML oo —— 74 1.6 Tập tin chứa các từ của câu hỏi sau khi loại bỏ các từ trong danh sách
SrU30100Đ5 75
1.6.1 Cấu trúc DTD / XSD - 6-2 St E2 E2vEEErkerkrkrrkrrrrrrrke 75
1.6.2 ¡8 09000 — 76 1.7 Tập tin chứa các từ trong câu hỏi và các tài liệu liên quan 76
1.7.1 Câu trúc DTD / XSD ccScc t2 2 tttrtrtrtrrrrrrrrrrrrrrie 76
1.7.2 Tai 0900 —— 78 1.8 Tập tin chứa độ tương quan giữa câu hỏi và các tài liệu 79
1.8.1 Cấu trúc DTD / XSD : 2t t2 SE Everekrrtrkrrrrrerrrrrrve 79
1.8.2 Tai QU XML uo — 81
2 Chỉ tiết các lớp đối tượng . - + - SE SSEEE E11 E12 51x 1xx re 82 2.1 Các lớp trong quá trình tách từ 0000000111111 1 11111 1 xxx 82 2.1.1 So 6 CAC 16D ceeceeeeececceseeceseseseseses cesses sevsesseseseevevevevsnesststseanevenen 82
Trang 72.1.4 LOp giao dién vn e 88 2.2 Các lớp trong quá trình lập chỉ mục 75c Sc S233 S 31x32 90 2.2.1 Sơ đỒ các lỚp t1 TT TT TT ru 90
3 Một số màn hình giao diện khác - - + ++s++2E2EzEzkexeErzkreezeersrd 108 3.1 Màn hình chính của chương trình - Ăn ekerses 108
3.2 Màn hình tìm kiếm nhiều câu hỏi 5-5-5 svscvsvrrversrrrree 109
3.3 Màn hình tìm kiếm chính ( giao điện Web) ¿-c s sec cxc re: 111 3.4 Màn hình trả về các tài liệu tìm được ( giao điện Web) 112 3.5 Màn hình chỉ tiết của một tài liệu ( giao điện Web) - 113
71 K9 (c3 114
1 Chương trình thử nghiệm - C91011 01111111 1111111 1 1y vn và 114
2 Đánh giá kết quả đạt được . + + ch TT EE 1T ng nghiep 114
3 Hướng phát triỄn 5 s1 5151533 1E E113 111111 1181515111111 ke 115
2 Luận vVăn - - - CC c0 HT nh nh ng Ki kg ch kh KH cà 116
DANH SACH CAC BANG
Bang 1-1 So sánh IRS với các hệ thống thông tin khác . ¿5-55 + se £zzx+z£scxz 16 Bảng 4-1 Cách tập tin nghịch đảo lưu trữ - tình 46 Bảng 4-2 Cách tập tin trực tiêp lưu trŨ - ĐT net 46 Bảng 4-3 Thêm một tài liệu mới vào tập tin nghịch đảo «Ăn ke 47
Trang 8Hình 3-2 Giai đoạn xác định từ cho tài lIỆU mỚI - - -c CS ca 35
Hình 4-1 Các từ được sắp theo thứ tựy - - h3 TT reg 38
Hình 4-2 Quá trình chọn từ làm chỉ mục - c cc 1 111 553339553 1 881185 ren 44 Hình 5-1 Sơ đồ Use-case của hệ thống «x31 TH ngư rkg 48
Hình 5-2 Sơ đồ các lớp thể hiện S333 E13 3 Tưng 50 Hình 5-3 Sơ đồ các lớp xử lý «kh TH TT TT HH net 51 Hình 5-4 Sơ đồ Use-case tách tỪ - LG cv TH 11121 01 1H11 TT ch nọ 52 Hình 5-5 Sơ đồ tuần tự tách tỪ cac tt TH TT c1 HT nọ 52 Hình 5-6 Sơ đồ cộng tác tách tỪ -kkk x31 S311 E1E1 31111 111 1E T111 11010 gu %3 Hình 5-7 Sơ đồ lớp tách từ - 1111113 11111113 1 1H T111 111111 TH TH HH HH rêu %3
Hình 5-8 Sơ đồ use-case Lap Chi MUC 00 1 54 Hình 5-9 Sơ đồ tuần tự tạo mới chỉ mục - :-c + kcskE SE SE SE SE KH ST ri 55
Hình 5-10 Sơ đồ tuần tự cập nhật chỉ mục . + xxx Sk+x 2k Errkrrree 56
Hinh 5-11 So dé cộng tác tạo mới chỉ mụỤC .- - -« <c «t1 TS ng HH ng 11 x4 57 Hinh 5-12 So dé cOng tac cap nhat Chi MUC .cecceeesscsecsesesseneeeaeeeeeeeeeeeeseseeeeeseeeenes 58
Hình 5-13 Sơ đồ lớp lập chỉ mục - k3 TT TT ngưng 59
Hình 5-14 Sơ đồ use-case tìm kiếm -G- Ăn t AE SE Sa E23 E S3 531581585851 8k Sex se si 60
Hình 5-15 Sơ đồ tuần tự tìm kiẾm - Gv S111 3909511 111151 13 1 chưng 60 Hình 5-16 Sơ đồ cộng tác tìm kiếm - - - + ESE11E1E3E3Ek 1332k 1111111 1x greg 61 Hình 5-17 Sơ đồ lớp tìm kiếm . x13 T3 TT TT Hưng 62 Hình 6-1 Sơ đồ lớp tách từ ¿-¿- S2 k*EkEEkEEEkEEE15115513E11 1115 1111 1111107112111 1k, 82 Hình 6-2 Lớp tách từ ghép - :- «k1 T3 TH TT TT TH TH cưng 82 Hình 6-3 Lớp tách từ <1 311111111 11151111E111111 1511111111 TH TH g1 01T Hk 85
Hình 6-4 Lớp giao diện tách từỪ - - c1 KH Họ gọi it 88
Hình 6-5 Màn hình tách từ - - - St ke BS ST SE HS 115115 1111111511111 1H11 ng 88 Hình 6-6 Màn hình chỉ tiết tách từ ¿cv SE SE S111 15 111111115111 11111111 HH 89
Hình 6-7 Sơ đồ lớp lập chỉ mục - - k2 k+E SE S133 3 KT TT HH HT reg 90 Hình 6-8 Lớp lập chỉ mục - - - s1 KH ng gọn re 91 Hình 6-9 Lớp giao diện tạo mới chỉ rnỤC (c1 0 nhe, 93 Hình 6-10 Màn hình tạo mới chỉ mục -‹‹ - - cc - c0 011021 Y ng nkY kg ca 94 Hình 6-11 Lớp Màn hình cập nhật chỉ mục - - << << S Sư, 95 Hình 6-12 Màn hình cập nhật chỉ mục (che, 96
Hình 6-13 Sơ đồ lớp tìm kiếm :- - - k2 k2ESEkkSE1EE3E1 E111 11317111 1111x111 tru 97 Hình 6-14 Lớp xử lý tìm kiẾm x13 311cc ngư rkg 98
Hình 6-15 Lớp giao diện tìm kiếm . - - : 2 k22SE1 13151511 1111511111111 111kg 104
Hình 6-16 Màn hình tìm kiếm G1 SÉEkSEE SE E191 55 5111111811151 1111111 1kg 105
Hình 6-17 Xem từ khóa câu hỎiI - - - - - c0 01000 230005 1V KH kg kh kg 105
Hình 6-18 Xem từ khóa tài liệu ¿G5 St SE SE SE SE+ESEE SE TS E SE HT 106
Hình 6-19 Màn hình chính - - -Lc CC G9360 391005 KH kg kg kh SEg 108
Hình 6-20 Màn hình tìm kiếm nhiều câu hỏi - (5+ SE SE E38 SE SE ke eed 109 Hình 6-21 Giao diện tìm kiếm trên Web c6 11v 1211 515111115111 51 11 1111111 r2 111 Hình 6-22 Giao diện các tài liệu trả về sau khi tìm kiếm ¿- - St Sx xe eed 112
Hình 6-23 Giao điện chỉ tiết nội dung của tài lIỆU - - - Ăn nghe 113
Nguyễn Thị Thanh Hà - 0112215 8 Nguyễn Trung Hiếu - 0112216
Trang 9MỞ ĐẦU
Trong thời đại bùng nỗ thông tin như hiện nay, thông tin được lưu trữ trên máy tính ngày càng nhiều do đó việc tìm kiếm thông tin chính xác là nhu cầu thiết yếu đối với mọi người trong mọi lĩnh vực Internet hiện nay đă trở thành một kho tư
liệu không lồ mà việc tìm kiếm thông tin trên kho tư liệu này cần phải được hỗ trợ
bởi các công cụ tìm kiếm (search engine) tốt Các hệ thống tìm kiếm thông tin thông dụng như Google, Yahoo Search đã đáp ứng được phần nào nhu cầu đó của mọi người Tuy nhiên, các hệ thống này được xây dựng để xử lý và tìm kiếm các văn bản tiếng Châu Âu, chúng chưa thật sự phù hợp cho các văn bản tiếng Việt Do đó nhu câu phải có một công cụ tìm kiêm “hiêu” và xử lý tôt các văn bản tíêng Việt
Các hệ tìm kiếm thông tin đều phải thực hiện giai đoạn lập chỉ mục
(indexing) cho van bản để trích các từ chỉ mục (index term) biểu diễn tốt nhất nội dung của văn bản Cai đoạn này phụ thuộc vào ngôn ngữ của văn bản và phương pháp xử lý tự động ngôn ngữ đó Hiện nay chưa có nhiều hệ thống tìm kiếm thông
tin trên kho tài liệu tiếng Việt có khai thác các đặc trưng của tiếng Việt cho việc lập chỉ mục
Vì vậy mục tiêu của luận văn này nhằm xây dựng một hệ thống tìm kiếm thông tin bằng tiếng Việt có sử dụng các kết quả của xử lý ngôn ngữ tự nhiên tự động để xác định được các chỉ mục là các tir (word) hay tir ghép (compound word) của tiêng Việt
Trang 10Phan 1: TIM HIEU LY THUYET
Chuong 1: TONG QUAN VE TIM KIEM THONG TIN
1 Giới thiệu về tìm kiếm thông tin
1.1 Khái niệm về tìm kiếm thông tin
Tìm kiếm thông tin là tìm kiếm trong một tập tài liệu dé lẫy ra các thông tin mà người tìm kiêm quan tâm
1.2 Một số vẫn đề trong việc tìm kiếm thong tin:
Kế từ những năm 40, các vấn đề trong việc lưu trữ thông tin và tìm kiếm thông
tin đã thu hút sự chú ý rất lớn Với một lượng thông tin khống lồ thì việc tìm kiếm
chính xác và nhanh chóng càng trở nên khó khăn hơn Với sự ra đời của máy tính, rất nhiều ý tưởng lớn được đưa ra nhằm cung cấp một hệ thống tìm kiếm thông minh và chính xác Tuy nhiên, vân đê tìm kiêm sao cho hiệu quả vân chưa được giải quyết
Về nguyên tắc, việc lưu trữ thông tin và tìm kiếm thông tin thì đơn giản Giả sử
có một kho chứa các tài liệu và một người muốn tìm các tài liệu liên quan đến yêu cầu của mình Người đó có thé doc tất cả các tài liệu trong kho, giữ lại các tài liệu liên quan
và bỏ đi các tài liệu không liên quan Rõ ràng giải pháp này không thực tế bởi vì tốn rất nhiêu thời gian
Nguyễn Thị Thanh Hà - 0112215 10 Nguyễn Trung Hiếu - 0112216
Trang 11Với sự ra đời của máy vi tính tốc độ cao, máy tính có thể “đọc” thay cho con người để trích ra các tài liệu có liên quan trong toàn bộ tập đữ liệu Tuy nhiên vẫn đề lúc này là làm sao để xác định được tài liệu nào liên quan đến câu hỏi Mục đích của một hệ thống tìm kiếm thông tin tự động là truy lục được tất cả các tài liệu có liên quan đên yêu câu
2 Hệ tìm kiếm thông tin — IRS
Sau đây là định nghĩa về hệ thống tìm kiếm thông tin của một số tác giả: [2.1]
Salton (1989):
“Hệ thống tìm kiếm thông tin xử lý các tập tin lưu trữ và những yêu cầu về thông tin, xác định và tìm từ các tập tin những thông tin phù hợp với những yêu cầu về thông tin Việc truy tìm những thông tin đặc thù phụ thuộc vào sự tương tự giữa các thông tin được lưu trữ và các yêu cầu, được đánh giá bằng cách so sánh các giá trị của các thuộc tính đối với thông tin được lưu trữ và các yêu cầu về thông tin.”
Kowalski (1997) :
“Hệ thống truy tìm thông tin là một hệ thống có khả năng lưu trữ, truy tìm và
duy trì thông tin Thông tin trong những trường hợp này có thể bao gồm văn bản, hình ảnh, âm thanh, video và những đối tượng đa phương tiện khác.”
Hiểu đơn giản hệ thông tìm kiếm thông tin là một hệ thông hỗ trợ cho người
sử dụng tìm kiếm thông tin một cách nhanh chóng và dễ dàng Người sử dụng có thể đưa vào những câu hỏi, những yêu cầu (đạng ngôn ngữ tự nhiên) và hệ thống sẽ tìm kiếm trong tập các tài liệu (đạng ngôn ngữ tự nhiên) đã được lưu trữ để tìm ra những
Trang 12tài liệu có liên quan, sau đó sẽ sắp xêp các tài liệu theo mức độ liên quan giảm dân và trả vê cho người sử dụng
3 Các thành phần của một hệ tìm kiếm thông tin [1.1]
Gồm: tập các tài liệu (DOCS) đã được lưu trữ trong kho dữ liệu, tập các yêu cầu (REQS) của người dùng, và một số phương pháp tính độ tương quan (SIMILAR) dé xác định các tài liệu đáp ứng cho các yêu câu
Ce
Hình 1-1 Môi trường của hệ tìm kiếm thông tin
Theo lý thuyết thì mối liên hệ giữa các câu hỏi và các tài liệu có thể so sánh một
cách trực tiếp Nhưng trên thực tế thì điều này không thê được vì các câu hỏi và các tập tài liệu đều ở đạng văn bản, chỉ có con người đọc vào thì thấy ngay được mối liên hệ giữa chúng, nhưng ở đây chỉ là một hệ thống máy móc không thể suy luận như con người được Chính vì thế để xác định được mối liên hệ giữa các câu hỏi và các tập tài liệu phải qua một bước trung gian
Nguyễn Thị Thanh Hà - 0112215 12 Nguyễn Trung Hiếu - 0112216
Trang 13mLbi1L 2E
Hình 1-2 Tổng quan về chức năng của một hệ tìm kiếm thông tin
Trước hết chuyên đổi các câu hỏi thành các từ riêng biệt đủ để biểu hiện cho nội
dung của câu hỏi gọi là ngôn ngữ chỉ mục (Indexing language - LANG) Tách từ trong các tập tài liệu và lập chỉ mục cho tài liệu Lúc này có thể so sánh trực tiếp giữa các từ của câu hỏi và các từ chỉ mục của tập tài liệu Và từ đó ta sẽ dễ dàng hơn để xác định
độ tương quan giữa các câu hỏi và tập tài liệu
4 So sánh IRS với các hệ thông thông tin khác
Hệ thống tìm kiếm thông tin cũng tương tự như nhiều hệ thống xử lý thông tin khác Hiện nay các hệ thống thông tin quan trọng nhất là: hệ quản trị cơ sở dữ liệu (DBM®S), hệ quản lý thông tin (MIS), hệ hỗ trợ ra quyết định (DSS), hệ trả lời câu hỏi
(QAS) và hệ tìm kiếm thông tin (IR)
Trang 144.1 Hệ quản trị cơ sở dữ liệu (DBMS)
Bất cứ hệ thống thông tin tự động nào cũng dựa trên một tập các mục được lưu trữ (gọi là cơ sở đữ liệu) cần thiết cho việc truy cập Do đó hệ quản trị cơ sở dữ liệu
đơn giản là một hệ thống được thiết kế nhằm thao tác và duy trì điều khiến cơ sở đữ
liệu
DBMS tô chức lưu trữ các đữ liệu của mình dưới dạng các bảng Mỗi một cơ sở
dữ liệu được lưu trữ thành nhiều bảng khác nhau Mỗi một cột trong bảng là một thuộc tính, và mỗi một dòng là một bộ dữ liệu cụ thé Trong mỗi một bảng có một thuộc tính duy nhất đại điện cho bảng, nó không được trùng lắp và ta gọi đó là khoá chính Các bảng có mối liên hệ với nhau thông qua các khoá ngoại DBMS có một tập các lệnh để
hỗ trợ cho người sử dụng truy vấn đến dữ liệu của mình Vì vậy muốn truy vẫn đến CSDL trong DBMS ta phải học hết các tập lệnh này Nhưng ngược lại nó sẽ cung cấp cho ta các dữ liệu đầy đủ và hoàn toàn chính xác Hiện nay DBMS được sử dụng rộng rãi trên thế giới Một số DBMS thông dụng : Access, SQL Server, Oracle
4.2 Hệ quản lý thông tin (MS)
Hệ quán lý thông tin là hệ quản trị cơ sở đữ liệu nhưng có thêm nhiều chức nhưng về việc quản lý Những chức năng quản lý này phụ thuộc vào giá trị của nhiều kiểu đữ liệu khác nhau Nói chung bất kỳ hệ thống nào có mục đích đặc biệt phục vụ cho việc quan lý thì ta gọi nó là hệ quản ly thong tin
Nguyễn Thị Thanh Hà - 0112215 14 Nguyễn Trung Hiếu - 0112216
Trang 154.3 Hệ hỗ trợ ra quyết định (DSS)
Hệ hỗ trợ ra quyết định sẽ dựa vào các tập luật được học, từ những luật đã học rút ra những luật mới, sau khi gặp một van đề nó sẽ căn cứ vào vào tập các luật dé dua
ra những quyết định thay cho con người
Hệ thống này đang được áp dụng nhiều cho công việc nhận dạng và chuẩn đoán bệnh
4.4 Hệ trã lời câu hỏi (QAS)
Hệ trá lời câu hỏi cung cấp việc truy cập đến các thông tin bằng ngôn ngữ tự nhiên Việc lưu trữ cơ sở đữ liệu thường bao gồm một số lượng lớn các vấn đề liên quan đến các lĩnh vực riêng biệt và các kiến thức tổng quát Câu hỏi của người dùng có thể ở dạng ngôn ngữ tự nhiên Công việc của hệ trả lời câu hỏi là phân tích câu truy vẫn của người dùng, so sánh với các tri thức được lưu trữ, và tập hợp các vấn đề có liên quan lại để đưa ra câu trả lời thích hợp
Tuy nhiên, hệ trả lời câu hỏi chỉ còn đang thử nghiệm Việc xác định ý nghĩa của ngôn ngữ tự nhiên đường như vẫn là chướng ngại lớn để có thể sử dụng rộng rãi hệ thống này
Trang 164.5 So sánh IRS với các hệ thống thông tin khác
rõ ràng và các | thủ tục( Tính Lưu trữ ngôn ngữ tự | dữ liệu ở " ,
kién thirc tong, tinh nhién dang bang ,
tong quat trung binh,
phép chiéu ) Các cầu truy | Các cầu truy | Các câu truy
Xử ly vẫn không vẫn có cầu vẫn không
Trang 17Chuong 2: XAY DUNG MOT HE THONG TIM KIEM
THONG TIN
1 Kiến trúc của hệ tìm kiếm thông tỉn [1.3]
Một hệ thống thông tin tiêu biểu như sau:
user feedback | Ð!PEr8kinns k2 : Module
Rankimg
T et Datahage
Hệ thống tìm kiếm thông tin gồm có 3 bộ phận chính : bộ phận phân tích văn
bản, bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả vê
Nguyễn Thị Thanh Hà - 0112215 17 Nguyễn Trung Hiếu - 0112216
Trang 18(1) Bộ phận phân tích văn bản: bộ phận này có nhiệm vụ phân tích các văn bản thu thập được thành các từ riêng biệt Tương tự, khi người dùng nhập câu truy vẫn thì câu truy vẫn cũng được phân tích thành các từ riêng biệt
(2) Bộ phận lập chỉ mục : các từ trích được từ các văn bản thu thập được sẽ được bộ phận này lựa chọn để làm các từ chỉ mục Các từ chỉ mục phải là các từ thể hiện được nội dung của văn bản
(3) Bộ phận so khớp và sắp xêp các tài liệu trả về: Các từ trích được từ câu truy vần và các từ chỉ mục của văn bản sẽ được so khớp với nhau đê tìm ra các tài liệu liên quan đên câu truy vân Môi tài liệu có một độ tương quan với câu hỏi Các tài liệu này sẽ được sắp xêp theo độ tương quan giảm dân và trả về cho người sử dụng
2 Một số mô hình để xây dựng một hệ tìm kiếm thông tin [1.2]
Mục tiêu của các hệ thông tìm kiêm thông tin là trả vê các tài liệu càng liên quan đên câu hỏi càng tôt Vì thê người ta đã đưa ra rât nhiêu mô hình tìm kiêm nhắm tính toán một cách chính xác độ tương quan này Sau đây là một sô mô hình tìm kiêm
cơ bản:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán độ tương quan giữa câu hỏi và tài liệu bằng cách định nghĩa một vector biểu diễn cho mỗi tài liệu, và một vector biểu diễn cho câu hỏi [ Salton, 1875] Mô hình dựa trên ý tưởng chính là ý nghĩa của một tài liệu thì phụ thuộc vào các từ được sử dụng bên trong nó Vector tài liệu và vector câu hỏi sau đó sẽ được tính toán để xác định độ tương quan giữa chúng Độ tương quan cảng lớn chứng
tỏ tài liệu đó càng liên quan đên câu hỏi
Nguyễn Thị Thanh Hà - 0112215 18 Nguyễn Trung Hiếu - 0112216
Trang 19Giả sử một tập tài liệu chỉ gồm có hai từ là t¡ và tạ Vector xây dựng được sẽ
gồm có 2 thành phần: thành phân thứ nhất biểu diễn sự xuất hiện của t¡, và thành phần
thứ hai biểu diễn cho sự xuất hiện của t; Cách đơn giản nhất để xây dựng vector 1a đánh 1 vào thành phân tương ứng nếu từ đó xuất hiện, và đánh 0 nếu từ đó không xuất hiện Giả sử tài liệu chỉ gom c6 2 tir t; Ta biéu dién cho tai liệu nay boi vector nhi phân như sau: <1,0> Tuy nhiên, biểu diễn như vậy không cho thay được tần số xuất hiện của mỗi từ trong tài liệu Trong trường hop này, vector nên được biếu diễn như sau: <2,0>
Đối với một câu hỏi đã cho, thay vì chỉ căn cứ so sánh các từ trong tài liệu với tập các từ trong câu hỏi, ta nên xem xét đến tầm quan trọng của mỗi từ Ý tưởng chính
là một từ xuất hiện tập trung trong một số tài liệu thì có trọng số cao hơn so với một từ phân bố trong nhiều tài liệu Trọng số được tính dựa trên tần số tài liệu nghịch đảo (Inverse Document Frequency) lién quan dén cac từ được cho:
n: s6 tir phan biét trong tap tai liéu
tí; : số lần xuất hiện của từ t; trong tài liệu D; (tần số)
đf : số tài liệu có chứa tir t
Trang 20trong tất cả các tài liệu Để tính trọng số của từ thứ t¡ trong tài liệu D¡, dựa vào công thức:
di = thi; * Idf;
dị : là trọng số của từ ft; trong tài liệu D;
Đối với hệ thống tìm kiếm thông tin theo mô hình vector, mỗi tài liệu là một vector có dạng : Dị(d¡, dạ, ., dạ ) Tương tự, câu truy vẫn Q cũng là một vector có
W,;: Ja trong số của từ t¡ trong câu truy van Q
Độ tương quan (SC: similarity coeficient) giữa câu truy vẫn Q và tài liệu D; được tính như sau:
SC(Q,D) = » Wg Fi
j=
2.2 Tim kiém Boolean
Mô hình tìm kiếm Boolean khá đơn giản Câu hỏi đưa vào phải ở dang biéu thức
Boolean Nghĩa là phải thỏa:
> Ngữ nghĩa rõ rang
> Hình thức ngăn gon
Do các từ hoặc xuât hiện hoặc là không xuất hiện, nên trọng sô w¡ ø {0,1} Giả sử đưa vào một câu hỏi dạng biêu thức Boolean như sau: tị and t; Sau khi tìm kiêm ta xác định được các tài liệu liên quan đên t; là { dị, dạ, d;} và các tài liệu liên
Nguyễn Thị Thanh Hà - 0112215 20 Nguyễn Trung Hiếu - 0112216
Trang 21quan đến t; là {d›, ds, d;} Như vậy với phép and, các tài liệu thỏa yêu cầu của người
dùng là {d3, d;} Phương pháp này có một số khuyết điểm như sau:
> Các tài liệu trả về không được sắp xếp (ranking)
> Câu hỏi tìm kiếm đòi hỏi phải đúng dinh dang cua biéu thitc Boolean gay khó khăn cho người dùng
> _ Kết quả trả về có thể là quá ít hoặc quá nhiều tài liệu
2.3 Tìm kiếm Boolean mở rộng
Mô hình tìm kiêm Boolean không hỗ trợ việc sắp xếp kết quả trả về bởi vì các tài liệu hoặc thỏa hoặc không thỏa yêu câu Boolean Tât cả các tài liệu thỏa mãn đêu được trả vê, nhưng không có sự ước lượng nào được tính toán cho sự liên quan của chúng đôi với câu hỏi
Mô hình tìm kiếm Boolean mở rộng ra đời nhằm hỗ trợ việc sắp xếp (ranking) kết quả trá về dựa trên ý tưởng cơ bản là đánh trọng số cho mỗi từ trong câu hỏi và trong tài liệu Giả sử một câu hỏi yêu cầu (t¡ OR tạ) và một tài liệu D có chứa t¡ với trọng số wy va tp voi trong số wạ Nếu w¡ và w; đều bằng 1 thì tài liệu nào có chứa cả hai từ này sẽ có thứ tự sắp xếp cao nhất Tài liệu nào không chứa một trong hai từ này
sẽ có thứ tự sắp xếp thấp nhất Y tưởng đơn giản là tính khoảng cách Eclide từ điểm (Ww, W2) tới gốc:
SC(Q,Di) — =4 (w,)” + (w;}
Với trọng số 0.5 và 0.5, SC(Q,D,)= /(0.5)”+(0.5” =0.707
Trang 22SC(Q,D) = V2 =1.414
Dé dua SC vao khoảng [0,1], ŠC được tính như sau:
SC( Quy ad) = SP PS
Công thức này giả sử là câu hỏi chỉ có toán tử OR Đối với toán tir AND, thay
vì tính khoảng cách tới gốc, ta sẽ tính khoảng cách đến điểm (1,1) Câu hỏi nào càng gần đến điểm (1,1) thì nó càng thoả yêu cầu của toán tử AND:
J 1- i) 1— sy SC(Q i112, di) = 1- ae Wa)
2.4 Mớ rộng trong việc thêm vào trọng sô của cầu hỏi
Nếu câu hỏi có trọng số là q; và q› thì độ tương quan sẽ được tính như sau:
2y 2 2,.,2
Jq;w, +qw
SC(Q g1 vq2 di) — = = :
VN +9
1 (1-w,)’ +q;(1—w,)°
V 4 + In
SC(Q ql * q2s d;)= 1- (v3
Trang 231
Py, P P4,,P Ip q;W; +4; W; I SC(D, ( Qiq iv ai)) qj — | g? +q?
1
q; (l-w?)+q?(l—w,?) |P
qi; + qj
SCO, Qcqir aiy) =1- |
Nếu p —>œ : chuyến về hệ thống Boolean thông thường (không có trọng số)
Nếu p = 1 : chuyển về hệ thống không gian vector
2.4.2 Thêm toán tử tự động
Các chiến lược tìm kiếm không đòi hỏi người dùng nhận biết các toán tử phức tạp Trọng số có thể được gán tự động và tài liệu được sắp xếp bằng cách chèn toán tử
OR vào giữa các từ Bất kỳ tài liệu nào có chứa ít nhất một từ trong câu hỏi sẽ được sắp
thứ tự với một số điểm lớn hơn 0
2.5 Mô hình xác suất
Mô hình tìm kiếm xác suất tính toán độ tương quan giữa câu hỏi và tài liệu dựa vào xác suất mà tài liệu đó liên quan đến câu hỏi Các lý thuyết về xác suất được áp dụng để tính toán độ liên quan giữa câu hỏi và tài liệu Các từ trong câu hỏi được xem
là đầu mối để xác định tài liệu liên quan Y tưởng chính là tính xác suất của mỗi từ trong câu hỏi và sau đó sử dụng chúng để tính xác suất mà tài liệu liên quan đến câu hỏi
Trang 242.6 Đánh giá chung về các mô hình
> Mô hình Boolean được xem là mô hình yếu nhất trong các mô hình bởi vì như đã trình bày nó còn rất nhiều khuyết điểm
> Theo kinh nghiém cua Salton va Buckley thi nhin chung m6 hinh vector
làm tốt hơn mô hình xác suất
Luận văn của chúng em sử dụng mô hình không gian vector đê xây dựng một
hệ thống tìm kiếm thông tin tiếng Việt
3 Các bước để xây dựng một hệ tìm kiếm thông tỉn [3.2]
3.1 Tách từ tự động cho tập các tài liệu
Đối với tiếng Anh, ta tách từ dựa vào khoảng trắng Tuy nhiên đối với tiếng Việt, giai đoạn này tương đối khó khăn Cấu trúc tiếng Việt rất phức tạp, không chỉ đơn thuần dựa vào khoảng trăng đề tách từ Hiện nay có rất nhiều công cụ dùng để tách từ tiếng Việt, mỗi phương pháp có ưu, khuyết điểm riêng Các phương pháp này sẽ được
trình bày chi tiết hơn ở chương III : Tách từ tự động
3.2 Lập chỉ mục cho tài liệu
Sau khi có được tập các từ đã được trích, ta sẽ chọn các từ để làm từ chỉ mục Tuy nhiên, không phải từ nào cũng được chọn làm từ chỉ mục Các từ có khả năng đại diện cho tài liệu sẽ được chọn, các từ này được gọi là key word, do đó trước khi lập chỉ mục sẽ là giai đoạn tiền xử lý đối với các từ trích được để chọn ra các key word thích hợp Ta sẽ loại bỏ danh sách các từ ít có khả năng đại diện cho nội dung văn bản dựa
Nguyễn Thị Thanh Hà - 0112215 24 Nguyễn Trung Hiếu - 0112216
Trang 25vào danh sách gọi là stop list Đối với tiếng Anh hay tiếng Việt đều có danh sách stop list Chi tiết về quá trình lập chỉ mục sẽ được mô tả ở chương IV: Lập chỉ mục
3.3 Tìm kiếm
Người dùng nhập câu hỏi và yêu cầu tìm kiếm, câu hỏi mà người dùng nhập vào cũng sẽ được xử lý, nghĩa là ta sẽ tách từ cho câu hỏi Phương pháp tách từ cho câu hỏi cũng nên là phương pháp tách từ cho các tài liệu thu thập được để đảm bảo sự tương thích Sau đó, hệ thống sẽ tìm kiếm trong tập tin chỉ mục để xác định các tài liệu liên quan đên câu hỏi của người dùng
3.4 Sắp xếp các tài liệu trả về (Ranking)
Các tài liệu sau khi đã xác định là liên quan đền câu hỏi của người dùng sẽ được sắp xêp lại, bởi vì trong các tài liệu đó có những tài liệu liên quan đên câu hỏi nhiêu hơn Hệ thông sẽ dựa vào một sô phương pháp đê xác định tài liệu nào liên quan nhiêu nhất, sắp xếp lại (ranking) và trả về cho người dùng theo thứ tự ưu tiên
4 Những khó khăn trong việc xây dựng một hệ thống tìm kiếm
thông tin tiếng Việt
Hiện nay, chúng ta đã quen thuộc với rất nhiều công cụ hỗ trợ việc tìm kiếm thông tin như Google, Yahoo Search, AltaVista, Tuy nhiên, đây là các công cụ của người nước ngoài nên chúng chỉ giải quyết tốt đối với các yêu cầu của họ Chúng ta cũng có một số công cụ hỗ trợ tìm kiếm thông tin tiếng Việt như: Vinaseek, NetNam, Các công cụ này cũng tách từ chủ yếu đựa vào khoảng trăng nên việc tìm kiếm cũng chưa được cải thiện Nhìn chung, để xây dựng một hệ thống tìm kiếm thông
Trang 26tin tiếng Việt, chúng ta gặp khó khăn trong việc tách từ tiếng Việt và xác định bảng mã tiếng Việt
4.1 Khó khăn trong việc tách từ tiếng Việt
Có thê nói tách từ là giai đoạn khó khăn nhất khi xây dựng một hệ tìm kiếm
thông tin tiếng Việt Đối với tiếng Anh, việc xác định từ chỉ đơn giản dựa vào khoảng trắng để tách từ Ví dụ, câu: “I am a student” sẽ được tách thành 4 từ : I, am, a, student Tuy nhiên, đối với tiếng Việt, tách dựa vào khoảng trăng chỉ thu được các tiếng Từ có thể được ghép từ một hay nhiều tiếng Từ phải có ý nghĩa hoàn chỉnh và có câu tạo ổn định Câu: “Tôi là một sinh viên” được tách thành 4 từ: Tôi, là, một, sinh viên Trong
đó, từ “sinh viên” được hình thành từ 2 tiếng: sinh và viên
Hiện nay, có rất nhiều phương pháp được sử dụng để tách từ tiếng Việt Tuy nhiên, với sự phức tạp của ngữ pháp tiếng Việt nên chưa có phương pháp nào đạt được chính xác 100% Và việc lựa chọn phương pháp nảo là tốt nhất cũng đang là vấn đề
tranh cãi
4.2 Vấn đề bảng mã tiếng Việt
Không như tiếng Anh, tiếng Việt có rất nhiều bảng mã đòi hỏi phải xử lý Một
số công cụ tìm kiếm tiếng Việt hỗ trợ bảng mã rất tốt như Vinaseek, hỗ trợ mọi bảng
mã (VNI, TCVN3, VIQR )
4.3 Các khó khăn khác
> Tiếng Việt có các từ đồng nghĩa nhưng khác âm Các công cụ hiện nay không
hỗ trợ việc xác định các từ đồng nghĩa Vì vậy, kết quả trả về sẽ không đầy đủ
Nguyễn Thị Thanh Hà - 0112215 26 Nguyễn Trung Hiếu - 0112216
Trang 27> Ngược lại, có những từ đồng âm khác nghĩa Các hệ thống sẽ trả về các tài liệu
có chứa các từ đã được tách trong câu hỏi mà không cần xác định chúng có thực
sự liên quan hay không Vì vậy, kết quả trả về sẽ không chính xác
> Một sô từ xuât hiện rât nhiêu nhưng không có ý nghĩa trong tài liệu Các từ như:
và, với, nhưng, có tân sô xuât hiện rât lớn trong bât cứ văn bản nào Nêu tìm cách trả vê các tài liệu có chứa những từ này sẽ thu được kêt quả vô ích, không cân thiệt Do đó, chúng ta cân tìm cách loại bỏ các từ này trước khi tìm kiêm
Trang 28Chương 3: TÁCH TỪ TỰ ĐỘNG
Trước khi lập chỉ mục là giai đoạn tách từ cho các tài liệu, đây là công việc quan trọng trong một hệ thống tìm kiếm thông tin Đối với tiếng Anh chỉ đơn giản dựa vào khoảng trắng để tách từ Nhưng đối với tiếng Việt không thể dựa vào khoảng trắng được vì tiếng Việt là ngôn ngữ đơn lập
Hiện nay, có rất nhiều phương pháp được đề xuất để tách từ cho tiếng Việt, nhưng vẫn chưa thống nhất là phương pháp nào tốt nhất Chương nay sé trình bày chỉ tiết về một số phương pháp tách từ
1 Tách từ trong Tiếng Anh
Do đặc điểm ngữ pháp của tiếng Anh, tách từ chỉ đơn giản đựa vào khoảng trăng để phân biệt từ
2 Tách từ trong Tiếng Việt
2.1 Một số đặc điểm chính về từ tiếng Việt [2.2]
2.1.1 Tiếng
Về mặt ngữ âm, tiếng là âm tiết Âm tiết bao gồm những đơn vị ở bậc thấp hơn gọi
là âm vị Mỗi âm vị được ghi bằng một ký tự gọi là chữ
Nguyễn Thị Thanh Hà - 0112215 28 Nguyễn Trung Hiếu - 0112216
Trang 29Về mặt ngữ nghĩa, tiêng là đơn vị nhỏ nhât có nghĩa, nhưng cũng có một sô tiêng không có nghĩa
về giá trị ngữ pháp, tiếng là đơn vị cấu tạo từ Sử dụng tiếng để tạo thành từ, ta có hai trường hợp như sau:
> Từ một tiếng: gọi là từ đơn Trường hợp này một từ chỉ có một tiếng Ví dụ như: ông, bà,
> Từ hai tiếng trở lên: gọi là từ phức Trường hợp này một từ có thể có hai hay nhiều tiếng trở lên Ví dụ như: xã hội, an ninh, hợp tác xã,
2.1.2 Từ
Từ là đơn vị nhỏ nhất để tạo thành câu Trong đặt câu, chúng ta dùng từ chứ không dùng tiếng
2.2 Tách từ tự động tiếng Việt
Tách từ tự động tiếng Việt dựa trên một số phương pháp có sẵn Sau đây chúng
ta sẽ nghiên cứu một số phương pháp được sử dụng đề tách từ cho các văn bản tiếng Việt
Trang 303 Các phương pháp tách từ tiếng Việt
3.1 fnTBL (Fast Transformation-based learning) [3.1]
3.1.1 M6 ta
Ý tưởng chính của phương pháp học dựa trên sự biến đổi (TBL) là đề giải quyết một vẫn đề nào đó ta sẽ áp dụng các phép biến đổi, tại mỗi bước, phép biến đỗi nào cho kết quả tốt nhất sẽ được chọn và được áp dụng lại với vấn đề đã đưa ra Thuật toán kết thúc khi không còn phép biến đổi nào được chọn Hệ thống fnTBL gom hai tap tin chinh:
> Tap tin dit liéu hoc (Training): Tập tin đữ liệu học được làm thủ công, đòi hỏi
độ chính xác Mỗi mẫu (template) được đặt trên một dòng riêng biệt Ví dụ: tập
dữ liệu học cho việc xác định từ loại của một văn bản có thê có định dạng như sau:
Cong ty danhtu
An Dong danhturieng
bi dongtu giam sat dongtu
Trong ví dụ này mỗi mẫu gồm có hai phần: phần dau tiên là từ, phần thứ
hai là từ loại tương ứng
> Tap tin chứa các mẫu luật (rule-templare): Mỗi luật được đặt trên một dòng, hệ thống fTBL sẽ dựa vào các mẫu luật để áp dụng vào tập tin đữ liệu học Ví dụ:
chunk _-2 chunk_-1 => chunk
Nguyễn Thị Thanh Ha - 0112215 30 Nguyễn Trung Hiếu - 0112216
Trang 31Áp dụng đối với việc xác định từ loại, với chunk _-2 = động từ, chunk -
1= số từ, chunk=danh từ thì luật trên có ý nghĩa như sau: nếu hai từ trước đó là
động từ và số từ thì chuyên từ loại hiện hành thành danh từ
Ha I
bi B dat B vao B tinh B trang |
Cac ky tu B, I goi la cac chunk và có ý nghĩa như sau:
Tiếng có chunk=B nghĩa là tiếng đó bắt đầu một từ (begin)
Tiếng có chunk=I nghĩa là tiếng đó năm ở trong một từ (inside)
Trang 32Trong ví dụ trên, ta có được các từ: Vì, sao, công ty, Việt Hà, bỊ, đặt, vào, tình
3.1.2.1 Quá trình học
(1) Từ tập đữ liệu học xây đựng từ điển các từ
(2) Khởi tạo các từ
(3) Rút ra tập luật
Ở bước (1) từ tập đữ liệu học đã có sẵn, sử dụng phương pháp thống kê —› ta sẽ
có từ điển các tiếng (Lexicon) Các tiếng có thể xuất hiện trong các từ với các chunk khác nhau, ta sẽ ghi nhận lại số lần xuất hiện của mỗi tiếng với các chunk tương ứng
Ví dụ, đối với từ “công ty” thì tiếng “công” có chunk=B nhưng trong từ “của công” thì tiếng công có chunk=I
Ở bước (2) từ tập dữ liệu học, tạo ra tập dữ liệu học không có chunk bằng cách xóa hết các chunk tương ứng Tập dữ liệu mới này sẽ được sử dụng để khởi tạo lại các chunk thông dụng nhất dựa vào từ điền
Ở bước (3) so sánh tập dữ liệu học với tập dữ liệu đang xét, dựa vào các mẫu luật đã cho, ta sẽ rút ra được các luật ứng viên, ứng với mỗi luật ứng viên ta lại áp dụng vào tập đữ liệu đang xét và tính điểm cho nó (dựa vào số lỗi phát sinh khi so sánh với
Nguyễn Thị Thanh Hà - 0112215 32 Nguyễn Trung Hiếu - 0112216
Trang 33tập đữ liệu học là tập dữ liệu chuẩn) Chọn luật có điểm cao nhất và lớn hơn một
ngưỡng cho trước để đưa vào danh sách luật được chọn
Kết quả ta sẽ được một tập các luật được chọn Các luật có dạng như sau:
SCORE:414 RULE: chunk_0=B word_0=tế => chunk=l
SCORE:312 RULE: chunk_0=B word_-l=của word_0=công=>chunk=l
SCORE:250 RULE: chunk 0=B word_0=hóa => chunk=I
SCORE:231 RULE: chunk_0=B word_0=d6ng => chunk=I
SCORE:205 RULE: chunk_0=B word_0=nghiép => chunk=I
SCORE:175 RULE: chunk _0=B word -1=phat word_0=trién => chunk=I
SCORE:133 RULE: chunk_0=B word_-1=x& word_0=hdi => chunk=I
SCORE:109 RULE: chunk _0=B word _-1=dau word_0=tu => chunk=I
SCORE:100 RULE: chunk_0=B word_0=thé => chunk=I
Ở dòng 2 ta có luật: nếu từ hiện hành là “công” (word_0=công) và từ trước đó là
“của” (word_-l=của) và chunk của từ hiện hành là B ( chunk_0=B) thì chuyển chunk của từ hiện hành là I, nghĩa là “của công” phải là một từ
Trang 34Toàn bộ quá trình học được mô tả như sau:
Tap dir lien hoc
(Temrplaic)
Danh sắch lỗi
¬ Tính điểm &, [ eem Ì
(1) Tài liệu mới đưa vào phải có định dạng giống như tập tin dữ liệu học, nghĩa
là môi tiêng trên một dòng
Nguyễn Thị Thanh Hà - 0112215 34 Nguyễn Trung Hiếu - 0112216
Trang 35(2) Dựa vào từ điển, gán chunk thông dụng nhất cho các tiếng trong tài liệu mới (3) Áp dụng các luật có được từ gia1 đoạn học vào tài liệu đang xét ta sẽ tách được các từ hoàn chỉnh
Giai doan xac định từ cho tài liệu mới được mô tả như sau:
Trang 363.2 Longest Matching [1.4]
Phương pháp Longest Matching tách từ dựa vào từ điển có sẵn
Theo phương pháp này, để tách từ tiếng Việt ta đi từ trái sang phải và chọn từ có nhiều âm tiết nhất mà có mặt trong từ điển, rồi cứ tiếp tục cho từ kế tiếp cho đến hết câu Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như: ”hợp tác| mua bán”; “thành lập| nước |Việt Nam| dân chủ |cộng hòa” Tuy nhiên, phương pháp này sẽ tach tur sai trong trường hợp như: “học sinh |học sinh |lhọc”; “một| ông | quan tài | giỏ1”,
“trước | bàn là | một | ly| nước”,
3.3 Két hop giita fnTBL va Longest Matching
Chúng ta có thể kết hợp giữa hai phương phap faTBL va Longest Matching dé
có được kết quả tách từ tốt nhất Đầu tiên ta sẽ tách từ băng Longest Matching, đầu ra của phương pháp này sẽ là đầu vào cho phương pháp fnTBL học luật
Nguyễn Thị Thanh Hà - 0112215 36 Nguyễn Trung Hiếu - 0112216
Trang 37Chương 4: LẬP CHÍ MỤC
1 Khái quát về hệ thống lập chỉ mục
Một cách dé tăng tốc độ tìm kiếm thông tin lên là tạo chỉ mục cho các tài liệu Tuy nhiên, việc lập chỉ mục có một nhược điểm lớn, đó là khi thêm một tài liệu mới, phải cập nhật lại tập tin chỉ mục Nhưng đối với hệ thống tìm kiễm thông tin, chỉ cần cập nhật lại tập tin chỉ mục vào một khoảng thời gian định kỳ Do đó, chỉ mục là một công cụ rất có giá trị
Lập chỉ mục bao gồm các công việc sau:
> Xác định các từ có khả năng đại diện cho nội dung của tài liệu
> Đánh trọng số cho các từ này, trọng số phản ánh tầm quan trọng của từ trong một tài liệu
2 Phương pháp lap chi muc [1.1]
2.1 Xac dinh cac tir chi muc
> Cho một tập gồm có n tài liệu Với mỗi tài liệu, tính tần số của mỗi từ riêng biệt trong tài liệu đó Gọi FREQx: là tần số xuất hiện của từ k trong tài liệu i
> Xác định tần số của từ k trong tập tài liệu, ký hiệu là TOTFREQ, bằng cách tính tông tân sô xuât hiện của k trong tât cả n tài liệu:
Trang 38TOTFREQ¿ = Ÿ' FREQ,
i=l
> Sắp xêp các từ giảm dân dựa vào tân sô xuât hiện của nó trong tập tài liệu Xác định giá trị ngưỡng cao và loại bỏ tât cả các từ có tân sô xuât hiện lớn hơn giá trị này
> Tương tự, loại bỏ các từ có tân so thap Nghia la, xac dinh nguéng thap
và loại bỏ tât cả các từ có tân sô xuât hiện nhỏ hơn giá trị này Điêu này sẽ loại bỏ các
từ ít xuât hiện trong tập tài liệu, nên sự có mặt của các từ này cũng không ảnh hưởng đên việc thực hiện truy vân
> Các từ có tân sô xuât hiện trung bình còn lại sẽ được sử dụng làm từ chỉ mục
(tắc từ có trang gã cao (“ắc từ cả trạng sã thấp
Quyết định các tờ cá ý nghĩa Tan
Trang 392.2 Các phương pháp tính trọng số của từ
Trọng số của một từ phản ánh tầm quan trọng của tử đó trong tài liệu Ý tưởng chính là một từ xuất hiện thường xuyên trong tất cả các tài liệu thì ít quan trọng hơn là
từ chỉ xuất hiện tập trung trong một số tài liệu
2.2.1 Tần số tài liệu nghịch đảo
Đây là phương pháp tính trọng số mà mô hình không gian vector đã sử dụng để tính trọng số của từ trong tài liệu
n: số từ phân biệt trong tập tài liệu
FREQt : số lần xuất hiện của từ k trong tài liệu D; (tần sé tir)
DOCFREQ, : số tài liệu có chứa từ k
Khi đó, trọng số của từ k trong tài liệu D; được tính như sau:
WEIGHT, = FREQ; * [log (n) — log (DOCFREQ,)]
Trọng số của từ k trong tài liệu D; tăng nếu tần số xuất hiện của từ k trong tài liệu i tăng và giám nếu tông số tài liệu có chứa từ k tăng
2.2.2 Độ nhiễu tin hiéu (The Signal — Noise Ratio)
Một quan điểm tương tự được xem xét đó là dựa vào thông tin để đánh giá tầm quan trọng của từ Trong thực tế, nội dung thông tin của một đoạn hay một từ có thể xác định dựa vào xác suât xuât hiện của các từ trong văn bản đã cho Rõ ràng, xác suât xuât hiện của một từ càng cao thì thông tin mà nó chứa càng Ít
Nội dung thông tin của một từ được xác định như sau:
Trang 40INFORMATION= - log; p trong đó p là xác suất xuất hiện của từ
Vĩ đu: nêu từ “vi tính” xuât hiện 1 lan sau 10.000 từ, xác suât xuât hiện của nó là 0.0001, khi đó thông tin của nó sẽ là:
INFORMATION = - log; (0.0001) = 13.278
Ngược lai, từ “sẽ” xuât hiện 1 lần sau 10 từ, xác suât xuât hiện của nó là 0.1, khi
đó thông tin của nó sẽ là:
Ta định nghĩa độ nhiễu NOISE, cua ti k trong tập gồm n tài liệu như sau:
NOISE, = Š FREQ, jyy TOTFREO,
“+ TOTFREO, FREO,
Độ nhiễu thay đôi nghịch đảo với “sự tập trung” của một từ trong tập tài liệu Nghĩa là, một từ có sự phân phối đều trong tất cả các tài liệu thì độ nhiễu của nó càng lớn, ngược lại một từ chỉ tập trung trong một số tài liệu nào đó thì độ nhiễu của nó càng nhỏ
Giả sử, từ k xuất hiện một lần trong mỗi tài liệu (FREQ„=1), khi đó độ nhiễu
của nó băng:
Nguyễn Thị Thanh Hà - 0112215 40 Nguyễn Trung Hiếu - 0112216