Ứ Ứ ng dng dụụng cng củủa tóm ta tóm tắắt vt văăn bn bảản trong nhin trong nhiềều lu l ĩ ĩ nh vnh vựực khácc khácnhau nh nhau nhưư sinh tiêu sinh tiêu đềđề ttựự độđộng headline generati
Trang 1LỜ Ờ I CAMI CAM ĐĐOANOAN
Tôi xin camTôi xin cam đđoan, nhoan, nhữững gì tôi ving gì tôi viếết trong lut trong luậận n vvăăn này là do tìm hin này là do tìm hiểểu vàu và
nghiên cứứu cu củủa ba bảản thân Mn thân Mọọi k i k ếết qut quảả nghiên c nghiên cứứu cu cũũng nhng nhưư ý t ý tưở ưở ng cng củủa các tác gia các tác giảả khác n
khác nếếu cóu có đềđềuu đượ đượ c trích dc trích dẫẫn ngun nguồồn gn gốốc cc cụụ th thểể
LuLuậận vn văăn này chon này cho đếđến nay chn nay chưưaa đượ đượ c bc bảảo vo vệệ t tạại bi bấất k t k ỳỳ m mộột ht hộộii đồđồng bng bảảo vo vệệ lu
luậận n vvăăn n ththạạc c ss ĩ ĩ nào trên toàn qu nào trên toàn quốốc c ccũũng nhng nhưư ở ở nnướ ướ c ngoài và choc ngoài và cho đếđến nay chn nay chưưaađượ
đượ c công bc công bốố trên b trên bấất k t k ỳỳ m mộột pht phươ ươ ng ting tiệện thông tin nào.n thông tin nào
Tôi xin hoàn toàn chTôi xin hoàn toàn chịịu trách nhiu trách nhiệệm vm vềề nh nhữững gì mà tôing gì mà tôi đđã camã cam đđoan trênoan trên đđây.ây
Hà N
Hà Nộội, tháng 03 ni, tháng 03 năăm 2013m 2013
HHọọc Viênc Viên
NguyNguyễễn Thn Thịị Thanh Hu Thanh Huệệ
Trang 2LỜ Ờ I CI CẢẢMM Ơ Ơ NN
Trong thTrong thờ ờ i gian thi gian thựực c hihiệện n luluậận n vvăăn này, tôi luônn này, tôi luôn đượ đượ c c ssựự quan tâm, góp ý quan tâm, góp ý
kiếến cn củủa tha thầầy giáo PGS.TS Nguyy giáo PGS.TS Nguyễễn Thanh Hn Thanh Hươ ươ ng Nhân dng Nhân dịị p này p này tôi xin tôi xin bày tbày tỏỏ l lờ ờ iiccảảmm ơ ơ n chân thành tn chân thành tớ ớ i thi thầầy giáo PGS TS Nguyy giáo PGS TS Nguyễễn Thanh Hn Thanh Hươ ươ ng, ngng, ngườ ườ ii đđã tr ã tr ựực tic tiếế p phhướ ướ ng ng ddẫẫn và dành nhin và dành nhiềều u ththờ ờ i giani gian đểđể ssửửa a chchữữa, a, bbổổ sung vào t sung vào từừng trang bng trang bảản n ththảảooccủủa lua luậận vn văăn.n
Tôi xin chân thành bày tTôi xin chân thành bày tỏỏ lòng bi lòng biếếtt ơ ơ nn đếđến toàn thn toàn thểể quý Th quý Thầầy Cô Viy Cô Việện Côngn Côngngh
nghệệ Thông tin và Truy Thông tin và Truyềền thông tr n thông tr ườ ườ ngng ĐạĐại hi họọc Bách khoa Hà Nc Bách khoa Hà Nộội, các gii, các giảảng viênng viênđđã truyã truyềềnn đạđạt t nhnhữững king kiếến n ththứức, c, k k ỹỹ nnăăng, kinh nghing, kinh nghiệệm nghm nghềề nghi nghiệệ p Tô p Tôi i xin xin chânchânthành c
thành cảảmm ơ ơ n ban Giám hin ban Giám hiệệu, u, ttậậ p p ththểể giáo viên khoa Công ngh giáo viên khoa Công nghệệ Thông tin tr Thông tin tr ườ ườ ngngĐạ
Đại i hhọọc c SSưư phphạạm m K K ỹỹ thuthuậật t HHưưng Yên, giang Yên, gia đđình cùng các bình cùng các bạạn trong ln trong lớ ớ p p cao cao hhọọccCông ngh
Công nghệệ Thông tin khoá 2011- 2013 Thông tin khoá 2011- 2013 đđã ã ttạạo o mmọọii đđiiềều u kikiệện giúpn giúp đỡ đỡ ,, độđộng viên,ng viên,chia s
chia sẻẻ đểđể tôi hoàn thành b tôi hoàn thành bảản lun luậận vn văăn này.n này
BBảản lun luậận vn văăn chn chắắc còn nhic còn nhiềều thiu thiếếu sót, r u sót, r ấất mongt mong đượ đượ c các thc các thầầy cô giáo trongy cô giáo tronghhộộii đồđồng chng chấấm lum luậận vn văăn xem xét, góp ý kin xem xét, góp ý kiếếnn đểđể lu luậận vn văănn đượ đượ c hoàn thic hoàn thiệện hn hơ ơ n.n
Tôi xin chân thành cTôi xin chân thành cảảmm ơ ơ n!n!
Hà N
Hà Nộội, tháng 03 ni, tháng 03 năăm 2013.m 2013
Trang 3MỤỤC LC LỤỤCCL
LỜỜI CAMI CAM ĐĐOAN 1OAN 1L
LỜỜI CI CẢẢMM ƠƠ N N 22
DANH MỤỤC CÁC CHC CÁC CHỮ Ữ VI VIẾẾT TT TẮẮT 6T 6DANH M
DANH MỤỤC CÁC BC CÁC BẢẢ NG NG 7 7DANH M
DANH MỤỤC CÁC HÌNH VC CÁC HÌNH VẼẼ 8 8M
3 ĐốĐối ti tượ ượ ng, phng, phạạm vi nghiên cm vi nghiên cứứu 10u 10
5 Cấấu trúc luu trúc luậận vn văăn 11n 11 N
NỘỘI DUNG 12I DUNG 12CH
CHƯƠƯƠ NG NG I: I: CCƠƠ SSỞỞ LÝ THUY LÝ THUYẾẾT CHO BÀI TOÁN TÓM TT CHO BÀI TOÁN TÓM TẮẮT T VVĂĂ N N BBẢẢ N NTI
TIẾẾ NG VI NG VIỆỆT HT HƯỚƯỚ NG TRUY V NG TRUY VẤẤ N N 12121.1
1.1 Bài Bài toán toán tóm tóm ttắắt vt văăn bn bảản tn tựự độđộng ng 12121.1.1
1.1.1 ĐịĐịnh nghnh ngh ĩ ĩ a 12a 121.1.2 Tóm t
1.1.2 Tóm tắắt vt văăn bn bảản tn tựự độđộng 12ng 121.2
1.2 Phân Phân loloạại bài toán tóm ti bài toán tóm tắắt vt văăn bn bảản n 15151.3
1.3 ĐặĐặcc đđiiểểm chung cm chung củủa các va các văăn bn bảản tóm tn tóm tắắt 18t 181.4
1.4 Tóm Tóm ttắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn n 19191.5
1.5 Ứ Ứ ng dng dụụng cng củủa bài toán tóm ta bài toán tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn n 20 201.6
1.6 Các Các tiêu tiêu chíchí đđánh giá hánh giá hệệ th thốống tóm tng tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn n 21 211.6.1
1.6.1 ĐộĐộ bao ph bao phủủ (Recall-R) (Recall-R) 22 221.6.2
1.6.2 ĐộĐộ chính chính xác xác (Precision-P) (Precision-P) 2222
Trang 41.6.3 Cách tính1.6.3 Cách tính độđộ bao ph bao phủủ và và độđộ chính chính xác xác [3] [3] 22221.6.4 Ph
1.6.4 Phươ ươ ng pháp tínhng pháp tính độđộ chính xác d chính xác dựựa trên 11a trên 11 đđiiểểm chum chuẩẩn cn củủaa độđộ bao ph bao phủủ 23 231.7 Nh
1.7 Nhữững thách thng thách thứức c ggặặ p p phphảảii đốđối i vvớ ớ i bài toán tóm ti bài toán tóm tắắt t vvăăn n bbảản n titiếếng Ving Việệtt
hhướ ướ ng truy vng truy vấấn 25n 251.8
1.8 Nghiên Nghiên ccứứu u hhướ ướ ng ging giảải quyi quyếếtt đốđối i vvớ ớ i bài toán tóm ti bài toán tóm tắắt t vvăăn n bbảản n titiếếng Ving Việệtthhướ ướ ng truy vng truy vấấn 26n 261.8.1 Phát bi
1.8.1 Phát biểểu u bài bài toán toán 26261.8.2
1.8.2 ĐềĐề xu xuấất ht hướ ướ ng ging giảải quyi quyếết 26t 261.8.3 Mô hình tóm t
1.8.3 Mô hình tóm tắắt vt văăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn n 28281.9 T
2.1.2 Tách Tách ttừừ và công t và công tựự tách t tách từừ vnTagger vnTagger 3232
Trang 52.3
2.3 Trích Trích rút, rút, ttạạo vo văăn bn bảản tóm tn tóm tắắt 45t 452.4 T
2.4 Tổổng k ng k ếết cht chươ ươ ng 2 ng 2 4646CH
CHƯƠƯƠ NG III: CÀI NG III: CÀI ĐẶĐẶT VÀ THT VÀ THỬ Ử NGHI NGHIỆỆM CHM CHƯƠƯƠ NG TRÌNH NG TRÌNH 47473.1
3.1 Mô Mô ttảả s sơ ơ l lượ ượ c vc vềề h hệệ th thốống 47ng 473.1.1 Các Các bbướ ướ c tric triểển khai chn khai chươ ươ ng ng trình trình 47 473.1.2 Giao Giao didiệện chính cn chính củủa cha chươ ươ ng ng trình trình 48 483.1.3 Cách Cách ssửử d dụụng chng chươ ươ ng ng trình trình 49 493.2
3.2 ĐĐánh giá k ánh giá k ếết qut quảả 50 50
TÀI LIỆỆU THAM KHU THAM KHẢẢO 56O 56PH
PHỤỤ L LỤỤC 58C 58
Trang 6DANH MDANH MỤỤC CÁC CHC CÁC CHỮ Ữ VI VIẾẾT TT TẮẮTT
STT Từ ừ vi viếết tt tắắt t Ý Ý nghngh ĩ ĩ aa
1 CNTT Công Công nghnghệệ thông tin thông tin
4 IDF Inverse Inverse Document Document FrequencyFrequency
Trang 7DANH MDANH MỤỤC CÁC BC CÁC BẢẢNGNG
BBảảng 1: Vng 1: Vấấnn đềđề tách t tách từừ trong ti trong tiếếng Ving Việệt 33t 33
Bảảng 2: Mng 2: Mộột st sốố t từừ d dừừng trong ting trong tiếếng Ving Việệt 34t 34B
Bảảng 3: Ví dng 3: Ví dụụ v vềề tính tr tính tr ọọng sng sốố cho toàn b cho toàn bộộ câu câu 45 45B
Bảảng 4: K ng 4: K ếết qut quảả tính tr tính tr ọọng sng sốố câu câu 52 52B
Bảảng 5: K ng 5: K ếết qut quảả tr tr ảả ra sau khi tóm t ra sau khi tóm tắắt t 5252
Trang 8DANH MDANH MỤỤC CÁC HÌNH VC CÁC HÌNH VẼẼ
Hình 1: Mô hình chung củủa ma mộột ht hệệ th thốống tóm tng tóm tắắt 14t 14Hình 2: Mô hình tóm t
Hình 2: Mô hình tóm tắắt vt vớ ớ i các kii các kiểểu tóm tu tóm tắắt và các tt và các tỉỉ l lệệ tóm t tóm tắắt t khác khác nhau nhau 1818Hình 3:
Hình 3: ĐồĐồ th thịị bi biểểu diu diễễn hin hiệệu suu suấất tht thựực thi cc thi củủa 1 ha 1 hệệ th thốống truy vng truy vấấn n 2323Hình 4:
Hình 4: ĐồĐồ th thịị bi biểểu diu diễễn hin hiệệu suu suấất tht thựực thi cc thi củủa 2 ha 2 hệệ th thốống truy vng truy vấấn n 2424Hình 5: Mô hình x
Hình 5: Mô hình xửử lý bài toán tóm t lý bài toán tóm tắắt vt văăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn n 2828Hình 6: Bi
Hình 6: Biểểu diu diễễn các n các câu theo câu theo mô hìnmô hình khônh không gian g gian vector vector 3838Hình 7: Giao di
Hình 7: Giao diệện chính cn chính củủa cha chươ ươ ng ng trình trình 49 49
Trang 9MỞ Ở ĐẦĐẦUU
1 Lý do ch
1 Lý do chọọnn đềđề tài tàiTrong nh
Trong nhữững nng năăm gm gầầnn đđây, chúng taây, chúng ta đđã thã thấấy sy sựự phát tri phát triểển bùng nn bùng nổổ c củủa interneta internet
và lượ ượ ng thông tin cng thông tin cũũngng đượ đượ c sinh ra liên tc sinh ra liên tụục mc mỗỗi ngày vi ngày vớ ớ i mi mộột kht khốối li lượ ượ ng lng lớ ớ n Vn Vớ ớ iivi
việệc gia tc gia tăăng theo hàm mng theo hàm mũũ l lượ ượ ng thông tin thì con ngng thông tin thì con ngườ ườ i si sẽẽ g gặặ p khó kh p khó khăăn trong vin trong việệccti
tiếế p c p cậận thông tin và cn thông tin và cầần phn phảải có các phi có các phươ ươ ng phápng pháp đểđể gi giảải quyi quyếết vt vấấnn đềđề đđó Tóm tó Tóm tắắttvvăăn n bbảản n ttựự độđộngng đượ đượ cc đềđề ccậậ p p đếđến n nhnhưư mmộột cách tit cách tiếế p p ccậận giúp con ngn giúp con ngườ ườ i cói có đượ đượ ccllượ ượ ng thông tin nhing thông tin nhiềều nhu nhấất trên lt trên lượ ượ ng thng thờ ờ i gian có hi gian có hạạn.Tuy nhiên, mn.Tuy nhiên, mộột vt vấấnn đềđề đặđặt rat ra
nhà nghiên cứứu quan tâm.u quan tâm Ứ Ứ ng dng dụụng cng củủa tóm ta tóm tắắt vt văăn bn bảản trong nhin trong nhiềều lu l ĩ ĩ nh vnh vựực khácc khácnhau nh
nhau nhưư sinh tiêu sinh tiêu đềđề ttựự độđộng ( headline generation ), rút gng ( headline generation ), rút gọọn thông tin sn thông tin sửử ddụụngngtrong các thi
trong các thiếết bt bịị c cầầm tay nhm tay nhưư PDA, PDA, đđiiệện thon thoạại dii di độđộng,…ng,…
ĐếĐến nay trên thn nay trên thếế gigiớ ớ i ci cũũngng đđã có nhiã có nhiềều công trình nghiên cu công trình nghiên cứứu vu vềề tóm t tóm tắắt t vvăănn b
bảản n hhướ ướ ng truy vng truy vấấn và các hn và các hệệ ththốống tóm tng tóm tắắtt đđó ó ccũũng ng ttỏỏ ra khá hi ra khá hiệệu u ququảả, tuy nhiên, tuy nhiêncác nghiên c
các nghiên cứứuu đđó ó mmớ ớ i i chchỉỉ ttậậ p p trung trung trên trên nhnhữững ngôn ngng ngôn ngữữ nhnhưư titiếếng Anh, Pháp,ng Anh, Pháp,Trung, Nh
Trung, Nhậật, Còn trên tit, Còn trên tiếếng Ving Việệt thì dot thì do đặđặc c tr tr ưưng ngôn ngng ngôn ngữữ không gi không giốống ng vvớ ớ iinh
nhữững ngôn ngng ngôn ngữữ khác, ví d khác, ví dụụ nhnhưư titiếếng Anh là ngôn ngng Anh là ngôn ngữữ đđa âm tia âm tiếết, trong khit, trong khi đđóóti
tiếếng Ving Việệt là ngôn ngt là ngôn ngữữ đơ đơ n âm tin âm tiếết, vit, việệc xácc xác địđịnh tnh từừ trong ti trong tiếếng Ving Việệt không dt không dựựa trêna trênddấấu cách Bên cu cách Bên cạạnhnh đđó trong tió trong tiếếng Ving Việệt còn tt còn tồồn tn tạại r i r ấất nhit nhiềều âm ngu âm ngữữ Hán Vi Hán Việệt, nhit, nhiềềuukhi chúng ta ph
khi chúng ta phảải gii giảải nghi ngh ĩ ĩ a các ta các từừ này H này Hơ ơ n nn nữữa, các nghiên ca, các nghiên cứứu vu vềề ti tiếếng Ving Việệt trênt trênmáy tính m
máy tính mớ ớ ii ở ở giai giai đđooạạn sn sơ ơ khai, các kho ng khai, các kho ngữữ li liệệu dùng cho tóm tu dùng cho tóm tắắt vt văăn bn bảản tin tiếếngngVi
Việệt còn r t còn r ấất ít, các công ct ít, các công cụụ hhỗỗ tr tr ợ ợ cho vi cho việệc tách tc tách từừ, tách câu, còn thi, tách câu, còn thiếếu u hohoặặc hic hiệệuuqu
quảả chchưưa cao Các ya cao Các yếếu tu tốố này làm cho vi này làm cho việệc c xxửử lý ngôn ng lý ngôn ngữữ ttựự nhiên ti nhiên tiếếng Ving Việệt t tr tr ở ở
Trang 10lên r lên r ấất khó kht khó khăăn,n, đặđặc bic biệệt trong vit trong việệcc đềđề xu xuấất các pht các phươ ươ ng pháp tóm tng pháp tóm tắắt vt văăn bn bảản tin tiếếngngVi
Việệt ht hướ ướ ng truy vng truy vấấn.n
TTừừ nhnhữững nhu cng nhu cầầu và tu và từừ nhnhữữngng ứứng ng ddụụng ng r r ộộng rãi cng rãi củủa nó trong tha nó trong thựực c titiễễn làn làđộ
động lng lựựcc đểđể khóa lu khóa luậận tn tậậ p trung nghiên c p trung nghiên cứứu vu vềề bài toán tóm t bài toán tóm tắắt vt văăn bn bảản, và cn, và cụụ th thểể là là bài toán “Tóm t
bài toán “Tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn”.n”
ngh ĩ ĩ a trong va trong văăn n bbảản n titiếếng Ving Việệt, nghiên ct, nghiên cứứu u phphươ ươ ng phápng pháp đđoo độđộ ttươ ươ ngng đồđồng ngng ngữữ ngh
ngh ĩ ĩ a gia giữữa hai câua hai câu đểđể ứứng dng dụụng cho bài toán tóm tng cho bài toán tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn.n
-
- VVềề ththựực nghic nghiệệm: Xây dm: Xây dựựngng ứứng ng ddụụng tóm tng tóm tắắt t vvăăn n bbảản n TiTiếếng Ving Việệt t hhướ ướ ngngtruy v
truy vấấn.n
Trang 115 C
5 Cấấu trúc luu trúc luậận vn văănn
Ngoài ph Ngoài phầần mn mở ở đầđầu, k u, k ếết lut luậận, kin, kiếến nghn nghịị và các danh m và các danh mụục tài lic tài liệệu tham khu tham khảảo,o,các ph
các phụụ l lụục cc củủa lua luậận vn văăn, nn, nộội dung ci dung củủa lua luậận vn văănn đượ đượ c trình bày trong 58 trang chiac trình bày trong 58 trang chialàm 3 ch
làm 3 chươ ươ ng vng vớ ớ i nhi nhữững nng nộội dung ci dung cụụ th thểể nh nhưư sau: sau:
Chươ ng 1: C: Cơ ơ s sở ở lý thuy lý thuyếết cho bài toán tóm tt cho bài toán tóm tắắt vt văăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ngngtruy v
truy vấấnn: Trong ch: Trong chươ ươ ng này, lung này, luậận vn văănn đđã trình bày nhã trình bày nhữững khái ning khái niệệm cm cơ ơ b bảản vn vềề tóm tómttắắt vt văăn bn bảản tn tựự độđộng, các dng, các dạạng bài toán tóm tng bài toán tóm tắắt vt văăn bn bảản và cn và cụụ th thểể là bài toán tóm t là bài toán tóm tắắttvvăăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn Lun Luậận vn văăn cn cũũngng đđãã đưđưa raa ra đượ đượ c các tiêu chíc các tiêu chí đđánhánhgiá cho m
giá cho mộột t hhệệ ththốống tóm tng tóm tắắt t hhướ ướ ng truy vng truy vấấn Chn Chỉỉ ra ra đượ đượ c c nhnhữững khó khng khó khăăn n ccủủaa đềđề tài và
tài và đềđề xu xuấất mt mộột ht hướ ướ ng ging giảải quyi quyếết cho bài toán,t cho bài toán, đồđồng thng thờ ờ i lui luậận vn văăn cn cũũngng đđãã đưđưa raa ra
mô hình c
mô hình cụụ th thểể đểđể gi giảải quyi quyếết bài toán vt bài toán vớ ớ i yêu ci yêu cầầuu đặđặt ra.t ra
Chươ ng ng 2 2: : K K ỹỹ thuthuậật t gigiảải quyi quyếết bài toán tóm tt bài toán tóm tắắt t vvăăn n bbảản n titiếếng Ving Việệtth
hướ ướ ng truy vng truy vấấnn: T: Từừ h hướ ướ ng ging giảải quyi quyếếtt đượ đượ cc đềđề xu xuấấtt ở ở ch chươ ươ ng 1, trong chng 1, trong chươ ươ ng nàyng nàyđđã trình bày nhã trình bày nhữững k ng k ỹỹ thu thuậật ct cụụ th thểể đểđể gi giảải quyi quyếếtt đượ đượ c bài toánc bài toán đặđặt ra: Tit ra: Tiềền xn xửử lý v lý văănn b
bảản tin tiếếng Ving Việệt (tách câu, tách tt (tách câu, tách từừ, lo, loạại bi bỏỏ t từừ d dừừng, xng, xửử lý lý ttừừ đồđồng nghng ngh ĩ ĩ a, ), tính tr a, ), tính tr ọọngngssốố câu (tính câu (tính độđộ t tươ ươ ngng đồđồng ging giữữa câu trong va câu trong văăn bn bảản vn vớ ớ i câu truy vi câu truy vấấn,n, độđộ t tươ ươ ngng đồđồngngvvềề v vịị trí t trí từừ gi giữữa câu trong va câu trong văăn bn bảản và câu truy vn và câu truy vấấn,…), trích rút và tn,…), trích rút và tạạo vo văăn bn bảản tómn tómttắắt.t
Chươ ng ng 3 3: Cài: Cài đặđặt và tht và thử ử nghi nghiệệm m chchươ ươ ng trình:ng trình: ChChươ ươ ng này trình bàyng này trình bàycác b
các bướ ướ c xây dc xây dựựng chng chươ ươ ng trình và mô tng trình và mô tảả vvềề chchươ ươ ng trình sau khi hng trình sau khi hệệ ththốống hoànng hoànthi
thiệện.n ĐĐánh giá chính xác hiánh giá chính xác hiệệu u susuấất t ccủủa a chchươ ươ ng trình bng trình bằằng ving việệcc đưđưa ra ta ra tậậ p p ddữữ liliệệuuth
thửử nghi nghiệệm và k m và k ếết qut quảả th thửử nghi nghiệệm.m
Trang 121.1
1.1 Bài Bài toán toán tóm tóm ttắắt vt văăn bn bảản tn tự ự độđộngng
1.1.1 Đị nh nghĩ ĩ a
Tóm tTóm tắắt t vvăăn n bbảản là quá trình làm gin là quá trình làm giảảmm đđii độđộ dài ho dài hoặặcc độđộ phphứức c ttạạ p p ccủủa a mmộộttvvăăn bn bảản mà không mn mà không mấấtt đđi ni nộội dung chính ci dung chính củủa va văăn bn bảản n Bài Bài toán tótoán tóm m ttắắt vt văăn bn bảản cón cóđầ
đầu vào là vu vào là văăn n bbảản ngun nguồồn và mn và mộột tham st tham sốố đượ đượ c c ggọọi là ti là tỷỷ llệệ trích xu trích xuấất t TTỷỷ llệệ trích tríchxu
xuấất t ccủủa va văăn bn bảản thn thườ ườ ng bng bằằngng độđộ dài c dài củủa ba bảản tóm tn tóm tắắt chia chot chia cho độđộ dài c dài củủa va văăn bn bảảnnngu
nguồồn Cn Cụụ th thểể, công th, công thứức tính tc tính tỷỷ l lệệ trích xu trích xuấất nht nhưư sau: sau:
T ỷ ỷ l l ệệ trích xu trích xuấ ấ t =t = Độ Độ dài v dài văăn bn bảản tóm t n tóm t ắ ắ t /t / Độ Độ dài c dài củủa va văăn g n g ố ố cc
bảản Do con ngn Do con ngườ ườ i tóm ti tóm tắắt nên vt nên văăn n bbảản luônn luôn đảđảm m bbảảoo đượ đượ c tính mc tính mạạch ch llạạc c ccủủa nó.a nó.Tuy nhiên, c
Tuy nhiên, cũũng vì thng vì thếế mà v mà văăn bn bảản tóm tn tóm tắắt không tránh kht không tránh khỏỏi mang di mang dấấuu ấấn chn chủủ quan quanccủủa nga ngườ ườ i xi xửử lý. lý
Nhìn chung, các Nhìn chung, các bài toán tóm bài toán tóm ttắắt vt văăn bn bảản cn cầầnn đảđảm bm bảảo các yêu co các yêu cầầu cu cũũng nhng nhưư
ccầần n phphảản ánh trung thn ánh trung thựực nc nộội dung ci dung củủa a vvăăn bn bảảnn đượ đượ c tóm tc tóm tắắt; có tính bao quát toànt; có tính bao quát toàn b
bộộ n nộội dung chính ci dung chính củủa va văăn bn bảản;n; đảđảm bm bảảo to tỷỷ l lệệ trích xu trích xuấất ct củủa va văăn bn bảản; tính mn; tính mạạch lch lạạc,c,tính ch
tính chặặt cht chẽẽ c củủa va văăn bn bảản,…n,…
1.1.2 Tóm t ắắt văăn bảản t ự động
Tóm tTóm tắắt t vvăăn n bbảản liên quan tn liên quan tớ ớ i i viviệệc c xxửử lý ngôn ng lý ngôn ngữữ Có th Có thểể nói x nói xửử lý ngôn lý ngônng
ngữữ t tựự độđộng trên máy tính là mng trên máy tính là mộột trong nht trong nhữững vng vấấnn đềđề khó nh khó nhấất ct củủa Công ngha Công nghệệ thông thôngtin Khó là n
tin Khó là nằằmm ở ở ch chỗỗ làm sao cho máy hi làm sao cho máy hiểểuu đượ đượ c ngôn ngc ngôn ngữữ con ng con ngườ ườ i, ti, từừ vi việệc hic hiểểuungh ĩ ĩ a a ttừừng ng ttừừ trong m trong mỗỗi hoàn ci hoàn cảảnh nh ccụụ ththểể đếđến n viviệệc c hihiểểu nghu ngh ĩ ĩ a a mmộột câu, r t câu, r ồồi i ccảả vvăănn
Trang 13b bảản Mn Mấấu chu chốốtt ở ở đđây là bây là bảản chn chấất pht phứức tc tạạ p c p củủa ngôn nga ngôn ngữữ con ng con ngườ ườ i,i, đặđặc bic biệệt là st là sựự đđaangh
ngh ĩ ĩ a và nha và nhậậ p nh p nhằằng nghng ngh ĩ ĩ a ca củủa ngôn nga ngôn ngữữ
Tóm tTóm tắắt vt văăn bn bảản tn tựự độđộng [2] là mng [2] là mộột bài toán quan tr t bài toán quan tr ọọng cng củủa khai phá da khai phá dữữ li liệệuuvvăăn bn bảản (text mining) Bài toán có thn (text mining) Bài toán có thểể tóm t tóm tắắt nht nhưư sau “ sau “tìm tóm t tìm tóm t ắ ắ t cht chứ ứ a các ý chínha các ý chínhccủủa va văăn bn bảảnn”.”
N Năăm 1958, Luhn cm 1958, Luhn củủa IBMa IBM đđã trình bày phã trình bày phươ ươ ng pháp tóm tng pháp tóm tắắt t ttựự độđộng chong chocác bài báo k
các bài báo k ĩ ĩ thuthuậật t ssửử ddụụng phng phươ ươ ng pháp thng pháp thốống kê thông qua tng kê thông qua tầần sun suấất và phân bt và phân bốố ccủủa các ta các từừ trong v trong văăn bn bảản Tuy nhiên mãi chon Tuy nhiên mãi cho đếđến nhn nhữững nng năăm cum cuốối thi thếế k k ỷỷ 20, v 20, vớ ớ i si sựự phát tri
phát triểển cn củủa Internet, la Internet, lượ ượ ng thông tin bùng nng thông tin bùng nổổ nhanh chóng, vi nhanh chóng, việệc thu nhc thu nhậận nhn nhữữngngthông tin quan tr
thông tin quan tr ọọng cng cũũng tr ng tr ở ở thành m thành mộột vt vấấnn đềđề thi thiếết yt yếếu thì bài toán tóm tu thì bài toán tóm tắắt vt văăn bn bảảnnttựự độđộng mng mớ ớ ii đượ đượ c sc sựự quan tâm thi quan tâm thiếết tht thựực cc củủa nhia nhiềều nhà nghiên cu nhà nghiên cứứu.u
Theo Inderjeet Mani, mTheo Inderjeet Mani, mụụcc đđích cích củủa tóm ta tóm tắắt t vvăăn n bbảản n ttựự độđộng là: “ng là: “Tóm t Tóm t ắ ắ ttvvăăn bn bảản t n t ự ự độđộng nhng nhằ ằ m mm mụụcc đ đ ích trích xuích trích xuấ ấ t nt nộội dung t i dung t ừ ừ m mộột ngut nguồồn thông tin và trìnhn thông tin và trìnhbày các n
bày các nộội dung quan tr i dung quan tr ọọng nhng nhấ ấ t cho ng t cho ng ườ ườ i si sử ử d d ụụng theo mng theo mộột khuôn d t khuôn d ạạng súc tíchng súc tích
và gây c
và gây cảảm xúcm xúc đố đố i vi vớ ớ i ng i ng ườ ườ i si sử ử d d ụụng hong hoặặc mc mộột cht chươ ươ ng trình cng trình cầầnn đế đế nn”.”
Trong nhTrong nhữững nng năăm quam qua đđã có nhiã có nhiềều công trình nghiên cu công trình nghiên cứứu vu vềề t tạạo tóm to tóm tắắt tt tựự độ
động các vng các văăn n bbảản n titiếếng Anh, Nhng Anh, Nhậật, Hoa [7][8] Mt, Hoa [7][8] Mộột t ssốố công trình tiêu bi công trình tiêu biểểu u nhnhưư::William B.Cavnar (1994)
William B.Cavnar (1994) đđã biã biểểu diu diễễn vn văăn bn bảản dn dựựa trên n-gram thay cho cách bia trên n-gram thay cho cách biểểuudi
diễễn truyn truyềền thn thốống bng bằằng tng từừ khóa Chinatsu Aone (1997) khóa Chinatsu Aone (1997) đđã phát triã phát triểển hn hệệ DimSum DimSum đểđể tóm t
tóm tắắt vt văăn bn bảản sn sửử d dụụng xng xửử lý lý ngôn ngôn ngngữữ t tựự nhiên và k nhiên và k ỹỹ thu thuậật tht thốống kê dng kê dựựa trên ha trên hệệ ssốố Tác gi Tác giảả c cũũngng đđã sã sửử d dụụng WordNetng WordNet đểđể xem xét ng xem xét ngữữ ngh ngh ĩ ĩ a ca củủa ta từừ và và đềđề xu xuấất mt mộộtt
Trang 14a. Phân tíchB
Bướ ướ c này sc này sẽẽ phân tích phân tích đầđầu vàou vào đểđể đưđưa ra nha ra nhữững mô tng mô tảả bao g bao gồồm các thông tinm các thông tindùng
dùng đểđể tìm ki tìm kiếếm,m, đđánh giá cácánh giá các đơ đơ n vn vịị ng ngữữ li liệệu quan tr u quan tr ọọng nhng nhưư các tham s các tham sốố đầđầu vàou vàocho vi
cho việệc tóm tc tóm tắắt Thông qua bt Thông qua bướ ướ c này, các câu quan tr c này, các câu quan tr ọọng,ng, đặđặc c tr tr ưưng chng chứứa các ýa các ýngh
ngh ĩ ĩ a chính ca chính củủa va văăn bn bảản sn sẽẽ đượ đượ c trích chc trích chọọn.n
b. ChuyChuyể ể nn đổ đổ iiB
Bướ ướ c này sc này sẽẽ bi biếếnn đổđổi ti từừng câu quan tr ng câu quan tr ọọng thung thu đượ đượ c c ttừừ b bướ ướ c phân tích tr c phân tích tr ướ ướ cc
Từừ các câu quan tr các câu quan tr ọọngng đượ đượ c chc chọọn ran ra ở ở b bướ ướ c phân tích,c phân tích, đượ đượ c rút ngc rút ngắắnn ở ở b bướ ướ cc bi
biếếnn đổđổi, i, bbướ ướ c c ttổổng ng hhợ ợ p p ssẽẽ liên k liên k ếết chúng lt chúng lạại thànhi thành đđooạạn theo mn theo mộột t tr tr ậật t ttựự nào nào đđóóho
hoặặc theo k c theo k ếết ct cấấu ngu ngữữ pháp r pháp r ồồi hii hiểển thn thịị phù h phù hợ ợ p v p vớ ớ i yêu ci yêu cầầu ngu ngườ ườ i dùng.i dùng
Trang 151.2 Phân lo1.2 Phân loạại bài toán tóm ti bài toán tóm tắắt vt văăn bn bảảnn
Có nhi
Có nhiềều cách phân lou cách phân loạại tóm ti tóm tắắt vt văăn bn bảản khác nhau, tuy nhiên sn khác nhau, tuy nhiên sựự phân lo phân loạại chi chỉỉ mang tính t
mang tính tươ ươ ngng đốđối, phi, phụụ thuthuộộc vào vic vào việệc tóm tc tóm tắắt trên ct trên cơ ơ ssở ở nào. nào ỞỞ đđây,ây, đềđề tài tài đềđề
ccậậ p p đếđến phân lon phân loạại tóm ti tóm tắắt dt dựựa trên 3 ca trên 3 cơ ơ s sở ở là: d là: dựựa vàoa vào địđịnh dnh dạạng, nng, nộội dungi dung đầđầu vào,u vào,ddựựa vàoa vào địđịnh dnh dạạng, nng, nộội dungi dung đầđầu ra, du ra, dựựa vào ma vào mụụcc đđích tóm tích tóm tắắt [6].t [6]
Tóm tTóm tắắt t ddự ự a trên ca trên cơ ơ ssở ở địđịnh nh ddạạng, nng, nộội dungi dung đầđầuu vào s vào sẽẽ tr tr ảả llờ ờ i cho câui cho câuhhỏỏi “Cái gì si “Cái gì sẽẽ đượ đượ c tóm tc tóm tắắt” Cách chia này st” Cách chia này sẽẽ cho ta nhi cho ta nhiềều cách phân lou cách phân loạại con kháci con khácnhau C
nhữữngng đặđặc tr c tr ưưng vng văăn bn bảản quyn quy địđịnh.nh
Đị Đị nh nh d d ạạng ng vvăăn n b bảản: : ddựựa vào ta vào từừngng địđịnh nh ddạạng ng vvăăn n bbảản khác nhau, tóm tn khác nhau, tóm tắắttccũũng chia ra thành các long chia ra thành các loạại khác nhau nhi khác nhau nhưư: tóm t: tóm tắắt vt văăn bn bảản không theo khuôn mn không theo khuôn mẫẫuu(free-form) hay tóm t
(free-form) hay tóm tắắt t vvăăn n bbảản có cn có cấấu trúc Vu trúc Vớ ớ i i vvăăn n bbảản có cn có cấấu trúc, tóm tu trúc, tóm tắắt t vvăănn b
bảản n ththườ ườ ng ng ssửử ddụụng ng mmộột mô hình ht mô hình họọc c ddựựa vào ma vào mẫẫu u ccấấu trúcu trúc đđã xây dã xây dựựng ng ttừừ tr tr ướ ướ ccđể
mộột quá trình tóm tt quá trình tóm tắắt tt tựự độđộng vng vớ ớ ii đầđầu vào là mu vào là mộột vt văăn bn bảản,n, đầđầu ra là mu ra là mộộtt đđooạạn mô tn mô tảả ng
ngắắn gn gọọn nn nộội dung chính ci dung chính củủa va văăn bn bảảnn đầđầu vàou vào đđó Vó Văăn bn bảảnn đơ đơ n có thn có thểể là là mmộột trangt trangWeb, m
Web, mộột bài báo, hot bài báo, hoặặc c mmộột tài lit tài liệệu u vvớ ớ ii địđịnh nh ddạạng xácng xác địđịnh (ví dnh (ví dụụ : doc, txt)… : doc, txt)…Tóm t
Tóm tắắt vt văăn bn bảảnn đơ đơ n là bn là bướ ướ cc đệđệm cho vim cho việệc xc xửử lý tóm t lý tóm tắắtt đđa va văăn bn bảản và các bài toánn và các bài toántóm t
tóm tắắt pt phhứức tc tạạ p h p hơ ơ n Chính vì thn Chính vì thếế nh nhữững phng phươ ươ ng pháp tóm tng pháp tóm tắắt vt văăn bn bảản ran ra đờ đờ ii đầđầuutiên
tiên đềđều là các phu là các phươ ươ ng pháp tóm tng pháp tóm tắắt cho vt cho văăn bn bảảnn đơ đơ n.n
Tóm tTóm tắắtt đđa va văăn bn bảản có thn có thểể đượ đượ c coi nhc coi nhưư là m là mộột mt mở ở r r ộộng cng củủa tóm ta tóm tắắtt đơ đơ n vn văănn b
bảản Mn Mụụcc đđích cích củủa tóm ta tóm tắắtt đđa a vvăăn bn bảản: Là quá trình trích xun: Là quá trình trích xuấất t nnộội dung ti dung từừ mmộột t ttậậ p pcác v
các văăn bn bảản có liên quann có liên quan đếđến nhau, trong quá trìnhn nhau, trong quá trình đđó các thông tin dó các thông tin dưư th thừừa sa sẽẽ đượ đượ cc
Trang 16loloạại i bbỏỏ và nh và nhữững thông tin quan tr ng thông tin quan tr ọọng ng ssẽẽ đượ đượ c c bibiểểu u didiễễn n ddướ ướ i hình thi hình thứức côc cô đọđọng,ng,súc tích và giàu c
súc tích và giàu cảảm súcm súc đếđến ngn ngườ ườ i si sửử d dụụng hong hoặặc chc chươ ươ ng trình cng trình cầần dùng.n dùng
Tóm tTóm tắắtt đđa va văăn bn bảảnn đượ đượ c xácc xác địđịnh là mnh là mộột bài toán cót bài toán có độđộ ph phứức tc tạạ p cao, ngoài p cao, ngoàinh
nhữững thách thng thách thứứcc đđãã đượ đượ c bic biếếtt đếđếnn đốđối vi vớ ớ i tóm ti tóm tắắtt đơ đơ n vn văăn bn bảản nhn nhưư s sựự cô cô đọđọng cng củủaathông tin và m
thông tin và mạạch lch lạạc vc vềề n nộội dung, tóm ti dung, tóm tắắtt đđa va văăn bn bảản còn có nhn còn có nhữững thách thng thách thứức nhc nhưư ccầần n phphảải xáci xác địđịnh nhnh nhữững thông tin trùng lng thông tin trùng lặặ p p gigiữữa các va các văăn n bbảản, xácn, xác địđịnh thông tinnh thông tinquan tr
quan tr ọọng trong nhing trong nhiềều u vvăăn n bbảản hay vin hay việệc c ssắắ p p xxếế p p các các thông thông tin tin trong trong vvăăn n bbảản tómn tómttắắt.t
Mi ềền d ữ li ệệu: d: dựựa vào mia vào miềền cn củủa da dữữ li liệệu nhu nhưư c cụụ th thểể v vềề m mộột lt l ĩ ĩ nh vnh vựực nàoc nào đđó,ó,
ví
ví ddụụ nhnhưư: : y y ttếế, giáo d, giáo dụục… hay là mic… hay là miềền n ddữữ liliệệu u ttổổng quát, có thng quát, có thểể chia tóm t chia tóm tắắt rat rathành t
thành từừng long loạại ti tươ ươ ngng ứứng.ng
Tóm tTóm tắắt trên ct trên cơ ơ ssở ở mmụụcc đđíchích ththựực c chchấất là làm rõ cách tóm tt là làm rõ cách tóm tắắt, t, mmụụcc đđíchíchtóm t
tóm tắắt là gì, tóm tt là gì, tóm tắắt pht phụục vc vụụ đốđối ti tượ ượ ng nào ng nào
chỉỉ ra n ra nộội dung ci dung củủa thông tin.a thông tin
Tóm t ắắt trên cơ sở truy vấ n (Query-based)
Tóm tTóm tắắt trên ct trên cơ ơ s sở ở truy v truy vấấn thì nn thì nộội dung ci dung củủa a vvăăn bn bảản tóm tn tóm tắắt st sẽẽ d dựựa trên truya trên truyvvấấn n ccủủa a ngngườ ườ i dùng hay chi dùng hay chươ ươ ng trìnhng trình đưđưa vào, loa vào, loạại tóm ti tóm tắắt này tht này thườ ườ ngng đượ đượ c c ssửử ddụụng trong quá trình tóm tng trong quá trình tóm tắắt các k t các k ếết qut quảả tr tr ảả v vềề t từừ máy tìm ki máy tìm kiếếm.m
Tóm t ắắt chung (General).
Tóm tTóm tắắt general mt general mụụcc đđích chính là tìm ra mích chính là tìm ra mộộtt đđooạạn tóm tn tóm tắắt cho toàn bt cho toàn bộộ vvăănn
bảản mà nn mà nộội dung ci dung củủaa đđooạạn vn văăn bn bảản sn sẽẽ bao quát toàn b bao quát toàn bộộ n nộội dung ci dung củủa va văăn bn bảảnn đđó.ó
Trang 17Tóm tTóm tắắt trên ct trên cơ ơ s sở ở đầđầu ra cu ra cũũng có nhing có nhiềều cách phân lou cách phân loạại.i.
Dự a vào ngôn ng ữ ữ : Tóm t: Tóm tắắt ct cũũng có thng có thểể phân lo phân loạại di dựựa vào kha vào khảả n năăng tóm tng tóm tắắttcác lo
các loạại ngôn ngi ngôn ngữữ::
Dự a vào đị nh d ạạngđầu ra của k ế t quảả tóm t ắắt nh nhưư: : bbảảng,ng, đđooạạn, tn, từừ khóa. khóa
Ngoài hai cách phân loNgoài hai cách phân loạại trên,i trên, phân lo phân loạại tóm ti tóm tắắt trên ct trên cở ở s sở ở đầđầu ra còn cóu ra còn cóm
mộột cách phân lot cách phân loạạii đượ đượ c c ssửử ddụụng phng phổổ bibiếến là: tóm tn là: tóm tắắt theo trích xut theo trích xuấất (Extract) vàt (Extract) vàtóm t
tóm tắắt theo tóm lt theo tóm lượ ượ c (Abstract).c (Abstract)
•• Tóm t ắắt theo trích xuấ t : là tóm t: là tóm tắắt có k t có k ếết t ququảả đầđầu ra là mu ra là mộột tóm tt tóm tắắt baot baoggồồm toàn bm toàn bộộ các ph các phầần quan tr n quan tr ọọngng đượ đượ c trích ra tc trích ra từừ v văăn bn bảảnn đầđầu vào.u vào
•• Tóm t ắắt theo tóm l ượ cc: là tóm t: là tóm tắắt có k t có k ếết qut quảả đầđầu ra là mu ra là mộột tóm tt tóm tắắt khôngt khônggi
giữữ nguyên l nguyên lạại các thành phi các thành phầần cn củủa va văăn bn bảảnn đầđầu vào mà du vào mà dựựa vào thông tin quan tr a vào thông tin quan tr ọọngngđể
để vi viếết lt lạại mi mộột vt văăn bn bảản tóm tn tóm tắắt mt mớ ớ i.i
Hiệện nay, các hn nay, các hệệ th thốống sng sửử d dụụng tóm tng tóm tắắt theo trích xut theo trích xuấấtt đượ đượ c sc sửử d dụụng phng phổổ bi biếếnn
chưưa có ma có mộột ht hệệ th thốống tóm tng tóm tắắt theo tóm lt theo tóm lượ ượ cc đạđạtt đếđến sn sựự hoàn thi hoàn thiệện, các hn, các hệệ th thốống tómng tóm
Trang 18ttắắt theo tóm lt theo tóm lượ ượ c c hihiệện nay thn nay thườ ườ ng ng ddựựa vào thành pha vào thành phầần trích xun trích xuấất có st có sẵẵn Các hn Các hệệ th
thốống này thng này thườ ườ ngng đượ đượ c bic biếếtt đếđến vn vớ ớ i tên gi tên gọọi tóm ti tóm tắắt theo nén vt theo nén văăn bn bảản.n
Tóm tTóm tắắt theo nén vt theo nén văăn n bbảản (Text Compaction): là lon (Text Compaction): là loạại tóm ti tóm tắắt t ssửử ddụụng cácng các
phươ ươ ng pháp cng pháp cắắt xén(truncates) hay vit xén(truncates) hay viếết gt gọọn(abbreviates)n(abbreviates) đốđối vi vớ ớ i các thông tin quani các thông tin quan
tr
tr ọọng sau khing sau khi đđãã đượ đượ c trích xuc trích xuấất.t
Hình 2 mô tHình 2 mô tảả mmộột t hhệệ ththốống tóm tng tóm tắắt t vvớ ớ i i mmộột t ssốố kikiểểu tóm tu tóm tắắt và nhit và nhiềều u ttỉỉ llệệ tóm t
tóm tắắt khác nhau.t khác nhau ĐầĐầu vào cu vào củủa ha hệệ th thốống có thng có thểể là m là mộột vt văăn bn bảản, nhin, nhiềều vu văăn bn bảản, hon, hoặặcctruy v
truy vấấn Kin Kiểểu tóm tu tóm tắắt có tht có thểể là trích rút, tr là trích rút, tr ừừu u ttượ ượ ng, tóm tng, tóm tắắt truy vt truy vấấn, tóm tn, tóm tắắttchung, v
chung, vớ ớ i nhii nhiềều tu tỉỉ l lệệ khác nhau khác nhau đểđể cho ra cho ra đượ đượ c k c k ếết qut quảả tóm t tóm tắắt theo yêu ct theo yêu cầầu ngu ngườ ườ iidùng ho
dùng hoặặcc ứứng dng dụụng cng cụụ th thểể
Hình 2 Mô hình tóm t Hình 2 Mô hình tóm t ắ ắ t vt vớ ớ i các kii các kiể ể u tóm t u tóm t ắ ắ t và các t t và các t ỉ ỉ l l ệệ tóm t tóm t ắ ắ t khác nhaut khác nhau
1.3
1.3 ĐặĐặcc đđiiểểm chung cm chung củủa các va các văăn bn bảản tóm tn tóm tắắtt
Tóm tTóm tắắt vt văăn bn bảản có thn có thểể coi là vi coi là việệc trình bày lc trình bày lạại ni nộội dung ci dung củủa va văăn bn bảản, lon, loạại bi bỏỏ các thông tin không c
các thông tin không cầần thin thiếết theo mt theo mụụcc đđíchích đđãã địđịnh Nhnh Nhưư v vậậy, vy, văăn bn bảản tóm tn tóm tắắt baot baogi
giờ ờ c cũũng ngng ngắắn hn hơ ơ n vn văăn bn bảản gn gốốc, trong tóm tc, trong tóm tắắt vt văăn bn bảản, vin, việệc lc lựựa cha chọọn thông tin nàon thông tin nàođể
để đưđưa vào va vào văăn bn bảản tóm tn tóm tắắt tùy thut tùy thuộộc vào mc vào mụụcc đđích cích củủa nga ngườ ườ i tóm ti tóm tắắt, tuy nhiên tt, tuy nhiên tấấttccảả các v các văăn bn bảản tóm tn tóm tắắtt đềđều có nhu có nhữữngng đặđặcc đđiiểểm chung sau:m chung sau:
Trang 19GiGiảảm nm nộội dung thông tini dung thông tin: L: Lượ ượ ng thông tin cng thông tin củủa va văăn bn bảản tóm tn tóm tắắt pht phảải ít hi ít hơ ơ nn
mong muốốn (cn (căăn cn cứứ vào t vào tỷỷ l lệệ trích xu trích xuấất hay tt hay tỷỷ l lệệ nén). nén)
N N ộội dung thông tin:i dung thông tin:
o PhPhảải trung thi trung thựực hoc hoặặc tc tươ ươ ngng đươ đươ ng vng vớ ớ i vi văăn bn bảản gn gốốc.c
o PhPhảải liên quan, phù hi liên quan, phù hợ ợ p v p vớ ớ i yêu ci yêu cầầu ngu ngườ ườ i dùng.i dùng
Tóm tắắt vt văăn bn bảản trên cn trên cơ ơ s sở ở truy v truy vấấn chính là vin chính là việệc tìm ra nc tìm ra nộội dung ci dung củủa va văăn bn bảảnntóm t
tóm tắắt t ddựựa trên câu truy va trên câu truy vấấn n ccủủa a ngngườ ườ i dùng hay chi dùng hay chươ ươ ng trìnhng trình đưđưa vào Loa vào Loạại tómi tómttắắt này tht này thườ ườ ngng đượ đượ c c ssửử ddụụng trong quá trình tóm tng trong quá trình tóm tắắt các k t các k ếết qut quảả t tr r ảả v vềề ttừừ máy tìm máy tìmki
kiếếm.m
Khi máy tìm kiKhi máy tìm kiếếm tr m tr ảả v vềề cho ng cho ngườ ườ i dùng mi dùng mộột danh sách các tài lit danh sách các tài liệệu liên quan,u liên quan,hhọọ phphảải duyi duyệệt qua nt qua nộội dung ci dung củủa toàn ba toàn bộộ các v các văăn n bbảảnn đểđể tìm tìm đượ đượ c thông tin mongc thông tin mongmu
muốốn K n K ỹỹ thuthuậật tóm tt tóm tắắt t hhướ ướ ng truy vng truy vấấn n ccốố ggắắng ging giảảm bm bớ ớ t gánh nt gánh nặặng ng ccủủa a ngngườ ườ i i ssửử ddụụng bng bằằng cáchng cách đưđưa ra na ra nộội dung côi dung cô đọđọng hng hơ ơ n liên quan tr n liên quan tr ựực tic tiếế p p đếđến câu truy vn câu truy vấấn.n.Các nghiên c
Các nghiên cứứu u vvềề tóm t tóm tắắt t hhướ ướ ng truy vng truy vấấn n hhầầu u hhếếtt đềđều u ttậậ p p trung trung vào vào vvấấnn đềđề tính
tính độđộ t tươ ươ ngng đồđồng ngng ngữữ nghngh ĩ ĩ a a ccủủa các câu trong va các câu trong văăn bn bảản n vvớ ớ i câu truy vi câu truy vấấnn đầđầu vàou vào
Trang 20mộột t ssốố địđịa a chchỉỉ tìm ki tìm kiếếm m nnổổi i titiếếng nhng nhưư Google, Altavista, Google, Altavista, đềđềuu đđãã ứứng ng ddụụng ng r r ấất t ttốốttTTVB vào h
thươ ươ ng mng mạại này, bi này, bằằng cách cung cng cách cung cấấ p cho khách hàng nh p cho khách hàng nhữững thông tinng thông tin đượ đượ c xuc xuấất bt bảảnntrong ngày có n
trong ngày có nộội dung liên quani dung liên quan đếđến mn mộột lt l ĩ ĩ nh vnh vựựcc đượ đượ c “c “đặđặt hàng” tr t hàng” tr ướ ướ c nàoc nào đđó.ó
tiểểu su sửử 500 t 500 từừ v vềề ch chủủ t tịịch Hch Hồồ Chí Minh; …. Chí Minh; …
Trang 21- Nh
- Nhưư v vậậy, tóm ty, tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn có thn có thểể ứứng dng dụụng vào r ng vào r ấất nhit nhiềều lu l ĩ ĩ nhnhvvựực trongc trong đờ đờ i si sốống xã hng xã hộội, tuy nhiên chúng ta có thi, tuy nhiên chúng ta có thểể th thấấy nóy nó đặđặc bic biệệt t hihiệệu quu quảả ở ở 2 2m
mảảng chính là:ng chính là:
Tốốii ưưu hóa k u hóa k ếết qut quảả tr tr ảả l lạại trong search engine.i trong search engine
• Tham gia nhTham gia nhưư m mộột module trong các ht module trong các hệệ th thốống hng hỏỏii đđáp táp tựự độđộng (QA).ng (QA)
1.6 Các tiêu chí1.6 Các tiêu chí đđánh giá hánh giá hệệ th thốống tóm tng tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấnnVi
Việệcc đđánh giá k ánh giá k ếết t ququảả tóm t tóm tắắt t vvăăn n bbảản là mn là mộột t viviệệc khó khc khó khăăn trong thn trong thờ ờ ii đđiiểểmmhi
hiệện n ttạại Vii Việệc c ssửử ddụụng ý king ý kiếếnn đđánh giá cánh giá củủa các chuyên gia ngôn nga các chuyên gia ngôn ngữữ đượ đượ c xem làc xem làcách
cách đđánh giá tánh giá tốốt t nhnhấất, tuy nhiên cách làm này lt, tuy nhiên cách làm này lạại i ttốốn n r r ấất nhit nhiềều chi phí Bên cu chi phí Bên cạạnhnhcác ph
các phươ ươ ng phápng pháp đđánh giá thánh giá thủủ công do các chuyên gia th công do các chuyên gia thựực hic hiệện, vn, vấấnn đềđề đđánh giá tánh giá tựự độ
động k ng k ếết qut quảả tóm t tóm tắắt ct cũũng nhng nhậậnn đượ đượ c nhic nhiềều su sựự quan tâm hi quan tâm hiệện nay Tn nay Từừ n năăm 2000, hm 2000, hộộiingh
nghịị DUC DUC đđãã đượ đượ c tc tổổ ch chứức mc mỗỗi ni năăm mm mộột lt lầầnn đểđể th thựực hic hiệện vin việệcc đđánh giá vánh giá vớ ớ i quy môi quy môllớ ớ n các hn các hệệ th thốống tóm tng tóm tắắt vt văăn bn bảản Vin Việệcc đđánh giá tánh giá tựự độđộng này nhng này nhằằm mm mụụcc đđích là tìmích là tìmra
ra đượ đượ c mc mộộtt độđộ đđoo đđánh giá tóm tánh giá tóm tắắt gt gầần vn vớ ớ i nhi nhữữngng đđánh giá cánh giá củủa con nga con ngườ ườ i nhi nhấất.t.Độ
Độ bao ph bao phủủ (recall) (recall) vàvà độđộ chính xác (precision) chính xác (precision) là 2 là 2 độđộ đđo o ccơ ơ bbảản n nhnhấấtt đểđể đđánh giá hiánh giá hiệệu nu năăng cng củủa ha hệệ th thốống truy vng truy vấấn dn dữữ li liệệu [1][3][4].u [1][3][4]
CCảả độđộ bao ph bao phủủ và và độđộ chính xác chính xác đềđều liên quanu liên quan đếđến hin hiệệu quu quảả tìm ki tìm kiếếm.m ĐốĐối vi vớ ớ iicâu truy v
câu truy vấấn, có thn, có thểể tính tính đượ đượ cc độđộ chính xác và chính xác và độđộ bao ph bao phủủ c củủa ta tậậ p k p k ếết qut quảả đượ đượ c lc lưưuu
Trang 22Vớ ớ ii đềđề tài này, chúng tôi s tài này, chúng tôi sửử d dụụng phng phươ ươ ng pháp tínhng pháp tính độđộ chính xác d chính xác dựựa trên 11a trên 11đđiiểểm chum chuẩẩn cn củủaa độđộ bao ph bao phủủ b bở ở i vì phi vì phươ ươ ng pháp này kháng pháp này khá đơ đơ n gin giảản, dn, dễễ th thựực hic hiệện tínhn tínhtoán,
toán, đđo vào và đđánh giá.ánh giá
Độ chính xác là t chính xác là tỷỷ l lệệ gi giữữa các câu liên quana các câu liên quan đượ đượ c tr c tr ảả v vềề trên t trên tổổng sng sốố câu câu đượ đượ cc
tr ảả vvềề Nh Nhưư vvậậyy độđộ chính xác cho bi chính xác cho biếết t khkhảả nnăăng cng củủa a hhệệ ththốống tìmng tìm đượ đượ c c nhnhữững câung câuchính xác
thốống cho truy vng cho truy vấấnn
Tậậ p các p các câu có câu có liên liên quanquanđế
đến truy vn truy vấấnn
TTậậ p p các các câu câu tr tr ảả vvềề có liên quan có liên quanđế
đến truy vn truy vấấnn
Trang 23(Ri), độđộ chính xác (Pi) c chính xác (Pi) cụụ th thểể [3]. [3].
hiệệu suu suấất tht thựực thi cc thi củủa ha hệệ th thốống.ng Đườ Đườ ng cong có dng cong có dạạng:ng:
Hình 3 Đồ Đồ th thịị bi biể ể u diu diễ ễ n hin hiệệu suu suấ ấ t tht thự ự c thi cc thi củủa 1 ha 1 hệệ th thố ố ng truy vng truy vấ ấ nn
Trang 24Nói Nói cách cách khác, khác, khi ckhi cho hho hệệ t thhốống thng thựực thi mc thi mộột câu truy vt câu truy vấấn mà ta tn mà ta tăăng ng ssốố câu câu
Cơ ơ ssở ở tính b tính bảảng giá tr ng giá tr ịị cho cho đườ đườ ng cong RP dng cong RP dựựa vào ba vào bảảng liên quan lý thuyng liên quan lý thuyếếtt
và danh sách các câu liên quan
và danh sách các câu liên quan đđãã đượ đượ c c ssắắ p p ththứứ ttựự do do hhệệ ththốống tr ng tr ảả vvềề (còn g (còn gọọi lài là b
bảảng liên quan thng liên quan thựực tc tếế)[3].)[3]
ViViệệcc đđánh giá hánh giá hệệ th thốống truy vng truy vấấn thông tin dn thông tin dựựa vào via vào việệc tic tiếến hành kin hành kiểểm tra 2 hm tra 2 hệệ th
thốống cùng vng cùng vớ ớ i 1 vi 1 văăn bn bảản mn mẫẫu và mu và mộột tt tậậ p câu truy v p câu truy vấấn mn mẫẫu Giu Giảả s sửử đồđồ th thịị bi biểểu diu diễễnnhi
hiệệu suu suấất ct củủa 2 ha 2 hệệ th thốống nhng nhưư sau: sau:
Hình 4 Hình 4 Đồ Đồ th thịị bi biể ể u diu diễ ễ n hin hiệệu suu suấ ấ t tht thự ự c thi cc thi củủa 2 ha 2 hệệ th thố ố ng truy vng truy vấ ấ nn
Nhìn vào Nhìn vào đồđồ th thịị ta th ta thấấy:y:
Đườ Đườ ng cong A bing cong A biểểu diu diễễn hin hiệệu suu suấất tht thựực thi cc thi củủa ha hệệ th thốống Ang A Đườ Đườ ng cong B bing cong B biểểu diu diễễn hin hiệệu suu suấất tht thựực thi cc thi củủa ha hệệ th thốống Bng B DoDo đườ đườ ng A nng A nằằm phía trênm phía trên đườ đườ ng B nên hing B nên hiệệu suu suấất ct củủa ha hệệ th thốống A lng A lớ ớ nnhhơ ơ n hn hệệ th thốống B.ng B
Trang 25 Nh Nhưư v vậậy,y, đườ đườ ng cong năo căng gng cong năo căng gầần vn vềề phía góc trín bín ph phía góc trín bín phảải ci củủa ha hệệ tr tr ụục tc tọọaađộ
độ (có ngh (có ngh ĩ ĩ a lăa lă độđộ chính xâc vă chính xâc vă độđộ bao ph bao phủủ l lớ ớ n nhn nhấất) thìt) thì đđó chính lẳ chính lă đườ đườ ng congng cong bi
biểểu diu diễễn hin hiệệu suu suấất tht thựực thi tc thi tốốt nht nhấất.t
Vớ ớ i câch bii câch biểểu diu diễễn trínn trín đồđồ th thịị nh nhưư v vậậy ta có thy ta có thểể đđânh giâ nhiânh giâ nhiềều hu hệệ th thốống hong hoặặccđđânh giâ mânh giâ mộột ht hệệ th thốống trong nhng trong nhữữngng đđiiềều kiu kiệện thn thựực thi khâc nhau.c thi khâc nhau
1.7 Nh1.7 Nhữ ữ ng thâch thng thâch thứ ứ c c ggặặp p phphảảii đốđối i vvớ ớ i băi toân tóm ti băi toân tóm tắắt t vvăăn n bbảản n titiếếng Ving Việệtth
hướ ướ ng truy vng truy vấấnnTi
Tiếếng Ving Việệt lă tit lă tiếếng qung quốốc ngc ngữữ c củủa Via Việệt Nam, dot Nam, do đặđặcc đđiiểểm lm lịịch sch sửử mă ti mă tiếếng Ving Việệttssửử ddụụng hing hiệện nayn nay đượ đượ c vay mc vay mượ ượ n n ttừừ nhinhiềều u ththứứ titiếếng khâc nhau nhng khâc nhau nhưư titiếếng Phâp,ng Phâp,ti
tiếếng Hân,… nhng Hân,… nhưưng chng chủủ yyếếu lă tu lă từừ đm ti đm tiếếng Hân vă nghng Hân vă ngh ĩ ĩ a a titiếếng Hân (trín 70% đmng Hân (trín 70% đm
tiếếng Ving Việệt lă đm Hân Vit lă đm Hân Việệt) Dot) Do đđó, tió, tiếếng Ving Việệt có mt có mộột st sốố câc câcđặđặcc đđiiểểm gđy khó khm gđy khó khăănncho vi
cho việệc c gigiảải quyi quyếết băi toân tóm tt băi toân tóm tắắt t vvăăn n bbảản nói chung vă tóm tn nói chung vă tóm tắắt t hhướ ướ ng truy vng truy vấấnnnói riíng nh
nói riíng nhưư sau: sau:
Đm Đm titiế ế t t : : TiTiếếng Ving Việệt lă ngôn ngt lă ngôn ngữữ đơ đơ n đm tin đm tiếết t gigiốống nhng nhưư mmộột t ssốố ngôn ng ngôn ngữữ Chđu  khâc: ti
Chđu  khâc: tiếếng Nhng Nhậật, tit, tiếếng Trung, ting Trung, tiếếng Hăn Tng Hăn Từừ trong ti trong tiếếng Ving Việệt khôngt không đượ đượ ccxâc
xâc địđịnh dnh dựựa trín da trín dấấu câch Bu câch Bở ở i thi thếế, ti, tiếếng Ving Việệt tt tươ ươ ngng đốđối khó khi khó khăăn trong vin trong việệc tâchc tâchttừừ Ví d Ví dụụ::
Nếếu xem xĩtu xem xĩt ở ở khía c khía cạạnh nh ccụục c bbộộ, , mmộột cđu r t cđu r ấất khó kht khó khăăn cho vin cho việệc c hihiểểu vă xu vă xửử lý
T T ừ ừ đồđồng nghng nghĩ ĩ aa: : VVớ ớ i băi toân tóm ti băi toân tóm tắắt t vvăăn n bbảản thì tn thì từừ đồđồng nghng ngh ĩ ĩ a có ma có mộột t ýýngh
ngh ĩ ĩ a khâ quan tr a khâ quan tr ọọng ng bbở ở i trong câc cđu,i trong câc cđu, đđooạạn n vvăăn n bbảản có câc tn có câc từừ đồđồng nghng ngh ĩ ĩ a a hohoặặcc
Trang 26ggầần nghn ngh ĩ ĩ a nhau, via nhau, việệc c ssửử d dụụng tng từừ đồđồng nghng ngh ĩ ĩ a sa sẽẽ làm nâng cao tính chính xác khi so làm nâng cao tính chính xác khi sosánh v
sánh vềề độđộ t tươ ươ ngng đồđồng ngng ngữữ ngh ngh ĩ ĩ a gia giữữa cáca các đơ đơ n vn vịị v văăn bn bảản.n
Ngoài Ngoài ra, ra, có có nhnhữững ng ttừừ vvẫẫn mang âm tin mang âm tiếếng Hán, dong Hán, do đđó ó phphảải i gigiảải nghi ngh ĩ ĩ a theoa theo
thờ ờ i gian :i gian : đđã , r ã , r ồồi, si, sẽẽ,…,…
Các t Các t ừ ừ láy: láy: Trong ti Trong tiếếng Ving Việệt còn có các tính tt còn có các tính từừ láy v láy vớ ớ i i mmụụcc đđích làm giích làm giảảmmhay nh
hay nhấấn mn mạạnh nnh nộội dung câu.i dung câu
hướ ướ ng truy vng truy vấấnn
1.8.1 Phát bi ể u bài toán
1.8.2 Đề xuấ t hướ ng gi ảải quyế tt
Trang 27đđooạạn, trong mn, trong mộộtt đđooạạn ln lạại gi gồồm nhim nhiềều cđu vă mu cđu vă mỗỗi cđu có thi cđu có thểể đượ đượ c xem nhc xem nhưư m mộột chut chuỗỗiicâc t
câc từừ mang thông tin c mang thông tin cầần thin thiếết nín tt nín từừ đượ đượ c xem lăc xem lă đơ đơ n n vvịị ththấấ p p nhnhấất t vvềề mmặặt t ngngữữ ngh
ngh ĩ ĩ a khi xĩt cho ma khi xĩt cho mộột vt văăn bn bảản Don Do đđó,ó, đểđể có th có thểể th thựực hic hiệện vin việệc tóm tc tóm tắắt thì vit thì việệcc đầđầuutiín c
tiín cầần lămn lăm đđó lẳ lă tâch cđu, tâch t tâch cđu, tâch t ừ ừ c củủa va văăn bn bảản.n
Trong mTrong mộột t vvăăn n bbảản thì bín cn thì bín cạạnh nhnh nhữững ng ttừừ mang nhi mang nhiềều thông tin, ý nghu thông tin, ý ngh ĩ ĩ a choa chovvăăn bn bảản cn cũũng có nhng có nhữững tng từừ xu xuấất hit hiệện nhin nhiềều nhu nhưưng lng lạại không có ý nghi không có ý ngh ĩ ĩ a nhia nhiềềuu đốđối vi vớ ớ iivvăăn n bbảản n –– đượ đượ c c ggọọi lă ti lă từừ ddừừng vă chính sng vă chính sựự t tồồn n ttạại ci củủa a ttừừ ddừừng có thng có thểể lăm cho quâ lăm cho quâtrình x
trình xửử lý vă tóm t lý vă tóm tắắt vt văăn bn bảản tr n tr ở ở lín ph lín phứức tc tạạ p h p hơ ơ n Vì vn Vì vậậy,y, đểđể trânh gđy nhi trânh gđy nhiễễu du dữữ li
liệệu thì sau khi thu thì sau khi thựực hic hiệện tâch tn tâch từừ, chúng tôi s, chúng tôi sẽẽ ti tiếến hănh vin hănh việệcc loloạại bi bỏỏ câc t câc t ừ ừ d d ừ ừ ng ng rakh
khỏỏi i vvăăn n bbảảnn đểđể trânh cho h trânh cho hệệ ththốốngng đđânh giâ nhânh giâ nhầầm m mmứứcc độđộ quan tr quan tr ọọng ng ccủủa chúnga chúngddựựa văo ta văo tầần sun suấất xut xuấất hit hiệện.n
Sau bSau bướ ướ c c loloạại i bbỏỏ ttừừ ddừừng tang ta đđê thuê thu đượ đượ c danh sâch câc tc danh sâch câc từừ mang nhi mang nhiềều u nnộộiidung, ý ngh
dung, ý ngh ĩ ĩ a cho va cho văăn bn bảản Nhn Nhưưngng đểđể ti tiếến hănhn hănh đđânh giâânh giâ độđộ quan tr quan tr ọọng cng củủa ma mỗỗi ti từừ trong v
trong văăn bn bảản n ddựựa văo ta văo tầần n susuấất xut xuấất t hihiệện cn củủa chúng thì ca chúng thì cầần n phphảảii x xử ử lý câc t lý câc t ừ ừ đồđồngngngh
nghĩ ĩ aa vì trong ti vì trong tiếếng Ving Việệt, st, sốố l lượ ượ ng tng từừ đồđồng nghng ngh ĩ ĩ a r a r ấất nhit nhiềều vă nu vă nếếu xu xửử lý lý đượ đượ c câc tc câc từừ đồ
đồng nghng ngh ĩ ĩ a thì via thì việệc tính toân tr c tính toân tr ở ở lín d lín dễễ dăng vă chính xâc h dăng vă chính xâc hơ ơ n r n r ấất nhit nhiềều.u
Nh Nhưư v vậậy, ty, tạại bi bướ ướ c tic tiềền xn xửử lý năy ta l lý năy ta lầần ln lượ ượ t tht thựực hic hiệện câc công vin câc công việệc sau:c sau:
Tâch cđu Tâch tTâch từừ LoLoạại bi bỏỏ t từừ d dừừngng XXửử lý câc t lý câc từừ đồđồng nghng ngh ĩ ĩ aa BiBiểểu diu diễễn vn văăn bn bảản theo mô hình không gian vectorn theo mô hình không gian vector
Trang 28TínhTính độđộ t tươ ươ ngng đồđồng ging giữữa câu trong va câu trong văăn bn bảản vn vớ ớ i câu truy vi câu truy vấấnn TínhTính độđộ t tươ ươ ngng đồđồng vng vềề v vịị trí t trí từừ gi giữữa câu trong va câu trong văăn bn bảản vn vớ ớ i câu truy vi câu truy vấấnn Tính tr Tính tr ọọng sng sốố cho toàn b cho toàn bộộ câu câu
BBướ ướ c 3:c 3: Trích rút, t ạạo văăn bảản tóm t ắắt:
CCăăn cn cứứ vào giá tr vào giá tr ịị tính toán tr tính toán tr ọọng sng sốố cho toàn b cho toàn bộộ câu và t câu và tỷỷ l lệệ tóm t tóm tắắt Xt X đđã xácã xácđị
định tnh từừ tr tr ướ ướ c mà chc mà chọọn nhn nhữững câu cóng câu có độđộ t tươ ươ ngng đồđồng cao thng cao thỏỏa mãna mãn đểđể t tạạo thành vo thành văănn b
bảản tóm tn tóm tắắt.t
1.8.3 Mô hình tóm t ắắt văăn bảản ti ế ng Vi ệệt hướ ng truy vấ n
TTừừ nh nhữững nghiên cng nghiên cứứuu đđãã đượ đượ c nêuc nêu ở ở m mụục trên, chúng tôic trên, chúng tôi đưđưa ra mô hình tóma ra mô hình tómttắắt vt văăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn nhn nhưư sau: sau:
Hình 5: Mô hình x Hình 5: Mô hình xử ử lý bài toán tóm t lý bài toán tóm t ắ ắ t vt văăn bn bảản tin tiế ế ng Ving Việệt ht hướ ướ ng truy vng truy vấ ấ nn
VnTagger
+ Danh sách các t ừừ
dd ng + Danh sách các t ừừ
đồ ng ng ng nghh aa
T ỷỷ ll ệệ % % cc ầầ nn trích xu ấấ tt
+ + V V ăă n n bb ảả n n cc ầầ nn truy v ấấ nn
+ Câu truy v ấấ nn
Tách câu
+ Lo ạạ i b ỏỏ t t ừừ d ừừ ng +
+ X X ửử lý lý tt ừừ đồ ng ngh ĩ aa
Vector hóa các câu
Tính tr ọọ ng s ốố cho toàn b ộộ câu
S ắắ p p xx ếế p p k k ếế t t qu qu ảả theo th ứứ tt ựự cc ủủ a giá
tr ịị tr ọọ ng s ốố câu
+ Tính độ tt ươ ng đồ ng gi ữữ a câu trong v ăă n b ảả n v ớ i câu truy v ấấ nn + Tính độ tt ươ ng đồ ng ng vv ềề vv ịị trí t ừừ
gi ữữ a câu trong v ăă n n bb ảả n n vv ớ i câu truy
vv ấấ nn
K ếế t qu ảả tóm t ắắ tt
Tách t ừừ
VnSentDetector
Trang 291.9 T1.9 Tổổng k ng k ếết cht chươ ươ ng 1ng 1Trong ch
Trong chươ ươ ng này, lung này, luậận vn văănn đđã trình bày nhã trình bày nhữững khái ning khái niệệm cm cơ ơ b bảản vn vềề tóm t tóm tắắt vt văănn b
bảản tn tựự độđộng, các dng, các dạạng bài toán tóm tng bài toán tóm tắắt vt văăn bn bảản và cn và cụụ th thểể là bài toán tóm t là bài toán tóm tắắt vt văăn bn bảảnn
tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn Lun Luậận vn văăn cn cũũngng đđãã đưđưa raa ra đượ đượ c các tiêu chíc các tiêu chí đđánh giá choánh giá chom
mộột ht hệệ th thốống tóm tng tóm tắắt ht hướ ướ ng truy vng truy vấấn Chn Chỉỉ ra ra đượ đượ c nhc nhữững khó khng khó khăăn cn củủaa đềđề tài và tài và đềđề xu
xuấất mt mộột ht hướ ướ ng ging giảải quyi quyếết cho bài toán,t cho bài toán, đồđồng thng thờ ờ i lui luậận vn văăn cn cũũngng đđãã đưđưa ra mô hìnha ra mô hìnhccụụ th thểể đểđể gi giảải quyi quyếết bài toán vt bài toán vớ ớ i yêu ci yêu cầầuu đặđặt ra Cht ra Chươ ươ ng ting tiếế p theo p theo luluậận vn văăn sn sẽẽ trình trình bày
bày chi chi titiếết ht hơ ơ n n vvềề các k các k ỹỹ thuthuậậtt đểđể gigiảải quyi quyếết bài toán tóm tt bài toán tóm tắắt t vvăăn bn bảản n hhướ ướ ng truyng truyvvấấn.n