1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÓM TẮT VĂN BẢN HƯỚNG TRUY VẤN - LUẬN VĂN CÔNG NGHỆ TRUYỀN THÔNG, ĐAI HỌC BÁCH KHOA

58 33 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 1,78 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ứ Ứ ng dng dụụng cng củủa tóm ta tóm tắắt vt văăn bn bảản trong nhin trong nhiềều lu l ĩ ĩ nh vnh vựực khácc khácnhau nh nhau nhưư sinh tiêu sinh tiêu đềđề ttựự độđộng headline generati

Trang 1

LỜ Ờ I CAMI CAM ĐĐOANOAN

Tôi xin camTôi xin cam đđoan, nhoan, nhữững gì tôi ving gì tôi viếết trong lut trong luậận n vvăăn này là do tìm hin này là do tìm hiểểu vàu và

nghiên cứứu cu củủa ba bảản thân Mn thân Mọọi k i k ếết qut quảả nghiên c nghiên cứứu cu cũũng nhng nhưư ý t ý tưở ưở ng cng củủa các tác gia các tác giảả  khác n

khác nếếu cóu có đềđềuu đượ đượ c trích dc trích dẫẫn ngun nguồồn gn gốốc cc cụụ th thểể

LuLuậận vn văăn này chon này cho đếđến nay chn nay chưưaa đượ đượ c bc bảảo vo vệệ t tạại bi bấất k t k ỳỳ m mộột ht hộộii đồđồng bng bảảo vo vệệ  lu

luậận n vvăăn n ththạạc c ss ĩ  ĩ  nào trên toàn qu nào trên toàn quốốc c ccũũng nhng nhưư   ở ở    nnướ ướ c ngoài và choc ngoài và cho đếđến nay chn nay chưưaađượ 

đượ c công bc công bốố trên b trên bấất k t k ỳỳ m mộột pht phươ ươ ng ting tiệện thông tin nào.n thông tin nào

Tôi xin hoàn toàn chTôi xin hoàn toàn chịịu trách nhiu trách nhiệệm vm vềề nh nhữững gì mà tôing gì mà tôi đđã camã cam đđoan trênoan trên đđây.ây

Hà N

Hà Nộội, tháng 03 ni, tháng 03 năăm 2013m 2013

HHọọc Viênc Viên

NguyNguyễễn Thn Thịị Thanh Hu Thanh Huệệ  

Trang 2

LỜ Ờ I CI CẢẢMM Ơ Ơ NN

Trong thTrong thờ ờ i gian thi gian thựực c hihiệện n luluậận n vvăăn này, tôi luônn này, tôi luôn đượ đượ c c ssựự  quan tâm, góp ý  quan tâm, góp ý

kiếến cn củủa tha thầầy giáo PGS.TS Nguyy giáo PGS.TS Nguyễễn Thanh Hn Thanh Hươ ươ ng Nhân dng Nhân dịị p này  p này tôi xin tôi xin bày tbày tỏỏ l lờ ờ iiccảảmm ơ ơ n chân thành tn chân thành tớ ớ i thi thầầy giáo PGS TS Nguyy giáo PGS TS Nguyễễn Thanh Hn Thanh Hươ ươ ng, ngng, ngườ ườ ii đđã tr ã tr ựực tic tiếế p phhướ ướ ng ng ddẫẫn và dành nhin và dành nhiềều u ththờ ờ i giani gian đểđể  ssửửa a chchữữa, a, bbổổ sung vào t sung vào từừng trang bng trang bảản n ththảảooccủủa lua luậận vn văăn.n

Tôi xin chân thành bày tTôi xin chân thành bày tỏỏ lòng bi lòng biếếtt ơ ơ nn đếđến toàn thn toàn thểể quý Th quý Thầầy Cô Viy Cô Việện Côngn Côngngh

nghệệ Thông tin và Truy Thông tin và Truyềền thông tr n thông tr ườ ườ ngng ĐạĐại hi họọc Bách khoa Hà Nc Bách khoa Hà Nộội, các gii, các giảảng viênng viênđđã truyã truyềềnn đạđạt t nhnhữững king kiếến n ththứức, c, k k ỹỹ  nnăăng, kinh nghing, kinh nghiệệm nghm nghềề nghi nghiệệ p Tô p Tôi i xin xin chânchânthành c

thành cảảmm ơ ơ n ban Giám hin ban Giám hiệệu, u, ttậậ p  p ththểể giáo viên khoa Công ngh giáo viên khoa Công nghệệ Thông tin tr  Thông tin tr ườ ườ ngngĐạ

Đại i hhọọc c SSưư   phphạạm m K K ỹỹ   thuthuậật t HHưưng Yên, giang Yên, gia đđình cùng các bình cùng các bạạn trong ln trong lớ ớ  p  p cao cao hhọọccCông ngh

Công nghệệ  Thông tin khoá 2011- 2013  Thông tin khoá 2011- 2013 đđã ã ttạạo o mmọọii đđiiềều u kikiệện giúpn giúp đỡ đỡ ,, độđộng viên,ng viên,chia s

chia sẻẻ  đểđể tôi hoàn thành b tôi hoàn thành bảản lun luậận vn văăn này.n này

BBảản lun luậận vn văăn chn chắắc còn nhic còn nhiềều thiu thiếếu sót, r u sót, r ấất mongt mong đượ đượ c các thc các thầầy cô giáo trongy cô giáo tronghhộộii đồđồng chng chấấm lum luậận vn văăn xem xét, góp ý kin xem xét, góp ý kiếếnn đểđể lu luậận vn văănn đượ đượ c hoàn thic hoàn thiệện hn hơ ơ n.n

Tôi xin chân thành cTôi xin chân thành cảảmm ơ ơ n!n!

Hà N

Hà Nộội, tháng 03 ni, tháng 03 năăm 2013.m 2013

Trang 3

MỤỤC LC LỤỤCCL

LỜỜI CAMI CAM ĐĐOAN 1OAN 1L

LỜỜI CI CẢẢMM ƠƠ N  N 22

DANH MỤỤC CÁC CHC CÁC CHỮ Ữ  VI VIẾẾT TT TẮẮT 6T 6DANH M

DANH MỤỤC CÁC BC CÁC BẢẢ NG NG 7 7DANH M

DANH MỤỤC CÁC HÌNH VC CÁC HÌNH VẼẼ 8 8M

3 ĐốĐối ti tượ ượ ng, phng, phạạm vi nghiên cm vi nghiên cứứu 10u 10

5 Cấấu trúc luu trúc luậận vn văăn 11n 11 N

 NỘỘI DUNG 12I DUNG 12CH

CHƯƠƯƠ NG  NG I: I: CCƠƠ   SSỞỞ  LÝ THUY  LÝ THUYẾẾT CHO BÀI TOÁN TÓM TT CHO BÀI TOÁN TÓM TẮẮT T VVĂĂ N  N BBẢẢ N NTI

TIẾẾ NG VI NG VIỆỆT HT HƯỚƯỚ NG TRUY V NG TRUY VẤẤ N  N 12121.1

1.1 Bài Bài toán toán tóm tóm ttắắt vt văăn bn bảản tn tựự  độđộng ng 12121.1.1

1.1.1 ĐịĐịnh nghnh ngh ĩ  ĩ a 12a 121.1.2 Tóm t

1.1.2 Tóm tắắt vt văăn bn bảản tn tựự  độđộng 12ng 121.2

1.2 Phân Phân loloạại bài toán tóm ti bài toán tóm tắắt vt văăn bn bảản n 15151.3

1.3 ĐặĐặcc đđiiểểm chung cm chung củủa các va các văăn bn bảản tóm tn tóm tắắt 18t 181.4

1.4 Tóm Tóm ttắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn n 19191.5

1.5 Ứ Ứ ng dng dụụng cng củủa bài toán tóm ta bài toán tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn n 20 201.6

1.6 Các Các tiêu tiêu chíchí đđánh giá hánh giá hệệ th thốống tóm tng tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn n 21 211.6.1

1.6.1 ĐộĐộ bao ph bao phủủ  (Recall-R) (Recall-R) 22 221.6.2

1.6.2 ĐộĐộ  chính chính xác xác (Precision-P) (Precision-P) 2222

Trang 4

1.6.3 Cách tính1.6.3 Cách tính độđộ bao ph bao phủủ và và độđộ  chính chính xác xác [3] [3] 22221.6.4 Ph

1.6.4 Phươ ươ ng pháp tínhng pháp tính độđộ chính xác d chính xác dựựa trên 11a trên 11 đđiiểểm chum chuẩẩn cn củủaa độđộ bao ph bao phủủ  23  231.7 Nh

1.7 Nhữững thách thng thách thứức c ggặặ p  p phphảảii đốđối i vvớ ớ i bài toán tóm ti bài toán tóm tắắt t vvăăn n bbảản n titiếếng Ving Việệtt

hhướ ướ ng truy vng truy vấấn 25n 251.8

1.8 Nghiên Nghiên ccứứu u hhướ ướ ng ging giảải quyi quyếếtt đốđối i vvớ ớ i bài toán tóm ti bài toán tóm tắắt t vvăăn n bbảản n titiếếng Ving Việệtthhướ ướ ng truy vng truy vấấn 26n 261.8.1 Phát bi

1.8.1 Phát biểểu u bài bài toán toán 26261.8.2

1.8.2 ĐềĐề xu xuấất ht hướ ướ ng ging giảải quyi quyếết 26t 261.8.3 Mô hình tóm t

1.8.3 Mô hình tóm tắắt vt văăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn n 28281.9 T

2.1.2 Tách Tách ttừừ và công t và công tựự tách t tách từừ  vnTagger vnTagger 3232

Trang 5

2.3

2.3 Trích Trích rút, rút, ttạạo vo văăn bn bảản tóm tn tóm tắắt 45t 452.4 T

2.4 Tổổng k ng k ếết cht chươ ươ ng 2 ng 2 4646CH

CHƯƠƯƠ NG III: CÀI NG III: CÀI ĐẶĐẶT VÀ THT VÀ THỬ Ử  NGHI NGHIỆỆM CHM CHƯƠƯƠ NG TRÌNH  NG TRÌNH 47473.1

3.1 Mô Mô ttảả s sơ ơ  l lượ ượ c vc vềề h hệệ th thốống 47ng 473.1.1 Các Các bbướ ướ c tric triểển khai chn khai chươ ươ ng ng trình trình 47 473.1.2 Giao Giao didiệện chính cn chính củủa cha chươ ươ ng ng trình trình 48 483.1.3 Cách Cách ssửử d dụụng chng chươ ươ ng ng trình trình 49 493.2

3.2 ĐĐánh giá k ánh giá k ếết qut quảả  50  50

TÀI LIỆỆU THAM KHU THAM KHẢẢO 56O 56PH

PHỤỤ L LỤỤC 58C 58

Trang 6

DANH MDANH MỤỤC CÁC CHC CÁC CHỮ Ữ  VI VIẾẾT TT TẮẮTT

STT Từ ừ  vi viếết tt tắắt t Ý Ý nghngh ĩ  ĩ aa

1 CNTT Công Công nghnghệệ thông tin thông tin

4 IDF Inverse Inverse Document Document FrequencyFrequency

Trang 7

DANH MDANH MỤỤC CÁC BC CÁC BẢẢNGNG

BBảảng 1: Vng 1: Vấấnn đềđề tách t tách từừ trong ti trong tiếếng Ving Việệt 33t 33

Bảảng 2: Mng 2: Mộột st sốố t từừ d dừừng trong ting trong tiếếng Ving Việệt 34t 34B

Bảảng 3: Ví dng 3: Ví dụụ v vềề tính tr  tính tr ọọng sng sốố cho toàn b cho toàn bộộ  câu câu 45 45B

Bảảng 4: K ng 4: K ếết qut quảả tính tr  tính tr ọọng sng sốố câu câu 52 52B

Bảảng 5: K ng 5: K ếết qut quảả tr  tr ảả ra sau khi tóm t ra sau khi tóm tắắt t 5252

Trang 8

DANH MDANH MỤỤC CÁC HÌNH VC CÁC HÌNH VẼẼ  

Hình 1: Mô hình chung củủa ma mộột ht hệệ th thốống tóm tng tóm tắắt 14t 14Hình 2: Mô hình tóm t

Hình 2: Mô hình tóm tắắt vt vớ ớ i các kii các kiểểu tóm tu tóm tắắt và các tt và các tỉỉ l lệệ tóm t tóm tắắt t khác khác nhau nhau 1818Hình 3:

Hình 3: ĐồĐồ th thịị bi biểểu diu diễễn hin hiệệu suu suấất tht thựực thi cc thi củủa 1 ha 1 hệệ th thốống truy vng truy vấấn n 2323Hình 4:

Hình 4: ĐồĐồ th thịị bi biểểu diu diễễn hin hiệệu suu suấất tht thựực thi cc thi củủa 2 ha 2 hệệ th thốống truy vng truy vấấn n 2424Hình 5: Mô hình x

Hình 5: Mô hình xửử lý bài toán tóm t lý bài toán tóm tắắt vt văăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn n 2828Hình 6: Bi

Hình 6: Biểểu diu diễễn các n các câu theo câu theo mô hìnmô hình khônh không gian g gian vector vector 3838Hình 7: Giao di

Hình 7: Giao diệện chính cn chính củủa cha chươ ươ ng ng trình trình 49 49

Trang 9

MỞ Ở   ĐẦĐẦUU

1 Lý do ch

1 Lý do chọọnn đềđề tài tàiTrong nh

Trong nhữững nng năăm gm gầầnn đđây, chúng taây, chúng ta đđã thã thấấy sy sựự phát tri phát triểển bùng nn bùng nổổ c củủa interneta internet

và lượ ượ ng thông tin cng thông tin cũũngng đượ đượ c sinh ra liên tc sinh ra liên tụục mc mỗỗi ngày vi ngày vớ ớ i mi mộột kht khốối li lượ ượ ng lng lớ ớ n Vn Vớ ớ iivi

việệc gia tc gia tăăng theo hàm mng theo hàm mũũ l lượ ượ ng thông tin thì con ngng thông tin thì con ngườ ườ i si sẽẽ g gặặ p khó kh p khó khăăn trong vin trong việệccti

tiếế p c p cậận thông tin và cn thông tin và cầần phn phảải có các phi có các phươ ươ ng phápng pháp đểđể gi giảải quyi quyếết vt vấấnn đềđề  đđó Tóm tó Tóm tắắttvvăăn n bbảản n ttựự  độđộngng đượ đượ cc đềđề  ccậậ p p đếđến n nhnhưư  mmộột cách tit cách tiếế p  p ccậận giúp con ngn giúp con ngườ ườ i cói có đượ đượ ccllượ ượ ng thông tin nhing thông tin nhiềều nhu nhấất trên lt trên lượ ượ ng thng thờ ờ i gian có hi gian có hạạn.Tuy nhiên, mn.Tuy nhiên, mộột vt vấấnn đềđề  đặđặt rat ra

nhà nghiên cứứu quan tâm.u quan tâm Ứ Ứ ng dng dụụng cng củủa tóm ta tóm tắắt vt văăn bn bảản trong nhin trong nhiềều lu l ĩ  ĩ nh vnh vựực khácc khácnhau nh

nhau nhưư  sinh tiêu  sinh tiêu đềđề   ttựự   độđộng ( headline generation ), rút gng ( headline generation ), rút gọọn thông tin sn thông tin sửử   ddụụngngtrong các thi

trong các thiếết bt bịị c cầầm tay nhm tay nhưư PDA, PDA, đđiiệện thon thoạại dii di độđộng,…ng,…

ĐếĐến nay trên thn nay trên thếế  gigiớ ớ i ci cũũngng đđã có nhiã có nhiềều công trình nghiên cu công trình nghiên cứứu vu vềề tóm t tóm tắắt t vvăănn b

 bảản n hhướ ướ ng truy vng truy vấấn và các hn và các hệệ  ththốống tóm tng tóm tắắtt đđó ó ccũũng ng ttỏỏ ra khá hi ra khá hiệệu u ququảả, tuy nhiên, tuy nhiêncác nghiên c

các nghiên cứứuu đđó ó mmớ ớ i i chchỉỉ   ttậậ p  p trung trung trên trên nhnhữững ngôn ngng ngôn ngữữ   nhnhưư   titiếếng Anh, Pháp,ng Anh, Pháp,Trung, Nh

Trung, Nhậật, Còn trên tit, Còn trên tiếếng Ving Việệt thì dot thì do đặđặc c tr tr ưưng ngôn ngng ngôn ngữữ  không gi  không giốống ng vvớ ớ iinh

nhữững ngôn ngng ngôn ngữữ khác, ví d khác, ví dụụ  nhnhưư   titiếếng Anh là ngôn ngng Anh là ngôn ngữữ   đđa âm tia âm tiếết, trong khit, trong khi đđóóti

tiếếng Ving Việệt là ngôn ngt là ngôn ngữữ  đơ đơ n âm tin âm tiếết, vit, việệc xácc xác địđịnh tnh từừ trong ti trong tiếếng Ving Việệt không dt không dựựa trêna trênddấấu cách Bên cu cách Bên cạạnhnh đđó trong tió trong tiếếng Ving Việệt còn tt còn tồồn tn tạại r i r ấất nhit nhiềều âm ngu âm ngữữ Hán Vi Hán Việệt, nhit, nhiềềuukhi chúng ta ph

khi chúng ta phảải gii giảải nghi ngh ĩ  ĩ a các ta các từừ này H này Hơ ơ n nn nữữa, các nghiên ca, các nghiên cứứu vu vềề ti tiếếng Ving Việệt trênt trênmáy tính m

máy tính mớ ớ ii ở ở  giai giai đđooạạn sn sơ ơ  khai, các kho ng khai, các kho ngữữ li liệệu dùng cho tóm tu dùng cho tóm tắắt vt văăn bn bảản tin tiếếngngVi

Việệt còn r t còn r ấất ít, các công ct ít, các công cụụ  hhỗỗ  tr tr ợ ợ  cho vi cho việệc tách tc tách từừ, tách câu, còn thi, tách câu, còn thiếếu u hohoặặc hic hiệệuuqu

quảả  chchưưa cao Các ya cao Các yếếu tu tốố này làm cho vi này làm cho việệc c xxửử lý ngôn ng lý ngôn ngữữ  ttựự nhiên ti nhiên tiếếng Ving Việệt t tr tr ở ở   

Trang 10

lên r lên r ấất khó kht khó khăăn,n, đặđặc bic biệệt trong vit trong việệcc đềđề xu xuấất các pht các phươ ươ ng pháp tóm tng pháp tóm tắắt vt văăn bn bảản tin tiếếngngVi

Việệt ht hướ ướ ng truy vng truy vấấn.n

TTừừ   nhnhữững nhu cng nhu cầầu và tu và từừ   nhnhữữngng ứứng ng ddụụng ng r r ộộng rãi cng rãi củủa nó trong tha nó trong thựực c titiễễn làn làđộ

động lng lựựcc đểđể khóa lu khóa luậận tn tậậ p trung nghiên c p trung nghiên cứứu vu vềề bài toán tóm t bài toán tóm tắắt vt văăn bn bảản, và cn, và cụụ th thểể là là bài toán “Tóm t

 bài toán “Tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn”.n”

ngh ĩ  ĩ a trong va trong văăn n bbảản n titiếếng Ving Việệt, nghiên ct, nghiên cứứu u phphươ ươ ng phápng pháp đđoo độđộ   ttươ ươ ngng đồđồng ngng ngữữ  ngh

ngh ĩ  ĩ a gia giữữa hai câua hai câu đểđể  ứứng dng dụụng cho bài toán tóm tng cho bài toán tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn.n

-

- VVềề   ththựực nghic nghiệệm: Xây dm: Xây dựựngng ứứng ng ddụụng tóm tng tóm tắắt t vvăăn n bbảản n TiTiếếng Ving Việệt t hhướ ướ ngngtruy v

truy vấấn.n

Trang 11

5 C

5 Cấấu trúc luu trúc luậận vn văănn

 Ngoài ph Ngoài phầần mn mở ở   đầđầu, k u, k ếết lut luậận, kin, kiếến nghn nghịị và các danh m và các danh mụục tài lic tài liệệu tham khu tham khảảo,o,các ph

các phụụ l lụục cc củủa lua luậận vn văăn, nn, nộội dung ci dung củủa lua luậận vn văănn đượ đượ c trình bày trong 58 trang chiac trình bày trong 58 trang chialàm 3 ch

làm 3 chươ ươ ng vng vớ ớ i nhi nhữững nng nộội dung ci dung cụụ th thểể nh nhưư sau: sau:

Chươ ng 1: C: Cơ ơ  s sở ở  lý thuy lý thuyếết cho bài toán tóm tt cho bài toán tóm tắắt vt văăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ngngtruy v

truy vấấnn: Trong ch: Trong chươ ươ ng này, lung này, luậận vn văănn đđã trình bày nhã trình bày nhữững khái ning khái niệệm cm cơ ơ  b bảản vn vềề tóm tómttắắt vt văăn bn bảản tn tựự  độđộng, các dng, các dạạng bài toán tóm tng bài toán tóm tắắt vt văăn bn bảản và cn và cụụ th thểể là bài toán tóm t là bài toán tóm tắắttvvăăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn Lun Luậận vn văăn cn cũũngng đđãã đưđưa raa ra đượ đượ c các tiêu chíc các tiêu chí đđánhánhgiá cho m

giá cho mộột t hhệệ  ththốống tóm tng tóm tắắt t hhướ ướ ng truy vng truy vấấn Chn Chỉỉ ra ra đượ đượ c c nhnhữững khó khng khó khăăn n ccủủaa đềđề  tài và

tài và đềđề xu xuấất mt mộột ht hướ ướ ng ging giảải quyi quyếết cho bài toán,t cho bài toán, đồđồng thng thờ ờ i lui luậận vn văăn cn cũũngng đđãã đưđưa raa ra

mô hình c

mô hình cụụ th thểể  đểđể gi giảải quyi quyếết bài toán vt bài toán vớ ớ i yêu ci yêu cầầuu đặđặt ra.t ra

Chươ ng ng 2 2: : K K ỹỹ   thuthuậật t gigiảải quyi quyếết bài toán tóm tt bài toán tóm tắắt t vvăăn n bbảản n titiếếng Ving Việệtth

hướ ướ ng truy vng truy vấấnn: T: Từừ h hướ ướ ng ging giảải quyi quyếếtt đượ đượ cc đềđề xu xuấấtt ở ở  ch chươ ươ ng 1, trong chng 1, trong chươ ươ ng nàyng nàyđđã trình bày nhã trình bày nhữững k ng k ỹỹ thu thuậật ct cụụ th thểể  đểđể gi giảải quyi quyếếtt đượ đượ c bài toánc bài toán đặđặt ra: Tit ra: Tiềền xn xửử lý v lý văănn b

 bảản tin tiếếng Ving Việệt (tách câu, tách tt (tách câu, tách từừ, lo, loạại bi bỏỏ t từừ d dừừng, xng, xửử lý  lý ttừừ  đồđồng nghng ngh ĩ  ĩ a, ), tính tr a, ), tính tr ọọngngssốố câu (tính câu (tính độđộ t tươ ươ ngng đồđồng ging giữữa câu trong va câu trong văăn bn bảản vn vớ ớ i câu truy vi câu truy vấấn,n, độđộ t tươ ươ ngng đồđồngngvvềề v vịị trí t trí từừ gi giữữa câu trong va câu trong văăn bn bảản và câu truy vn và câu truy vấấn,…), trích rút và tn,…), trích rút và tạạo vo văăn bn bảản tómn tómttắắt.t

Chươ ng ng 3 3: Cài: Cài đặđặt và tht và thử ử   nghi  nghiệệm m chchươ ươ ng trình:ng trình:   ChChươ ươ ng này trình bàyng này trình bàycác b

các bướ ướ c xây dc xây dựựng chng chươ ươ ng trình và mô tng trình và mô tảả  vvềề  chchươ ươ ng trình sau khi hng trình sau khi hệệ  ththốống hoànng hoànthi

thiệện.n ĐĐánh giá chính xác hiánh giá chính xác hiệệu u susuấất t ccủủa a chchươ ươ ng trình bng trình bằằng ving việệcc đưđưa ra ta ra tậậ p  p ddữữ  liliệệuuth

thửử nghi nghiệệm và k m và k ếết qut quảả th thửử nghi nghiệệm.m

Trang 12

1.1

1.1 Bài Bài toán toán tóm tóm ttắắt vt văăn bn bảản tn tự ự   độđộngng

1.1.1 Đị nh nghĩ ĩ a

Tóm tTóm tắắt t vvăăn n bbảản là quá trình làm gin là quá trình làm giảảmm đđii độđộ dài ho dài hoặặcc độđộ  phphứức c ttạạ p  p ccủủa a mmộộttvvăăn bn bảản mà không mn mà không mấấtt đđi ni nộội dung chính ci dung chính củủa va văăn bn bảản n Bài Bài toán tótoán tóm m ttắắt vt văăn bn bảản cón cóđầ

đầu vào là vu vào là văăn n bbảản ngun nguồồn và mn và mộột tham st tham sốố  đượ đượ c c ggọọi là ti là tỷỷ  llệệ trích xu trích xuấất t TTỷỷ  llệệ trích tríchxu

xuấất t ccủủa va văăn bn bảản thn thườ ườ ng bng bằằngng độđộ dài c dài củủa ba bảản tóm tn tóm tắắt chia chot chia cho độđộ dài c dài củủa va văăn bn bảảnnngu

nguồồn Cn Cụụ th thểể, công th, công thứức tính tc tính tỷỷ l lệệ trích xu trích xuấất nht nhưư sau: sau:

T  ỷ ỷ l  l ệệ trích xu trích xuấ ấ t =t = Độ Độ dài v dài văăn bn bảản tóm t n tóm t ắ ắ t /t / Độ Độ dài c dài củủa va văăn g n g ố ố cc

 bảản Do con ngn Do con ngườ ườ i tóm ti tóm tắắt nên vt nên văăn n bbảản luônn luôn đảđảm m bbảảoo đượ đượ c tính mc tính mạạch ch llạạc c ccủủa nó.a nó.Tuy nhiên, c

Tuy nhiên, cũũng vì thng vì thếế mà v mà văăn bn bảản tóm tn tóm tắắt không tránh kht không tránh khỏỏi mang di mang dấấuu ấấn chn chủủ quan quanccủủa nga ngườ ườ i xi xửử lý. lý

 Nhìn chung, các  Nhìn chung, các bài toán tóm bài toán tóm ttắắt vt văăn bn bảản cn cầầnn đảđảm bm bảảo các yêu co các yêu cầầu cu cũũng nhng nhưư  

ccầần n phphảản ánh trung thn ánh trung thựực nc nộội dung ci dung củủa a vvăăn bn bảảnn đượ đượ c tóm tc tóm tắắt; có tính bao quát toànt; có tính bao quát toàn b

 bộộ n nộội dung chính ci dung chính củủa va văăn bn bảản;n; đảđảm bm bảảo to tỷỷ l lệệ trích xu trích xuấất ct củủa va văăn bn bảản; tính mn; tính mạạch lch lạạc,c,tính ch

tính chặặt cht chẽẽ c củủa va văăn bn bảản,…n,…

1.1.2 Tóm t ắắt văăn bảản t ự   động

Tóm tTóm tắắt t vvăăn n bbảản liên quan tn liên quan tớ ớ i i viviệệc c xxửử lý ngôn ng lý ngôn ngữữ Có th Có thểể nói x nói xửử lý ngôn lý ngônng

ngữữ t tựự  độđộng trên máy tính là mng trên máy tính là mộột trong nht trong nhữững vng vấấnn đềđề khó nh khó nhấất ct củủa Công ngha Công nghệệ thông thôngtin Khó là n

tin Khó là nằằmm ở ở  ch chỗỗ làm sao cho máy hi làm sao cho máy hiểểuu đượ đượ c ngôn ngc ngôn ngữữ con ng con ngườ ườ i, ti, từừ vi việệc hic hiểểuungh ĩ  ĩ a a ttừừng ng ttừừ trong m trong mỗỗi hoàn ci hoàn cảảnh nh ccụụ  ththểể  đếđến n viviệệc c hihiểểu nghu ngh ĩ  ĩ a a mmộột câu, r t câu, r ồồi i ccảả  vvăănn

Trang 13

 b bảản Mn Mấấu chu chốốtt ở ở   đđây là bây là bảản chn chấất pht phứức tc tạạ p c p củủa ngôn nga ngôn ngữữ con ng con ngườ ườ i,i, đặđặc bic biệệt là st là sựự  đđaangh

ngh ĩ  ĩ a và nha và nhậậ p nh p nhằằng nghng ngh ĩ  ĩ a ca củủa ngôn nga ngôn ngữữ

Tóm tTóm tắắt vt văăn bn bảản tn tựự  độđộng [2] là mng [2] là mộột bài toán quan tr t bài toán quan tr ọọng cng củủa khai phá da khai phá dữữ li liệệuuvvăăn bn bảản (text mining) Bài toán có thn (text mining) Bài toán có thểể tóm t tóm tắắt nht nhưư sau “ sau “tìm tóm t tìm tóm t ắ ắ t cht chứ ứ a các ý chínha các ý chínhccủủa va văăn bn bảảnn”.”

 N Năăm 1958, Luhn cm 1958, Luhn củủa IBMa IBM đđã trình bày phã trình bày phươ ươ ng pháp tóm tng pháp tóm tắắt t ttựự  độđộng chong chocác bài báo k 

các bài báo k  ĩ  ĩ   thuthuậật t ssửử  ddụụng phng phươ ươ ng pháp thng pháp thốống kê thông qua tng kê thông qua tầần sun suấất và phân bt và phân bốố  ccủủa các ta các từừ trong v trong văăn bn bảản Tuy nhiên mãi chon Tuy nhiên mãi cho đếđến nhn nhữững nng năăm cum cuốối thi thếế k  k ỷỷ 20, v 20, vớ ớ i si sựự   phát tri

 phát triểển cn củủa Internet, la Internet, lượ ượ ng thông tin bùng nng thông tin bùng nổổ nhanh chóng, vi nhanh chóng, việệc thu nhc thu nhậận nhn nhữữngngthông tin quan tr 

thông tin quan tr ọọng cng cũũng tr ng tr ở ở  thành m thành mộột vt vấấnn đềđề thi thiếết yt yếếu thì bài toán tóm tu thì bài toán tóm tắắt vt văăn bn bảảnnttựự  độđộng mng mớ ớ ii đượ đượ c sc sựự quan tâm thi quan tâm thiếết tht thựực cc củủa nhia nhiềều nhà nghiên cu nhà nghiên cứứu.u

Theo Inderjeet Mani, mTheo Inderjeet Mani, mụụcc đđích cích củủa tóm ta tóm tắắt t vvăăn n bbảản n ttựự   độđộng là: “ng là: “Tóm t Tóm t ắ ắ ttvvăăn bn bảản t n t ự ự   độđộng nhng nhằ ằ m mm mụụcc đ đ ích trích xuích trích xuấ ấ t nt nộội dung t i dung t ừ ừ  m mộột ngut nguồồn thông tin và trìnhn thông tin và trìnhbày các n

bày các nộội dung quan tr i dung quan tr ọọng nhng nhấ ấ t cho ng t cho ng ườ ườ i si sử ử  d  d ụụng theo mng theo mộột khuôn d t khuôn d ạạng súc tíchng súc tích

và gây c

và gây cảảm xúcm xúc đố đố i vi vớ ớ i ng i ng ườ ườ i si sử ử  d  d ụụng hong hoặặc mc mộột cht chươ ươ ng trình cng trình cầầnn đế đế nn”.”

Trong nhTrong nhữững nng năăm quam qua đđã có nhiã có nhiềều công trình nghiên cu công trình nghiên cứứu vu vềề t tạạo tóm to tóm tắắt tt tựự  độ

động các vng các văăn n bbảản n titiếếng Anh, Nhng Anh, Nhậật, Hoa [7][8] Mt, Hoa [7][8] Mộột t ssốố  công trình tiêu bi  công trình tiêu biểểu u nhnhưư::William B.Cavnar (1994)

William B.Cavnar (1994) đđã biã biểểu diu diễễn vn văăn bn bảản dn dựựa trên n-gram thay cho cách bia trên n-gram thay cho cách biểểuudi

diễễn truyn truyềền thn thốống bng bằằng tng từừ khóa Chinatsu Aone (1997) khóa Chinatsu Aone (1997) đđã phát triã phát triểển hn hệệ DimSum DimSum đểđể  tóm t

tóm tắắt vt văăn bn bảản sn sửử d dụụng xng xửử  lý lý ngôn ngôn ngngữữ t tựự nhiên và k  nhiên và k ỹỹ thu thuậật tht thốống kê dng kê dựựa trên ha trên hệệ  ssốố Tác gi Tác giảả c cũũngng đđã sã sửử d dụụng WordNetng WordNet đểđể xem xét ng xem xét ngữữ ngh ngh ĩ  ĩ a ca củủa ta từừ và và đềđề xu xuấất mt mộộtt

Trang 14

a.   Phân tíchB

Bướ ướ c này sc này sẽẽ phân tích phân tích đầđầu vàou vào đểđể  đưđưa ra nha ra nhữững mô tng mô tảả bao g bao gồồm các thông tinm các thông tindùng

dùng đểđể tìm ki tìm kiếếm,m, đđánh giá cácánh giá các đơ đơ n vn vịị ng ngữữ li liệệu quan tr u quan tr ọọng nhng nhưư các tham s các tham sốố  đầđầu vàou vàocho vi

cho việệc tóm tc tóm tắắt Thông qua bt Thông qua bướ ướ c này, các câu quan tr c này, các câu quan tr ọọng,ng, đặđặc c tr tr ưưng chng chứứa các ýa các ýngh

ngh ĩ  ĩ a chính ca chính củủa va văăn bn bảản sn sẽẽ  đượ đượ c trích chc trích chọọn.n

b.   ChuyChuyể ể nn đổ đổ iiB

Bướ ướ c này sc này sẽẽ bi biếếnn đổđổi ti từừng câu quan tr ng câu quan tr ọọng thung thu đượ đượ c c ttừừ b bướ ướ c phân tích tr c phân tích tr ướ ướ cc

Từừ các câu quan tr  các câu quan tr ọọngng đượ đượ c chc chọọn ran ra ở ở  b bướ ướ c phân tích,c phân tích, đượ đượ c rút ngc rút ngắắnn ở ở  b bướ ướ cc bi

 biếếnn đổđổi, i, bbướ ướ c c ttổổng ng hhợ ợ  p  p ssẽẽ  liên k   liên k ếết chúng lt chúng lạại thànhi thành đđooạạn theo mn theo mộột t tr tr ậật t ttựự nào nào đđóóho

hoặặc theo k c theo k ếết ct cấấu ngu ngữữ pháp r  pháp r ồồi hii hiểển thn thịị phù h phù hợ ợ  p v p vớ ớ i yêu ci yêu cầầu ngu ngườ ườ i dùng.i dùng

Trang 15

1.2 Phân lo1.2 Phân loạại bài toán tóm ti bài toán tóm tắắt vt văăn bn bảảnn

Có nhi

Có nhiềều cách phân lou cách phân loạại tóm ti tóm tắắt vt văăn bn bảản khác nhau, tuy nhiên sn khác nhau, tuy nhiên sựự phân lo phân loạại chi chỉỉ  mang tính t

mang tính tươ ươ ngng đốđối, phi, phụụ  thuthuộộc vào vic vào việệc tóm tc tóm tắắt trên ct trên cơ ơ   ssở ở  nào. nào ỞỞ  đđây,ây, đềđề tài tài đềđề  

ccậậ p p đếđến phân lon phân loạại tóm ti tóm tắắt dt dựựa trên 3 ca trên 3 cơ ơ  s sở ở  là: d là: dựựa vàoa vào địđịnh dnh dạạng, nng, nộội dungi dung đầđầu vào,u vào,ddựựa vàoa vào địđịnh dnh dạạng, nng, nộội dungi dung đầđầu ra, du ra, dựựa vào ma vào mụụcc đđích tóm tích tóm tắắt [6].t [6]

   Tóm tTóm tắắt t ddự ự a trên ca trên cơ ơ   ssở ở   địđịnh nh ddạạng, nng, nộội dungi dung đầđầuu vào s vào sẽẽ  tr tr ảả  llờ ờ i cho câui cho câuhhỏỏi “Cái gì si “Cái gì sẽẽ  đượ đượ c tóm tc tóm tắắt” Cách chia này st” Cách chia này sẽẽ cho ta nhi cho ta nhiềều cách phân lou cách phân loạại con kháci con khácnhau C

nhữữngng đặđặc tr c tr ưưng vng văăn bn bảản quyn quy địđịnh.nh

 Đị  Đị nh nh d  d ạạng ng vvăăn n b bảản: : ddựựa vào ta vào từừngng địđịnh nh ddạạng ng vvăăn n bbảản khác nhau, tóm tn khác nhau, tóm tắắttccũũng chia ra thành các long chia ra thành các loạại khác nhau nhi khác nhau nhưư: tóm t: tóm tắắt vt văăn bn bảản không theo khuôn mn không theo khuôn mẫẫuu(free-form) hay tóm t

(free-form) hay tóm tắắt t vvăăn n bbảản có cn có cấấu trúc Vu trúc Vớ ớ i i vvăăn n bbảản có cn có cấấu trúc, tóm tu trúc, tóm tắắt t vvăănn b

 bảản n ththườ ườ ng ng ssửử  ddụụng ng mmộột mô hình ht mô hình họọc c ddựựa vào ma vào mẫẫu u ccấấu trúcu trúc đđã xây dã xây dựựng ng ttừừ  tr tr ướ ướ ccđể

mộột quá trình tóm tt quá trình tóm tắắt tt tựự  độđộng vng vớ ớ ii đầđầu vào là mu vào là mộột vt văăn bn bảản,n, đầđầu ra là mu ra là mộộtt đđooạạn mô tn mô tảả  ng

ngắắn gn gọọn nn nộội dung chính ci dung chính củủa va văăn bn bảảnn đầđầu vàou vào đđó Vó Văăn bn bảảnn đơ đơ n có thn có thểể là  là mmộột trangt trangWeb, m

Web, mộột bài báo, hot bài báo, hoặặc c mmộột tài lit tài liệệu u vvớ ớ ii địđịnh nh ddạạng xácng xác địđịnh (ví dnh (ví dụụ : doc, txt)… : doc, txt)…Tóm t

Tóm tắắt vt văăn bn bảảnn đơ đơ n là bn là bướ ướ cc đệđệm cho vim cho việệc xc xửử lý tóm t lý tóm tắắtt đđa va văăn bn bảản và các bài toánn và các bài toántóm t

tóm tắắt pt phhứức tc tạạ p h p hơ ơ n Chính vì thn Chính vì thếế nh nhữững phng phươ ươ ng pháp tóm tng pháp tóm tắắt vt văăn bn bảản ran ra đờ đờ ii đầđầuutiên

tiên đềđều là các phu là các phươ ươ ng pháp tóm tng pháp tóm tắắt cho vt cho văăn bn bảảnn đơ đơ n.n

Tóm tTóm tắắtt đđa va văăn bn bảản có thn có thểể  đượ đượ c coi nhc coi nhưư là m là mộột mt mở ở  r  r ộộng cng củủa tóm ta tóm tắắtt đơ đơ n vn văănn b

 bảản Mn Mụụcc đđích cích củủa tóm ta tóm tắắtt đđa a vvăăn bn bảản: Là quá trình trích xun: Là quá trình trích xuấất t nnộội dung ti dung từừ  mmộột t ttậậ p pcác v

các văăn bn bảản có liên quann có liên quan đếđến nhau, trong quá trìnhn nhau, trong quá trình đđó các thông tin dó các thông tin dưư th thừừa sa sẽẽ  đượ đượ cc

Trang 16

loloạại i bbỏỏ và nh và nhữững thông tin quan tr ng thông tin quan tr ọọng ng ssẽẽ  đượ đượ c c bibiểểu u didiễễn n ddướ ướ i hình thi hình thứức côc cô đọđọng,ng,súc tích và giàu c

súc tích và giàu cảảm súcm súc đếđến ngn ngườ ườ i si sửử d dụụng hong hoặặc chc chươ ươ ng trình cng trình cầần dùng.n dùng

Tóm tTóm tắắtt đđa va văăn bn bảảnn đượ đượ c xácc xác địđịnh là mnh là mộột bài toán cót bài toán có độđộ ph phứức tc tạạ p cao, ngoài p cao, ngoàinh

nhữững thách thng thách thứứcc đđãã đượ đượ c bic biếếtt đếđếnn đốđối vi vớ ớ i tóm ti tóm tắắtt đơ đơ n vn văăn bn bảản nhn nhưư s sựự cô cô đọđọng cng củủaathông tin và m

thông tin và mạạch lch lạạc vc vềề n nộội dung, tóm ti dung, tóm tắắtt đđa va văăn bn bảản còn có nhn còn có nhữững thách thng thách thứức nhc nhưư  ccầần n phphảải xáci xác địđịnh nhnh nhữững thông tin trùng lng thông tin trùng lặặ p  p gigiữữa các va các văăn n bbảản, xácn, xác địđịnh thông tinnh thông tinquan tr 

quan tr ọọng trong nhing trong nhiềều u vvăăn n bbảản hay vin hay việệc c ssắắ p  p xxếế p  p các các thông thông tin tin trong trong vvăăn n bbảản tómn tómttắắt.t

 Mi ềền d ữ  li ệệu: d: dựựa vào mia vào miềền cn củủa da dữữ li liệệu nhu nhưư c cụụ th thểể v vềề m mộột lt l ĩ  ĩ nh vnh vựực nàoc nào đđó,ó,

ví ddụụ   nhnhưư: : y y ttếế, giáo d, giáo dụục… hay là mic… hay là miềền n ddữữ   liliệệu u ttổổng quát, có thng quát, có thểể chia tóm t chia tóm tắắt rat rathành t

thành từừng long loạại ti tươ ươ ngng ứứng.ng

    Tóm tTóm tắắt trên ct trên cơ ơ   ssở ở   mmụụcc đđíchích  ththựực c chchấất là làm rõ cách tóm tt là làm rõ cách tóm tắắt, t, mmụụcc đđíchíchtóm t

tóm tắắt là gì, tóm tt là gì, tóm tắắt pht phụục vc vụụ  đốđối ti tượ ượ ng nào ng nào

chỉỉ ra n ra nộội dung ci dung củủa thông tin.a thông tin

Tóm t ắắt trên cơ  sở  truy vấ n (Query-based)

Tóm tTóm tắắt trên ct trên cơ ơ  s sở ở  truy v truy vấấn thì nn thì nộội dung ci dung củủa a vvăăn bn bảản tóm tn tóm tắắt st sẽẽ d dựựa trên truya trên truyvvấấn n ccủủa a ngngườ ườ i dùng hay chi dùng hay chươ ươ ng trìnhng trình đưđưa vào, loa vào, loạại tóm ti tóm tắắt này tht này thườ ườ ngng đượ đượ c c ssửử  ddụụng trong quá trình tóm tng trong quá trình tóm tắắt các k t các k ếết qut quảả tr  tr ảả v vềề t từừ máy tìm ki máy tìm kiếếm.m

Tóm t ắắt chung (General).  

Tóm tTóm tắắt general mt general mụụcc đđích chính là tìm ra mích chính là tìm ra mộộtt đđooạạn tóm tn tóm tắắt cho toàn bt cho toàn bộộ  vvăănn

 bảản mà nn mà nộội dung ci dung củủaa đđooạạn vn văăn bn bảản sn sẽẽ bao quát toàn b bao quát toàn bộộ n nộội dung ci dung củủa va văăn bn bảảnn đđó.ó

Trang 17

Tóm tTóm tắắt trên ct trên cơ ơ  s sở ở   đầđầu ra cu ra cũũng có nhing có nhiềều cách phân lou cách phân loạại.i.

 Dự a vào ngôn ng ữ ữ : Tóm t: Tóm tắắt ct cũũng có thng có thểể phân lo phân loạại di dựựa vào kha vào khảả n năăng tóm tng tóm tắắttcác lo

các loạại ngôn ngi ngôn ngữữ::

 Dự a vào đị nh d ạạngđầu ra của k ế t quảả tóm t ắắt  nh nhưư: : bbảảng,ng, đđooạạn, tn, từừ khóa. khóa

    Ngoài hai cách phân loNgoài hai cách phân loạại trên,i trên, phân lo phân loạại tóm ti tóm tắắt trên ct trên cở ở  s sở ở   đầđầu ra còn cóu ra còn cóm

mộột cách phân lot cách phân loạạii đượ đượ c c ssửử  ddụụng phng phổổ  bibiếến là: tóm tn là: tóm tắắt theo trích xut theo trích xuấất (Extract) vàt (Extract) vàtóm t

tóm tắắt theo tóm lt theo tóm lượ ượ c (Abstract).c (Abstract)

•• Tóm t ắắt theo trích xuấ t : là tóm t: là tóm tắắt có k t có k ếết t ququảả  đầđầu ra là mu ra là mộột tóm tt tóm tắắt baot baoggồồm toàn bm toàn bộộ các ph các phầần quan tr n quan tr ọọngng đượ đượ c trích ra tc trích ra từừ v văăn bn bảảnn đầđầu vào.u vào

•• Tóm t ắắt theo tóm l ượ cc: là tóm t: là tóm tắắt có k t có k ếết qut quảả  đầđầu ra là mu ra là mộột tóm tt tóm tắắt khôngt khônggi

giữữ nguyên l nguyên lạại các thành phi các thành phầần cn củủa va văăn bn bảảnn đầđầu vào mà du vào mà dựựa vào thông tin quan tr a vào thông tin quan tr ọọngngđể

để vi viếết lt lạại mi mộột vt văăn bn bảản tóm tn tóm tắắt mt mớ ớ i.i

Hiệện nay, các hn nay, các hệệ th thốống sng sửử d dụụng tóm tng tóm tắắt theo trích xut theo trích xuấấtt đượ đượ c sc sửử d dụụng phng phổổ bi biếếnn

chưưa có ma có mộột ht hệệ th thốống tóm tng tóm tắắt theo tóm lt theo tóm lượ ượ cc đạđạtt đếđến sn sựự hoàn thi hoàn thiệện, các hn, các hệệ th thốống tómng tóm

Trang 18

ttắắt theo tóm lt theo tóm lượ ượ c c hihiệện nay thn nay thườ ườ ng ng ddựựa vào thành pha vào thành phầần trích xun trích xuấất có st có sẵẵn Các hn Các hệệ  th

thốống này thng này thườ ườ ngng đượ đượ c bic biếếtt đếđến vn vớ ớ i tên gi tên gọọi tóm ti tóm tắắt theo nén vt theo nén văăn bn bảản.n

Tóm tTóm tắắt theo nén vt theo nén văăn n bbảản (Text Compaction): là lon (Text Compaction): là loạại tóm ti tóm tắắt t ssửử   ddụụng cácng các

 phươ ươ ng pháp cng pháp cắắt xén(truncates) hay vit xén(truncates) hay viếết gt gọọn(abbreviates)n(abbreviates) đốđối vi vớ ớ i các thông tin quani các thông tin quan

tr 

tr ọọng sau khing sau khi đđãã đượ đượ c trích xuc trích xuấất.t

Hình 2 mô tHình 2 mô tảả  mmộột t hhệệ  ththốống tóm tng tóm tắắt t vvớ ớ i i mmộột t ssốố  kikiểểu tóm tu tóm tắắt và nhit và nhiềều u ttỉỉ  llệệ  tóm t

tóm tắắt khác nhau.t khác nhau ĐầĐầu vào cu vào củủa ha hệệ th thốống có thng có thểể là m là mộột vt văăn bn bảản, nhin, nhiềều vu văăn bn bảản, hon, hoặặcctruy v

truy vấấn Kin Kiểểu tóm tu tóm tắắt có tht có thểể  là trích rút, tr   là trích rút, tr ừừu u ttượ ượ ng, tóm tng, tóm tắắt truy vt truy vấấn, tóm tn, tóm tắắttchung, v

chung, vớ ớ i nhii nhiềều tu tỉỉ l lệệ khác nhau khác nhau đểđể cho ra cho ra đượ đượ c k c k ếết qut quảả tóm t tóm tắắt theo yêu ct theo yêu cầầu ngu ngườ ườ iidùng ho

dùng hoặặcc ứứng dng dụụng cng cụụ th thểể

 Hình 2 Mô hình tóm t  Hình 2 Mô hình tóm t ắ ắ t vt vớ ớ i các kii các kiể ể u tóm t u tóm t ắ ắ t và các t t và các t ỉ ỉ  l  l ệệ tóm t  tóm t ắ ắ t khác nhaut khác nhau

1.3

1.3 ĐặĐặcc đđiiểểm chung cm chung củủa các va các văăn bn bảản tóm tn tóm tắắtt

Tóm tTóm tắắt vt văăn bn bảản có thn có thểể coi là vi coi là việệc trình bày lc trình bày lạại ni nộội dung ci dung củủa va văăn bn bảản, lon, loạại bi bỏỏ  các thông tin không c

các thông tin không cầần thin thiếết theo mt theo mụụcc đđíchích đđãã địđịnh Nhnh Nhưư v vậậy, vy, văăn bn bảản tóm tn tóm tắắt baot baogi

giờ ờ  c cũũng ngng ngắắn hn hơ ơ n vn văăn bn bảản gn gốốc, trong tóm tc, trong tóm tắắt vt văăn bn bảản, vin, việệc lc lựựa cha chọọn thông tin nàon thông tin nàođể

để  đưđưa vào va vào văăn bn bảản tóm tn tóm tắắt tùy thut tùy thuộộc vào mc vào mụụcc đđích cích củủa nga ngườ ườ i tóm ti tóm tắắt, tuy nhiên tt, tuy nhiên tấấttccảả các v các văăn bn bảản tóm tn tóm tắắtt đềđều có nhu có nhữữngng đặđặcc đđiiểểm chung sau:m chung sau:

Trang 19

GiGiảảm nm nộội dung thông tini dung thông tin: L: Lượ ượ ng thông tin cng thông tin củủa va văăn bn bảản tóm tn tóm tắắt pht phảải ít hi ít hơ ơ nn

mong muốốn (cn (căăn cn cứứ vào t vào tỷỷ l lệệ trích xu trích xuấất hay tt hay tỷỷ l lệệ nén). nén)

    N  N ộội dung thông tin:i dung thông tin:

o    PhPhảải trung thi trung thựực hoc hoặặc tc tươ ươ ngng đươ đươ ng vng vớ ớ i vi văăn bn bảản gn gốốc.c

o    PhPhảải liên quan, phù hi liên quan, phù hợ ợ  p v p vớ ớ i yêu ci yêu cầầu ngu ngườ ườ i dùng.i dùng

Tóm tắắt vt văăn bn bảản trên cn trên cơ ơ  s sở ở  truy v truy vấấn chính là vin chính là việệc tìm ra nc tìm ra nộội dung ci dung củủa va văăn bn bảảnntóm t

tóm tắắt t ddựựa trên câu truy va trên câu truy vấấn n ccủủa a ngngườ ườ i dùng hay chi dùng hay chươ ươ ng trìnhng trình đưđưa vào Loa vào Loạại tómi tómttắắt này tht này thườ ườ ngng đượ đượ c c ssửử  ddụụng trong quá trình tóm tng trong quá trình tóm tắắt các k t các k ếết qut quảả t tr r ảả v vềề  ttừừ máy tìm máy tìmki

kiếếm.m

Khi máy tìm kiKhi máy tìm kiếếm tr m tr ảả v vềề cho ng cho ngườ ườ i dùng mi dùng mộột danh sách các tài lit danh sách các tài liệệu liên quan,u liên quan,hhọọ  phphảải duyi duyệệt qua nt qua nộội dung ci dung củủa toàn ba toàn bộộ các v các văăn n bbảảnn đểđể tìm tìm đượ đượ c thông tin mongc thông tin mongmu

muốốn K n K ỹỹ  thuthuậật tóm tt tóm tắắt t hhướ ướ ng truy vng truy vấấn n ccốố  ggắắng ging giảảm bm bớ ớ t gánh nt gánh nặặng ng ccủủa a ngngườ ườ i i ssửử  ddụụng bng bằằng cáchng cách đưđưa ra na ra nộội dung côi dung cô đọđọng hng hơ ơ n liên quan tr n liên quan tr ựực tic tiếế p p đếđến câu truy vn câu truy vấấn.n.Các nghiên c

Các nghiên cứứu u vvềề tóm t tóm tắắt t hhướ ướ ng truy vng truy vấấn n hhầầu u hhếếtt đềđều u ttậậ p  p trung trung vào vào vvấấnn đềđề  tính

tính độđộ t tươ ươ ngng đồđồng ngng ngữữ  nghngh ĩ  ĩ a a ccủủa các câu trong va các câu trong văăn bn bảản n vvớ ớ i câu truy vi câu truy vấấnn đầđầu vàou vào

Trang 20

mộột t ssốố  địđịa a chchỉỉ tìm ki tìm kiếếm m nnổổi i titiếếng nhng nhưư Google, Altavista,  Google, Altavista, đềđềuu đđãã ứứng ng ddụụng ng r r ấất t ttốốttTTVB vào h

thươ ươ ng mng mạại này, bi này, bằằng cách cung cng cách cung cấấ p cho khách hàng nh p cho khách hàng nhữững thông tinng thông tin đượ đượ c xuc xuấất bt bảảnntrong ngày có n

trong ngày có nộội dung liên quani dung liên quan đếđến mn mộột lt l ĩ  ĩ nh vnh vựựcc đượ đượ c “c “đặđặt hàng” tr t hàng” tr ướ ướ c nàoc nào đđó.ó

tiểểu su sửử 500 t 500 từừ v vềề ch chủủ t tịịch Hch Hồồ Chí Minh; …. Chí Minh; …

Trang 21

- Nh

- Nhưư v vậậy, tóm ty, tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấn có thn có thểể  ứứng dng dụụng vào r ng vào r ấất nhit nhiềều lu l ĩ  ĩ nhnhvvựực trongc trong đờ đờ i si sốống xã hng xã hộội, tuy nhiên chúng ta có thi, tuy nhiên chúng ta có thểể th thấấy nóy nó đặđặc bic biệệt t hihiệệu quu quảả  ở ở  2 2m

mảảng chính là:ng chính là:

Tốốii ưưu hóa k u hóa k ếết qut quảả tr  tr ảả l lạại trong search engine.i trong search engine

•    Tham gia nhTham gia nhưư m mộột module trong các ht module trong các hệệ th thốống hng hỏỏii đđáp táp tựự  độđộng (QA).ng (QA)

1.6 Các tiêu chí1.6 Các tiêu chí đđánh giá hánh giá hệệ th thốống tóm tng tóm tắắt vt văăn bn bảản hn hướ ướ ng truy vng truy vấấnnVi

Việệcc đđánh giá k ánh giá k ếết t ququảả tóm t tóm tắắt t vvăăn n bbảản là mn là mộột t viviệệc khó khc khó khăăn trong thn trong thờ ờ ii đđiiểểmmhi

hiệện n ttạại Vii Việệc c ssửử  ddụụng ý king ý kiếếnn đđánh giá cánh giá củủa các chuyên gia ngôn nga các chuyên gia ngôn ngữữ  đượ đượ c xem làc xem làcách

cách đđánh giá tánh giá tốốt t nhnhấất, tuy nhiên cách làm này lt, tuy nhiên cách làm này lạại i ttốốn n r r ấất nhit nhiềều chi phí Bên cu chi phí Bên cạạnhnhcác ph

các phươ ươ ng phápng pháp đđánh giá thánh giá thủủ công do các chuyên gia th công do các chuyên gia thựực hic hiệện, vn, vấấnn đềđề  đđánh giá tánh giá tựự  độ

động k ng k ếết qut quảả tóm t tóm tắắt ct cũũng nhng nhậậnn đượ đượ c nhic nhiềều su sựự quan tâm hi quan tâm hiệện nay Tn nay Từừ n năăm 2000, hm 2000, hộộiingh

nghịị DUC DUC đđãã đượ đượ c tc tổổ ch chứức mc mỗỗi ni năăm mm mộột lt lầầnn đểđể th thựực hic hiệện vin việệcc đđánh giá vánh giá vớ ớ i quy môi quy môllớ ớ n các hn các hệệ th thốống tóm tng tóm tắắt vt văăn bn bảản Vin Việệcc đđánh giá tánh giá tựự  độđộng này nhng này nhằằm mm mụụcc đđích là tìmích là tìmra

ra đượ đượ c mc mộộtt độđộ  đđoo đđánh giá tóm tánh giá tóm tắắt gt gầần vn vớ ớ i nhi nhữữngng đđánh giá cánh giá củủa con nga con ngườ ườ i nhi nhấất.t.Độ

Độ bao ph bao phủủ (recall) (recall)  vàvà độđộ chính xác (precision) chính xác (precision) là 2 là 2 độđộ  đđo o ccơ ơ   bbảản n nhnhấấtt đểđể  đđánh giá hiánh giá hiệệu nu năăng cng củủa ha hệệ th thốống truy vng truy vấấn dn dữữ li liệệu [1][3][4].u [1][3][4]

CCảả  độđộ bao ph bao phủủ và và độđộ chính xác chính xác đềđều liên quanu liên quan đếđến hin hiệệu quu quảả tìm ki tìm kiếếm.m ĐốĐối vi vớ ớ iicâu truy v

câu truy vấấn, có thn, có thểể tính tính đượ đượ cc độđộ chính xác và chính xác và độđộ bao ph bao phủủ c củủa ta tậậ p k  p k ếết qut quảả  đượ đượ c lc lưưuu

Trang 22

Vớ ớ ii đềđề tài này, chúng tôi s tài này, chúng tôi sửử d dụụng phng phươ ươ ng pháp tínhng pháp tính độđộ chính xác d chính xác dựựa trên 11a trên 11đđiiểểm chum chuẩẩn cn củủaa độđộ bao ph bao phủủ b bở ở i vì phi vì phươ ươ ng pháp này kháng pháp này khá đơ đơ n gin giảản, dn, dễễ th thựực hic hiệện tínhn tínhtoán,

toán, đđo vào và đđánh giá.ánh giá

Độ chính xác là t chính xác là tỷỷ l lệệ gi giữữa các câu liên quana các câu liên quan đượ đượ c tr c tr ảả v vềề trên t trên tổổng sng sốố câu câu đượ đượ cc

tr ảả  vvềề Nh Nhưư  vvậậyy độđộ chính xác cho bi chính xác cho biếết t khkhảả  nnăăng cng củủa a hhệệ  ththốống tìmng tìm đượ đượ c c nhnhữững câung câuchính xác

thốống cho truy vng cho truy vấấnn

Tậậ p các  p các câu có câu có liên liên quanquanđế

đến truy vn truy vấấnn

TTậậ p  p các các câu câu tr tr ảả   vvềề  có liên quan  có liên quanđế

đến truy vn truy vấấnn

Trang 23

(Ri), độđộ chính xác (Pi) c chính xác (Pi) cụụ th thểể [3]. [3].

hiệệu suu suấất tht thựực thi cc thi củủa ha hệệ th thốống.ng Đườ Đườ ng cong có dng cong có dạạng:ng:

 Hình 3 Đồ Đồ th thịị bi biể ể u diu diễ ễ n hin hiệệu suu suấ ấ t tht thự ự c thi cc thi củủa 1 ha 1 hệệ th thố ố ng truy vng truy vấ ấ nn

Trang 24

 Nói  Nói cách cách khác, khác, khi ckhi cho hho hệệ t thhốống thng thựực thi mc thi mộột câu truy vt câu truy vấấn mà ta tn mà ta tăăng ng ssốố câu câu

Cơ ơ   ssở ở  tính b tính bảảng giá tr ng giá tr ịị cho cho đườ đườ ng cong RP dng cong RP dựựa vào ba vào bảảng liên quan lý thuyng liên quan lý thuyếếtt

và danh sách các câu liên quan

và danh sách các câu liên quan đđãã đượ đượ c c ssắắ p  p ththứứ  ttựự  do do hhệệ  ththốống tr ng tr ảả  vvềề (còn g (còn gọọi lài là b

 bảảng liên quan thng liên quan thựực tc tếế)[3].)[3]

ViViệệcc đđánh giá hánh giá hệệ th thốống truy vng truy vấấn thông tin dn thông tin dựựa vào via vào việệc tic tiếến hành kin hành kiểểm tra 2 hm tra 2 hệệ  th

thốống cùng vng cùng vớ ớ i 1 vi 1 văăn bn bảản mn mẫẫu và mu và mộột tt tậậ p câu truy v p câu truy vấấn mn mẫẫu Giu Giảả s sửử  đồđồ th thịị bi biểểu diu diễễnnhi

hiệệu suu suấất ct củủa 2 ha 2 hệệ th thốống nhng nhưư sau: sau:

 Hình 4 Hình 4 Đồ Đồ th thịị bi biể ể u diu diễ ễ n hin hiệệu suu suấ ấ t tht thự ự c thi cc thi củủa 2 ha 2 hệệ th thố ố ng truy vng truy vấ ấ nn

 Nhìn vào Nhìn vào đồđồ th thịị ta th ta thấấy:y:

   Đườ Đườ ng cong A bing cong A biểểu diu diễễn hin hiệệu suu suấất tht thựực thi cc thi củủa ha hệệ th thốống Ang A    Đườ Đườ ng cong B bing cong B biểểu diu diễễn hin hiệệu suu suấất tht thựực thi cc thi củủa ha hệệ th thốống Bng B    DoDo đườ đườ ng A nng A nằằm phía trênm phía trên đườ đườ ng B nên hing B nên hiệệu suu suấất ct củủa ha hệệ th thốống A lng A lớ ớ nnhhơ ơ n hn hệệ th thốống B.ng B

Trang 25

 Nh Nhưư v vậậy,y, đườ đườ ng cong năo căng gng cong năo căng gầần vn vềề phía góc trín bín ph phía góc trín bín phảải ci củủa ha hệệ tr  tr ụục tc tọọaađộ

độ (có ngh (có ngh ĩ  ĩ a lăa lă độđộ chính xâc vă chính xâc vă độđộ bao ph bao phủủ l lớ ớ n nhn nhấất) thìt) thì đđó chính lẳ chính lă đườ đườ ng congng cong bi

 biểểu diu diễễn hin hiệệu suu suấất tht thựực thi tc thi tốốt nht nhấất.t

 Vớ ớ i câch bii câch biểểu diu diễễn trínn trín đồđồ th thịị nh nhưư v vậậy ta có thy ta có thểể  đđânh giâ nhiânh giâ nhiềều hu hệệ th thốống hong hoặặccđđânh giâ mânh giâ mộột ht hệệ th thốống trong nhng trong nhữữngng đđiiềều kiu kiệện thn thựực thi khâc nhau.c thi khâc nhau

1.7 Nh1.7 Nhữ ữ ng thâch thng thâch thứ ứ c c ggặặp p phphảảii đốđối i vvớ ớ i băi toân tóm ti băi toân tóm tắắt t vvăăn n bbảản n titiếếng Ving Việệtth

hướ ướ ng truy vng truy vấấnnTi

Tiếếng Ving Việệt lă tit lă tiếếng qung quốốc ngc ngữữ c củủa Via Việệt Nam, dot Nam, do đặđặcc đđiiểểm lm lịịch sch sửử  mă ti  mă tiếếng Ving Việệttssửử   ddụụng hing hiệện nayn nay đượ đượ c vay mc vay mượ ượ n n ttừừ   nhinhiềều u ththứứ   titiếếng khâc nhau nhng khâc nhau nhưư   titiếếng Phâp,ng Phâp,ti

tiếếng Hân,… nhng Hân,… nhưưng chng chủủ  yyếếu lă tu lă từừ đm ti đm tiếếng Hân vă nghng Hân vă ngh ĩ  ĩ a a titiếếng Hân (trín 70% đmng Hân (trín 70% đm

tiếếng Ving Việệt lă đm Hân Vit lă đm Hân Việệt) Dot) Do đđó, tió, tiếếng Ving Việệt có mt có mộột st sốố câc câcđặđặcc đđiiểểm gđy khó khm gđy khó khăănncho vi

cho việệc c gigiảải quyi quyếết băi toân tóm tt băi toân tóm tắắt t vvăăn n bbảản nói chung vă tóm tn nói chung vă tóm tắắt t hhướ ướ ng truy vng truy vấấnnnói riíng nh

nói riíng nhưư sau: sau:

    Đm  Đm titiế ế t t : : TiTiếếng Ving Việệt lă ngôn ngt lă ngôn ngữữ   đơ đơ n đm tin đm tiếết t gigiốống nhng nhưư   mmộột t ssốố  ngôn ng  ngôn ngữữ  Chđu  khâc: ti

Chđu  khâc: tiếếng Nhng Nhậật, tit, tiếếng Trung, ting Trung, tiếếng Hăn Tng Hăn Từừ trong ti trong tiếếng Ving Việệt khôngt không đượ đượ ccxâc

xâc địđịnh dnh dựựa trín da trín dấấu câch Bu câch Bở ở i thi thếế, ti, tiếếng Ving Việệt tt tươ ươ ngng đốđối khó khi khó khăăn trong vin trong việệc tâchc tâchttừừ Ví d Ví dụụ::

 Nếếu xem xĩtu xem xĩt ở ở  khía c khía cạạnh nh ccụục c bbộộ, , mmộột cđu r t cđu r ấất khó kht khó khăăn cho vin cho việệc c hihiểểu vă xu vă xửử  lý

   T T ừ ừ    đồđồng nghng nghĩ ĩ aa: : VVớ ớ i băi toân tóm ti băi toân tóm tắắt t vvăăn n bbảản thì tn thì từừ   đồđồng nghng ngh ĩ  ĩ a có ma có mộột t ýýngh

ngh ĩ  ĩ a khâ quan tr a khâ quan tr ọọng ng bbở ở i trong câc cđu,i trong câc cđu, đđooạạn n vvăăn n bbảản có câc tn có câc từừ  đồđồng nghng ngh ĩ  ĩ a a hohoặặcc

Trang 26

ggầần nghn ngh ĩ  ĩ a nhau, via nhau, việệc c ssửử d dụụng tng từừ  đồđồng nghng ngh ĩ  ĩ a sa sẽẽ làm nâng cao tính chính xác khi so làm nâng cao tính chính xác khi sosánh v

sánh vềề  độđộ t tươ ươ ngng đồđồng ngng ngữữ ngh ngh ĩ  ĩ a gia giữữa cáca các đơ đơ n vn vịị v văăn bn bảản.n

 Ngoài  Ngoài ra, ra, có có nhnhữững ng ttừừ   vvẫẫn mang âm tin mang âm tiếếng Hán, dong Hán, do đđó ó phphảải i gigiảải nghi ngh ĩ  ĩ a theoa theo

thờ ờ i gian :i gian : đđã , r ã , r ồồi, si, sẽẽ,…,…

   Các t Các t ừ ừ  láy: láy: Trong ti Trong tiếếng Ving Việệt còn có các tính tt còn có các tính từừ láy v láy vớ ớ i i mmụụcc đđích làm giích làm giảảmmhay nh

hay nhấấn mn mạạnh nnh nộội dung câu.i dung câu

hướ ướ ng truy vng truy vấấnn

1.8.1 Phát bi ể u bài toán

1.8.2 Đề xuấ t hướ ng gi ảải quyế tt

Trang 27

đđooạạn, trong mn, trong mộộtt đđooạạn ln lạại gi gồồm nhim nhiềều cđu vă mu cđu vă mỗỗi cđu có thi cđu có thểể  đượ đượ c xem nhc xem nhưư m mộột chut chuỗỗiicâc t

câc từừ mang thông tin c mang thông tin cầần thin thiếết nín tt nín từừ  đượ đượ c xem lăc xem lă đơ đơ n n vvịị  ththấấ p  p nhnhấất t vvềề  mmặặt t ngngữữ  ngh

ngh ĩ  ĩ a khi xĩt cho ma khi xĩt cho mộột vt văăn bn bảản Don Do đđó,ó, đểđể có th có thểể th thựực hic hiệện vin việệc tóm tc tóm tắắt thì vit thì việệcc đầđầuutiín c

tiín cầần lămn lăm đđó lẳ lă tâch cđu, tâch t tâch cđu, tâch t ừ ừ  c củủa va văăn bn bảản.n

Trong mTrong mộột t vvăăn n bbảản thì bín cn thì bín cạạnh nhnh nhữững ng ttừừ mang nhi mang nhiềều thông tin, ý nghu thông tin, ý ngh ĩ  ĩ a choa chovvăăn bn bảản cn cũũng có nhng có nhữững tng từừ xu xuấất hit hiệện nhin nhiềều nhu nhưưng lng lạại không có ý nghi không có ý ngh ĩ  ĩ a nhia nhiềềuu đốđối vi vớ ớ iivvăăn n bbảản n –– đượ đượ c c ggọọi lă ti lă từừ  ddừừng vă chính sng vă chính sựự t tồồn n ttạại ci củủa a ttừừ  ddừừng có thng có thểể lăm cho quâ lăm cho quâtrình x

trình xửử lý vă tóm t lý vă tóm tắắt vt văăn bn bảản tr n tr ở ở  lín ph lín phứức tc tạạ p h p hơ ơ n Vì vn Vì vậậy,y, đểđể trânh gđy nhi trânh gđy nhiễễu du dữữ  li

liệệu thì sau khi thu thì sau khi thựực hic hiệện tâch tn tâch từừ, chúng tôi s, chúng tôi sẽẽ ti tiếến hănh vin hănh việệcc loloạại bi bỏỏ câc t  câc t ừ ừ  d  d ừ ừ ng ng  rakh

khỏỏi i vvăăn n bbảảnn đểđể trânh cho h trânh cho hệệ  ththốốngng đđânh giâ nhânh giâ nhầầm m mmứứcc độđộ quan tr  quan tr ọọng ng ccủủa chúnga chúngddựựa văo ta văo tầần sun suấất xut xuấất hit hiệện.n

Sau bSau bướ ướ c c loloạại i bbỏỏ   ttừừ   ddừừng tang ta đđê thuê thu đượ đượ c danh sâch câc tc danh sâch câc từừ  mang nhi  mang nhiềều u nnộộiidung, ý ngh

dung, ý ngh ĩ  ĩ a cho va cho văăn bn bảản Nhn Nhưưngng đểđể ti tiếến hănhn hănh đđânh giâânh giâ độđộ quan tr  quan tr ọọng cng củủa ma mỗỗi ti từừ  trong v

trong văăn bn bảản n ddựựa văo ta văo tầần n susuấất xut xuấất t hihiệện cn củủa chúng thì ca chúng thì cầần n phphảảii x xử ử  lý câc t  lý câc t ừ ừ   đồđồngngngh

nghĩ ĩ aa vì trong ti vì trong tiếếng Ving Việệt, st, sốố l lượ ượ ng tng từừ  đồđồng nghng ngh ĩ  ĩ a r a r ấất nhit nhiềều vă nu vă nếếu xu xửử lý lý đượ đượ c câc tc câc từừ  đồ

đồng nghng ngh ĩ  ĩ a thì via thì việệc tính toân tr c tính toân tr ở ở  lín d lín dễễ dăng vă chính xâc h dăng vă chính xâc hơ ơ n r n r ấất nhit nhiềều.u

 Nh Nhưư v vậậy, ty, tạại bi bướ ướ c tic tiềền xn xửử lý năy ta l lý năy ta lầần ln lượ ượ t tht thựực hic hiệện câc công vin câc công việệc sau:c sau:

   Tâch cđu    Tâch tTâch từừ      LoLoạại bi bỏỏ t từừ d dừừngng    XXửử lý câc t lý câc từừ  đồđồng nghng ngh ĩ  ĩ aa    BiBiểểu diu diễễn vn văăn bn bảản theo mô hình không gian vectorn theo mô hình không gian vector

Trang 28

   TínhTính độđộ t tươ ươ ngng đồđồng ging giữữa câu trong va câu trong văăn bn bảản vn vớ ớ i câu truy vi câu truy vấấnn    TínhTính độđộ t tươ ươ ngng đồđồng vng vềề v vịị trí t trí từừ gi giữữa câu trong va câu trong văăn bn bảản vn vớ ớ i câu truy vi câu truy vấấnn    Tính tr Tính tr ọọng sng sốố cho toàn b cho toàn bộộ câu câu

BBướ ướ c 3:c 3:  Trích rút, t ạạo văăn bảản tóm t ắắt:  

CCăăn cn cứứ vào giá tr  vào giá tr ịị tính toán tr  tính toán tr ọọng sng sốố cho toàn b cho toàn bộộ câu và t câu và tỷỷ l lệệ tóm t tóm tắắt Xt X đđã xácã xácđị

định tnh từừ tr  tr ướ ướ c mà chc mà chọọn nhn nhữững câu cóng câu có độđộ t tươ ươ ngng đồđồng cao thng cao thỏỏa mãna mãn đểđể t tạạo thành vo thành văănn b

 bảản tóm tn tóm tắắt.t

1.8.3 Mô hình tóm t ắắt văăn bảản ti ế ng Vi ệệt hướ ng truy vấ n

TTừừ nh nhữững nghiên cng nghiên cứứuu đđãã đượ đượ c nêuc nêu ở ở  m mụục trên, chúng tôic trên, chúng tôi đưđưa ra mô hình tóma ra mô hình tómttắắt vt văăn bn bảản tin tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn nhn nhưư sau: sau:

 Hình 5: Mô hình x Hình 5: Mô hình xử ử  lý bài toán tóm t  lý bài toán tóm t ắ ắ t vt văăn bn bảản tin tiế ế ng Ving Việệt ht hướ ướ ng truy vng truy vấ ấ nn

VnTagger

+ Danh sách các t ừừ   

dd ng + Danh sách các t ừừ   

đồ ng ng ng nghh aa

T ỷỷ    ll ệệ    % % cc ầầ nn trích xu ấấ tt

+ + V V ăă n n bb ảả n n cc ầầ nn truy v ấấ nn

+ Câu truy v ấấ nn

Tách câu

+ Lo ạạ i b ỏỏ  t t ừừ  d ừừ ng +

+ X X ửử    lý lý tt ừừ    đồ ng ngh  ĩ  aa

Vector hóa các câu   

Tính tr  ọọ ng s ốố  cho toàn b ộộ  câu

S ắắ  p  p xx ếế  p  p k  k  ếế t t qu qu ảả    theo th ứứ   tt ựự   cc ủủ a giá

tr  ịị  tr  ọọ ng s ốố  câu

+ Tính độ    tt ươ  ng đồ ng gi ữữ a câu trong v ăă n b ảả n v ớ  i câu truy v ấấ nn + Tính độ    tt ươ  ng đồ ng ng vv ềề    vv ịị   trí t ừừ   

gi ữữ a câu trong v ăă n n bb ảả n n vv ớ  i câu truy

vv ấấ nn

K  ếế t qu ảả  tóm t ắắ tt

Tách t ừừ   

VnSentDetector 

Trang 29

1.9 T1.9 Tổổng k ng k ếết cht chươ ươ ng 1ng 1Trong ch

Trong chươ ươ ng này, lung này, luậận vn văănn đđã trình bày nhã trình bày nhữững khái ning khái niệệm cm cơ ơ  b bảản vn vềề tóm t tóm tắắt vt văănn b

 bảản tn tựự  độđộng, các dng, các dạạng bài toán tóm tng bài toán tóm tắắt vt văăn bn bảản và cn và cụụ th thểể là bài toán tóm t là bài toán tóm tắắt vt văăn bn bảảnn

tiếếng Ving Việệt ht hướ ướ ng truy vng truy vấấn Lun Luậận vn văăn cn cũũngng đđãã đưđưa raa ra đượ đượ c các tiêu chíc các tiêu chí đđánh giá choánh giá chom

mộột ht hệệ th thốống tóm tng tóm tắắt ht hướ ướ ng truy vng truy vấấn Chn Chỉỉ ra ra đượ đượ c nhc nhữững khó khng khó khăăn cn củủaa đềđề tài và tài và đềđề  xu

xuấất mt mộột ht hướ ướ ng ging giảải quyi quyếết cho bài toán,t cho bài toán, đồđồng thng thờ ờ i lui luậận vn văăn cn cũũngng đđãã đưđưa ra mô hìnha ra mô hìnhccụụ th thểể  đểđể gi giảải quyi quyếết bài toán vt bài toán vớ ớ i yêu ci yêu cầầuu đặđặt ra Cht ra Chươ ươ ng ting tiếế p theo  p theo luluậận vn văăn sn sẽẽ trình trình bày

 bày chi chi titiếết ht hơ ơ n n vvềề các k  các k ỹỹ  thuthuậậtt đểđể  gigiảải quyi quyếết bài toán tóm tt bài toán tóm tắắt t vvăăn bn bảản n hhướ ướ ng truyng truyvvấấn.n

Ngày đăng: 16/08/2020, 11:00

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w