Các phương pháp tóm tắt văn bản truyền thống thường dựa trên cáchtiếp cận trích rút câu.. Luận văn được chia thành 3 chương với các nội dung sau: Chương 1: Tổng quan về tóm tắt văn bản d
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG
NGUYỄN CẢNH TOÀN
NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN
PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS Nguyễn Thị Thu Hà
Trang 2THÁI NGUYÊN - 2013
Trang 3LỜI CẢM ƠN
Để hoàn tất một luận văn thạc sĩ yêu cầu sự tập trung, sự cố gắng vàđộc lập nghiên cứu Bản thân tôi sau những năm tháng học tập vất vả vànghiên cứu cũng đã cố gắng để hoàn thành được luận văn này Tôi luôn ghinhận những sự đóng góp giúp đỡ nhiệt tình của những người bên cạnh mình,
sự ủng hộ, sự hỗ trợ của bố mẹ bạn bè giúp tôi có thêm động lực để hoànthành khóa luận tốt nghiệp, nhân đây tôi muốn gửi lời cảm ơn nhất tới họ
Lời cảm ơn trân trọng đầu tiên tôi muốn dành tới TS Nguyễn Thị Thu
Hà, đã hướng dẫn tôi trong suốt quá trình làm luận văn, nhờ sự định hướngcủa cô giúp tôi tự tin nghiên cứu những vấn đề mới và giải quyết bài toán mộtcách khoa học
Tôi xin trân trọng cảm ơn Ban giám hiệu trường đại học công nghệthông tin, Đại học Thái nguyên, khoa CNTT đã tạo các điều kiện cho chúngtôi được học tập và làm khóa luận một cách thuận lợi
Lời cảm ơn sâu sắc muốn được gửi tới các thầy cô giáo đã dạy dỗ và
mở ra cho chúng tôi thấy chân trời tri thức mới, hướng dẫn chúng tôi cáchkhám phá và làm chủ công nghệ mới
Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CHK10D-KHMT
đã cùng tôi đi qua những tháng ngày miệt mài học tập, cùng chia sẻ nhữngniềm vui nỗi buồn, động viên tôi đi qua những khó khăn, để tôi vững bướcvượt qua những vất vả, quyết tâm hoàn thành luận văn này
Tôi xin trân trọng cảm ơn bố mẹ, người đã mang tới tất cả niềm tin,định hướng và theo dõi tôi suốt chặng đường đời Nâng đỡ tôi và đến bên tôinhững giây phút khó khăn nhất của cuộc sống
Tuy nhiên do thời gian có hạn, mặc dù đã nỗ lực cố gắng hết mìnhnhưng chắc rằng luận văn khó tránh khỏi những thiếu sót Rất mong được sựchỉ bảo, góp ý tận tình của Quý thầy cô và các bạn
Trang 4MỤC LỤC
LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC TỪ VIẾT TẮT iv
DANH MỤC HÌNH VẼ v
DANH MỤC BẢNG BIỂU vi
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU 3
1.1 TỔNG QUAN BÀI TOÁN TÓM TẮT VĂN BẢN 3
1.1.1 TỔNG QUAN 3
1.1.2 MỘT SỐ PHƯƠNG PHÁP TÓM TẮT VĂN BẢN 7
1.2 TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU 13
1.2.1 KHÁI NIỆM RÚT GỌN CÂU 13
1.2.2 MỘT SỐ PHƯƠNG PHÁP RÚT GỌN CÂU 15
1.3 ĐÁNH GIÁ TÓM TẮT 16
1.3.1 ĐÁNH GIÁ THEO CÁCH THỦ CÔNG 16
1.3.2 PHƯƠNG PHÁP ĐÁNH GIÁ BLEU 16
1.3.3 PHƯƠNG PHÁP ĐÁNH GIÁ ROUGE 17
1.4 KẾT LUẬN CHƯƠNG 1 17
CHƯƠNG 2: PHƯƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 18
2.1 MÁY HỌC VÀ MÔ HÌNH N-GRAMS 18
2.1.1 KHÁI NIỆM MÁY HỌC 18
2.1.2 MÔ HÌNH N-GRAMS 19
2.2 ĐẶC ĐIỂM CỦA VĂN BẢN TIẾNG VIỆT 22
Trang 52.2.1 ĐẶC ĐIỂM NGỮ ÂM 22
2.2.2 ĐẶC ĐIỂM TỪ VỰNG 22
2.2.3 ĐẶC ĐIỂM NGỮ PHÁP 23
2.3 PHƯƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 24
2.3.1 GIỚI THIỆU 24
2.3.2 PHƯƠNG PHÁP BIỂU DIỄN VĂN BẢN 25
2.3.3 KỸ THUẬT GIẢM CHIỀU VECTOR BIỂU DIỄN TRONG VĂN BẢN TIẾNG VIỆT 30
2.3.4 PHƯƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 35
2.4 KẾT LUẬN CHƯƠNG 2 36
CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG RÚT GỌN CÂU DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 37
3.1 KIẾN TRÚC TỔNG QUÁT CỦA HỆ THỐNG 37
3.2 XÂY DỰNG TẬP DỮ LIỆU VÀ TẬP TỪ ĐIỂN DANH TỪ 38
3.2.1 XÂY DỰNG TẬP DỮ LIỆU 38
3.2.2 TIỀN XỬ LÝ VÀ CHUẨN HÓA DỮ LIỆU 38
3.2.3 XÂY DỰNG BỘ TỪ ĐIỂN DANH TỪ 39
3.3 MÔI TRƯỜNG CÀI ĐẶT 41
3.3.1 MÔI TRƯỜNG CÀI ĐẶT CỦA HỆ THỐNG 41
3.3.2 CƠ SỞ DỮ LIỆU CỦA HỆ THỐNG 41
3.3.3 MỘT SỐ GIAO DIỆN CHÍNH CỦA HỆ THỐNG 41
3.4 KẾT QUẢ THỰC NGHIỆM 44
KẾT LUẬN 46
TÀI LIỆU THAM KHẢO 47
Trang 7DANH MỤC TỪ VIẾT TẮT
Trang 8DANH MỤC HÌNH VẼ
Hình 1.1 Hệ thống tóm tắt trực tuyến Text compactor 4
Hình 1.2 Hệ thống tóm tắt ngoại tuyến 4
Hình 1.3 Cây cấu trúc tu từ 11
Hình 2.1 Mô hình không gian vector 26
Hình 2.2 Biểu diễn văn bản theo mô hình véc tơ 26
Hình 2.3 Biểu diễn văn bản theo mô hình Boolean 27
Hình 2.4 Ma trận biểu diễn văn bản 30
Hình 2.5 Ma trận ví dụ 31
Hình 2.6 Mô hình giảm chiều véc tơ 31
Hình 2.7 Quan hệ giữa văn bản và thuật ngữ 32
Hình 2.8 Một mô hình rút gọn đặc trưng văn bản 33
Hình 2.9 Mô hình đồ thị lưới 35
Hình 3.1 Sơ đồ chức năng hệ thống rút gọn câu tiếng Việt 37
Hình 3.2 Biểu đồ Use case tổng quát 38
Hình 3.3 Văn bản đã chuẩn hóa 39
Hình 3.4 Hệ thống vlsp 40
Hình 3.5 Cơ sở dữ liệu của hệ thống 41
Hình 3.6 Giao diện huấn luyện của hệ thống 42
Hình 3.7 Kết quả rút gọn câu 42
Hình 3.8 Cửa sổ chọn file 43
Hình 3.9 Chức năng quản lý từ điển 43
Trang 9DANH MỤC BẢNG BIỂU
Bảng 2.1 Mô tả tần suất từ 21
Bảng 2.2 Câu tương ứng 21
Bảng 2.3 Xác suất điều kiện 22
Bảng 3.1 Danh sách từ chủ đề trong kho ngữ liệu 40
Bảng 3.2 Bảng thực nghiệm 44
Trang 10MỞ ĐẦU
Thông tin đã đóng vai trò cực kỳ quan trọng trong xã hội hiện đại.Lượng lớn thông tin được tạo ra và đưa lên Internet hàng này mang lại chocon người những tiện ích tra cứu thông tin Các hệ thống tìm kiếm, tra cứuđược nghiên cứu, đề xuất và xây dựng thỏa mãn phần nào yêu cầu của ngườidùng đặt ra trong hiện tại Tuy nhiên, do số lượng thông tin quá nhiều, kết quảthường trả về hàng triệu tới hàng trăm triệu bản ghi tương đương với câu truyvấn mà người dùng nhập vào
Tóm tắt văn bản là kỹ thuật cho phép máy tính tự động tạo ra văn bảntóm tắt từ một hoặc nhiều văn bản gốc khác nhau Nhờ tính năng tóm tắt nộidung chính và tổng hợp nội dung quan trọng từ các văn bản gốc mà tóm tắtvăn bản là một trong những lĩnh vực được các nhà nghiên cứu quan tâm từnhững năm 60 của thế kỷ 20 và vẫn là chủ đề nóng của các diễn đàn, hội thảotrên thế giới
Các phương pháp tóm tắt văn bản truyền thống thường dựa trên cáchtiếp cận trích rút câu Có nghĩa, văn bản tóm tắt được tạo thành từ những câu
đã được lựa chọn từ trong văn bản gốc Do đó, về mặt ngữ nghĩa và nội dungcủa văn bản tóm tắt thường rời rạc, dẫn đến văn bản thiếu độ liền mạch
(coherence) và súc tích (concise).
Một số các phương pháp tóm tắt hiện đại thường đề cập tới vấn đề xử
lý ngôn ngữ tự nhiên để văn bản tóm tắt có độ ngôn ngữ (linguistic score) tốt,
đồng thời phản ánh liền mạch nội dung của văn bản gốc Một trong những kỹthuật đó là kỹ thuật rút gọn câu Với kỹ thuật rút gọn câu hiện nay, có sử dụng
cả hai kỹ thuật học giám sát và không giám sát Trong cách học giám sát, cáctác giả thường đề cập tới mô hình học thống kê và yêu cầu xây dựng kho dữliệu dùng cho huấn luyện tương đối tỉ mỉ theo cách thủ công Để xây dựngđược kho dữ liệu này, cần nhiều thời gian và công sức theo cách thủ công.Bên cạnh đó, các thuật toán trong các phương pháp rút gọn câu chủ yếu là tìm
Trang 11kiếm những câu rút gọn tương đương trong kho dữ liệu có sẵn, dẫn tới độphức tạp thuật toán cao
Trong khuôn khổ đề tài luận văn, tôi sử dụng cách tiếp cận rút gọn câudựa trên phương pháp học không giám sát để:
- Tiết kiệm tối đa chi phí khi xây dựng kho ngữ liệu thủ công
- Giảm độ phức tạp tính toán về mặt thời gian
Luận văn được chia thành 3 chương với các nội dung sau:
Chương 1: Tổng quan về tóm tắt văn bản dựa trên cách tiếp cận rút gọn câu
Chương 2: Phương pháp rút gọn câu dựa trên phương pháp học không giám sát
Chương 3: Xây dựng ứng dụng rút gọn câu dựa trên phương pháp học không giám sát
Trang 12Chương 1:
TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU
Trong chương này, tôi trình bày các khái niệm, định nghĩa cơ bản vềtóm tắt văn bản, tổng quan về các phương pháp tóm tắt văn bản Các cách tiếpcận và phương pháp đánh giá của tóm tắt
1.1 Tổng quan bài toán tóm tắt văn bản
1.1.1 Tổng quan
1.1.1.1 Khái niệm
Sự gia tăng nhanh chóng của dữ liệu trên Internet đã mang lại chongười dùng những tiện ích to lớn Tra cứu, tìm kiếm thông tin, các ứng dụng
về bán hàng, giao dịch trao đổi thông tin qua Internet
Tóm tắt văn bản thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Trải qua hơnnửa thế kỷ phát triển tới ngày nay, tóm tắt văn bản vẫn được coi là một trongnhững chủ đề quan trọng của các hội thảo, hội nghị được nhiều các học giả,chuyên gia, nhà nghiên cứu quan tâm
Các hội thảo chủ đề xử lý ngôn ngữ tự nhiên thường niên cũng baogồm các chủ đề (track) liên quan đến tóm tắt văn bản như động (WAS
2000, 2001, 2002), nhiều chủ đề đặc biệt trong các hội thảo ACL,COLING, SIGIR đã được tổ chức Chính phủ của nhiều nước trên thế giớinhư Nhật, Mỹ, Anh, Trung Quốc, đã đầu tư rất nhiều kinh phí cho việcphát triển các hệ thống tóm tắt văn bản tự động trực tuyến (online) vàngoại tuyến (offline)
Trang 13Hình 1.1 Hệ thống tóm tắt trực tuyến Text compactor
Hình 1.1 là hình ảnh của hệ thống tóm tắt trực tuyến Text Compactorthao tác bằng cách nhập một văn bản và lựa chọn tỉ lệ tóm tắt sẽ có được vănbản tóm tắt có chiều dài tương ứng với tỉ lệ Tỉ lệ tóm tắt này được tính bởicông thức (1-1) dưới đây:
R= (chiều dài văn bản tóm tắt/chiều dài văn bản gốc)*100% (1-1)Hình 1.2 dưới đây là hình ảnh của hệ thống tóm tắt ngoại tuyến Gnome.Văn bản tóm tắt là các câu được lựa chọn có màu vàng
Hình 1.2 Hệ thống tóm tắt ngoại tuyến
Trang 14Radev và các cộng sự đã định nghĩa tóm tắt là một sản phẩm tổng hợp
từ một hoặc nhiều văn bản lưu giữ các thông tin quan trọng, có ích từ văn bảngốc và không dài quá nửa văn bản gốc Như vậy có ba vấn đề chính khi tómtắt văn bản cần phải đạt được:
- Tóm tắt từ một hoặc nhiều văn bản
- Tóm tắt giữ lại các thông tin quan trọng
- Tóm tắt phải ngắn gọn
Định nghĩa 1.1 [Tóm tắt văn bản (Text summarization)]: Tóm tắt
văn bản là quá trình rút ra những thông tin quan trọng từ một văn bản đểtạo thành một văn bản ngắn gọn hơn theo nhiệm vụ cụ thể và yêu cầu củangười sử dụng [5]
Những nghiên cứu sớm nhất về tóm tắt văn bản được đề xuất bởi Luhnvào năm 1958, tại Viện nghiên cứu của IBM, trong phương pháp của mình, Luhn
đã co tần suất là đặc trưng chính trong một văn bản và cũng là độ đo quan trọng
có ý nghĩa Ý tưởng này đã mở đầu cho các công trình liên quan sau này Luhn đãbiên dịch từ một danh sách các từ chứa nội dung (content words) được sắp xếptheo tần xuất giảm dần và đánh chỉ số độ đo quan trọng của chúng Ở mức mộtcâu, nhân tố quan trọng (significance factor) được dựa trên độ đo quan trọng củacác từ có mặt trong câu đó và khoảng cách giữa chúng với các từ có độ đo quantrọng thấp Tất cả các câu được sắp xếp theo thứ tự của nhân tố quan trọng và cáccâu có vị trí cao nhất sẽ được lựa chọn trong hệ thống tóm tắt tự động [36]
Một nghiên cứu liên quan khác của Baxendale cũng được đề xuất vàonăm 1958 tại viện nghiên cứu IBM và công bố trong cùng một tạp chí, cung cấpmột góc nhìn khác khi tập trung vào tìm kiếm các thành phần ngữ nghĩa ngầmcủa các văn bản: Vị trí câu Theo mục đích này, tác giả đã thu tập 200 đoạn đểtìm ra tới 85% trong các đoạn đó, các câu chủ đề nằm ở vị trí đầu đoạn và 7%nằm ở vị trí cuối đoan Do đó, đơn giản nhất sẽ chọn câu đứng ở đầu đoạn hoặccuối đoạn để tạo ra tóm tắt Đặc trưng về vị trí câu cũng là một trong những đặctrưng tổ hợp trong các hệ thống tóm tắt dựa trên máy học sau này [37]
Trang 15Nghiên cứu cơ bản của Edmundson năm 1969, mô tả một hệ thống sinh ravăn bản tóm tắt dựa trên cách tiếp cận trích rút câu Đầu tiên tác giả phát trieernnmột giao thức để tạo trích rút thủ công ứng dụng cho một tập gồm 400 văn bản
kỹ thuật Tiếp theo, các đặc trưng tần suất từ và vị trí quan trọng được sử dụnglại từ các nghiên cứu trước và bổ sung thêm 2 đặc trưng nữa Trọng số câu đượctính toán giựa trên các đặc trưng này Khi đánh giá, độ chính xác của phươngpháp tương đương với 44% so với trích rút thủ công [38]
1.1.1.2 Phân loại tóm tắt
Tuỳ theo yêu cầu và mục đích sử dụng, tóm tắt văn bản được phânthành các kiểu khác nhau:
- Tóm tắt trình bày (indicative summary),
- Tóm tắt thông tin (informative summary),
- Tóm tắt hướng truy vấn (queries –oriented summary),
- Tóm tắt khái lược (generic summary),
- Tóm tắt dựa trên trích rút câu (extraction summary)
- Tóm tắt dựa trên trừu tượng (abstraction summary)
Trong các kiểu tóm tắt văn bản này, tóm tắt trình bày quan tâm tới diễngiải văn bản mà bỏ qua ngữ cảnh, tóm tắt thông tin đưa ra tóm tắt nội dung ởdạng ngắn nhất Tóm tắt hướng truy vấn chỉ đưa ra nội dung mà người đọcquan tâm Tóm tắt khái lược đưa ra tổng quan văn bản, tóm tắt dựa trên tríchrút trích chọn ra những phần quan trọng trong văn bản như câu, mệnh đề,thuật ngữ, Tóm tắt dựa trên trừu tượng (rút gọn câu) tạo ra một văn bản tómtắt đảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh vi Vănbản tóm tắt dựa trên rút gọn câu mang lại hiệu quả cao về mặt ngôn ngữ
Các phương pháp tóm tắt văn bản được đề xuất thường sử dụng tiếpcận tóm tắt theo dựa trên trích rút câu Lý do là cách tiếp cận tóm tắt dựa trêntrích rút câu dễ dàng thực hiện hơn so với cách tiếp cận tóm tắt dựa trên rútgọn câu Tuy nhiên, sử dụng cách tiếp cận tóm tắt văn bản dựa trên trích rút
Trang 16câu thường cho kết quả là những văn bản tĩm tắt với thơng tin ít liền mạchhơn theo cách tiếp cận tĩm tắt dựa trên rút gọn câu Chính vì điều này, hướngnghiên cứu tĩm tắt dựa trên rút gọn câu ngày càng thu hút nhiều sự quan tâmcủa giới chuyên mơn.
1.1.2 Một số phương pháp tĩm tắt văn bản
1.1.2.1 Một số phương pháp tĩm tắt văn bản điển hình
- Phương pháp tĩm tắt văn bản bằng Nạve Bayes:
Kupiec (1995) đã mơ tả một phương pháp bắt nguồn từ Edmundson(1969) đĩ là học từ dữ liệu Sử dụng hàm phân loại mỗi câu về các lớp khácnhau Giả sử s là 1 câu, S là tập các câu tạo nên văn bản tĩm tắt, và F1…Fk làcác đặc trưng Những đặc trưng dựa trên phương pháp Edmundson (1969) vàđược bổ sung thêm một số các đặc trưng khác : chiều dài câu và sự xuất hiệncủa từ viết hoa Mỗi câu sau khi tính tốn sẽ cĩ một giá trị nhất định, và đượcsắp xếp theo thứ tự giảm dần, chỉ cĩ n câu đứng đầu được trích rút Để đánhgiá hệ thống Kupiec đã sử dụng một kho dữ liệu văn bản bao gồm các tài liệu
kỹ thuật cùng với các văn bản tĩm tắt đã được tĩm tắt bởi con người
Aoen và các cộng sự (1999) cũng sử dụng phương pháp phân loại củanạve- Bayes, nhưng thêm vào đĩ 1 số đặc trưng Họ xây dựng 1 hệ thống gọi
là DimSum được dựa trên các đặc trưng: như tần suất từ (tf) và tần suấtnghịch đảo văn bản (idf) để thu được các từ quan trọng idf được tính từ trongtập dữ liệu lớn các văn bản trọng tâm cùng chủ đề Họ cũng thực hiện một sốphân tích bề mặt như tồn tại độ tương tự nhau giữa các câu trong văn bản, duytrì súc tích Các thống kê tên viết tắt trong văn bản tựa như U.S thành UnitedStates hoặc IBM là International Business Machines Từ đồng nghĩa và hìnhthái từ cũng được sử dụng trong khi xem xét thuật ngữ từ vựng, nhận dạng sửdụng Wordnet ( Miler, 1995 ) Kho dữ liệu sử dụng trong thực nghiệm đượclấy từ các trang tin, và đánh giá dựa vào TREC
Trang 17- Phương pháp tĩm tắt văn bản bằng cây quyết định
Lin và Hovy (1997) đã nghiên cứu 1 đặc trưng rất quan trọng, vị trí củacâu Độ quan trọng của câu bằng chính vị trí của nĩ trong văn bản, tác giả đã gọi
là “position method”, nảy sinh từ ý tưởng rằng các văn bản sinh ra một cấu trúcdiễn ngơn, và một câu gần chủ đề hơn khuynh hướng tập trung xuất hiện trong vịtrí cĩ thể định được ( ví dụ tiêu đề, abstract …) Do đĩ, cấu trúc diễn ngơn quantrọng thay đổi theo lĩnh vực, đặc trưng vị trí câu khơng thể được định nghĩa đơngiản như ( Baxendale, 1958) Nghiên cứu này đã cĩ một đĩng gĩp quan trọngbằng kỹ thuật xác định vị trí tối ưu và cách đánh giá thế nào cho hiệu quả Mộtkho dữ liệu tin tức lớn được sử dụng, kho được sưu tập bởi Zif-Davis từ chươngtrình TIPSTER, nĩ bao gồm văn bản về máy tính (computer) và liên quan tớiphần cứng, thêm vào là tập các từ khĩa chủ đề và abstract nhỏ khoảng 6 câu Cĩ
2 cách đánh giá được sử dụng là precision và recall
Trong nghiên cứu tiếp theo của Lin (1999) đã bác bỏ giả thiết rằng cácđặc trưng là độc lập lẫn nhau và đã đưa ra mơ hình trích rút câu sử dụng câyquyết định thay thế cho phân loại nạve – bayes Lin đã khảo sát rất nhiều đặctrưng và hiệu ứng của chúng trong trích rút câu Dữ liệu được sử dụng trongcơng việc này được sử dụng tập dữ liệu văn bản chuẩn, đã được phân loạitheo các chủ đề khác nhau, cung cấp bởi hệ thống đánh giá TIPSTER-SUMMAC Các thực nghiệm mơ tả là hệ thống SUMMARIST được pháttriển tại Trường đại học Southern California
- Phương pháp tĩm tắt văn bản bằng mạng nơ ron
Svore và các cộng sự ( 2007 ) đưa ra 1 thuật tốn dựa trên mạng neural
và sử dụng tập dữ liệu đưa ra để giải quyết vấn để tĩm tắt trích rút, tốt hơntiêu chuẩn thống kê các đặc trưng quan trọng
Các tác giả đã sử dụng tập dữ liệu bao gồm 1365 tài liệu thu thập được
từ CNN.com, mỗi tài liệu bao gồm tiêu đề, timestamp, các đoạn quan trọng docon người tạo ra và văn bản Con người tạo ra đoạn quan trọng khơng đúng
Trang 18theo nguyên văn trích rút từ trong bài báo Svore đã huấn luyện 1 mô hình từcác nhãn và các đặc trưng cho mỗi câu trong bài báo, có thể suy luận ra sắpxếp của các câu trong văn bản kiểm tra Sắp xếp được hoàn thành sử dụngRankNet ( Burges et al.,2005), một cặp dựa trên thuật toán mạng neural thiết
kế để sắp xếp 1 tập đầu vào sử dụng phương pháp giảm gradient trong huấnluyện Với tập huấn luyện họ sử dụng ROUGE-1 ( Lin, 2004 ) để tính độtương tự của các câu trong văn bản và đoạn được viết bởi con người Những
độ tương tự này được sử dụng như 1 nhãn mềm trong suốt quá trình huấnluyện, khác với những đề cập khác các câu là các nhãn cứng
- Phương pháp phân tích ngôn ngữ tự nhiên mức sâu
Đây là kỹ thuật phân tích bao gồm phân tích ngôn ngữ tự nhiên Phầnlớn những kỹ thuật này cố gắng tạo ra 1 mô hình văn bản súc tích liền mạch
Barzilay và Elhadad (1997) đã mô tả 1 công việc sử dụng việc xem xétphân tích ngôn ngữ để nâng cao hiệu năng tóm tắt Trong đó chuỗi từ vựng(lexical chains) được sử dụng rất nhiều : nó là một chuỗi các từ liên quantrong văn bản , các từ kề nhau hoặc các câu hoặc chiều dài khoảng cách ( toàn
bộ văn bản ) Phương pháp này được thực hiện với các bước sau: tách vănbản, nhận dạng chuỗi từ vựng và sử dụng các chuỗi từ vựng để nhận dạng cáccâu thích hợp để trích rút Họ cố gắng sử dụng kết hợp cả phương pháp phântích thống kê và cả cấu trúc ngữ nghĩa của văn bản
Các tác giả mô tả khái niệm súc tích trong văn bản có nghĩa móc nốicác thành phần khác nhau của văn bản Ví dụ trong câu
John bought a Jag He loves the car
Ở đây, từ car xem xét tới từ Jag trong câu trước và ví dụ minh họa súctích từ vựng Hiện tượng súc tích xảy ra không chỉ ở mức từ nhưng cũngkhông chỉ ở mức các chuỗi từ, kết quả trong các chuỗi từ vựng, các tác giả đã
sử dụng một nguồn biểu diễn tóm tắt Các từ liên quan và chuỗi các từ liênquan ngữ nghĩa được nhận dạng trong văn bản, và một vài chuỗi được trích
Trang 19rút để biểu diễn văn bản Để tìm ra các chuỗi từ vựng, các tác giả sử dụngWordnet (Miller, 1995 ) ứng dụng 3 bước sau đây:
1 Chọn tập các từ ứng cử
2 Đối với mỗi từ ứng cử, tìm ra chuỗi tương ứng dựa vào một tiêuchuẩn liên quan giữa các thành viên của các chuỗi
3 Nếu tìm thấy, chèn từ trong chuỗi và cập nhật nó
Sự tương thích được đo dựa vào Wordnet Các danh từ đơn và danh từghép được sử dụng như một điểm bắt đầu tới tập ứng cử Trong bước cuốicùng, các chuỗi từ vựng tốt sẽ được sử dụng để tạo ra các tóm tắt Các chuỗi
từ vựng được tính trọng số bằng chiều dài Sau đó, tác giả chọn ra các câuquan trọng
Trong bài báo khác, Ono và các cộng sự ( 1994) tiến tới một mô hìnhtính toán đoạn diễn thuyết cho bài văn tiếng Nhật, trong đó họ thực nghiệmmột cách cẩn thận các thủ tục trích rút cấu trúc tu từ trong diễn thuyết, mộtcây nhị phân biểu diễn quan hệ giữa các câu ( cây cấu trúc tu từ được sửdụng trong Marcu,1998) Cấu trúc này đã trích rút sử dụng chuỗi các bước
xử lý ngôn ngữ tự nhiên: phân tích câu, trích rút quan hệ tu từ, tách, sinh racác ứng cử viên và ưu tiên lời phê bình Đánh giá đã dựa trên độ quan trọngtương đối của các quan hệ tu từ Trong bước tiếp theo, các nút của cây cấutrúc tu từ được tỉa để rút gọn câu, giữ lại những thành phần quan trọng Thựchiện tương tự cho các đoạn cuối cùng được tóm tắt Đánh giá đã thực hiệntrên các câu tinh và 30 bài báo biên dịch của bản tin tiếng Nhật đã được sửdụng như tập dữ liệu
Marcu (1998) đã mô tả một tiếp cận tóm tắt không giống các phươngpháp cũ, không giả thiết giả thiết rằng các câu trong một tài liệu tạo thành 1chuỗi Bài báo này sử dụng diễn thuyết dựa trên khám phá các đặc trưngtruyền thống đã được sử dụng trong tóm tắt bài luận Diễn thuyết được sửdụng trong bài báo này là Thuyết cấu trúc tu từ
Trang 20Marcu (1998) mô tả chi tiết thủ tục phân tích tu từ thành cây tu từ Hình1.3 minh họa 1 ví dụ cây diễn thuyết trong văn bản.
Hình 1.3 Cây cấu trúc tu từ
Các số trong các nút cho thấy số câu trong văn bản ví dụ Văn bản phíadưới của số trong các nút được lựa chọn là các quan hệ tu từ Các nút có dấuchấm là thứ yếu và các nút thường là trung tâm
- Phương pháp tóm tắt ngắn
Wibrock và Mittal (1999) khẳng định rằng tóm tắt trích rút không thực
sự tốt trong đó, các trích rút không đủ súc tích khi văn bản tóm tắt là ngắn.Chúng biểu diễn một hệ thống tóm tắt như dạng sinh ra các tiêu đề Kho dữ liệu
sử dụng trong nghiên cứu này là các bài báo tin tức từ Reuters và AssociatePress, sẵn có tại LDC Hệ thống học theo mô hình thống kê các quan hệ giữacác khối văn bản nguồn và khối tiêu đề Cố gắng để mô hình cả hai loại và khảnăng xuất hiện của các tokens trong các tài liệu đích Cả hai mô hình, một chotrích chọn nội dung và một mô hình khác cho thực hiện bề mặt
Mô hình trích chọn nội dung là mô hình học từ văn bản và tóm tắt(Brown, 1993 ) Mô hình này là mô hình đơn giản nhất thông qua việc ánh xạgiữa một từ trong văn bản và một vài từ khả năng xuất hiện trong văn bản tómtắt Để đơn giản mô hình này, tác giả đã giả thiết xác suất xuất hiện của một
từ trong văn bản tóm tắt phụ thuộc vào cấu trúc của nó
Trang 21Mô hình thực hiện bề mặt là mô hình bigram Viterbi tìm kiếm được sửdụng hiệu quả để tối ưu tóm tắt Giả thiết Markov ảnh hưởng bằng cách sửdụng backtracking tại mọi trạng thái để tạo đường dẫn liên tục tốt nhất Đểđánh giá hệ thống, tác giả so sánh đầu ra của nó với tiêu đề thực tế trong tậpcác văn bản đầu vào
1.1.2.2 Một số dự án nghiên cứu về tóm tắt văn bản
Các trung tâm, viện nghiên cứu cũng đề xuất và theo đuổi những dự ántóm tắt văn bản, một số dự án cơ bản dưới đây
- Dự án Tóm tắt văn bản:
Được trường Đại học Ottawa nghiên cứu sử dụng kỹ thuật máy học đểnhận dạng ra các từ khóa Việc nhận dạng các từ khóa có thể dùng để lựachọn các câu trích rút Họ sử dụng các đặc trưng bề mặt mức phân tích tầnsuất và đặc trưng ngôn ngữ bề mặt như vị trí câu
Trang 22- Dự án ISI Summarist:
Summarist là sản phẩm tóm tắt các văn bản trên web được trường Đạihọc Nam California nghiên cứu và phát triển Nó được dùng như công cụ lưugiữ các tin tức mới của bất kỳ ngôn ngữ nào Summarist đầu tiên nhận dạngcác chủ đề của văn bản sử dụng kỹ thuật thống kê dựa vào các đặc trưng như
vị trí và đếm các từ Hiện nay dự án này sử dụng cụm từ và cấu trúc tu từ.Cách tiếp cận tóm tắt sử dụng trích rút câu
- Dự án TRESTLE:
Đại học Seffield phát triển sản phẩm này dùng để tóm tắt các văn bảntin tức Hệ thống sử dụng MUC để trích rút văn bản và sinh ra tóm tắt, sửdụng can thiệp ngôn ngữ tự nhiên ở mức sâu
1.2 Tóm tắt văn bản dựa trên cách tiếp cận rút gọn câu
1.2.1 Khái niệm rút gọn câu
Tóm tắt văn bản dựa trên cách tiếp cận rút gọn câu được coi là mộttrong những hướng nghiên cứu quan trọng trong lĩnh vực xử lý ngôn ngữ tựnhiên Với cách tiếp cận trích rút câu thông thường, văn bản tóm tắt thường
là văn bản có độ rời rạc cao do được tổng hợp từ các câu trong văn bảngốc, thì cách tiếp cận rút gọn câu mở ra một góc nhìn mới khi văn bản tóm
Trang 23tắt vẫn liền mạch, súc tích chỉ có các câu được rút gọn sao cho nội dungcâu vẫn đảm bảo giữ lại các nội dung chính từ câu gốc, và tính ngữ phápcủa câu vẫn ổn định Có một số khác biệt với hai cách tiếp cận thể hiện ởmột vài đặc điểm khi rút gọn câu:
- Thứ nhất, phức tạp về độ tính toán và ngữ nghĩa câu: nếu coi việc xácđịnh các câu quan trọng là ở mức câu (sentence level), thì xác định các từquan trọng để lưu giữ lại trong quá trình xử lý rút gọn là ở mức từ (wordlevel) Do đó, độ phức tạp về mặt tính toán cũng như về nội dung và ngữnghĩa của câu cũng cao hơn so với cách tiếp cận trích rút câu
- Đặc điểm thứ hai của rút câu là khó khăn trong nhận xét, đánh giá hệthống Bởi các hệ thống đánh giá hiện tại mới chỉ sử dụng ở mức đánh giá bềmặt (surface) mà chưa đánh giá ngôn ngữ ở mức sâu (deep language)
Vấn đề rút gọn câu được mô tả là có một câu gốc x gồm các từ x = x 1 ,
x 2 , ,x n và câu rút gọn là y đã được loại bỏ tập con các từ trong x
Định nghĩa 1.2 [Rút gọn câu]:
Rút gọn câu là việc loại bỏ các đoạn, mệnh đề các từ không liên quantới thông tin của câu ra khỏi câu Câu sau khi rút gọn vẫn giữ nguyên ý chínhcủa câu gốc, có độ dài ngắn hơn và đảm bảo về mặt ngữ pháp
Ví dụ 1.1
Câu gốc: Sau khi có bàn thắng khai hỏa trong mùa giải mới cùng Real,chân sút 28 tuổi tiếp tục thể hiện phong độ ấn tượng trong màu áo tuyển quốcgia ở vòng loại World Cup 2014
Câu rút gọn: Sau khi có bàn thắng trong mùa giải cùng Real, chân sút tiếptục thể hiện phong độ trong màu áo quốc gia ở vòng loại World Cup 2014
Ở ví dụ 1.1 trên đây, câu rút gọn đã được loại bỏ đi một số từ khôngliên quan trong câu gốc mà không ảnh hưởng tới nội dung của câu gốc, chiềudài của câu rút gọn cùng giảm hơn so với chiều dài câu gốc là 80% Các từ đã
loại bỏ bao gồm: khai hỏa, mới, 28 tuổi, ấn tượng tuyển.
Trang 241.2.2 Một số phương pháp rút gọn câu
Các hệ thống tóm tắt cũ dựa chủ yếu vào trích rút câu, trong khi đó tómtắt dựa trên rút gọn câu chỉ mới được nghiên cứu từ những năm 2000 Rút gọncâu được ứng dụng trong nhiều lĩnh vực khác nhau như: phục vụ hiển thị vănbản trên nền màn hình PDA , sinh tiêu đề tự động…
Nghiên cứu về rút gọn câu của Knight và Marcu
Trong nghiên cứu của Knight và Marcu, họ đã xây dựng một kho dữliệu tiêu chuẩn và đề xuất phương pháp đánh giá cho rút gọn câu Họ sử dụngkho dữ liệu của Ziff – Davis với hơn 4000 tài liệu kỹ thuật và trích rút được
1,067 cặp câu gốc- rút gọn Nhiệm vụ được xác định là cho một câu dài l, nén theo phiên bản c và giữ lại nghĩa của câu, ngữ pháp tốt Họ cũng đề xuất hai
kỹ thuật học khác nhau để sinh ra câu rút gọn, một phương pháp sử dụng kênh
nhiễu (noisy chanel), phương pháp còn lại sử dụng cây quyết định
Nghiên cứu rút gọn câu, sử dụng mô hình Markov ẩn
Trong công bố của Le Nguyen và Ho năm 2004, có hai thuật toán rútgọn câu được đề xuất Một phương pháp dựa trên học mẫu dịch – thừa kế từ kỹthuật dịch máy, phương pháp còn lại học các luật biến đổi từ vựng bằng cáchxây dựng tập gồm 1,500 cặp (câu, câu rút gọn) Họ sử dụng mô hình Markov
ẩn để tìm ra các luật phù hợp nhất ứng với từng trường hợp Ngoài ra, còn cónghiên cứu liên quan tới mô hình Markov ẩn của Jing trong rút gọn câu
Phương pháp rút gọn câu dựa trên cây cú pháp
Phương pháp rút gọn câu dựa trên cây cú pháp được đề xuất bởi Knight
và Marcu, Unno và cộng sự Trevor Cohn và Mirella Lapata đã sử dụngphương pháp đồng bộ phi ngữ cảnh để đánh giá tốt hơn các qui tắc xác suất
để áp dụng tốt trong rút gọn câu dựa vào phân tích cây cú pháp
Phương pháp rút gọn câu dựa trên học không giám sát
Một số các công bố về rút gọn câu dựa trên học không giám sát Trongcông bố của Turner và Charniak đã sử dụng mô hình học không giám sát,trong đó dữ liệu huấn luyện được trích rút tự động từ kho ngữ liệuPennTreebank
Trang 251.3 Đánh giá tóm tắt
1.3.1 Đánh giá theo cách thủ công
Hội thảo DUC (Document Understanding Conferrence) đã đưa ra đánhgiá về các hệ thống tóm tắt trên tập dữ liệu dùng chung kể từ năm 2001.Nhiều chuyên gia phát triển những phương pháp đánh giá khác nhau Đánhgiá của hội thảo DUC dựa trên chuyên gia con người Do đó, chỉ dùng chúthích của một người tạo các mô hình với tập dữ liệu kiểm tra khác nhau
1.3.2 Phương pháp đánh giá BLEU
Độ đo BLEU (Bilingual Evaluation Under Study) do Papineni và cộng
sự đề xuất năm 2001 Trong độ đo này họ sử dụng trọng số xuất hiện n-gram.BLEU gắn với NIST (National Institute of Standards and Technology) Mộtphương pháp liên quan đến đánh giá tóm tắt tự động và được gọi là độ đoNIST NIST là phương pháp dựa trên BLEU
Ý tưởng chính của BLEU là đánh giá độ tương tự giữa một văn bảnứng cử (candidate) và tập các bản tham khảo dưới dạng trung bình có trọng sốcủa các n-gram trong văn bản cho bởi hệ thống và trong tập các văn bản thamkhảo được cho bởi con người theo công thức (1-1) như sau:
Count p
) (
) (
Trang 261.3.3 Phương pháp đánh giá ROUGE
Các phương pháp đánh giá tóm tắt truyền thống thường gắn với đánh giáthủ công do chuyên gia con người thực hiện thông qua một số độ đo khác nhau,chẳng hạn: mức độ súc tích, mức độ liền mạch, ngữ pháp, mức độ dễ đọc và nộidung Tuy nhiên, phương pháp đánh giá kết quả tóm tắt thủ công được báo cáotại hội thảo DUC 2003 đòi hỏi hơn 3000 giờ Chi phí này quá cao Vì thế, đánhgiá tóm tắt tự động là một yêu cầu cấp thiết Lin và Hovy đề xuất một phươngpháp đánh giá mới gọi là ROUGE (Recall-Oriented Understudy for GistingEvaluation) Hiện nay phương pháp đo này được sử dụng như một phương phápchuẩn đánh giá kết quả tóm tắt tự động cho văn bản tiếng Anh
Một cách hình thức, ROUGE-N là một độ đo đối với các n-gram trongvăn bản tóm tắt ứng viên và trong tập các văn bản tóm tắt tham khảo, đượctính theo công thức (1-2) ở dưới đây
n S
gram
maries ferenceSum S
n S
gram
match
gram Count
gram Count
N ROUGE
) (
(1-2)
Trong công thức (1-2), n biểu thị cho chiều dài của n-gram, gramn vàCountmatch(gramn) là số chuỗi n-gram lớn nhất xuất hiện trong văn bản tóm tắtứng viên và tập các văn bản tóm tắt tham khảo
1.4 Kết luận chương 1
Trong chương này, tôi đã trình bày các khái niệm cơ bản về tóm tắt vănbản, các nghiên cứu ban đầu về tóm tắt và những nghiên cứu liên quan theosuốt thời gian từ những năm 50 của thế kỷ 20 Một số phương pháp điển hìnhcủa tóm tắt văn bản đồng thời phân loại cách tiếp cận tóm tắt khác nhau trongtóm tắt văn bản
Rút gọn câu được coi như một giải pháp mới nhằm thay thế các hệ thống
cũ có chất lượng tóm tắt kém Chương 1 của luận văn cũng đề cập tới một số các
kỹ thuật rút gọn câu cơ bản và đưa ra một số lý thuyết về đánh giá tóm tắt
Trang 272.1 Máy học và mô hình n-grams
2.1.1 Khái niệm máy học
Từ những năm 90, khi máy học được đưa vào ứng dụng, các nghiêncứu ra đời kết hợp với trào lưu của máy học, có thể khẳng định rằng máy học
đã mang lại những hiệu quả to lớn so với các phương pháp trước Đặc biệttrong những vấn đề trích rút ra tri thức từ dữ liệu
Định nghĩa 2.1 [Máy học (Machine Learning)]
Máy học là một chương trình máy tính cho phép tối ưu hiệu năng côngviệc thông qua sử dụng dữ liệu mẫu hoặc các kinh nghiệm từ quá khứ [29]
Học được sử dụng khi thiếu chuyên gia con người, hay con người gặpkhó khăn khi giải thích một vấn đề nào đó, hoặc để giải quyết các vấn đề thayđổi theo thời gian hay cần thiết phải giải quyết được thích ứng với nhữngtrường hợp đặc biệt Máy học được ứng dụng trong nhiều ngành khoa họckhác nhau, đặc biệt những lĩnh vực cần phân tích dữ liệu lớn như xử lý ngônngữ tự nhiên (Natural Language Processing), Nhận dạng mặt người (FaceRecognition), chẩn đoán bệnh, công nghiệp người máy,
Học có thể coi như là quá trình tìm một hàm ánh xạ từ X sang Y, trong
đó X là đầu vào và Y là đầu ra mong muốn Học được chia thành ba kỹ thuật
Trang 28chính: Học có giám sát (supervised learning), không giám sát (unsupervisedlearning) và học tăng cường (reinforcement learning):
- Học có giám sát: Giả sử có một tập mẫu huấn luyện dưới dạng các
cặp (đặc trưng, nhãn) {(x1, y1), , (xn, yn)} Vấn đề của học giám sát là xácđịnh nhãn y của một đầu vào đặc trưng x bất kỳ Các mô hình học giám sátđiển hình: cây quyết định, mạng noron, mô hình Markov ẩn, mạng Bayes,SVM (Support Vector Machines),…Học giám sát được ứng dụng nhiều trongcác bài toán phân loại, nhận dạng mẫu,…
- Học không giám sát: Trong học không giám sát, chỉ có một tập các
đặc trưng đầu vào {x1, x2 , xn} nhưng không có nhãn đầu ra tương ứng.Vấn đề đặt ra là đưa ra một cách thức, cơ chế tổ chức các đặc trưng đầu vào.Điển hình của học không giám sát là phân cụm Ưu điểm của học không giámsát là kho dữ liệu huấn luyện không cần quá lớn Học không giám sát đượcứng dụng trong các bài toán phân cụm, dự báo,
- Học tăng cường: Hệ thống học quan sát môi trường x, thực hiện hành
động a và nhận được giá trị r Mục đích là chọn hành động để nhận được giá
trị r tốt nhất trong tương lai.
2.1.2 Mô hình n-grams
Mô hình n-grams được sử dụng khi dùng dự đoán một từ tiếp theo khibiết từ ( chuỗi từ) hiện tại hoặc để xây dựng một mô hình ngôn ngữ (languagemodel) Lý thuyết cơ bản được mô hình n-grams sử dụng là lý thuyết xácsuất Lý thuyết này dùng tính toán từ đứng tiếp theo trong chuỗi gồm n từ khi
ta mới chỉ biết n-1 từ [14]
Ví dụ 2.1: Tính toán xác suất của từ w với một lịch sử h đã cho hay còngọi là P(w|h) Giả thiết rằng lịch sử h là “its water is so transparent that”” và
ta muốn biết xác suất của từ tiếp theo là the:
P(the|its water is so transparent that)
Trang 29Làm thế nào có thể tính được xác suất trên? Một các là đếm tần suất.
Ví dụ, ta cần sử dụng một kho ngữ liệu lớn, đếm số lần ta nhìn thấy “the
water is so transparent that” và đếm số lần chuỗi từ đó kèm theo the Tiếp
theo tính xác suất:
nt that) transpare
so is water C(its
e)
nt that th transpare
so is water C(its
nt that) transpare
so is water
Để tính xác suất của một chuỗi P(w1,w2, ,wn) Sử dụng luật xích (chainrule) của xác suất:
k n
n n x
1 1
2 1 3 1 1
k n
n n
1 1
2 1 3 1 2
1 ) ( | ) ( | ) ( | ) ( | ) (
Khi sử dụng mô hình bigram để dự đoán xác suất điều kiện của từ tiếptheo có thể dùng công thức xấp xỉ
)
| ( )
|
1
1 1