Đề tài tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp rút trích ý chính của văn bản khoa học phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó áp dụng phương
Trang 1BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG
********
BÁO CÁO NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI :
XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC DỰA TRÊN CẤU TRÚC
TẠ NGUYỄN
Biên Hòa, Tháng 6/2012
Trang 2MỤC LỤC
Trang
Mở đầu 1
1 Tóm lược đề tài 1
2 Mục tiêu đề tài 2
3 Nội dung thực hiện đề tài 2
4 Phạm vi ứng dụng 3
Chương 1 : Tổng quan về tóm tắt văn bản tự động 4
1.1 Giới thiệu 4
1.2 Mô hình tóm tắt văn bản 5
1.3 Phân loại bài toán tóm tắt văn bản 6
1.4 Các phương pháp tóm tắt văn bản 9
1.5 Tình hình nghiên cứu trong và ngoài nước 10
1.5.1 Ngoài nước 10
1.5.2 Trong nước 12
1.6 Một số hệ thống tóm tắt văn bản trên thế giới 13
Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản tiếng Việt 16
2.1 Một số đặc điểm của ngôn ngữ tiếng Việt 16
2.1.1 Văn bản, chủ đề văn bản và cấu trúc văn bản 16
2.1.2 Tiêu đề của văn bản 17
2.1.3 Đoạn văn 18
2.1.4 Câu và cấu trúc câu tiếng Việt 19
2.1.5 Từ 23
2.2 Bài toán tách câu 24
2.2.1 Giới thiệu bài toán 24
2.2.2 Dấu hiệu đặc trưng nhận dạng câu 25
2.3 Bài toán tách từ tiếng việt 26
2.3.1 Giới thiệu bài toán 26
2.3.2 Các phương pháp tách từ 28
2.3.2.1 Phương pháp dựa trên otomat 28
2.3.2.2 Dùng mô hình n-gram và phương pháp xác suất thống kê 30
2.3.2.3 Sử dụng giải thuật di truyền và thống kê trên Internet 31
Trang 32.4 Các thách thức của quá trình rút trích văn bản khoa học 32
2.4.1 Văn phong 32
2.4.2 Lỗi văn phạm 32
Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt 33
3.1 Các phương pháp rút trích 33
3.1.1 Các phương pháp thống kê (Statistical Methods) 33
3.1.1.1 Phương pháp vị trí (Position-Based) 34
3.1.1.2 Phương pháp cụm từ gợi ý (Cue phrases-Based) 35
3.1.1.3 Phương pháp thống kê tần suất từ (Word frequency-Based) 36
3.1.2 Phương pháp mạng ngữ nghĩa 36
3.1.2.1 Phương pháp quan hệ lẫn nhau 36
3.1.2.2 Phương pháp liên kết từ vựng ( Lexical Chains ) 36
3.1.2.3 Phương pháp Liên kết tham chiếu ( Word Coreferences ) 36
3.1.2.4 Phương pháp quan hệ câu ( Discourse-Based ) 37
3.1.3 Kết luận về các phương pháp trong giai đoạn phân tích 37
3.1.4 Hướng tiếp cận của đề tài 38
3.2 Mô hình rút trích ý chính của văn bản khoa học 39
3.2.1 Mô hình tổng quát 39
3.2.1.1 Giai đoạn tiền xử lý văn bản 41
3.2.1.2 Giai đoạn tách và lọc câu 41
3.2.1.3 Giai đoạn rút trích cơ sở 45
3.2.1.4 Giai đoạn phân lớp câu 55
3.2.1.5 Tính độ quan trọng của câu 56
3.2.2 Đánh giá kết quả tóm tắt, rút trích 59
3.2.2.1 Phương pháp thủ công 61
3.2.2.2 Các phương pháp đánh giá khác 61
Chương 4 : Thử nghiệm và đánh giá kết quả 65
4.1 Kiến trúc và các chức năng chương trình 65
4.1.1 Tiền xử lý 65
4.1.2 Tách từ toàn văn bản 65
4.1.3 Tách câu 66
4.1.4 Lọc câu 66
4.1.5 Rút trích cơ sở 67
Trang 44.1.6 Phân lớp câu 68
4.1.7 Đánh giá câu 68
4.1.8 Hiển thị kết quả xử lý 69
4.2 Thực nghiệm chương trình 69
4.2.1 Giao diện tiền xử lý, tách từ và huấn luyện văn bản 70
4.2.2 Giao diện tách câu 71
4.2.3 Giao diện phân lớp câu 72
4.2.4 Giao diện hiển thị kết quả 73
4.2.5 Giao diện hiển thị thành phần quan trọng của bài báo khoa học 73
4.3 Đánh giá kết quả 74
4.3.1 Đánh giá kết quả xử lý tổng quát 74
4.3.2 Đánh giá kết quả thực nghiệm từ hai công thức sử dụng 76
4.3.3 Đánh giá từ phía người đọc 83
Kết Luận 89
Tài liệu tham khảo 91
Trang 5DANH MỤC HÌNH ẢNH
Hình 1.1 : Mô hình hệ thống tóm tắt văn bản 5
Hình 1.2: Mô hình một hệ thống rút trích văn bản 6
Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word 14
Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ 15
Hình 2 1 Xây dựng ôtômát âm tiết 28
Hình 2 2 Xây dựng ôtômát từ vựng 29
Hình 2 3 Một tình huống nhập nhằng 29
Hình 3 1 Quy trình tổng quát rút trích ý chính văn bản khoa học 40
Hình 4 1 Mô hình tách từ tiếng Việt và huấn luyện 65
Hình 4 2 Mô hình huấn luyện từ ghép 66
Hình 4 3 Mô hình tách câu 66
Hình 4 4 Mô hình lọc câu 67
Hình 4 5 Mô hình Rút trích cơ sở 67
Hình 4 6 Mô hình phân lớp câu 68
Hình 4 7 Mô hình đánh giá câu 69
Hình 4 8 Giao diện tiền xử lý, tách từ và huấn luyện 70
Hình 4 9 Giao diện tách câu 71
Hình 4 10 Giao diện phân lớp và đánh giá câu 72
Hình 4 11 Giao diện hiển thị kết quả 73
Hình 4 12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học 73
Hình 4 13 Kết quả rút trích theo quan niệm của Makoto và R.C Balabantara 80
Trang 6DANH MỤC BẢNG BIỂU
Bảng 3.1 Các ký hiệu kết thúc câu 41
Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu 42
Bảng 3.3 Thống kê theo độ dài của từ trong từ điển http://dict.vietfun.com 44
Bảng 3.4 Các thành phần trong bài báo khoa học 46
Bảng 3.5 Khảo sát về sự xuất hiện các thành phần bài báo khoa học 50
Bảng 3.6 Ví dụ về độ hồi tưởng 62
Bảng 4 1 Lọc kết quả theo tỷ lệ 4.21% 74
Bảng 4 2 Lọc kết quả theo tỷ lệ 7% 75
Bảng 4 3 Kết quả 10 câu điểm cao nhất của ISS 77
Bảng 4 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường 78
Bảng 4 5 Kết quả khác nhau của ISS 79
Bảng 4 6 Kết quả khác nhau của Tf*Idf theo quan niệm thông thường 79
Bảng 4 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C Balabantara 81
Bảng 4 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C Balabantara 82
Bảng 4 9 Kết quả khác nhau của Tf*Idf theo quan niệm Makoto và R.C Balabantara 82
Bảng 4 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C Balabantara 83
Bảng 4 11 Chi tiết kết quả rút trích 84
Bảng 4 12 Kết quả và tỷ lệ rút trích giữa người và EMIS 87
Trang 7Mở đầu
1 Tóm lược đề tài
Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung hay Word Wide Web (www) nói riêng là một môi trường phổ biến dùng để lưu trữ các thông tin Với hàng tỷ trang web đang tồn tại, đi kèm với nó là một khối lượng thông tin vô cùng to lớn Lượng thông tin khổng lồ đó đem lại lợi ích không nhỏ dành cho con người Chính vì sự khổng lồ của thông tin đó dẫn đến việc tìm kiếm và tổng hợp thông tin không thuận lợi, gây nhiều khó khăn để có được một kết quả tìm kiếm đúng mục đích và ít tốn kém thời gian Người ta mất quá nhiều thời gian để có thể đọc hết một tài liệu điện tử vài chục trang thậm chí nhiều hơn chỉ để cuối cùng rút ra kết luận
là nội dung tài liệu đó không đúng mục đích tìm kiếm của mình
Rút trích các ý chính trong văn bản một cách tự động là một bài toán được đặt
ra trước nhu cầu thực tế đó, việc tự động rút trích ý chính các tài liệu sẽ giúp người dùng tiết kiệm thời gian trong việc sàng lọc và tổng hợp tri thức , nâng cao chất lượng
và tăng hiệu quả đánh chỉ mục cho máy tìm kiếm Đồng thời cũng là cơ sở cho các bài toán tóm tắt văn bản, truy hồi thông tin,…
Các dạng rút trích văn bản thường do con người xử lý, nghĩa là do những người
có hiểu biết tốt về chuyên ngành đọc rồi rút ra các tri thức, nhưng cũng không khỏi mang ý niệm chủ quan của người xử lý văn bản, trong khi đặc điểm của văn bản khoa học là trong mỗi văn bản, tác giả – nhà khoa học – luôn mong muốn trình bày, thậm chí là khẳng định một ý tưởng khoa học, cần được trình bày lại dù là dưới dạng tóm tắt một cách hết sức khách quan[27]
Khác với việc chúng ta đọc rồi tự rút ra cho mình những ý chính trong toàn bộ văn bản như lâu nay mọi người thường làm, ở đây đề tài muốn đề cập đến một quy trình cho phép máy tính có thể tự động rút trích ý chính từ văn bản tương đối chính xác nhất mà cụ thể là các văn bản khoa học trong ngành công nghệ thông tin như bài báo khoa học và toàn văn báo cáo
Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng của nhiều ứng
Trang 8dụng thực tế và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu việc rút trích ý chính của nhiều loại văn bản khác nhau thuộc các lĩnh vực
khác nhau Nên tác giả quyết định chọn đề tài Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc để làm đề tài nghiên cứu Đề
tài tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp rút trích ý chính của văn bản khoa học phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó
áp dụng phương pháp này vào việc xây dựng một hệ thống rút trích văn bản khoa học với kết quả đầu ra tốt nhất
2 Mục tiêu đề tài
Đề xuất một quy trình rút trích các câu có nội dung mang thông tin quan trọng trong văn bản khoa học dựa trên phương pháp thống kê và cấu trúc tài liệu một cách chặt chẽ, đưa ra thuật toán phù hợp từ đó xây dựng ứng dụng phát triển hệ thống rút trích văn bản khoa học trong lĩnh vực công nghệ thông tin
3 Nội dung thực hiện đề tài
- Nghiên cứu hệ thống từ vựng, câu trong tiếng Việt
- Thu thập số lượng lớn các bài báo khoa học, các tin tức và toàn văn báo cáo trong lĩnh vực công nghệ phần mềm ngành công nghệ thông tin Khảo sát cách viết và cấu trúc các loại tài liệu đó
- Tìm hiểu các công cụ xử lý văn bản của nước ngoài
- Tìm hiểu cách thức tương tác với văn bản
- Tìm hiểu các vấn đề với văn bản tiếng Việt và cách giải quyết
- Xây dựng quy trình rút trích ý chính trong văn bản khoa học :
§ Xác định, phân loại đối tượng văn bản : bài báo khoa học, toàn văn …
§ Tiền xử lý, chuẩn hóa văn bản
§ Xác định thông tin văn bản : tên tác giả, năm phát hành, tên văn bản, số
trang, số từ
§ Xác định cấu trúc của toàn bộ văn bản : chương, phần, đoạn,…
§ Xác định các chuỗi từ vựng quan trọng, từ khóa, chủ đề của văn bản
§ Xác định những câu chứa các từ có trong tên đề tài Xác định câu nào hay đoạn nào có cùng lúc các từ thuộc chủ đề xuất hiện nhiều nhất
Trang 9§ Xác định các vị trí quan trọng trong văn bản thường chứa ý chính
§ Xây dựng bộ từ điển các cụm từ đặc trưng xác định ý chính (Các cụm từ
mà theo sau nó hay đứng trước nó là ý chính)
§ Chọn lựa câu chứa ý chính làm kết quả đầu ra tốt nhất
- Xác định các ý chính của các tài liệu thu thập được theo chủ quan bản thân Khảo sát cách xác định ý chính của những người có kinh nghiệm trong việc viết các tài liệu, các văn bản khoa học, từ đó đưa ra đánh giá, nhận xét về các ý chính trong văn bản khoa học
- Nghiên cứu các thuật toán rút trích văn bản từ đó đưa ra giải pháp phù hợp
- Xây dựng hệ thống rút trích ý chính văn bản khoa học tự động
- Thử nghiệm hệ thống trên dữ liệu thực tế để đánh giá tính hiệu quả cũng như độ chính xác của quy trình đề xuất
4 Phạm vi ứng dụng
Chương trình được xây dựng có thể áp dụng xử lý tất cả các văn bản khoa học tiếng Việt như bài báo khoa học và toàn văn báo cáo thuộc lĩnh vực Công nghệ thông tin
Trang 10Chương 1 : Tổng quan về tóm tắt văn bản tự động
và được ứng dụng hiệu quả trong các hệ thống tìm kiếm, trích lọc thông tin
Theo Inderjeet Mani tác giả của đề tài Advances in AutomaticText
Summarization, mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản tự động
nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây cảm xúc đối
với người sử dụng hoặc một chương trình cần đến”[12] Và để thực hiện được công
việc tóm tắt đòi hỏi người đọc phải rút ra được những ý chính của văn bản, chính vì thế có thể nói đây là quá trình quan trọng nhất trong công đoạn tóm tắt
Bài toán tóm tắt văn bản là một trong những bài toán mang lại ứng dụng to lớn nhất trong lĩnh vực khai phá văn bản Một số biến thể của bài toán này như sinh mục lục tự động, sinh ý chính tài liệu, sinh tiêu đề văn bản Những thuật toán dùng trong tóm tắt văn bản cũng được áp dụng trong các bài toán tương tự như tóm tắt hình ảnh, âm thanh hay nói chung là những dữ liệu đa phương tiện
Điểm cốt lõi của một hệ thống tóm tắt văn bản là tìm ra những thành phần quan trọng trong văn bản cần tóm tắt Các thành phần này được gọi là các đơn vị văn bản Đơn vị văn bản ở đây có thể hiểu là đơn vị nhỏ nhất mà ta chọn để trích rút như mệnh đề hoặc câu Các đơn vị văn bản quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng của cả đoạn văn hay văn bản Sau khi chọn được các đơn vị văn bản quan trọng, hệ thống có thể trích rút và biến đổi chúng và sau cùng hiển thị ra màn hình, thống kê kết quả hay sinh ra các dữ liệu mới cho các hệ thống khác
Trang 11Rút trích các phần thông tin quan trọng theo mục đích của hệ thống
• Biến đổi ( Transformation )
Từ các thông tin rút được, biến đổi để giản lược và thống nhất, kết quả là các thành phần dùng để tóm tắt
• Trình bày ( Presentation )
Từ các thành phần dùng để tóm tắt, liên kết chúng lại thành đoạn theo một thứ
tự nào đó hoặc theo cấu trúc văn bản rồi hiển thị phù hợp với yêu cầu người dùng
Đầu ra : Bản tóm tắt
Phân tích
Trình bày Rút trích Biến đổi
Đầu vào : Văn bản
Trang 12Một hệ thống tóm tắt thông thường bao gồm đầy đủ các giai đoạn trên, nhưng một hệ thống trích rút văn bản chỉ gồm giai đoạn phân tích, rút trích và trình bày (Hình 1.2), không có giai đoạn biến đổi nhằm bảo toàn ngữ nghĩa cho từng câu trong văn bản
Hình 1.2: Mô hình một hệ thống rút trích văn bản
Chúng ta có thể thấy rằng một hệ thống rút trích thì thường thực hiện ít bước hơn, tập trung vào giai đoạn phân tích là chính Các phương pháp thường dùng trong hệ thống rút trích văn bản thường là các phương pháp thống kê, học trên ngữ liệu Tuy thực hiện ít giai đoạn hơn nhưng các giai đoạn trong hệ này mang tính quan trọng cao
vì nó ảnh hưởng đến kết quả tóm tắt văn bản Chính vì thế để có thể mang lại một diễn giải tóm tắt tốt thì yêu cầu mặc nhiên là phải tạo ra hệ thống rút trích tốt
1.3 Phân loại bài toán tóm tắt văn bản
Bài toán tóm tắt văn bản được chia thành nhiều loại, mỗi loại được sử dụng cho các mục đích khác nhau, các yêu cầu khác nhau Mỗi bài toán cũng phải áp dụng các phương pháp và kỹ thuật riêng Không có một thuật toán hay quy trình nào có thể đáp ứng yêu cầu của tất cả các bài toán đó Vì vậy để mang lại sự chính xác trong tóm tắt hay rút trích yêu cầu phải nghiên cứu thật kỹ cấu trúc văn bản, dữ liệu, mục đích bài toán
Đầu ra : Các thành phần trích chọn Đầu vào : Văn bản
Phân tích
Trình bày Rút trích
Trang 13• Tóm tắt đơn văn bản và Tóm tắt đa văn bản
Khi xét dữ liệu đầu vào một hệ thống tóm tắt văn bản, ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt đa văn bản (Multi-Document)
- Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của văn bản
đó
- Tóm tắt đa văn bản là từ nhiều văn bản nguồn cũng cho ra một đoạn tóm tắt Tóm tắt đa văn bản thì có độ phức tạp hơn, vì ngoài những công việc của tóm tắt đơn văn bản, tóm tắt đa văn bản còn phải thực hiện các công việc như phân tích, thống nhất dạng trình bày, … Ngoài ra, tóm tắt đa văn bản còn phải đối mặt với các vấn đề như dư thừa trùng lặp dữ liệu giữa các văn bản nguồn, nội dung các văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự phức tạp trong xử lý lớn Chính vì thế việc xét độ tương đồng ngữ nghĩa giữa các thành phần sau khi rút trích là một vấn đề quan trọng
mà tóm tắt đa văn bản cần quan tâm
• Rút trích và tóm tắt
Khi xét đến kết quả đầu ra một hệ thống tóm tắt văn bản, chúng ta có thể chia thành hai dạng tóm tắt là trích rút (Extraction) và tóm tắt (Abstraction) Việc phân biệt hai dạng tóm tắt này là rất cơ bản và quan trọng
- Trích rút là quá trình thu gọn văn bản mà trong đó kết quả ra chứa các đơn vị
ngữ liệu nguyên gốc có thông tin quan trọng của văn bản nguồn
- Tóm tắt là quá trình thu gọn văn bản mà trong đó kết quả ra có một số các đơn
vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn Nhằm tạo ra
sự trôi chảy và mạch lạc trong kết quả tóm tắt nhưng vẫn giữ nguyên ý chính của văn bản
• Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá
Khi xét đến chức năng của ứng dụng tóm tắt chúng ta có thể chia thành ba loại ứng dụng tóm tắt sau :
- Tóm tắt chỉ định ( Indicative ) : Là kiểu tóm tắt giúp người đọc quyết định xem có nên đọc tiếp nữa không Ví dụ như loại ứng dụng sinh tiêu đề, tóm
Trang 14lược kết quả tìm kiếm, tóm lược tin tức…
- Tóm tắt thông tin ( Informative ) : Là kiểu tóm tắt tóm lược tất cả các nội
dung quan trọng nhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc Ví dụ như tóm tắt một truyện dài thành đoạn văn một hai trang
- Tóm tắt đánh giá ( Evaluative ) : Là kiểu tóm tắt mà trong kết quả ra có cả đánh giá của người tóm tắt Ví dụ như lời tựa một quyển sách hay bản thảo một bài báo Kiểu tóm tắt này không gặp trong một hệ tóm tắt văn bản tự động
• Tóm tắt chung và tóm tắt hướng truy vấn
Nếu xét về mục đích, chúng ta có thể chia thành hai loại là tóm tắt chung và tóm tắt hướng truy vấn
- Tóm tắt chung ( Generic ) : Tóm tắt theo quan điểm ban đầu của tác giả văn
bản gốc (khách quan)
- Tóm tắt hướng truy vấn ( Query-Oriented ) : Tóm tắt theo quan điểm mong
muốn của người dùng ứng dụng thông qua các tham số truyền vào câu truy vấn Tóm tắt hướng truy vấn được cài đặt và áp dụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành cụ thể
• Tóm tắt cơ bản và Tóm tắt chuyên môn
Nếu xét theo trình độ người dùng thì chúng ta có thể chia thành hai dạng là tóm tắt cơ bản và tóm tắt chuyên môn
• Tóm tắt cơ bản : dành cho người thông thường
Ví dụ : Các ứng dụng tóm tắt thông thường, chung chung như tóm tắt trang tin, tóm tắt tiểu thuyết văn học…
• Tóm tắt chuyên môn : dành cho người đã có nền tảng, chuyên môn Những
bản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, công việc chuyên môn
Ví dụ : ứng dụng hỗ trợ thông minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị, ứng dụng tóm tắt các bài báo về toán học…
Trang 15• Tóm tắt đơn ngôn ngữ, tóm tắt đa ngôn ngữ và tóm tắt đan xen ngôn ngữ
Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có ba loại ứng dụng tóm tắt :
- Tóm tắt đơn ngôn ngữ : Văn bản nguồn chỉ có một loại ngôn ngữ Kết quả
ra là văn bản ngôn ngữ đó
- Tóm tắt đa ngôn ngữ : Mỗi văn bản nguồn chỉ có một loại ngôn ngữ Nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ Tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn
- Tóm tắt đan xen ngôn ngữ : Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng
và tóm tắt cho phù hợp Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ
1.4 Các phương pháp tóm tắt văn bản
Việc tóm tắt bằng máy là một vấn đề hết sức khó khăn bởi nó yêu cầu phải hiểu cả nội dung của văn bản và những thông tin liên quan đến vấn đề ngữ nghĩa,
tu từ học, quan hệ giữa các câu trong một đoạn văn cho trước
Cho đến thời điểm này đã có rất nhiều các công trình nghiên cứu về việc trích rút văn bản, chủ yếu là xử lý ngôn ngữ tiếng Anh và đa số các công trình nghiên cứu
sử dụng phương pháp học có giám sát Ở Việt Nam hay đối với ngôn ngữ tiếng Việt thì việc tóm tắt văn bản để đảm bảo độ chính xác như mong muốn thì vẫn phải làm bằng tay Tuy nhiên, ngày nay với khối lượng thông tin quá lớn việc xử lý nhiều văn bản một cách thủ công là một trở ngại vô cùng khó khăn Cùng với sự phong phú của tiếng Việt và với sự đa dạng trong cách viết hay nói cách khác là cấu trúc đa dạng của văn bản càng làm cho độ phức tạp của bài toán gia tăng
Các phương pháp tóm tắt văn bản khác nhau chủ yếu ở cách đánh giá và xác định các đơn vị văn bản (ĐVVB) quan trọng Phần lớn các phương pháp tóm tắt văn bản cổ điển đều dựa trên kết quả thống kê như :
- Phương pháp dựa trên tần suất xuất hiện từ (TFxIDF)
Trang 16- Phương pháp sử dụng tiêu đề (title-based)
- Phương pháp dựa trên vị trí (position) của câu trong đoạn, của đoạn trong văn bản,
- …
Các phương pháp như vậy đều được đưa ra dựa trên ý tưởng: các ĐVVB quan trọng nói nhiều tới nội dung chính của văn bản, do đó trong các ĐVVB này phải xuất hiện nhiều từ ngữ liên quan tới nội dung của văn bản Tùy theo từng phương pháp, các
từ ngữ quan trọng là các từ ngữ xuất hiện nhiều lần trong văn bản, các từ ngữ xuất hiện trong tiêu đề của văn bản, hoặc các từ ngữ xuất hiện ở câu đầu, câu cuối của văn bản,…Trong các nghiên cứu gần đây về tóm tắt văn bản, người ta thường sử dụng
t h ê m các phương pháp dựa trên ngữ nghĩa để nâng cao độ chính xác Song, trong phạm vi tóm tắt văn bản tiếng Việt, đến nay đa phần các nghiên cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống kê [22]
Để tự động hóa quá trình tóm tắt một văn bản tiếng Việt thông thường trải qua hai giai đoạn Trước tiên, các yếu tố chính của văn bản như tiêu đề, các phân đoạn chính, các câu quan trọng sẽ được trích rút ra từ văn bản gốc bằng các phương pháp ngữ học hoặc thống kê, sau đó các phần rút ra sẽ được xét độ tương đồng, sắp xếp, thêm các từ, ngữ chuyển câu, chuyển đoạn để tạo ra một bản tóm tắt cô động và đầy đủ
ý Với đề tài này đề tài tiếp cận với việc tóm tắt văn bản tự động theo dạng tóm tắt trích lọc sử dụng phương pháp thống kê tính toán độ quan trọng của các đơn vị văn bản đồng thời kết hợp khảo sát cấu trúc tài liệu để trích rút trực tiếp các phần quan trọng trong văn bản gốc làm tiền đề hỗ trợ việc tóm tắt văn bản tự động với đối tượng tập trung vào các văn bản khoa học trong lĩnh vực công nghệ thông tin, ngành công nghệ phần mềm
1.5 Tình hình nghiên cứu trong và ngoài nước
1.5.1 Ngoài nước
Vấn đề rút trích tự động các ý chính trong văn bản cũng nhận được nhiều sự quan tâm của các nhà công nghệ thông tin trên thế giới Có thể thấy rõ nhất là qua công cụ AutoSummarize trong phần mềm Microsoft Word của tập đoàn Microsoft Có thể nói sơ qua cơ chế làm việc của công cụ này là nó sẽ tính điểm cho các câu chứa từ được lặp lại nhiều lần Những câu được nhiều điểm nhất sẽ được gợi ý đưa ra cho
Trang 17người dùng Tuy nhiên đối với các văn bản tiếng Việt thì công cụ này cho kết quả không có tính chính xác cao
Ngoài ra cũng có các bài báo đề cập đến các công trình nghiên cứu liên quan đến vấn đề xử lý ngôn ngữ tự nhiên trong việc rút trích tự động ý chính trong văn bản như :
- Đề tài Extracting Sentence Segments for Text Summarization : A Machine
Learning Approach - tạm dịch là rút trích các phân đoạn câu phục vụ cho việc
tóm tắt văn bản : một phương pháp tiếp cận học máy - của Wesley T.Chuang làm việc tại Computer Science Department, UCLA, Los Angeles, CA 90095, USA và Jihoon Yang làm việc tại HRL Laboratories, LLC, 3011 Malibu Canyon Road, CA 90265, USA [28]
- Đề tài Automatic Evaluation of Summaries Using N-gram Co-Occurrence
Statistics - tạm dịch là Đánh giá tự động phần tóm tắt sử dụng N-gram kết hợp
với thống kê tần suất - của tác giả Chin-Yew Lin and Eduard Hovy vào năm 2003.[2]
- Đề tài A Frequent Term and Semantic Similarity based Single Document Text
Summarization Algorithm - tạm dịch là tóm tắt đơn văn bản dựa trên tần suất và
sự tương đồng ngữ nghĩa - của Naresh Kumar Nagwani and Shrish Verma vào
năm 2011.[17]
- Đề tài Challeging issues of automatic summarization: Relevance Detection and
quality-based evaluation - tạm dịch là Các thách thức trong việc tóm tắt tự động
: Mức độ phát hiện phù hợp và việc đánh giá dựa trên chất lượng - của Elena Lloret và Manuel Palomar vào năm 2010.[8]
- Đề tài Citation Summarization Through Keyphrase Extraction - tạm dịch là Trích dẫn tóm tắt thông qua việc rút trích cụm từ - của Vahed Qazvinian,Dragomir R Radev,Arzucan ¨Ozg¨ur được đăng trong Proceedings
of the 23rd International Conference on Computational Linguistics (Coling 2010), trang 895–903, tháng 8/2010
Trang 18- Đề tài A Survey of Text Summarization Extractive Techniques, tạm dịch là Một
khảo sát về kỹ thuật rút trích tóm tắt văn bản, của tác giả Vishal Gupta và Gurpreet Singh Lehal vào năm 2010.[26]
- Đề tài Corpus based Automatic Text Summarization System with HMM Tagger,
tạm dịch là Kho ngữ liệu dựa trên hệ thống tóm tắt văn bản tự động với việc gán nhãn dùng mô hình Markov ẩn, của tác giả M.Suneetha, S Sameen Fatima vào năm 2011.[14]
Các đề tài trên đều có ưu điểm nhất định nhưng hầu hết các đề tài đều tập trung
xử lý ngôn ngữ tiếng nước ngoài, đa số là các văn bản tiếng Anh Để áp dụng cho các tài liệu tiếng Việt thì không có được độ chính xác mong muốn do đặc điểm ngôn ngữ
tiếng Việt phức tạp và có rất nhiều điểm khác biệt so với ngôn ngữ khác
1.5.2 Trong nước
Trong nước có thể kể đến công trình nghiên cứu của GS.TSKH Hoàng Kiếm và
TS Đỗ Phúc về đề tài Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội
dung dựa trên việc sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu
của văn bản, dùng từ điển để tìm các dãy từ có nghĩa để giải quyết vấn đề ngữ nghĩa của các từ Cuối cùng dùng kỹ thuật gom cụm để gom các câu trong văn bản và hình thành các vector đặc trưng cụm.[5]
Ngoài ra, trong nước hiện cũng có một đề tài nữa là Xây dựng hệ thống tự động
rút trích nội dung chính trong các văn bản điện tử tiếng Việt của Đỗ Văn Long, Châu
Thu Trân, Dương Quốc Thắng và Trần Minh Vũ [6] làm việc tại Phân viện công nghệ thông tin tại Thành phố Hồ Chí Minh thuộc Viện Khoa học và công nghệ Việt Nam
Đề tài là sự kết hợp giữa việc phân loại văn bản theo cấu trúc của nhà ngôn ngữ với kỹ thuật xử lý ngôn ngữ tự nhiên của tin học Ý tưởng chính của hệ thống là rút trích nội dung chính của văn bản từ việc xác định những đặc trưng và cấu trúc văn bản thông dụng Phương pháp này tạo ra một bản tóm tắt cô động, đủ ý thông qua việc thu thập
và tập hợp các câu, cụm từ mang nội dung chính trong văn bản
Bên cạnh đó bài báo Thử đề xuất quy trình tự động tóm tắt văn bản khoa học, của PGS.TS Vương Toàn (2007) [27] cũng là một trong các đề tài liên quan trong lĩnh vực này Tác giả đã thử đề xuất quy trình làm việc để máy tính có thể tiến hành
Trang 19tự động tóm tắt văn bản khoa học (tỉ lệ 1/10) Công việc đã được thử nghiệm ở một số
ví dụ kiểu như trên cho thấy kết quả là đáng khích lệ Tuy nhiên, trong một số trường hợp tương tự, do những câu được cắt tự động rất có thể trở thành câu cụt hoặc thừa từ nên gây mất mát thông tin
Các đề tài trên đều có những ưu điểm nhất định của nó, tuy nhiên phạm vi xử lý văn bản của nó quá rộng, hầu như không xác định cụ thể cho một loại văn bản nào Nếu đầu vào là một truyện ngắn, một quyển tiểu thuyết hay một bài báo khoa học thuộc những lĩnh vực khác nhau thì kết quả đầu ra có độ chính xác như thế nào ? Đó chính là vấn đề mà đề tài này sẽ tập trung tìm hiểu vào một loại hình tài liệu, đó là văn bản khoa học trong ngành công nghệ thông tin nhằm đem lại kết quả có độ chính xác tốt nhất với yêu cầu của người dùng
1.6 Một số hệ thống tóm tắt văn bản trên thế giới
Hiện tại, trên thế giới đã có rất nhiều nghiên cứu và dự án xây dựng các ứng dụng tóm tắt văn bản Các ứng dụng này có thể đáp ứng rất nhiều các mục đích khác nhau Có thể kể ra một số ứng dụng tóm tắt văn bản tiêu biểu như sau :
• SumUM [11]
Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu xử lý ngôn ngữ tự nhiên trường Đại học Montréal, Canada SumUM có thể thực hiện cả chức năng tóm tắt chỉ định và tóm tắt thông tin rất tốt
• Microsoft Word AutoSummaryTool
Microsoft cũng cài đặt chức năng Trích rút và sinh tiêu đề trong Microsoft Word từ phiên bản Word '97 Chúng ta có thể thử bằng cách chọn Tools - AutoSummarize trên thanh công cụ (có thể khác tùy vào phiên bản) Công cụ này cho phép chúng ta chọn thông số về độ rút gọn, trích rút hay sinh tiêu đề
Trang 20Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word
• SUMMARIST [9]
Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng Anh, tiếng Nhật, tiếng Tây Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc) Hiện tại SUMMARIST đang nghiên cứu để cải tiến trở thành một hệ thống Tóm lược văn bản và hỗ trợ nhiều ngôn ngữ hơn như tiếng Pháp và Indonesia
• MEAD [7]
Nền tảng cho các hệ thống Tóm tắt nhiều văn bản và đa ngôn ngữ Đây là một
bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng ngôn ngữ Perl - Một ngôn ngữ
có khả năng xử lý văn bản rất linh hoạt và mạnh mẽ MEAD biểu diễn, lưu trữ dữ liệu
ở dạng XML, cung tấp cho chúng ta khung ứng dụng để cài đặt các ứng dụng Tóm tắt văn bản cho ngôn ngữ mà ta muốn Ngoài ra MEAD cũng cung cấp các công cụ để xây dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và các tập mẫu nổi tiếng MEAD được xây dựng bởi các chuyên gia nổi tiếng về Xử lý ngôn ngữ ở khắp nơi trên thế giới dưới sự tài trợ của Chương trình Nghiên cứu Công nghệ thông tin của
Tổ chức Khoa học quốc gia Mỹ MEAD được cung cấp ở dạng mã nguồn mở để nghiên cứu và kế thừa Hiện tại phiên bản mới nhất của MEAD là MEAD v3.07
Trang 21• SweSUM [16]
Ứng dụng Tóm tắt văn bản đa ngôn ngữ của Học viện công nghệ hoàng gia Thụy Điển SweSUM có thể tóm tắt các văn bản có ngôn ngữ vùng Scandinavi như Thụy Điển, Đan Mạch, Na Uy và các ngôn ngữ khác như tiếng Anh, Pháp, Đức, Tây Ban Nha và cả tiếng Iran
Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ
Ngoài ra còn các hệ thống Tóm tắt văn bản nổi tiếng khác như ANES hay SUMMONS Tuy nhiên tại Việt Nam hiện nay chưa có một hệ thống ứng dụng tóm tắt cũng như rút trích ý chính từ văn bản chính thức nào
Trang 22Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản
tiếng Việt
2.1 Một số đặc điểm của ngôn ngữ tiếng Việt
2.1.1 Văn bản, chủ đề văn bản và cấu trúc văn bản [1]
Văn bản (Text) là một sản phẩm hoàn chỉnh của một hành vi phát ngôn, mang một nội dung giao tiếp cụ thể, gắn liền với một đối tượng giao tiếp, mục đích giao tiếp
và hoàn cảnh giao tiếp xác định, thể hiện dưới dạng âm thanh hay chữ viết, ở đây chúng ta đề cập đến văn bản dưới dạng chữ viết Theo quan niệm vừa nêu thì văn bản
có thể là một câu nói, một câu tục ngữ, một tin vắn, một bài thơ, một truyện ngắn, một bài nghiên cứu, một quyển sách, v.v
Văn bản dù ngắn hay dài đều đề cập đến một hay vài đối tượng nào đó trong hiện thực khách quan hay trong hiện thực tâm lý Đối tượng này chính là đề tài của văn bản (Subject Matter) Gắn liền với đề tài là sự triển khai của người viết về đề tài, tức sự miêu tả, trần thuật hay bàn luận về đề tài Nội dung miêu tả, trần thuật hay bàn luận cơ bản, bao trùm lên toàn văn bản là chủ đề của đề tài
Cần lưu ý rằng, đề tài của văn bản thường mang tính hiển ngôn, còn chủ đề của văn bản có thể mang tính hàm ngôn hay hiển ngôn Tính hiển ngôn hay hàm ngôn của chủ đề văn bản có thể do phong cách ngôn ngữ văn bản hay do phong cách tác giả chi phối Nhìn chung, trong các loại hình văn bản phi hư cấu (văn bản thuộc phong cách khoa học, chính luận, hành chánh), chủ đề thường được hiển ngôn Trong các loại hình văn bản hư cấu văn bản thuộc phong cách nghệ thuật), chủ đề thường mang tính hàm ngôn, nhiều tầng, nhiều lớp Tùy theo quy mô, văn bản có thể bao gồm một câu, vài câu hay bao gồm nhiều đoạn, nhiều chương, nhiều phần,… Câu, đoạn, chương, phần khi tham gia vào tổ chức của văn bản đều có một chức năng nào đó và chúng có mối quan hệ ràng buộc, nương tựa lẫn nhau Toàn bộ các bộ phận hợp thành văn bản cùng với trình tự sắp xếp chúng dựa trên cơ sở chức năng và các mối quan hệ qua lại giữa chúng chính là cấu trúc văn bản
Thông thường, trong một văn bản có chủ đề mang tính hiển ngôn, được cấu tạo bằng vài câu, thì câu mở đầu của văn bản có thể là câu nêu lên chủ đề của nó, gọi là câu chủ đề (Thesis sentence) Và câu cuối của văn bản có thể đúc kết, khẳng định lại
Trang 23chủ đề, gọi là câu kết đề Trong trường hợp chủ đề của văn bản không được nêu lên ở câu mở đầu mà được nêu ở câu cuối, thì câu cuối chính là câu kết đề, đồng thời cũng là câu nêu lên chủ đề của văn bản Điều này đúng trong nhiều văn bản tiếng Anh và một
số thể loại văn bản tiếng Việt, nhưng trong các thể loại như văn bản khoa học thì việc
mở ý hay kết ý thường quy vào đoạn hơn là câu
Trong văn bản được cấu tạo gồm ba bộ phận, tiêu biểu là các bài học trong sách giáo khoa, các bài văn nghị luận trong nhà trường, ba phần này thường có chức năng như sau:
- Phần Mở đầu (Nhập đề) là phần chủ yếu có chức năng dẫn nhập và nêu chủ
đề, có thể được cấu tạo bằng một hay vài đoạn văn bản
- Phần Khai triển (Thân bài) là phần triển khai, làm sáng tỏ chủ đề của văn bản bằng cách miêu tả, trần thuật, trình bày hay bàn luận Phần này bao gồm nhiều đoạn văn, trong đó, mỗi đoạn triển khai, làm sáng tỏ một khía cạnh nào đó của chủ đề toàn văn bản
- Phần Kết luận là phần có chức năng đúc kết, khẳng định lại chủ đề, đồng thời nó có thể mở rộng, liên hệ đến những vấn đề có liên quan Phần này có thể được cấu tạo bằng một vài đoạn văn
Trong những văn bản gồm ba phần như vừa nêu trên, chủ đề của văn bản thường được phát biểu trực tiếp trong phần Mở đầu, cụ thể là trong câu chủ đề, thường
là câu cuối hay câu áp cuối trong phần Mở đầu Chủ đề của văn bản cũng thường được đúc kết, khẳng định lại ở phần Kết luận, trong câu kết đề, thường là câu mở đầu của phần này Tuy nhiên, câu kết đề cũng có thể xuất hiện ở giữa hay cuối phần Kết luận
2.1.2 Tiêu đề của văn bản
Tiêu đề (Title) hay đầu đề của văn bản là tên gọi của văn bản và là một bộ phận cấu thành văn bản Tuy nhiên, một số loại văn bản có thể không có tiêu đề, tiêu biểu như tin vắn, các sáng tác dân ca như ca dao v.v
Xét mối quan hệ giữa tiêu đề với nội dung cơ bản của văn bản, có hai loại tiêu đề:
Trang 24- Tiêu đề mang tính dự báo : phản ảnh một phần hay toàn bộ nội dung cơ bản của văn bản Qua tiêu đề thuộc loại này, người đọc có thể suy đoán trước đề tài hay chủ đề của văn bản,
- Tiêu đề mang tính nghệ thuật : không gợi ra điều gì về đề tài và chủ đề của văn bản,
Xét mối quan hệ giữa hai loại tiêu đề vừa nêu với các phong cách ngôn ngữ văn bản, chúng ta thấy các loại văn bản thuộc phong cách khoa học, hành chánh và chính luận thường có tiêu đề mang tính dự báo Còn các loại văn bản thuộc phong cách nghệ thuật thường có tiêu đề mang tính chất nghệ thuật hơn là tính chất dự báo
2.1.3 Đoạn văn
Ðoạn văn là một tập hợp câu liên kết chặt chẽ với nhau về nội dung và hình thức, diễn đạt hoàn chỉnh hay tương đối hoàn chỉnh một chủ đề bộ phận ở cấp độ nhỏ nhất nào đó trong chủ đề hay hệ thống chủ đề toàn thể của văn bản
Nếu đoạn văn là một tập hợp thì câu chính là phần tử Do đó, về số lượng câu, đoạn văn có ba khả năng:
- Đoạn văn gồm nhiều câu, tức là từ hai trở lên (tập hợp nhiều phần tử)
- Đoạn văn một câu (tập hợp một phần tử)
- Đoạn văn không có câu nào (tập hợp rỗng)
Ðoạn văn nhiều câu là hiện tượng phổ biến trong văn bản Ðoạn văn một câu chỉ xuất hiện rải rác trong văn bản Ðoạn văn không câu nào là trường hợp đặc biệt, chỉ xuất hiện ở các bài văn tuyển Ðó là những đoạn văn đã bị lược bỏ, được báo hiệu bằng dấu chấm ngang dòng
Trong đoạn văn, tính liên kết cũng thể hiện ở cả hai bình diện: liên kết nội dung
và liên kết hình thức như ở cấp độ văn bản
Một đoạn văn được xem là hoàn chỉnh khi nội dung biểu đạt của nó mang tính
tự nghĩa và xác định Ðoạn văn chỉ hoàn chỉnh tương đối khi nội dung biểu đạt của nó mang tính hợp nghĩa và/hay không xác định
Khái niệm chủ đề bộ phận ở cấp độ nhỏ nhất mà đoạn văn diễn đạt Ðiều này có nghĩa là những chuỗi câu dưới đoạn chỉ có chức năng triển khai chủ đề của đoạn; dưới đoạn không còn chủ đề bộ phận ở cấp độ nhỏ hơn
Trang 25Dựa vào đặc điểm về nội dung biểu đạt, có tất cả bốn loại đoạn văn cơ bản :
- Đoạn miêu tả : có nội dung thể hiện sự vật, hiện tượng một cách chi tiết, cụ thể, sinh động như nó tồn tại trong thực tại khách quan hay theo trí tưởng tượng của người viết Ðây là đoạn văn cơ bản, xuất hiện rất phổ biến trong các loại văn bản thuộc phong cách nghệ thuật như truyện, thơ trữ tình, kí sự
- Đoạn thuật sự : có nội dung trình bày diễn biến của sự việc, sự kiện như nó đã xảy ra hay theo trí tưởng tượng của người viết Loại đoạn văn này có khả năng xuất hiện trong nhiều phong cách ngôn ngữ văn bản: hành chánh, khoa học, chính luận và nghệ thuật
- Đoạn lập luận : có nội dung trình bày suy nghĩ, ý kiến, quan điểm của người viết về một vấn đề, một hiện tượng nào đó Ðây là loại đoạn văn cơ bản, xuất hiện rất phổ biến trong các loại văn bản thuộc phong cách khoa học, chính luận Văn bản thuộc phong cách hành chánh cũng có thể vận dụng loại đoạn văn này, nhưng ít phổ biến hơn
- Đoạn hội thoại : có nội dung phản ánh lời nói trực tiếp của con người tham gia giao tiếp Ðoạn văn hội thoại xuất hiện rất phổ biến trong khẩu ngữ tự nhiên hàng ngày, trong các văn bản thuộc phong cách nghệ thuật như truyện và hầu như không xuất hiện trong thể loại văn bản khoa học
2.1.4 Câu và cấu trúc câu tiếng Việt [1]
Câu là một tập hợp từ, ngữ kết hợp với nhau theo những quan hệ cú pháp xác định, được tạo ra trong quá trình tư duy,giao tiếp, có giá trị thông báo, gắn liền với mục đích giao tiếp nhất định
Nói đến cấu trúc câu là nói đến các thành phần tạo câu cùng với chức năng, mối quan hệ qua lại và sự phân bố chúng trong tổ chức nội bộ câu
Dựa vào vai trò tạo câu, các thành phần câu được chia thành ba loại lớn: thành phần nòng cốt, thành phần phụ và thành phần biệt lập
• Thành phần nòng cốt của câu
Thành phần nòng cốt là loại thành phần cơ bản, cốt lõi của câu mà dựa vào nó câu mới có thể tồn tại Thành phần nòng cốt bao gồm hai loại nhỏ: chủ ngữ và vị ngữ
Trang 26Về cấu tạo, chủ ngữ có thể là một từ, một chữ chính phụ hay một kết cấu chủ -
vị dưới bậc câu (gọi là tiểu cú) tạo thành
- Vị ngữ (Predicate)
Vị ngữ (viết tắt: V) là loại thành phần nòng cốt có chức năng biểu thị nội dung thuyết minh về đối tượng được câu nói đến Nó trả lời cho câu hỏi: đối tượng được nói đến làm gì, như thế nào, ra sao?
Về mặt từ loại, vị ngữ thường do động từ hay tính từ đảm nhiệm Một vài từ loại khác như đại từ, số từ cũng có thể làm vị ngữ
Về mặt cấu tạo, vị ngữ có thể do một từ, một ngữ hay do một kết cấu chủ vị dưới bậc câu (tiểu cú) tạo thành
Về trật tự phân bố chủ ngữ, trong câu tiếng Việt, chủ ngữ đứng trước vị ngữ là hiện tượng phổ biến Tuy nhiên, trong một số trường hợp, chủ ngữ có thể đứng sau vị ngữ
Chủ ngữ và vị ngữ là hai thành phần nòng cốt, nên chúng thường xuất hiện trong câu Tuy nhiên, hai thành phần này cũng có thể vắng mặt trong một số trường hợp:
- C hay / và V bị tỉnh lược dựa vào hoàn cảnh giao tiếp
- C hay / và V bị tỉnh lược dựa vào văn cảnh
Ngoài một số trường hợp vừa nêu, nếu câu thiếu C hay/và thiếu V thì đó là câu sai ngữ pháp
• Thành phần phụ của câu
Thành phần phụ của câu bao gồm hai loại nhỏ: trạng ngữ và khởi ngữ
- Trạng ngữ
Trang 27Trạng ngữ (viết tắt: Tr) là loại thành phần phụ có chức năng bổ sung thêm thông tin phụ cho sự việc được kết cấu C - V nòng cốt nêu ra Thông tin phụ mà Tr bổ sung có thể là thời gian, nơi chốn, cách thức, phương tiện, trạng thái, đối tượng có liên quan v.v
Về mặt cấu tạo, Tr có thể là một từ, một ngữ có hay không giới từ dẫn nhập, tuỳ vào loại trạng ngữ cụ thể
Trong trường hợp Tr đứng trước C - V, Tr thường được phân cách với kết cấu
C - V bằng dấu phẩy Trường hợp Tr xen vào giữa hay đứng sau C - V cũng vậy
Ðể xác định được những danh ngữ, giới ngữ xen vào giữa hay nằm sau C - V có phải là Tr hay không, ta kiểm tra bằng cách đảo chúng lên đầu câu Nếu câu văn không thay đổi nghĩa hay không sai, thì đó là Tr
- Khởi ngữ (Tr chỉ chủ đề, đè ngữ)
Khởi ngữ (viết tắt là K) là loại thành phần phụ có chức năng nhấn mạnh một chi tiết nào đó trong sự việc được kết cấu C - V nêu lên Ðiểm mà K nhấn mạnh có thể trùng với C, với V hay trùng với một bộ phận nào đó trong V
Về cấu tạo, K có thể do một từ hay một ngữ tạo thành Khi K là một ngữ, nó có thể chứa tiểu cú
Về vị trí, K bao giờ cũng đứng trước C - V và được phân cách C - V bằng dấu phẩy, nếu không có trợ từ thì xen vào
Về nội dung nghĩa, cần lưu ý rằng, câu bình thường không có K khác với câu có
K ở chỗ: câu có K luôn mang một hàm ý nào đó
• Thành phần biệt lập
Thành phần biệt lập là loại thành phần đứng tách riêng ra trong tổ chức câu và
có mối quan hệ lỏng lẻo với kết cấu C - V nòng cốt
Thành phần biệt lập bao gồm nhiều loại nhỏ:
- Chuyển ngữ (Tr chuyển tiếp, thành phần phụ chuyển tiếp)
Chuyển ngữ là loại thành phần biệt lập có chức năng xác lập và biểu thị mối quan hệ giữa câu này với câu khác trong chuỗi câu, đoạn văn v.v Nói cách khác, chức năng của thành phần này là liên kết câu, tạo nên sự mạch
Trang 28lạc của đoạn văn, ngôn bản
Về mặt cấu tạo, chuyển ngữ có thể là một từ và bao giờ cũng là quan hệ từ (liên
từ, giới từ) Các quan hệ từ thường làm chuyển ngữ là: và, rồi, nhưng, song, tuy nhiên,
vì, bởi vì, nên, cho nên, giữa, với, bằng Chuyển ngữ còn có thể do một tổ hợp từ cố
định hoá (quán ngữ) hay có xu hướng cố định hoá tạo thành Chẳng hạn như các tổ
hợp: mặt khác, trái lại, ngược lại, bên cạnh đó, chẳng hạn như, ví dụ như, do đó, mặc
dù vậy, tóm lại, nói tóm lại v.v
Về vị trí, chuyển ngữ thường đứng trước kết cấu C - V nòng cốt và được phân cách bằng dấu phẩy, nếu ta tổ hợp Nếu chuyển ngữ là một từ thì không cần dùng dấu phẩy
tổ hợp từ tạo thành Chẳng hạn như các tổ hợp: ái chà,
hỡi ôi, than ôi, đặc biệt là tổ hợp: danh từ kết hợp với các từ ơi, à
Về vị trí, cảm thán ngữ có thể đứng đầu câu hay cuối câu Và ở vị trí nào, nó cũng thường được tách ra khỏicác thành phần khác bằng dấu phẩy
- Hô ngữ (thành phần gọi - đáp)
Hô ngữ bao gồm hai loại nhỏ: hô ngữ gọi và hô ngữ đáp
Hô ngữ gọi: là loại thành phần đặc biệt có chức năng biểu thị đối tượng được
người nói gọi đến trong câu
Về cấu tạo, hô ngữ có thể là một từ, thường là danh từ riêng hay danh từ chung, hay là một tổ hợp gồm danh từ, danh ngữ kết hợp với các từ đệm ơi, à, ạ, này
Về vị trí, hô ngữ gọi có thể đứng ở đầu hay ở cuối câu và bao giờ nó cũng được phân cách khỏi các thành phần khác bằng dấu phẩy
Hô ngữ đáp: là loại thành phần đặc biệt có chức năng đánh dấu câu trả lời
đồng thời biểu thị thái độ, phản ứng của người nói
Trang 29Về cấu tạo, hô ngữ đáp có thể là một từ: vâng, ạ, ừ, phải, đúng, không, hay là một tổ hợp: dạ vâng, dạ phải, dạ đúng, dạ không v.v
Về vị trí, hô ngữ gọi bao giờ cũng đứng ở đầu luôn được phân cách khỏi các thành phần khác bằng dấu phẩy
- Giải thích ngữ
Giải thích ngữ là loại thành phần đặc biệt có chức năng giải thích thêm cho một
từ ngữ nào đó, hay ghi chú thêm về thái độ, lời lẽ, cảm xúc của người nói
Về cấu tạo, hô ngữ có thể là một từ, , hay là một câu hoàn chỉnh Trong trường hợp giải thích ngữ là một câu,nó còn được gọi là câu đệm hay câu chêm xen
Về vị trí, nếu giải thích ngữ có chức năng giải thích, thì nó đứng liền sau từ ngữ được giải thích Nếu giải thích ngữ có chức năng ghi chú thêm, thì nó có thể được xen vào giữa hay đặt ở cuối câu Và xuất hiện ở vị trí nào, giải thích ngữ cũng phải được tách khỏi các thành phần khác bằng dấu phẩy, dấu gạch ngang, dấu hai chấm hay dấu ngoặc đơn
- Về phía người tiếp nhận văn bản (người nghe, người đọc), khi nghe, đọc, trước hết là tiếp xúc với từ (dưới dạng âm thanh hay kí hiệu chữ viết) và hiểu được từ, trên cơ sở đó mới hiểu được câu, đoạn và cuối cùng là hiểuđược nội dung toàn ngôn bản
Trang 30Từ có vai trò vô cùng quan trọng như vậy, nên năng lực ngôn ngữ của một cá nhân thể hiện rõ nhất, dễ nhận thấy nhất qua việc dùng từ, xét ở cả hai mặt: đúng và sai, hay và dở
• Thế nào là dùng từ chính xác?
Dùng từ chính xác là dùng từ đảm bảo được sự trùng khít, tương hợp sát sao giữa ý nghĩa của từ với nội dung muốn biểu đạt, tức khái niệm, sự vật, hành động, tính chất, trạng thái v.v Căn cứ vào các thành phần ý nghĩa của từ, có thể cụ thể hoá sự tương hợp, trùng khít vừa nêu:
- Thứ nhất, nghĩa biểu niệm hay biểu vật của từ phải phản ánh đúng khái niệm,
sự vật, hành động, tính chất mà người nói/người viết muốn đề cập đến Ðây là
sự tương hợp cơ bản nhất Không bảo đảm được sự tương hợp này thì sẽ dẫn đến chỗ lỗi chọn sai từ
- Thứ hai, nghĩa biểu thái của từ phải phù hợp với tình cảm, thái độ của người nói/viết đối với đối tượng được đề cập đến; đồng thời nghĩa biểu thái của các từ phải tương hợp với nhau và tương hợp với sắc thái ý nghĩa chung của cả câu văn
- Thứ ba, giá trị phong cách của từ phải phù hợp với phong cách ngôn ngữ văn bản
2.2 Bài toán tách câu
2.2.1 Giới thiệu bài toán
Đây là tiền đề cho mọi phân tích và xử lý của các giai đoạn sau của quá trình rút trích tập các phần quan trọng của văn bản Kết quả của việc tách câu ảnh hưởng nhiều đến kết quả rút trích của hệ thống Có thể mô tả như sau : Từ một văn bản gốc, sau khi xử lý sẽ cho ra một tập các câu đơn hoặc câu ghép tùy theo yêu cầu của bài toán gốc
Mục tiêu của bài toán là xác định ranh giới rõ ràng của các câu tiếng Việt, phân biệt câu với các đơn vị văn bản khác như từ, ngữ, đoạn,… làm cơ sở để phục vụ cho các bài toán khác trong xử lý ngôn ngữ tự nhiên như dịch tự động, tách từ, gán nhãn từ loại, phân tích cú phát, sinh mục lục,…
Trang 312.2.2 Dấu hiệu đặc trưng nhận dạng câu
Xét về mặt cấu tạo ngôn ngữ tiếng Việt có hai loại câu chính là câu đơn và câu ghép Tùy vào mục tiêu bài toán là tách câu đơn hay câu ghép mà xử lý phù hợp
• Câu đơn :
Một câu đơn cơ bản bao gồm có một nòng cốt đơn, nòng cốt đơn này bao gồm hai thành phần chính là chủ ngữ và vị ngữ
Ví dụ :
Bài báo này /trình bày một phương pháp tóm tắt văn bản
Tác giả / sử dụng thuật toán Dijkstra
Câu đơn cũng có thể có những thành phần khác không phải nòng cốt như thành phần phụ của câu (trạng ngữ, khởi ngữ) hay thành phần biệt lập (chuyển ngữ, cảm thán ngữ, hô ngữ )
Ví dụ :
“Ngoài ra, báo cáo còn sử dụng phương pháp thống kê.”
Xét về mặt tính chất, các văn bản khoa học hầu như không có các thành phần cảm thán hay hô ngữ
• Câu ghép :
Câu ghép được tạo nên bởi ít nhất hai vế, mỗi vế có một nòng cốt đơn, câu ghép cũng có thể có các thành phần ngoài nòng cốt như câu đơn Về cấu trúc câu ghép thì hai loại câu ghép cơ bản là câu ghép song song (câu ghép đẳng lập) và câu ghép qua lại (câu ghép chính phụ)
• Nhận dạng câu :
Vì mục đích của bài toán rút trích như đã đề cập ở trên là phải rút được các thành phần quan trọng trong văn bản Đối với việc tách câu trong đề tài này để bảo toàn ngữ nghĩa cho câu một cách đầy đủ nhất thì ta cần xây dựng module tách câu không phân biệt câu ghép hay câu đơn mà phân biệt qua các dấu hiệu nhận dạng đặc trưng câu thông qua các dấu kết thúc câu
Với các kiểu câu bình thường như trên ta có thể nhận biết câu qua dấu câu: dấu chấm (câu tả, câu trần thuật, câu kể), dấu chấm than (câu cảm, câu cầu khiến), dấu chấm hỏi (câu hỏi)
Trang 32Trong hội thoại dấu 2 chấm (:) báo hiệu cho lời nói trực tiếp, và lời nói trực tiếp này nằm trong dấu ngoặc kép (“…”) hoặc bắt đầu sau dấu gạch đầu dòng(-) Trong trường hợp này, ta sẽ tách câu (nhận diện câu qua dấu hai chấm (:)) Còn nếu sau dấu hai chấm là một mệnh đề diễn giải mà không phải xuống dòng thì không tách để bảo toàn nghĩa cho câu Ví dụ : “Chúng tôi sử dụng hai phương pháp : dùng giải thuật di truyền và thống kê.”
Đối với đoạn hội thoại có vế trích dẫn nằm ở cuối câu thì ta cũng sẽ tách câu
Vì trong lời nói trực tiếp có nhiều câu, khi ta tách chúng ra thành những câu riêng biệt,
vế trích dẫn cuối cùng sẽ gắn với câu cuối cùng làm thành một câu khác có ý nghĩa khác thì câu sẽ trở nên sai Vì vậy ta sẽ tách vế này ra thành một câu
Dấu chấm phẩy (;) thường dùng để chỉ ranh giới giữa các vế trong câu ghép song song Vì vậy ta có thể tách câu giống như câu ghép song song
Sau dấu (;) là cặp từ “nhưng (để/ nếu/ muốn)…thì” thì cũng có thể tách câu được
vì cặp từ này có khả năng tạo thành một câu có đủ ý nghĩa và hoạt động độc lập được
Dấu ngang dùng để chỉ ranh giới của thành phần chú thích, đặt trước những lời đối
thoại, liệt kê Đối với câu có dấu ngang dùng để chỉ thành phần chú thích thì ta không nên tách câu
Phương pháp tách câu cụ thể trong đề tài sẽ được trình bày trong chương 3 2.3 Bài toán tách từ tiếng việt
2.3.1 Giới thiệu bài toán
Một trong các vấn đề nền tảng của việc phân tích văn bản là chia văn bản thành đơn vị cơ sở nhỏ nhất đó chính là từ Trong tiếng Anh việc tách từ trở nên đơn giản vì
về mặt ngữ nghĩa mỗi từ đều mang trong nó ngữ nghĩa riêng Nên chúng ta có thể tách
từ dựa vào khoảng trắng N h ưn g t r o n g c á c ngôn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn và cả tiếng Việt đó là một thách thức vô cùng to lớn vì sự phức tạp tồn tại trong nó Mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng có những đặc tính chung với các ngôn ngữ phonographic Đông Nam
Trang 33Á khác như khó xác định ranh giới giữa các từ và có các điểm khác biệt về phonetic, văn phạm và ngữ nghĩa so với các ngôn ngữ Ấn Âu Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt[20]
Theo Yang và Xin [29] và các kết quả khảo sát của Nguyễn Thanh Hùng[20], hầu hết các phương pháp phân loại văn bản tiếng Việt hiệu quả nhất hiện nay như: Support Vector Machine, Linear Least Squares Fit, mạng nơ ron … đều cần thông tin xác suất hay thống kê hay trọng số của từ Sau khi khảo sát và đánh giá các phương pháp này trong việc phân loại văn bản tiếng Việt, đề tài được xác định việc tách từ là bước đầu tiên hết sức quan trọng cần phải được giải quyết
Đơn vị cơ bản trong tiếng Việt là tiếng, không phải là từ Trong tài liệu “Từ tiếng Việt” của tác giả Đinh Điền được đăng trong hội thảo Proceeding of ICMLC2002 ở Beijing, vào tháng 11 năm 2002đã nêu ra một số đặc tính chính của từ trong tiếng Việt như sau:
- Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp
- Từ được cấu trúc từ “tiếng”
- Từ bao gồm từ đơn (từ một tiếng) và từ phức (n- tiếng, với n < 5), bao gồm từ láy và từ ghép
Do đặc điểm của tiếng Việt nên việc xây dựng bộ lexicon hay ngữ liệu này cần rất nhiều thời gian, công sức và chi phí Đây chính là vấn đề đáng lo nhất trong bài toán phân loại văn bản tiếng Việt, xử lý ngôn ngữ tự nhiên và tìm kiếm thông tin tiếng Việt
Bài toán có thể mô tả như sau : Xét văn bản t gồm n tiếng t=s1s2…s n Mục tiêu của p h ư ơ n g p h á p tách từ là xác định những cách tách hợp lý nhất văn
Trang 34phức tạp, đặc biệt là không có ngữ liệu kiểm chứng đã được tách từ thủ công
2.3.2 Các phương pháp tách từ
2.3.2.1 Phương pháp dựa trên otomat [21]
Phương pháp này sử dụng tập dữ liệu gồm bảng âm tiết tiếng Việt (khoảng
6700 âm tiết) và từ điển từ vựng tiếng Việt (khoảng 30.000 từ) Các từ điển được lưu dưới dạng các tệp văn bản có định dạng mã TCVN hoặc Unicode dựng sẵn (UTF-8) Chương trình xây dựng bằng Java, mã nguồn mở
• Các bước giải quyết của phương pháp :
- Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt
- Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt
- Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích và sử dụng thuật toán tìm kiếm trên đồ thị để liệt kê các cách phân tích có thể
Bảng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung
chuyển được ghi trên đó một ký tự Ví dụ, với ba âm tiết phương, pháp, trình ta sẽ có
ôtômát đoán nhận âm tiết như Hình 2.1
Hình 2 1 Xây dựng ôtômát âm tiết
Ôtômát từ vựng được xây dựng tương tự, với điểm khác như sau: thay vì ghi trên mỗi cung chuyển một âm tiết, ta ghi số hiệu của trạng thái (kết) của ôtômát âm tiết tại đó đoán nhận mỗi âm tiết của từ nhằm giảm kích thước của ôtômát từ vựng Ví dụ, với hai từ phương pháp và phương trình, giả sử khi đưa lần lượt các âm tiết phương, pháp, trình qua ôtômát âm tiết, ta đến được các trạng thái kết ghi các số n1, n2, n3 thì
Trang 35trên các cung chuyển tương ứng ta ghi các số n1, n2, n3 (Hình 2.2)
từ đỉnh vi đến đỉnh vj có cung (i < j) nếu các âm tiết si, si+1, ., sj-1 theo thứ tự
lập thành một từ Khi đó mỗi cách phân tách câu khác nhau tương ứng với một đường
đi trên đồ thị từ đỉnh đầu v0 đến đỉnh cuối vn+1 Trong thực tế, cách phân tích
câu đúng đắn nhất thường ứng với đường đi qua ít cung nhất trên đồ thị
Trong trường hợp câu có sự nhập nhằng thì đồ thị sẽ có nhiều hơn một đường đi ngắn nhất từ đỉnh đầu đến đỉnh cuối, phương pháp liệt kê toàn bộ các đường đi ngắn nhất trên đồ thị, từ đó đưa ra tất cả các phương án tách câu có thể và
để người dùng quyết định sẽ chọn phương án nào, tuỳ thuộc vào ngữ nghĩa hoặc
văn cảnh Ví dụ, xét một câu có cụm "thuộc địa bàn", ta có đồ thị như sau (Hình 2.3)
Hình 2 3 Một tình huống nhập nhằng
Cụm này có sự nhập nhằng giữa thuộc địa và địa bàn và ta sẽ có hai kết quả phân tách là "thuộc địa / bàn" và "thuộc / địa bàn" Ta có thể chỉ ra rất nhiều
Trang 36những cụm nhập nhằng trong tiếng Việt, chẳng hạn "tổ hợp âm tiết", "bằng chứng cớ",
Trường hợp trong câu có âm tiết không nằm trong từ điển thì rõ ràng ôtômát âm tiết không đoán nhận được âm tiết này Kết quả là đồ thị ta xây dựng từ câu đó là không liên thông Dựa vào tính chất này, ta thấy rằng nếu đồ thị không liên thông thì
dễ dàng phát hiện ra rằng đơn vị âm tiết không đoán nhận được không nằm trong từ điển âm tiết, tức nó bị viết sai chính tả hoặc là một đơn vị âm tiết (từ vựng) mới Với cách tiếp cận như trên, bài toán phân tách từ vựng trong câu tiếng Việt về cơ bản đã được giải quyết, đặc biệt là vấn đề tách các tổ hợp từ tương đương với một đơn vị từ vựng, thường là các cụm từ cố định, cụm từ gợi ý hoặc các thành ngữ trong tiếng Việt Với những câu nhập vào có sự nhập nhằng từ vựng, tức có nhiều hơn một cách phân tách thì chương trình liệt kê toàn bộ các phương án tách từ có thể và giành quyền lựa chọn kết quả cho người sử dụng Trong tất cả các phương án phân tách đó bao giờ cũng tồn tại phương án đúng
2.3.2.2 Dùng mô hình n-gram và phương pháp xác suất thống kê
Hướng tiếp cận này thường quy định tham số đầu vào n trong mô hình n-gram, thông thường n=2 do số lượng từ ghép 2 tiếng chiếm đa số trong từ điển tiếng Việt Có thể giải thích sơ qua về mô hình n-gram, đây là mô hình tách các từ liên tiếp nhau trong văn bản, giả sử ta có văn bản S = {t1,t2,…,ti} với ti là tiếng trong văn bản, mô hình trên sẽ gom các tiếng liên tiếp nhau thành 1 từ, với i tiếng sẽ có (i-(n-1)) từ
Ví dụ ta có câu : “Bài báo trình bày một phương pháp hoàn toàn mới”
Dùng mô hình n-gram với n=2 ta sẽ có các từ :
w1=”Bài báo” ,w2=”báo trình”, w3=”trình bày”, w4=”bày một”, w5=”một phương”,
w6= “phương pháp”, w7=”pháp hoàn”, w8=”hoàn toàn”, w9=”toàn mới”
Ta thấy chỉ có w1,w3,w6,w8 là những cụm từ có nghĩa, theo quan niệm những cụm từ sau khi tách xuất hiện nhiều trong nhiều văn bản khác nhau thì ta cho rằng từ
đó có nghĩa Như vậy các từ có nghĩa sẽ có tần suất xuất hiện nhiều nhất Tuy nhiên như đã thấy qua ví dụ trên với i=10 và n=2 chỉ có 4 cụm từ có nghĩa, nhưng có đến 5 cụm từ vô nghĩa, chính vì thế nếu sử dụng phương pháp này ta phải xác định ngưỡng tần suất chấp nhận từ có nghĩa và khuyết điểm của phương pháp này là sinh dữ liệu rác
Trang 37khá nhiều
2.3.2.3 Sử dụng giải thuật di truyền và thống kê trên Internet[19]
Phương pháp tập trung vào cách tách từ trong văn bản tiếng Việt theo một cách khả thi nào đó mà không dựa vào bất kỳ bộ lexicon hay ngữ liệu huấn luyện được gán nhãn nào để phục vụ cho việc phân loại văn bản tiếng Việt Do có thể tồn tại nhiều cách tách từ hợp lý khác nhau cho cùng một câu, phương pháp sử dụng giải thuật di truyền để tiến hóa quần thể mà trong đó, mỗi cá thể là tương ứng với một cách tách từ cho câu đang xét Hàm đánh giá độ thích nghi thể hiện thong tin thống kê rút trích trực tiếp từ Internet sử dụng các search engine thương mại Thông
tin rút trích bao gồm tần số của tài liệu và thông tin tương quan n-gram
Hướng tiếp cận lai áp dụng nhiều cách khác nhau để tận dụng ưu điểm của các giải pháp Tóm lại, các hướng tiếp cận để phân loại văn bản tiếng Việt dựa vào từ chỉ khả thi khi có bộ lexicon tốt và/hay ngữ liệu huấn luyện đủ lớn và đáng tin cậy
Với mỗi câu, p h ươn g p h áp sẽ xác định cách tách từ hợp lý nhất Tuy nhiên, không gian tìm kiếm sẽ rất lớn do có nhiều cách tổ hợp các tiếng thành
từ Dựa vào nguyên lý tiến hóa và di truyền, giải thuật di truyền thích hợp cho việc xác định (xấp xỉ) các lời giải tối ưu hóa toàn cục trong không gian tìm kiếm rất lớn thay vì các lời giải tối ưu cục bộ Giải thuật di truyền sẽ tiến hóa một quần thể qua nhiều thế hệ nhằm tối ưu hóa toàn cục thông quá quá trình chọn lọc, lai, biến dị
và tái sinh Chất lượng của mỗi cá thể trong quần thể được xác định bằng hàm thích
nghi và qua mỗi thế hệ, chúng ta sẽ chọn lại N cá thể tốt nhất sau khi thực hiện quá
trình lai, biến dị và tái sinh
Điểm mới của hướng tiếp cận này là thay vì phải sử dụng ngữ liệu huấn luyện đã được gán nhãn hay lexicon – vốn chưa có sẵn cho tiếng Việt, tác giả phương pháp đã sử dụng thông tin thống kê rút trích trực tiếp từ search engine và dùng giải thuật di truyền để xác định những cách tách từ hợp lý nhất đối với văn bản tiếng Việt cho trước Các kết quả thực nghiệm cho thấy hướng tiếp cận này đạt được những kết quả khả quan trong việc tách từ và phân loại văn bản tiếng
Việt với độ đo micro-averaging F1 đạt trên 90% Phương pháp này hứa hẹn tiềm
năng lớn cho việc xử lý các văn bản của các ngôn ngữ tương tự tiếng Việt – vốn còn
Trang 38chưa có các ngữ liệu được gán nhãn hay lexicon chuẩn
2.4 Các thách thức của quá trình rút trích văn bản khoa học
- Dùng những từ ngữ khách quan, không mang tính cá nhân
- Sử dụng thì quá khứ, chỉ dùng hiện tại cho những thứ đã trở thành chân
lý trong cộng đồng
- Ý của các đoạn văn phải theo trình tự dẫn giải từ trên xuống
Tuy văn bản khoa học có văn phong quy định, cấu trúc rõ ràng, nhất là với thể loại bài báo khoa học, nhưng cách viết, cách bố trí hay đặt đề mục của mỗi người là khác nhau, thông thường bố cục bài báo phụ thuộc vào mạch ý tưởng của chính tác giả Còn thể loại toàn văn báo cáo thì lại càng phong phú trong cách viết, đa số là các báo cáo của sinh viên, những người chưa có nhiều kinh nghiệm trong viết một văn bản khoa học khiến cho sự phức tạp trong cấu trúc của văn bản càng trở nên phức tạp Từ
đó gây nhiều khó khăn trong việc xác định các thành phần quan trọng trong văn bản rút trích
2.4.2 Lỗi văn phạm
Bên cạnh sự đa dạng trong cách viết, lỗi văn phạm do người viết tạo nên cũng gây nhiều trở ngại trong nhiều giai đoạn của quy trình xử lý Việc sử dụng các dấu câu không đúng mục đích, những lỗi phát sinh chính tả do vô ý như thêm các khoảng trắng, đánh sai từ làm hệ thống rút trích không nhận diện được cũng ảnh hưởng nhiều đến kết quả rút trích Chính vì thế muốn kết quả rút trích có độ chính xác cao đòi hỏi phần nào mức độ đúng đắn trong cách hành văn cũng như văn phạm của tài liệu xử lý
Trang 39Chương 3 : Phương pháp rút trích ý chính trong văn bản
tiếng Việt
3.1 Các phương pháp rút trích
Như chúng ta đã đề cập ở mô hình rút trích ý chính trong chương 1 (Hình 1.2) , trong giai đoạn phân tích, văn bản đầu vào được phân tích để xác định các đơn vị ngữ liệu quan trọng đồng thời tiếp nhận các thông số đầu vào của hệ thống tóm tắt Các thông số đầu vào được tiếp nhận ngay từ đây để hệ thống thông qua chúng sẽ áp dụng các phương pháp phù hợp Còn việc phân tích xác định các đơn vị ngữ liệu quan trọng
là công việc của các phương pháp trong giai đoạn phân tích Trong đó, văn bản cần tóm tắt sẽ được tách ra thành các đoạn, các câu, và những đoạn hay câu quan trọng nhất sẽ được chọn ra thông qua một số tiêu chí bài toán
Các phương pháp áp dụng trong giai đoạn phân tích được chia thành hai loại : Phương pháp thống kê và Phương pháp mạng ngữ nghĩa
- Phương pháp thống kê là các phương pháp sử dụng các số liệu thống kê về độ quan trọng của các từ, ngữ, câu hay đoạn Qua đây, hệ thống có thể sẽ giảm được số lượng các đối tượng phải xem xét và trích rút chính xác các đơn vị ngữ liệu cần lấy Các thống kê có thể nhận được từ các nghiên cứu về ngôn ngữ học hay thông qua phương pháp học máy từ các tập mẫu có sẵn Từ đó, các thống
kê này được dùng cho các tính toán hiện thời trên văn bản đầu vào
- Phương pháp mạng ngữ nghĩa là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác định các đơn vị ngữ liệu quan trọng Tư tưởng chính của các phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên kết nhiều với các thành phần khác sẽ có độ quan trọng lớn Việc đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp hoặc thông qua các phương pháp xác định độ liên quan truyền thống
3.1.1 Các phương pháp thống kê (Statistical Methods)
Tiếp cận thống kê đã chứng tỏ được tiềm năng khi áp dụng vào nhiều vấn
đề trong xử lý ngôn ngữ tự nhiên, như dịch máy, tìm kiếm văn bản, và trích chọn thông tin Khá nhiều phương pháp thống kê đã được áp dụng cho tóm tắt văn bản [2;14;15;17;23] Theo cách tiếp cận này bài toán tóm tắt văn bản được coi như bài
Trang 40toán phân lớp Cụ thể hơn, một văn bản được phân thành 2 lớp, lớp quan trọng và lớp không quan trọng Phương pháp sử dụng học máy thống kê được áp dụng để xây dựng các luật cho việc phân lớp Các phương pháp học máy đã được áp dụng thành công cho việc phân lớp văn bản bao gồm mạng Bayes, mô hình cực đại hóa entropy (Maximum entropy model), Mô hình Markov ẩn (Hidden Markov model), SVMs v.v…Trong số đó thì SVMs là phương pháp học máy hiệu quả có tính tổng quát cao và đã được áp dụng thành công với các ngôn ngữ thông dụng như Anh, Pháp, Nhật v.v [18]
Các phương pháp thống kê là những phương pháp đầu tiên được sử dụng để cài đặt một hệ thống tóm tắt văn bản Các số liệu thống kê thường được thu thập thông qua việc học trên các tập mẫu khác nhau Năm 1958, Luhn đã chọn ra các câu quan
trọng từ văn bản thông qua phương pháp thống kê tần suất của từ Năm 1969,
Edminson đưa ra bốn phương pháp mới hơn, trong đó có một phương pháp khá giống
với Luhn, để xây dựng nên một hệ tóm tắt văn bản Edminson cũng đã kiểm thử kết
quả của từng phương pháp cũng như các phương pháp áp dụng đồng thời với nhau Sau đây là một số tư tuởng chính của các phương pháp thống kê :
3.1.1.1 Phương pháp vị trí (Position-Based)
Phương pháp vị trí bao gồm các phương pháp xác định độ quan trọng dựa trên thống kê về vị trí của từ, ngữ hay câu trong văn bản Các thống kê này tất nhiên phụ thuộc vào thể loại văn bản…
Phương pháp này dựa trên quan niệm cho rằng các câu xuất hiện ở đầu văn bản thường quan trọng hơn những câu xuất hiện ở giữa hay ở cuối cùng của văn bản Với phương pháp tóm tắt đơn giản này, để tạo ra một văn bản tóm tắt, chúng
ta chọn ra những câu đầu tiên trong văn bản tùy theo kích thước hay độ dài mong muốn của văn bản tóm tắt Mặc dầu hiệu năng của phương pháp này thay đổi rất nhiều tùy theo loại của văn bản cần tóm tắt (tin tức, khoa học, v.v…), tuy nhiên nó luôn luôn chứng tỏ được vào khoảng 33% câu quan trọng trong văn bản thường nằm ở các vị trí quy định
• Chủ đề - Tiêu đề ( Title-based )
Thực tế chỉ ra rằng những từ trong tiêu đề thường liên quan đến những câu