Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)
Trang 1DỰA THEO NỘI DUNG
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng nghiên cứu/ứng dụng)
Trang 2NGUYỄN THỊ HƯƠNG LAN
HỆ QUẢN LÝ LỊCH SỬ XỬ LÝ VĂN BẢN
DỰA THEO NỘI DUNG
Chuyên ngành: HỆ THỐNG THÔNG TIN
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả trình bày trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác
Tp HCM, ngày 20 tháng 10 năm 2017
Học viên thực hiện luận văn
Nguyễn Thị Hương Lan
Trang 4LỜI CẢM ƠN
Em xin gửi lời cảm ơn sâu sắc tới Thầy Tân Hạnh, cảm ơn Thầy đã tận tình hướng dẫn, truyền đạt cho em những kiến thức và kinh nghiệm quý báu Em cũng xin gửi lời tri ân sâu sắc tới quý Thầy Cô Học Viện Công Nghệ Bưu Chính Viễn Thông cơ sở tại thành phố Hồ Chí Minh, cảm ơn Thầy Cô đã hết lòng đã truyền đạt vốn kiến thức quý báu cho chúng tôi trong suốt thời gian học tập tại trường
Trong suốt quá trình làm đề tài em đã nhận được sự quan tâm giúp đỡ của quý Thầy Cô, cơ quan công tác, gia đình và bạn bè Đó là nguồn động viên quý giá lớn lao tiếp thêm động lực thêm sức mạnh cho em hoàn thành luận văn này Trong quá trình thực hiện rất mong nhận được sự đóng góp ý kiến của Quý Thầy Cô và các bạn để em học thêm được nhiều kinh nghiệm
Em xin chân thành cảm ơn!
Tp HCM, ngày 20 tháng 10 năm 2017
Nguyễn Thị Hương Lan
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v
DANH SÁCH BẢNG vi
DANH SÁCH HÌNH VẼ vii
MỞ ĐẦU 1
Chương 1 - TỔNG QUAN 2
1.1 Giới thiệu hệ truy tìm thông tin 2
1.1.1 Tách từ cho tập các tài liệu 4
1.1.2 Lập chỉ mục cho tài liệu 4
1.1.3 Truy tìm văn bản 5
1.1.4 Xếp loại các tài liệu trả về 5
1.2 Giới thiệu về hệ thống trích thông tin 5
1.3 Giới thiệu về bài toán 8
1.4 Mục tiêu nghiên cứu 9
1.5 Đối tượng và phạm vi nghiên cứu 9
1.6 Cấu trúc của luận văn 10
1.7 Kết luận chương 1 10
Chương 2 - CƠ SỞ LÝ THUYẾT 11
2.1 Một số kỹ thuật tìm kiếm văn bản theo nội dung 11
2.1.1 Mô hình Boolean và kỹ thuật chỉ mục văn bản 11
2.1.2 Mô hình không gian vector 14
2.1.3 Mô hình tìm kiếm theo xác suất 16
2.1.4 Thước đo hiệu năng 17
2.2 Một số kỹ thuật rút trích thông tin 19
2.2.1 Rút trích cụm từ khóa (Keyphrase Extraction) 19
2.2.2 Rút trích thực thể dựa theo các mẫu biểu thức chính qui 20
Trang 62.3 Kết luận chương 2 23
Chương 3 – XÂY DỰNG, THỰC NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 24
3.1 Khảo sát 24
3.1.1 Tìm hiểu về văn bản hành chính 24
3.1.2 Phân loại văn bản hành chính 24
3.1.3 Đặc điểm của ngôn ngữ văn bản hành chính 27
3.1.4 Các đặc trưng cơ bản của văn bản hành chính 29
3.2 Phân tích 30
3.3 Thiết kế 32
3.3.1 Cơ sở dữ liệu 32
3.3.2 Module xử lý 33
3.3.3 Giao diện chương trình 39
3.4 Cài đặt và đánh giá 42
3.4.1 Chuẩn bị dữ liệu 42
3.4.2 Phương pháp đánh giá 42
3.4.3 Đánh giá kết quả 43
3.4.4 Nhận xét 45
3.5 Kết luận chương 3 45
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45
DANH MỤC TÀI LIỆU THAM KHẢO 47
Trang 7DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Trang 8DANH SÁCH BẢNG
Bảng 2.1: Văn bản mẫu; mỗi dòng là một tài liệu 13
Bảng 2.2: IF đối với văn bản của bảng 2.1 14
Bảng 2.3: Bảng liệt kê các siêu ký tự thường d ng 21
Bảng 3.1: Bảng tbl_Index 32
Bảng 3.2: Bảng tbl_Relationship 32
Bảng 3.3: Bảng Bộ dữ liệu 42
Bảng 3.4: Kết quả đánh giá với truy vấn là số văn bản 43
Bảng 3.5: Kết quả đánh giá với truy vấn trên các từ khóa 44
Bảng 3.6: Kết quả đánh giá với truy vấn là một văn bản 44
Bảng 3.7: Kết quả đánh giá tìm lịch sử văn bản 44
Trang 9DANH SÁCH HÌNH VẼ
Hình 1.1: Kiến trúc của hệ IR 4
Hình 2.1: Mô tả Recall 18
Hình 2.2: Mô tả Precision 18
Hình 3.1: Tổng quan mô hình 31
Hình 3.2: Lược đồ cơ sở dữ liệu hệ thống 33
Hình 3.3: Thuật toán xây dựng loại bỏ hư từ 34
Hình 3.4: Thuật toán rút trích số văn bản 34
Hình 3.5: Thuật toán rút trích các văn bản liên quan 34
Hình 3.6: Thuật toán rút trích ngày phát hành 35
Hình 3.7: Thuật toán rút trích từ khóa 35
Hình 3.8: Giao diện chương trình 40
Hình 3.9: Giao diện Indexing 40
Hình 3.10: Giao diện tìm kiếm số văn bản 41
Hình 3.11: Giao diện tìm kiếm trên các từ khóa 41
Hình 3.12: Giao diện tìm kiếm trên file 42
Trang 10MỞ ĐẦU
Ở bất kỳ cơ quan, tổ chức nào trong công việc hàng ngày đều phát sinh rất nhiều văn bản, giấy tờ Các văn bản được xử lý cần lưu trữ ngăn nắp để dễ dàng cho việc tra cứu, theo dõi và tìm kiếm sau này Vì vậy, việc áp dụng một hệ thống quản
lý văn bản mà hỗ trợ trích các văn bản có quan hệ về nội dung xử lý theo lịch sử là một nhu cầu cần thiết và ph hợp với xu hướng đổi mới công tác văn phòng hiện nay
Trong hoạt động của cơ quan, tổ chức nhà nước nói chung và cơ quan hành chính nhà nước nói riêng, văn bản được coi là một trong những sản phẩm của quá trình quản lý, đồng thời văn bản cũng được nhìn nhận như một phương tiện hữu hiệu, đắc lực và có hiệu quả cho hoạt động quản lý Hoạt động quản lý hành chính nhà nước là hoạt động mang tính thường xuyên, liên tục; thực hiện chức năng quản
lý trên mọi lĩnh vực của đời sống xã hội Do đó, trong suốt quá trình quản lý, từ việc chỉ đạo, điều hành đến tổ chức, thi hành và tổng kết thực hiện đều gắn liền với các văn bản Thực tế cho thấy trong hoạt động của các cơ quan Hành chính nhà nước, công tác quản lý văn bản nếu được tổ chức, thực hiện một cách hợp lý, nghiêm túc
và khoa học sẽ góp phần đảm bảo thông tin, cung cấp những thông tin lịch sử quá khứ, những căn cứ, bằng chứng phục vụ cho hoạt động quản lý của cơ quan khi cần thiết Giúp cho cán bộ, công chức cơ quan nâng cao hiệu suất công việc và giải quyết, xử lý nhanh chóng các vấn đề Hồ sơ tài liệu trở thành phương tiện theo dõi, kiểm tra, giám sát công việc một cách có hệ thống, theo dõi sẽ góp phần thực hiện tốt mục tiêu quản lý
Làm tốt công tác quản lý lịch sử văn bản cũng là tiền đề để đảm bảo cho hoạt động quản lý diễn ra thông suốt; đảm bảo hiệu lực, hiệu quả quản lý hành chính nhà nước trong giai đoạn đẩy mạnh công cuộc cải cách hành chính hiện nay
Vì vậy, việc xây dựng một hệ thống thu thập và tìm kiếm lịch sử xử lý các văn bản có quan hệ về nội dung là một bài toán cần thiết để hỗ trợ cho việc quản lý, theo dõi cũng như kiểm tra các văn bản
Trang 11Chương 1 - TỔNG QUAN
Hệ thống trích thông tin (Information Extraction) là một hệ thống thuộc lĩnh vực truy tìm thông tin (Information Retrieval) Chương Tổng quan giới thiệu về hệ thống truy tìm thông tin và hệ thống trích thông tin Đây là các hệ thống nền tảng cho hệ thống quản lý lịch sử xử lý văn bản dựa theo nội dung
1.1 Giới thiệu hệ truy tìm thông tin
Truy tìm thông tin (Information Retrieval) có thể được định nghĩa như là một
hệ thống thông tin có các chức năng thu thập, tổ chức, lưu trữ, truy tìm và phân bố thông tin Các nghiên cứu liên quan đến lĩnh vực truy tìm thông tin thường nhắm đến nền tảng lý thuyết và cải thiện công nghệ tìm kiếm, bao gồm cả cấu trúc và sự duy trì các kho dữ liệu lớn
Hiện nay, hầu hết các hệ thống truy tìm thông tin thực chất chỉ là hệ thống truy tìm tài liệu, nghĩa là hệ thống sẽ truy tìm những tài liệu có trong cơ sở dữ liệu lưu trữ có nội dung liên quan, ph hợp, đáp ứng với thông tin yêu cầu của người dùng Hệ thống truy tìm thông tin tập trung vào việc truy tìm các tài liệu dựa trên nội dung của các thành phần không có cấu trúc Một câu truy vấn của người d ng sẽ
mô tả các tính chất của các thành phần có cấu trúc và không có cấu trúc của tài liệu được truy tìm
Hệ thống truy tìm thông tin tìm kiếm các tài liệu trong một tập cho trước về một chủ đề nào đó hoặc thỏa mãn một nhu cầu thông tin nào đó Chủ đề hoặc nhu cầu thông tin được biểu diễn bởi một câu truy vấn, được phát sinh bởi người d ng Các tài liệu thỏa mãn câu truy vấn được xác định bởi người d ng thì được xem là
ph hợp Các tài liệu không nói về chủ đề được cho trước được xem là không ph hợp Một hệ thống truy tìm thông tin có thể sử dụng câu truy vấn để phân loại các tài liệu, trả về cho người d ng một tập con các tài liệu thỏa mãn các tiêu chuẩn phân loại Tỉ lệ các tài liệu trả về cho người d ng được người d ng kết luận là ph hợp càng cao thì nghĩa là các tiêu chuẩn phân loại càng tốt
Trang 12Ngoài ra, một hệ thống truy tìm thông tin còn có thể xếp hạng các tài liệu
Khái niệm “ph hợp” là một khái niệm mấu chốt trong hệ thống truy tìm thông tin “Ph hợp” là một khái niệm mang tính chất chủ quan trong ngữ cảnh sự hài lòng của người d ng về những tài liệu truy tìm được cho câu truy vấn của họ là mục tiêu tối hậu Do đó, sự phán xét của người d ng về việc các tài liệu truy tìm được có thỏa mãn câu truy vấn của họ hay không trở thành tiêu chuẩn của khái niệm
“ph hợp” Ngoài yếu tố câu truy vấn và tập tài liệu thì ngữ cảnh cũng đóng một vai trò quan trọng ảnh hướng đến khái niệm “ph hợp” Mỗi người d ng có thể sẽ có những nhu cầu cá nhân khác nhau, sở thích khác nhau, kiến thức khác nhau, chuyên môn khác nhau, ngôn ngữ khác nhau,… Do đó, một tài liệu được truy tìm cho một câu truy vấn có thể “ph hợp” với người d ng A nhưng có thể “không ph hợp” với người d ng B Một hướng tiếp cận để giải quyết vấn đề này là tổ chức lưu trữ những thông tin cá nhân của người d ng ảnh hưởng đến việc truy tìm thông tin như:
sở thích, kiến thức, chuyên môn, ngôn ngữ,… từ đó làm cơ sở để truy tìm những tài liệu “ph hợp” nhất đối với người d ng
Mục tiêu chính của hệ truy tìm thông tin (IR) là truy tìm những văn bản trong tập văn bản của hệ thống liên quan đến thông tin mà người sử dụng hệ thống cần
Những thông tin được người d ng đưa vào hệ thống bởi các câu truy vấn (query) Những tài liệu – văn bản “liên quan” (relevant) với câu truy vấn sẽ được hệ thống
trả về Như vậy, mục đích của hệ IR là để tự động quy trình kiểm tra tài liệu bằng cách tính độ đo tương quan giữa câu truy vấn và tài liệu
Quy trình của hệ truy tìm thông tin như sau:
Trang 13bản đã được xử lý
Hình 1.1: Kiến trúc của hệ IR
Các chức năng cơ bản của một hệ thống truy tìm thông tin như sau:
1.1.1 Tách từ cho tập các tài liệu
Đối với tiếng Anh, việc tách từ đơn giản chỉ dựa vào khoảng trắng Tuy nhiên đối với tiếng Việt, giai đoạn này tương đối khó khăn Cấu trúc tiếng Việt rất phức tạp, không chỉ đơn thuần dựa vào khoảng trắng để tách từ Hiện nay có rất nhiều công cụ d ng để tách từ tiếng Việt, mỗi phương pháp có ưu, khuyết điểm riêng như công cụ VnsentDetecter, công cụ vnTokenizer, công cụ vnQtag, công cụ Postagger,…
1.1.2 Lập chỉ mục cho tài liệu
Sau khi có được tập các từ đã được trích, ta sẽ chọn các từ để làm từ chỉ mục Tuy nhiên, không phải từ nào cũng được chọn làm từ chỉ mục Các từ có khả năng
đại diện cho tài liệu sẽ được chọn, các từ này được gọi là key word, do đó trước khi
Index file
Chỉ mục Truy vấn
Truy tìm Văn bản
Truy vấn
Tập văn bản
Vector
truy vấn
Giao diện Người dùng
Trang 14lập chỉ mục sẽ là giai đoạn tiền xử lý đối với các từ trích được để chọn ra các key word thích hợp Ta sẽ loại bỏ danh sách các từ ít có khả năng đại diện cho nội dung văn bản dựa vào danh sách gọi là Stop list Đối với tiếng Anh hay tiếng Việt đều có danh sách Stop list
Lập chỉ mục bao gồm các công việc: Xác định các từ có khả năng đại diện cho nội dung của tài liệu và đánh trọng số cho các từ này, trọng số phản ánh tầm quan trọng của từ trong một tài liệu
1.1.3 Truy tìm văn bản
Mục đích của truy tìm văn bản là cho phép ánh xạ giữa một yêu cầu riêng biệt của người d ng và các item trong cơ sở dữ liệu thông tin trả lời yêu cầu đó Người d ng sử dụng các câu truy vấn tìm kiếm để giao tiếp mô tả các thông tin được yêu cầu với hệ thống
Người d ng nhập câu hỏi và yêu cầu tìm kiếm, câu hỏi mà người d ng nhập vào cũng sẽ được xử lý, nghĩa là ta sẽ tách từ cho câu hỏi Phương pháp tách từ cho câu hỏi cũng nên là phương pháp tách từ cho các tài liệu thu thập được để đảm bảo
sự tương thích Sau đó, hệ thống sẽ tìm kiếm trong tập tin chỉ mục để xác định các tài liệu liên quan đến câu hỏi của người d ng
1.1.4 Xếp loại các tài liệu trả về
Các tài liệu sau khi đã xác định là liên quan đến câu hỏi của người d ng sẽ được sắp xếp lại, bởi vì trong các tài liệu đó có những tài liệu liên quan đến câu hỏi nhiều hơn Hệ thống sẽ dựa vào một số phương pháp để xác định tài liệu nào
liên quan nhiều nhất, xếp loại (ranking) và trả về cho người d ng theo thứ tự ưu
tiên
1.2 Giới thiệu về hệ thống trích thông tin [6], [16]
Hệ thống trích thông tin (Information Extraction) là một kỹ thuật, lĩnh vực nghiên cứu có liên quan đến truy vấn thông tin (Information Retrieval), khai thác dữ liệu (Data mining), cũng như xử lý ngôn ngữ tự nhiên (Natural Language Processing) Mục tiêu chính của rút trích thông tin là tìm ra những thông tin cấu trúc từ văn bản không cấu trúc hoặc bán cấu trúc Rút trích thông tin sẽ tìm cách
Trang 15chuyển thông tin trong văn bản không hay bán cấu trúc về dạng có cấu trúc và có thể biểu diễn hay thể hiện chúng một cách hình thức dưới dạng một tập tin cấu trúc XML hay một bảng cấu trúc (như bảng trong cơ sở dữ liệu chẳng hạn)
Một khi dữ liệu, thông tin từ các nguồn khác nhau, từ internet có thể biểu diễn một cách hình thức, có cấu trúc Từ đó chúng ta có thể sử dụng các kỹ thuật phân tích, khai thác dữ liệu (data mining) để khám phá ra các mẫu thông tin hữu ích Chẳng hạn việc cấu trúc lại các mẫu tin quảng cáo, mẫu tin bán hàng trên internet có thể giúp hỗ trợ tư vấn, định hướng người d ng khi mua sắm Việc trích xuất và cấu trúc lại các từ khóa mẫu tin tìm người, tìm việc sẽ giúp cho quá trình phân tích thông tin nghề nghiệp, xu hướng công việc, các văn bản… hỗ trợ cho các người tìm việc, cũng như nhà tuyển dụng
Rút trích thông tin không đòi hỏi hệ thống phải đọc hiểu nội dung của tài liệu văn bản, nhưng hệ thống phải có khả năng phân tích tài liệu và tìm kiếm các thông tin liên quan mà hệ thống mong muốn được tìm thấy Các kỹ thuật rút trích thông tin có thể áp dụng cho bất kỳ tập tài liệu nào mà chúng ta cần rút ra những thông tin chính yếu, cần thiết cũng như các sự kiện liên quan Các kho dữ liệu văn bản về một lĩnh vực trên internet là ví dụ điển hình, thông tin trên đó có thể tồn tại ở nhiều nơi khác nhau, dưới nhiều định dạng khác nhau Sẽ rất hữu ích cho các khảo sát, ứng dụng liên quan đến một lĩnh vực nếu như những thông tin lĩnh vực liên quan được rút trích và tích hợp lại thành một hình thức thống nhất và biểu diễn một cách có cấu trúc Khi đó thông tin trên internet sẽ được chuyển vào một cơ sở dữ liệu có cấu trúc phục vụ cho các ứng phân tích và khai thác khác nhau
Các nghiên cứu hiện nay liên quan đến rút trích thông tin văn bản tập trung vào:
Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật ngữ
chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các tài liệu
Trang 16 Rút trích các thực thể có tên (named entity recognition): việc rút trích ra
các thực thể có tên tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, một địa danh, nơi chốn
Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ
giữa các thực thể đã nhận biết từ tài liệu Chẳng hạn xác định nơi chốn cho một tổ chức, công ty hay nơi làm việc của một người nào đó
Ví dụ từ một đoạn văn bản: “Điều động đồng chí Nguyễn Văn Hùng, Phó Trưởng Bộ môn Tin học, đến nhận nhiệm vụ Phó trưởng phòng Hành chính, Trường Đại học Hoa Hồng từ ngày 15/12/2017 nằm tại Thành phố Hồ Chí Minh”, bằng các phương pháp, kỹ thuật trích xuất thông tin làm thế nào ta có
thể nhận diện được các thực thể, loại thực thể và quan hệ giữa chúng như sau:
CONNGƯỜI làm việc TỔCHỨC: nhận diện được hai thực thể là
“Nguyễn Văn Hùng” và “Trường Đại học Hoa Hồng” Mối
quan hệ giữa hai thực thể này là “đến nhận”
TỔCHỨC nằm tại NƠICHỐN: nhận diện được hai thực thể là
“Trường Đại học Hoa Hồng” và “Thành phố Hồ Chí Minh”;
mối quan hệ giữa hai thực thể này là “nằm tại”
So sánh rút trích thông tin và truy tìm thông tin
Truy tìm thông tin (IR – Information Retreival) là phương pháp tìm kiếm những tài liệu có thông tin ph hợp với những tiêu chí đặt ra ban đầu trong một khối lượng lớn tài liệu IE và IR có điểm chung là đem đến cho người d ng những thông tin cần thiết nhưng IE và IR hoàn toàn khác nhau:
+ Hệ thống IR tập trung vào việc tìm kiếm những văn bản liên quan và đem đến cho người d ng
+ Hệ thống IE là phân tích văn bản và chỉ mang đến cho người d ng những mẫu tin ph hợp mà người d ng quan tâm
Ví dụ, lấy bối cảnh trong nhà sách, một hệ thống IE sẽ tìm kiếm tất cả các tên và địa chỉ công ty có trong tất cả những tài liệu trong nhà sách Thông tin này sẽ
Trang 17được định dạng rõ ràng theo một cấu trúc nào đó và trình bày cho người d ng Trong khi đó, hệ thống IR sẽ tìm kiếm ra những cuốn sách có liên quan đến một công ty nào đó Thông tin công ty đưa vào tức là yêu cầu của người d ng và kết quả thu được từ hệ thống IR là tập hợp những cuốn sách thỏa mãn yêu cầu đó
T y vào từng ngữ cảnh, từng bài toán mà độ phức tạp của hệ thống sẽ khác nhau nhưng cũng có trường hợp IE kết hợp với IR trong một hệ thống nào đó
1.3 Giới thiệu về bài toán
Tài liệu văn bản là một loại dữ liệu rất quan trọng, loại dữ liệu này không thể thiếu trong các cơ quan, trường học, thư viện… và người ta có thể d ng nó để mô tả các loại dữ liệu khác Trong khuôn khổ luận văn này, tác giả chỉ đề cập đến các văn bản hành chính có cấu trúc quy định của nhà nước thường được sử dụng gồm: Quyết định, Thông báo, Kế hoạch, báo cáo, tờ trình, biên bản, đề xuất… của trường Đại học An ninh nhân dân triển khai đến các đơn vị thực hiện Ngoài ra còn rất nhiều các dạng văn bản khác nằm ngoài khuôn khổ trong luận văn Trọng tâm của luận văn là nghiên cứu kỹ thuật xử lý và lập chỉ mục cho văn bản đầu vào để xác định các vector đặc trưng
Tác giả xây dựng hệ thống tìm kiếm cho phép nhận nội dung truy vấn là các
từ khóa, mã văn bản, file văn bản và kết quả trả về là các văn bản mà nội dung có liên quan hiển thị theo thời gian đến người d ng truy vấn
Trong một hệ thống tìm kiếm, các loại dữ liệu đều phải trải qua quy trình xử
lý để tìm ra những đặc trưng riêng của từng đối tượng, sau đó đối sánh với yêu cầu
để tìm ra những dữ liệu “ph hợp” Hệ thống truy tìm tài liệu văn bản cũng không nằm ngoài quy trình đó, các tài liệu được xử lý tìm ra đại diện của tài liệu, đồng thời câu truy vấn của người sử dụng đưa vào cũng được xử lý để đưa ra đại diện của truy vấn Quá trình tiền xử lý này yêu cầu cách thức tìm ra đặc trưng của văn bản, cách thức tổ chức lưu trữ văn bản, quá trình xử lý văn bản để loại đi những yếu tố không cần thiết và rất nhiều các bước xử lý khác Bài toán tập trung vào bước so trùng đại diện của câu truy vấn với đại diện của văn bản, nghiên cứu các kỹ thuật đem lại hiệu quả so sánh để đưa ra được những tài liệu ph hợp nhất, nhanh nhất
Trang 18Luận văn sẽ đi tìm hiểu hệ thống tìm kiếm, rút trích thông tin, kỹ thuật tìm các mối quan hệ giữa các văn bản liên quan với nhau và sắp xếp văn bản theo trình
tự thời gian Xây dựng mô hình tìm kiếm văn bản với phương pháp tối ưu nhất để cho ra kết quả tìm được chính xác nhất
1.4 Mục tiêu nghiên cứu
Mục đích của luận văn là xây dựng hệ thống quản lý lịch sử xử lý văn bản dựa theo nội dung
Mục tiêu cụ thể của luận văn:
văn bản
theo trình tự xử lý theo thời gian
liên quan theo trình tự xử lý theo thời gian
1.5 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
Phạm vi nghiên cứu:
Trang 191.6 Cấu trúc của luận văn
Chương 1: Chương tổng quan giới thiệu về hệ thống truy tìm thông tin và hệ
thống trích thông tin Đây là các hệ thống nền tảng cho hệ thống quản lý lịch sử xử
lý văn bản dựa theo nội dung Trên cơ sở đó chỉ ra những vấn đề mà luận văn cần giải quyết
Chương 2: Trình bày về các kỹ thuật tìm kiếm văn bản, kỹ thuật rút trích
thông tin, kỹ thuật chỉ mục văn bản, kỹ thuật phát hiện mối quan hệ giữa các văn bản theo nội dung, kỹ thuật so tr ng các nội dung văn bản
Chương 3: Trên cơ sở đã phân tích các hướng tiếp cận nghiên cứu các kỹ
thuật tiến hành cài đặt các thuật toán dựa trên các mô hình truy tìm thông tin
1.7 Kết luận chương 1
Chương này giới thiệu tổng quan về truy tìm thông tin và các bước thực hiện
D đã xuất hiện từ khá lâu nhưng vẫn luôn thu hút được nhiều sự quan tâm, đặc biệt trong thời đại b ng nổ thông tin như hiện nay Các chương tiếp theo của luận văn sẽ trình bày chi tiết hơn các kỹ thuật trong lĩnh vực này
Trang 20Chương 2 - CƠ SỞ LÝ THUYẾT
Trình bày về các kỹ thuật tìm kiếm văn bản, kỹ thuật chỉ mục văn bản, kỹ thuật phát hiện mối quan hệ giữa các văn bản theo nội dung, kỹ thuật so tr ng các nội dung văn bản, kỹ thuật rút trích thông tin
2.1 Một số kỹ thuật tìm kiếm văn bản theo nội dung
2.1.1 Mô hình Boolean và kỹ thuật chỉ mục văn bản
2.1.1.1 Mô hình Boolean [9], [13]
Mô hình Boolean dựa trên lý thuyết tập hợp và đại số logic Trong mô hình Boolean, câu truy vấn được xây dựng như là sự kết hợp các giá trị boolean của các term, nghĩa là xác định các điều kiện có term xuất hiện hoặc không có term xuất hiện Một câu truy vấn điển hình sử dụng các toán tử AND, OR và NOT Câu truy
hợp có stemming, một câu truy vấn yêu cầu phải có từ “retrieve” sẽ được thỏa mãn bởi các tài liệu có các từ “retrieval”, “retrieves”,…
Ưu điểm của mô hình Boolean:
Hạn chế của mô hình Boolean:
Trang 21 Việc chuyển một câu truy vấn của người d ng sang dạng biểu thức Boolean không đơn giản, người d ng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn boolean
2.1.1.2 Kỹ thuật lập chỉ mục văn bản [4]
Các văn bản sau khi thu thập về sẽ được phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) để lưu trữ trong cơ
sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếm sau này
Một cách để tăng tốc độ tìm kiếm thông tin lên là tạo chỉ mục cho các văn bản Tuy nhiên, việc lập chỉ mục có một nhược điểm lớn, đó là khi thêm một tài liệu mới, phải cập nhật lại tập tin chỉ mục Nhưng đối với hệ thống tìm kiếm thông tin, chỉ cần cập nhật lại tập tin chỉ mục vào một khoảng thời gian định kỳ Do đó, chỉ mục là một công cụ rất có giá trị
Lập chỉ mục bao gồm các công việc sau:
trong một tài liệu
Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ thích hợp cốt lõi có khả năng đại diện cho nội dung của tài liệu Như vậy, vấn đề đặt ra là phải rút trích ra những thông tin chính, có khả năng đại diện cho nội dung của tài liệu Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ so với nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưu trữ và chi phí tìm kiếm và để loại bỏ kết quả dư thừa không ph hợp Việc rút trích này chính là việc lập chỉ mục trên tài liệu
Kỹ thuật Inverted Files (IF) là giải pháp trọn vẹn hơn cả về kích thước kho
chỉ mục lẫn tốc độ tìm kiếm
Cấu trúc dữ liệu Inverted Files này giúp sử dụng hiệu quả không gian bộ nhớ đồng thời cho phép tìm kiếm theo từ khoá một cách nhanh chóng Cấu trúc này
được gọi là chỉ mục đảo (inverted) vì nó d ng các term rút ra từ các tài liệu đầu vào
làm những khoá tìm kiếm thay vì xem các tài liệu là những thực thể chính Nói khác
Trang 22đi, thay vì trả lời câu hỏi “những từ nào được chứa trong tài liệu này?”, cấu trúc này được tối ưu hoá để đưa ra những câu trả lời nhanh cho câu hỏi “những tài liệu nào
có chứa từ X ?”
Một IF yêu cầu một từ vựng - một danh sách tất cả thuật ngữ xuất hiện
trong CSDL Từ vựng trợ giúp một ánh xạ từ các thuật ngữ tới các IL tương ứng của chúng và ở dạng đơn giản nhất của nó là một danh sách các xâu và một địa chỉ đĩa từ
Bảng 2.1: Văn bản mẫu; mỗi dòng là một tài liệu TÀI LIỆU VĂN BẢN
1 Information retrieval is searching and indexing
2 Indexing is building an index
3 An inverted file is an index
4 Building an inverted file is indexing
Ví dụ xét văn bản mẫu ở bảng 2.1, với mỗi một dòng được coi là một tài liệu
về chỉ mục IF sinh ra cho văn bản này được chỉ ra ở bảng 2.2, trong đó các thuật ngữ được gộp dạng nhưng không được truy gốc và không một từ nào bị bỏ qua Nói chung, các IL cho một CSDL có độ dài rất khác nhau
Một truy vấn bao gồm một thuật ngữ đơn được trả lời bằng cách quét IL của nó và tìm kiếm mỗi một tài liệu mà nó trích dẫn Đối với truy vấn Boolean hội
với truy vấn tuyển, trong đó toán tử là OR, phép hợp được thực hiện; đối với truy vấn phủ định d ng NOT, phép b được thực hiện Các IL thường được lưu trữ để làm tăng số tài liệu, sao cho các thao tác trộn khác nhau có thể được thực hiện thời gian tuyến tính theo kích thước của danh sách Chẳng hạn, để định vị các tài liệu
chứa index và indexing ở văn bản của bảng 2.1, các danh sách đối với hai từ (2;5), (3;6) và (1;6), (2;1), (4;6) tương ứng
Trang 23Bảng 2.2: IF đối với văn bản của bảng 2.1
đó mỗi một khối lưu trữ vài tài liệu; một chỉ mục kết hạt trung bình lưu trữ các vị trí trong phạm vi số tài liệu; trong khi một chỉ mục kết hạt tinh đưa lại một câu hoặc số
từ, có thể thậm chí một số byte Chỉ mục thô yêu cầu lưu trữ ít hơn, nhưng khi tìm kiếm phải quét nhiều hơn văn bản thuần tuý để tìm các thuật ngữ
2.1.2 Mô hình không gian vector [10], [13]
Với mô hình không gian vector, các văn bản, câu truy vấn và từ chỉ mục được biểu diễn thành các vector trong không gian vector Sử dụng các phép toán trên không gian vector để tính toán độ đo tương tự giữa câu truy vấn và các văn bản hoặc các từ chỉ mục, kết quả sau khi tính toán có thể được xếp hạng theo độ đo tương tự với vector truy vấn Ngoài ra, mô hình không gian vector còn hướng dẫn người d ng biết được những văn bản độ tương tự cao hơn có nội dung gần với nội dung họ cần hơn so với các văn bản khác
Trang 24Mô hình không gian vector giả sử rằng tồn tại tập cố định các thuật ngữ chỉ
diễn như hai vector:
thuật ngữ k trong truy vấn j, và N là tổng số thuật ngữ sử dụng trong các tài liệu và truy vấn
hay trọng số có được từ các cách khác
Việc truy tìm trong mô hình không gian vector được thực hiện dựa trên cơ sở
Để b vào độ chênh lệch giữa kích thước tài liệu và kích thước câu truy vấn,
khoảng cách cosin) và được biểu diễn như sau:
xếp hạng theo thứ tự tính tương đồng giảm dần sẽ được cho lại
Ví dụ, có 5 tài liệu và truy vấn được đại diện bởi các vector sau:
Trang 25M là tổng số tài liệu, cần O(M) so sánh trong trường hợp tồi nhất Nếu có N thuật ngữ, cần O(N) thời gian so sánh Vậy tổng số thời gian đòi hỏi tính toán sẽ là O(N×M) Thông thường N×M là một số rất lớn, do vậy, người ta phải phát triển các
kỹ thuật khác để tìm kiếm thuật ngữ trong tập tài liệu
Sau khi đã biểu diễn tập văn bản và câu truy vấn thành các vector trong
không gian vector, ta có thể sử dụng độ đo cosines để tính độ đo tương tự giữa các
vector văn bản và vector truy vấn
Ưu điểm của mô hình không gian vector:
Nhược điểm mô hình không gian vector:
lưu trữ
2.1.3 Mô hình tìm iếm theo c uất [4], [10]
Mô hình truy tìm theo xác suất xem xét các phụ thuộc và quan hệ của các thuật ngữ Nó dựa trên bốn tham số sau đây:
P(rel): Xác suất tính ph hợp của tài liệu
P(nonrel): Xác suất tính không ph hợp của tài liệu
Trang 26Vì việc truy tìm tài liệu không ph hợp hết a1P(nonrel) và loại bỏ các tài liệu
Nhiệm vụ chính của mô hình truy tìm xác suất là dự báo P(rel) và P(nonrel) như thế nào Điều này thông thường được thực hiện với giả sử rằng sự phân bổ xuất hiện một số thuật ngữ trong các tài liệu
Ưu điểm của mô hình xác suất:
Nhược điểm mô hình xác suất:
bản
2.1.4 Thước đo hiệu năng [4], [5]
Giả sử D là tập hữu hạn các tài liệu, A là thuật toán lấy xâu chủ đề t làm dữ liệu đầu vào và cho lại tập tài liệu A(t) làm đầu ra, ta có A(t) D
Hơn nữa, giả sử rằng tính chất “ph hợp” (relevant) có hai đối số: chủ đề t và tài liệu d Nếu relevant(t,d) là true thì tài liệu d được xem như có liên quan đến chủ
đề t
Ví dụ, tính chất ph hợp có thể được thực hiện bằng tay trên tập thử cụ thể
Thông thường hiệu năng truy tìm thông tin được đo bằng ba tham số speed, recall và precision như sau:
- Speed: Tốc độ truy tìm càng cao hiệu năng càng cao
- Recall: Đo công suất truy tìm các mục thông tin liên quan từ CSDL Được
xác định bởi tỷ lệ giữa tổng số mục liên quan được chỉ ra và toàn bộ số các mục liên
quan trong CSDL Recall càng cao thì hiệu năng càng cao
Trang 27Hình 2.1: Mô tả Recall
Recall của thuật toán A là thước đo có bao nhiêu tài liệu được cho lại bởi câu
- Precision: Đo độ truy tìm chính xác Nó được xác định bởi tỷ lệ giữa số
mục được chỉ ra là có liên quan với tổng số mục được tìm thấy Độ chính xác càng cao hiệu năng hệ thống càng cao
Hình 2.2: Mô tả Precision
150
50
Mọi tài liệu
Tài liệu do thuật toán truy vấn tài liệu cho lại
Tài liệu liên quan
20
Mọi tài liệu
Tài liệu liên quan Tài liệu do
thuật toán truy
vấn tài liệu cho
lại
Trang 28
Ta nói rằng độ chính xác (precision) của thuật toán A liên quan đến tính chất
Cộng 1 vào tử số và mẫu số để tránh chia cho không Ta nói rằng precision
số đối tượng trong phần giao trong hình 2.2, sau đó chia số này cho tổng số đối tượng trong vòng tròn được tô (các số này được cộng thêm 1)
2.2 Một số kỹ thuật rút trích thông tin
2.2.1 Rút trích cụm từ khóa (Keyphrase Extraction) [8], [12]
Cụm từ khóa được xem là thành phần chính hay một dạng siêu dữ liệu (metadata) thể hiện nội dung của tài liệu văn bản Mục đích của hầu hết các nghiên cứu rút trích cụm từ khóa là nhằm tìm kiếm các đặc trưng tốt để mã hóa văn bản ứng dụng trong các hệ thống phân loại, gom cụm, tóm tắt và tìm kiếm văn bản T y vào đặc trưng của từng ngôn ngữ sẽ có những phương pháp khác nhau để tìm kiếm các cụm từ khóa Hầu hết các phương pháp đều dựa trên các kỹ thuật truyền thống được d ng trong xử lý ngôn ngữ tự nhiên như tiền xử lý văn bản, tách đoạn, tách câu, tách từ, phân tích cú pháp, phân tích ngữ nghĩa, thống kê và học máy Các nghiên cứu về rút trích các cụm từ làm đặc trưng cho văn bản tiếng Việt ứng dụng trong các hệ thống phân loại, tóm tắt, tìm kiếm tài liệu đã bắt đầu từ những năm
2000 Một số kết quả phổ biến như Đinh Điền, Hoàng Kiếm (2001) về tách từ tiếng