ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐÌNH MẠNH
NGHIÊN CỨU CÁC PHƯƠNG PHÁP
TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT
TIẾNG VIỆT
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
HÀ NỘI, 12/2020
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
Mã Số: 8480101.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƯƠNG THÁI
HÀ NỘI, 12/2020
Trang 3LỜI CAM ĐOAN
Tôi- Nguyễn Đình Mạnh – cam đoan luận văn này là công trình nghiên cứu của
bản thân tôi dưới sự hướng dẫn và chỉ bảo của PGS TS Nguyễn Phương Thái
Các kết quả nêu trong luận văn là trung thực và không sao chép toàn văn của bất
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn đặc biệt tới PGS TS Nguyễn Phương Thái, người đã
định hướng đề tài và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện Luận văn cao học này
Tôi xin chân thành cảm ơn các Thầy, các Cô trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, kinh nghịm quý báu trong suốt khóa học của tôi
Cuối cùng, tôi xin cảm ơn tới nhưng người thân, bạn bè luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong quá trình học cao học cũng như quá trình thực hiện luận văn cao học
Xin chân thành cảm ơn!
Trang 5MỤC LỤC
DANH MỤC KÝ HIỆU, VIẾT TẮT i
DANH MỤC CÁC BẢNG ii
DANH MỤC ĐỒ THỊ, HÌNH VẼ iii
MỞ ĐẦU 1
CHƯƠNG 1 GIỚI THIỆU 2
1.1.Lý do chọn đề tài 2
1.2.Mục đích đề tài 2
1.3.Đối tượng đề tài 3
1.4.Phương pháp nghiên cứu 3
CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 4
2.1.Đặc điểm của văn bản tiếng Việt 4
2.1.1.Cấu tạo từ tiếng Việt 4
2.1.2.Biến hình từ tiếng Việt 5
2.1.3.Từ đồng nghĩa 5
2.1.4.Đặc điểm chính tả 5
2.2.Đặc điểm của văn bản Luật tiếng Việt 6
2.3.Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt 7
2.4.Tổng quan về bài toán đô độ tương tự văn bản 7
2.4.1.Khái niệm về độ tương tự văn bản 7
2.4.2.Ứng dụng của bài toán đo độ tương tự giữa hai văn bản 8
2.5.Phương pháp dựa trên thống kê 8
2.5.1.Khái niệm 8
2.5.2.Độ đo tương tự Jaccard 8
2.5.3.Độ đo TF-IDF 9
2.6.Phương pháp dựa trên mạng nơron học sâu 9
2.6.1.Khái niệm học sâu 9
2.6.2.Một số ứng dụng của học sâu (Deep Learning) 10
2.6.3.Một số phương pháp theo hướng tiếp cận học sâu 11
2.6.3.1.Mô hình biểu diễn từ bằng vector (Word2Vec) 11
2.6.3.2.Học chuyển (Transfer Learning) 18 CHƯƠNG 3 CÁC PHƯƠNG PHÁP ĐO ĐỘ TƯƠNG TỰ GIỮA CÁC VĂN BẢN 22
Trang 63.1.Tiền xử lý dữ liệu 22
3.2.Vector hóa văn bản và tính độ tương tự văn bản 22
3.2.1.Mộ số phương pháp theo tiếp cận thống kê 22
3.2.2.Phương pháp học sâu 27
3.2.2.1.Sử dụng Word2Vec 27
3.2.2.2.Học biểu diễn vector cho các văn bản 28
3.2.2.3 Áp dụng học chuyển (transfer learning) để tăng chất lượng vector biểu diễn văn bản 28
3.3.Đánh giá mô hình 29
CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ 31
4.1.Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm 31
4.2.Dữ liệu 31
4.2.1.Thu thập dữ liệu 31
4.2.2.Xử lý dữ liệu 32
4.3.Thực nghiệm 32
4.3.1.Thực nghiệm với Phương pháp Jacard 33
4.3.2.Thực nghiệm với phương pháp TF-IDF 33
4.3.3.Thực nghiệm với phương pháp Word2Vec 33
4.3.4.Thực nghiệm với phương pháp Doc2Vec 33
4.3.5.Phương pháp học chuyển 34
4.4.Kết quả 34
4.4.1.Đánh giá các phương pháp trên văn bản tiếng Anh 34
4.4.2.Đánh giá các phương pháp với truy vấn là 1 văn bản 34
4.4.3.Đánh giá các phương pháp với truy vấn là 1 đoạn văn ngắn 38
CHƯƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƯƠNG LAI 40
5.1.Kết luận 40
5.2.Công việc trong tương lai 40
TÀI LIỆU THAM KHẢO 41
Trang 7DANH MỤC KÝ HIỆU, VIẾT TẮT
NLP Neuro – Linguistic – Programming RNN Recurrent Neural Network
LSTM Long Short Term Memory networks PCFG Probabilistic Context Free Grammar
AI Artificial intelligence
Trang 8DANH MỤC CÁC BẢNG
Bảng 1: Biểu diễn văn bản theo TF 24
Bảng 2:Biểu diễn văn bản theo IDF 25
Bảng 3: Thống kê dữ liệu của văn bản luật 32
Bảng 4: So sánh kết quả 2 phương pháp Word2Vec và Doc2Vec 34
Bảng 5: Kết quả các phương pháp theo tiếp cận thống kê 35
Bảng 6: Kết quả các phương pháp theo tiếp cận học sâu 35
Bảng 7: Kết quả của các phương pháp học chuyển cải tiến và chưa có cải tiến 36
Bảng 8: Kết quả các phương pháp theo tiếp cận thống kê và học sâu 38
Trang 9DANH MỤC ĐỒ THỊ, HÌNH VẼ
Hình 2.1: Mô hình Word2Vec 12
Hình 2.2: Mô hình Skip-gram dạng tổng quát 13
Hình 2.3: Minh họa đầu vào và đầu ra của mô hình Skip-gram 13
Hình 2.4: Minh họa đầu vào và đầu ra của mô hình CBOW 15
Hình 2.5: Mô hình CBOW dạng tổng quát 15
Hình 2.6: Mô hình học chuyển 18
Trang 10MỞ ĐẦU
Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm
vụ trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày
02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các nhiệm vụ cải cách nền tư pháp của nước ta, trong đó có nhiệm vụ “đổi mới thủ tục
hành chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận công lý; … từng bước thực hiện việc công khai hóa các bản án…” Thực
hiện theo chỉ đạo này các văn bản Luật đã được số hóa và phổ biến đến người dân ngày một nhiều Lãnh đạo ngành Tòa án cũng chỉ đạo sát sao việc ứng dụng CNTT để nâng cao hiệu quả công việc của ngành Tòa án, cụ thể là việc phần mềm Công khai bản án đã được ra đời cung cấp bản án tới người dân, để họ có thể tìm kiếm các bản
án có trường hợp pháp lý tương tự trường hợp mình đang gặp phải Họ có thể biết trược được kết quả của việc kiện tụng, khi đó thay vì phải đưa vụ việc ra Tòa thì một giải pháp khả thi hơn đó là hòa giải để 2 bên đều có lơi, cũng là giảm bớt áp lực công việc cho ngành Tòa án Để làm được như vậy thì phần mềm cần phải hỗ trợ người dùng nhiều hơn nữa, không chỉ dừng lại ở việc tra cứu theo từ khóa cơ bản mà phải
hỗ trợ việc tra cứu theo nội dung ngữ nghĩa của văn bản
Hiện nay, cũng có một vài công trình nghiên cứu để xuất các phương pháp khác nhau để xác định độ tương đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so với các công trình nghiên cứu trên văn bản tiếng Anh Do đặc điểm của
từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt là văn bản Luật tiếng Việt Việc xử lý văn bản và xây dựng kho ngữ liệu chuẩn và đầy đủ là một thách thức
lớn Vì những lý do này, chúng tôi đã chọn đề tài luận văn là “Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng Việt” nhằm nghiên cứu
các phương pháp đo độ tương tự và thử nghiện các mô hình tính toán độ tương tự, từ đây đưa ra để xuất mô hình phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt Nội dung luật văn gồm:
Chương 1 Giới thiệu tổng quan luận văn, mục đích và nội dung nghiên cứu
Chương 2 Đưa ra một cái nhìn tổng quan về các kiến thức nền tảng trong bài toán đo độ tương tự giữa các văn bản
Chương 3 Các phương pháp tính toán độ tương tự cho miền dữ liệu văn bản Luật tiếng Việt
Chương 4 Thể hiện chi tiết về tập dữ liệu được sử dụng, các cài đặt cho thực nghiệm và kết quả của thực nghiệm
Chương 5 Tóm tắt lại công việc của luận văn và đưa ra các công việc trong tương lai
Trang 11
CHƯƠNG 1 GIỚI THIỆU 1.1 Lý do chọn đề tài
Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm
vụ trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày 02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các nhiệm vụ cải cách nền tư pháp của nước ta, trong đó có nhiệm vụ “đổi mới thủ tục hành chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận công lý; … từng bước thực hiện việc công khai hóa các bản án…” Thực hiện theo chỉ đạo này, các văn bản Luật đã được số hóa và phổ biến đến người dân ngày một nhiều
Tuy nhiên, việc khai thác các thông tin tài liệu pháp lý cũng gặp rất nhiều khó khăn do các phần mềm mới chỉ dừng lại ở mức cho phép người dùng tìm kiếm theo
từ khóa, phân loại tố tụng mà chưa cung cấp được một công cụ tìm kiếm theo tình huống pháp lý mà người dân mô tả để đưa ra được văn bản pháp lý (Bản án) có độ tương tự nhất với trường hợp pháp lý mình đang gặp phải Hay việc đối sánh chính xác văn bản với nhau để tìm ra sự sai sót trong áp dụng pháp luật Nếu làm được điều này thì sẽ giải quyết được nhưng vấn đề sau:
- Thay vì đưa nhau ra Tòa, các bên tham gia vụ việc sẽ tiến hành hòa giải bởi
họ biết trước được kết quả nếu đưa vụ án ra xét xử thông qua bản án đã từng giải quyết trước đó Qua đó giảm bớt áp lực công việc cho ngành Tòa án
- Các nhà quản lý sẽ biết được các bản án đã ra có áp dụng pháp luật đúng hay không thông qua việc đối sánh các bản án với nhau, nếu 2 bản án có độ tương đồng cao mà lại có kết quả xét xử khác nhau như vậy việc áp dụng pháp luật tại 1 trong 2 bản án có vấn đề Từ đây họ sẽ điều chỉnh để hạn chế oan sai cho người dân,
Hiện nay, cũng có một vài công trình nghiên cứu để xuất các phương pháp khác nhau để xác định độ tương đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so với các công trình nghiên cứu trên văn bản tiếng Anh Do đặc điểm của
từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt lại là văn bản Luật tiếng Việt Việc xử lý văn bản và xây dựng được kho ngữ liệu chuẩn và đầy đủ là một vấn đến lớn Vì những lý do này, chúng tôi đã chọn tài liệu pháp lý làm miền dữ liệu chính cho luận văn
Xây dựng bộ dữ liệu văn bản luật tiếng Việt (Bản án) phục vụ cho các nghiên cứu về sau
Trang 121.3 Đối tượng đề tài
Nghiên cứu một số mô hình tính toán độ tương tự văn bản cả về cú pháp và ngữ nghĩa, xác định sự tương đồng của văn bản dựa trên từ, câu và toàn bộ văn bản và ứng dụng trong văn bản luật tiếng Việt
Thực nghiệm các phép đo độ tương tự đang được áp dụng từ đây đề xuất ra phương pháp để cải thiện phép đo độ tương tự với miền dữ liệu văn bản luật tiếng Việt
1.4 Phương pháp nghiên cứu
Nghiên cứu lý thuyết về mô hình tính độ tương đồng văn bản, các mô hình biểu diễn văn bản và ứng dụng các mô hình vào việc thử nghiệm các phương pháp đo độ tương tự văn bản luật tiếng Việt
Đề xuất giải pháp nhằm nâng cao hiệu xuất tính toán độ tương tự của văn bản luật tiếng Việt
Trang 13CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 2.1 Đặc điểm của văn bản tiếng Việt
Văn bản tiếng Việt là một loại hình phương tiện để ghi nhận, lưu giữ và truyền đạt các thông tin từ chủ thể này sang chủ thể khác bằng ký hiệu gọi là chữ viết tiếng Việt Nó gồm tập hợp các câu có tính trọn vẹn về nội dung, hoàn chỉnh về hình thức,
có tính liên kết chặt chẽ và hướng tới một mục tiêu giao tiếp nhất định Hay nói cách khác, văn bản tiếng Việt là một dạng sản phẩm của hoạt động giao tiếp bằng ngôn ngữ được thể hiện ở dạng viết trên một chất liệu nào đó (giấy, bia đá, ) Văn bản bao gồm các tài liệu, tư liệu, giấy tờ có giá trị pháp lý nhất định, được sử dụng trong hoạt động của các cơ quan Nhà nước, các tổ chức chính trị, chính trị - xã hội, các tổ chức kinh tế như: các văn bản pháp luật, các công văn, tài liệu, giấy tờ
Do văn bản được viết bằng ngôn ngữ tiếng Việt vậy nên nó mang mọi đặc điểm của ngôn ngữ tiếng Việt
2.1.1 Cấu tạo từ tiếng Việt
Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết [3] Hai đặc trưng này chi phối toàn bộ toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và cần được chú ý khi xử lý tiếng Việt trên máy tính
- Tiếng tự thân nó không có ý nghĩa nhưng có thể ghép với nhau để tạo thành từ
có nghĩa, thường xuyên gặp ở những từ mượn như phéc-mơ-tuya, a-pa-tít, chính
mì-Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai nhóm sau thường chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thường được gọi là tiếng vô nghĩa
b) Từ, cụm từ
Từ được cấu tạo từ một hoặc nhiều tiếng Từ cấu tạo từ một tiếng gọi là từ đơn,
ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối quan hệ về nghĩa
Từ ghép được phân thành từ ghép đẳng lập và từ ghép chính phụ Đối với từ ghép đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa, ví dụ: ăn nói, bơi lội… Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối
Trang 14quan hệ phụ thuộc với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa, tạo sắc thái cho thành phần chính, ví dụ: hoa hồng, đường sắt…
Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan
hệ ngữ pháp nhất định Ví dụ:
- Từ “học” là từ gồm một tiếng
- Từ “đại học” là từ gồm hai tiếng
- Cụm từ “khoa học máy tính” gồm 2 từ hay 4 tiếng
2.1.2 Biến hình từ tiếng Việt
Tiếng Việt không có hiện tượng biến hình từ bằng những phụ tố mang ý nghĩa ngữ pháp bên trong từ như tiếng Anh [3] Tuy nhiên, tiếng Việt cũng có một số hình thức biến hình như trường hợp thêm từ “sự” trước một động từ để biến nó thành danh
từ hay thêm tiếng “hóa” sau một danh từ để biến nó thành động từ tương đương, ví
dụ như “lựa chọn” và “sự lựa chọn”, “tin học” và “tin học hóa”
2.1.3 Từ đồng nghĩa
Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa nhưng khác nhau về
âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào
đó, hoặc đồng thời cả hai [3] Những từ đồng nghĩa với nhau lập thành một nhóm gọi
là nhóm đồng nghĩa Ví dụ: dễ, dễ dàng, dễ dãi là những nhóm từ đồng nghĩa
Từ đồng nghĩa thực chất không phải là những từ trùng nhau hoàn toàn về nghĩa
mà có những khác biệt nhất định Chính sự khác biệt đó là lí do tồn tại và làm nên sự khác nhau giữa các từ trong một nhóm từ đồng nghĩa
Thông thường các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó Vì thế, một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau Ví dụ, từ “coi” có thể tham gia vào các nhóm như coi – xem (coi hát, xem hát), coi – giữ (coi nhà, giữ nhà)
2.1.4 Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý
dữ liệu văn bản Một số đặc điểm chính tả tiếng Việt cần quan tâm như [3]:
- Các tiếng đồng âm: kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như: lý luận, lí luận, kĩ thuật, kỹ thuật…
- Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc…
- Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên
âm có ưu tiên cao nhất Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ nguyên tắc này nên có hiện tượng dấu được đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy…
- Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện
- Phiên âm tiếng nước ngoài: tồn tại cách viết giữ nguyên gốc tiếng nước ngoài
và phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po
Trang 15- Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được giữa nối tên riêng hay chú thích
Ký tự ngắt câu: sử dụng nhiều loại ký tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách giữa các câu hoặc các vế câu trong câu ghép
2.2 Đặc điểm của văn bản Luật tiếng Việt
a) Khái niệm
Văn bản luật tiếng Việt là một bộ phận của văn bản tiếng Việt, nó mang đầy đủ
đặc tính của văn bản tiếng Việt Văn bản luật tiếng Việt hay văn bản pháp luật [4] “là
một hình thức để chủ thể mang thẩm quyền thể hiện ý chí, được thể hiện dưới dạng ngôn ngữ viết thông qua văn bản, bàn hành qua các hình thức, thủ tục mà pháp luật
đã quy định”
Văn bản luật tiếng Việt là được chia làm 03 nhóm gồm: văn bản pháp luật, văn bản áp dụng pháp luật và văn bản hành chính Mỗi nhóm trong hệ thống VBPL còn
có một số nét đặc thù về nội dung, tính chất và vai trò trong quản lý nhà nước
Văn bản quy phạm pháp luật
Văn bản quy phạm pháp luật [4] là văn bản do cơ quan nhà nước ban hành hoặc
phối hợp ban hành theo thẩm quyền, hình thức, trình tự, thủ tục được quy định trong Luật này hoặc trong Luật ban hành văn bản quy phạm pháp luật của Hội đồng nhân dân, Uỷ ban nhân dân, trong đó có quy tắc xử sự chung, có hiệu lực bắt buộc chung, được Nhà nước bảo đảm thực hiện để điều chỉnh các quan hệ xã hội
Có hai cách để nhận biết đâu là một văn bản Quy phạm pháp luật
- Thứ nhất là nhìn vào cách trình bày văn bản, như trong mỗi văn bản luật đều có chứa kèm theo số năm ban hành văn bản hay có mô típ quen thuộc như sau: Nghị quyết số 01/2005/NQ-HĐTP; điểm a và e khoản 1 Điều 93; khoản 1 Điều 133…
- Thứ hai, có thể nhận biết văn bản luật là gì thông qua hai yếu tố là cơ quan ban hành và loại văn bản, cụ thể như sau:
Quốc hội ban hành Hiến pháp, luật, Nghị quyết
Ủy ban Thường vụ Quốc hội ban hành Nghị quyết, Pháp lệnh, Nghị quyết liên tịch
Hội đồng thẩm phán Tòa án Nhân dân tối cao ban hành Nghị quyết
Chánh án Tòa án Nhân dân tối cao ban hành Thông tư và Thông tư liên tịch
…
Văn bản áp dụng pháp luật
- Thứ nhất, văn bản áp dụng pháp luật ban hành ra dưới dạng quy định do những
cơ quan nhà nước, cá nhân hoặc tổ chức xã hội được nhà nước ủy quyền áp dụng pháp luật ban hành và được bảo đảm thực hiện trong trường hợp cần thiết bằng cưỡng chế nhà nước Chỉ những chủ thể có có thẩm quyền về những nội dung trong văn bản do pháp luật quy định mới có thẩm quyền ban hành văn bản áp dụng pháp luật Nếu văn bản áp dụng pháp luật mà nội dung ban hành xác định về nội dung được ban hành bởi cá nhân hay tổ chức mà pháp luật không quy định về thẩm quyền
Trang 16ban hành thuộc cá nhân hay cơ quan tổ chức ban hành đó thì văn bản áp dụng pháp luật đó không có hiệu lực pháp luật
- Thứ hai, văn bản áp dụng pháp luật được thể hiện trong những hình thức pháp
lý dưới các dang hình thức nhất định nhất định như: bản án, quyết định, lệnh,…
- Hình thức của văn bản pháp luật bao gồm tên gọi và thể thức của văn bản pháp luật Đối với văn bản áp dụng pháp luật thì tên gọi do pháp luật quy định, tùy thuộc vào tính chất công việc mà văn bản áp dụng pháp luật có tên gọi khác nhau, đồng thời thông qua tên gọi của văn bản áp dụng pháp luật ta có thể nhận biết được cơ quan nào có thẩm quyền ban hành văn bản áp dụng pháp luật đó
Văn bản hành chính
- là loại văn bản thường dùng để truyền đạt những nội dung và yêu cầu nào đó từ cấp trên xuống hoặc bày tỏ những ý kiến, nguyện vọng của cá nhân hay tập thể tới các cơ quan và người có quyền hạn để giải quyết
- Văn bản hành chính là loại văn bản mang tính thông tin quy phạm Nhà nước, cụ thể hóa việc thi hành văn bản pháp quy, giải quyết những vụ việc cụ thể trong khâu quản lý, như: quyết định nâng lương, quyết định kỉ luật, thông báo, giấy mời họp
2.3 Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt
Văn bản luật tiếng Việt là bộ phận của văn bản tiếng Việt do đó nó mang đầy đủ đặc tính của văn bản tiếng Việt, chỉ khác nó chứa nhiều thuật ngữ pháp lý Những thuật ngữ dùng để chỉ về những khái niệm thường dùng trong khoa học pháp lý hoặc các văn bản pháp luật và dùng để chỉ, mô tả một cách khái quát nhất, cô đọng nhất các hiện tượng, nội dung, trạng thái pháp lý Thuật ngữ pháp lý cốt lõi chính là những định nghĩa, khái niệm về các hiện tượng, sự vật trong hệ quy chiếu pháp luật
Thuật ngữ pháp lý có ý nghĩa rất lớn đối với việc nghiên cứu khoa học pháp lý cũng có ý nghĩa quan trọng trong việc giải thích các quy định của pháp luật
2.4 Tổng quan về bài toán đô độ tương tự văn bản
2.4.1 Khái niệm về độ tương tự văn bản
Độ tương tự văn bản (document similarity) hay khoảng cách giữa các văn bản là một trong những bài toán trọng tâm của truy hồi thông tin (information retrieval) [11] Việc đo lường mức độ giống nhau của các văn bản đóng một vai trò quan trọng trong nhiều bài toán như: tìm kiếm thông tin dựa trên nội dung của tài liệu [12], phân nhóm tài liệu dựa vào sự tương đồng về nội dung [13][14], … Độ tương tự văn bản là một đại lượng dùng để so sánh hai hay nhiều tài liệu văn bản với nhau Đại lượng này đặc trưng cho mức độ liên quan về ngữ nghĩa giữa các văn bản
Xét ví dụ gồm hai câu “Tôi thích xem phim” và “Tôi yêu phim”, Có thể thấy rằng hai câu trên có độ tương đồng về ngữ nghĩa rất cao
Theo tác giả Nguyễn Kim Anh [5] thì độ tương tự giữa hai văn bản ngoài việc so khớp từ đơn giản, điểm tương tự còn được xác định dựa trên số đơn vị từ vựng xuất hiện ở cả hai văn bản Đặc biệt cần phải quan tâm tới hiện tượng đồng nghĩa của từ, tầm quan trọng của từ như tần suất xuất hiện, vị trí xuất hiện của từ và câu trong văn bản
Trang 17Để xem xét độ tương tự văn bản, ta cần xét văn bản ở trong 2 khía cạnh là độ tương tự giữa từ của hai văn bản và độ tương tự về ngữ nghĩa
Độ tương tự của từ là khái niệm thể hiện tỷ lệ dựa trên tập từ chung của hai văn bản
Độ tương tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các văn bản Độ tương tự về ngữ nghĩa giữa 2 văn bản thể hiện mối quan hệ về ngữ nghĩa giữa các từ, các câu trong văn bản Theo tác giả Đỗ Thị Thanh Nga thì độ tương tự ngữ nghĩa là khái niệm thể hiện
tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các tài liệu hoặc các thuật ngữ trong một danh sách các thuật ngữ [1] Độ tương đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa giữa các câu và các tài liệu văn bản Xét hai văn bản d1 và d2 Mục tiêu của luận văn này nhắm đến việc đo lường giá trị S(d1,d2), thể hiện hiện độ tương
tự giữa hai văn bản d1 và d2 Giá trị S càng cao thì sự giống nhau về ngữ nghĩa của hai văn bản càng cao
2.4.2 Ứng dụng của bài toán đo độ tương tự giữa hai văn bản
Bài toán đo độ tương tự giữa văn bản và văn bản được cả thế giới quan tâm nghiên cứu từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan Các ứng dụng phải kể đến như tìm kiếm thông tin, các tài liệu liên quan sẽ được xếp hạng theo thứ tự của độ tương tự Ngoài ra, độ tương tự văn bản còn được ứng dụng cho bài toán phân lớp văn bản, tóm tăt văn bản, bài toán xác định đạo văn Gần đây nhất là bài toán hỗ trợ pháp lý cũng đặc biệt được quan tâm và nghiên cứu Các phép đo độ tương tự giữa văn bản và văn bản chủ yếu dựa trên hai tiếp cận chính là các tiếp cận thống kê và các tiếp cận dựa trên mạng nơron học sâu (deep learning)
2.5 Phương pháp dựa trên thống kê
2.5.1 Khái niệm
Các phương pháp theo tiếp cận thống kê đánh giá độ tương tự giữa hai văn bản dựa trên tần suất xuất hiện của các từ trong câu Độ tương tự đo được tỷ lệ thuận với kích thước của tập từ chung giữa hai văn bản Một số phương pháp tiêu biểu theo tiếp cận này như: các phương pháp sử dụng độ đo Cosine, độ đo khoảng cách Eclide, Manhattan, phương pháp độ đo Jaccard, phương pháp TF-IDF[19],… Các phương pháp này tốc độ xử lý nhanh, tốn ít chi phí nhưng độ chính xác không cao về mặt ngữ nghĩa, do chưa quan tâm đến ngữ nghĩa trong văn bản mà chỉ quan tâm đến số lượng
từ chung giữa hai văn bản
2.5.2 Độ đo tương tự Jaccard
Đây là một trong những độ đo đầu tiên được sử dụng để đánh giá mức độ tương đồng ngữ nghĩa giữa các văn bản bằng cách so khớp mức độ trùng lặp giữa các từ của hai văn bản với nhau Ưu điểm của phương pháp này là tốc độ nhanh và không cần phải huấn luyện mô hình trước Nhược điểm của phương pháp này là không so khớp được mức độ ngữ nghĩa giữa các văn bản cũng như không biết được mức độ quan
Trang 18trọng khác nhau của các từ trong văn bản Chi tiết về phương pháp này được trình bày trong phần sau của luận văn
2.5.3 Độ đo TF-IDF
Đây là độ đo rất nổi tiếng, được sử dụng trong nhiều bài toán NLP và khai phá
dữ liệu dạng văn bản với mục đích: tính weight (độ quan trọng) của từ (word) trong một văn bản cụ thể, văn bản đó nằm trong một tập nhiều văn bản khác nhau Cách tiếp cận này được sử dụng rộng rãi bởi tốc độ tính toán nhanh và kết quả nó đem lại cũng khá tốt Nó thường được sử dụng để làm một bước lọc cho nhiều bài toán Ví dụ như bài toán hỏi-đáp theo tiếp cận truy hồi câu trả lời [17] Trong bài toán này, ta đã
có một ngân hàng chứa hàng tỷ câu trả lời thuộc mọi lĩnh vực, mỗi khi có một câu hỏi, chương trình sẽ tìm câu trả lời thích hợp trong ngân hàng câu trả lời đó Nếu sử dụng các kĩ thuật học sâu phức tạp thì việc tìm kiếm trong tập câu trả lời khổng lồ như vậy là không hiệu quả trong một khoảng thời gian nhất định (các hệ thống hỏi đáp thường yêu cầu realtime) Chính vì thế, bước đầu tiên chúng ta cần rút gọn tập câu trả lời tiềm năng bằng cách dùng độ đo TF-IDF để chọn ra tốp k câu trả lời tốt nhất, sau đó mới áp dụng các kĩ thuật phức tạp khác để tìm ra câu trả lời tốt nhất trong k câu trả lời tiềm năng kia
Đây cũng là một tiếp cận được lựa chọn để thử nghiệm cho bài toán của chúng tôi và chi tiết phương pháp sẽ được trình bày trong phần sau
2.6 Phương pháp dựa trên mạng nơron học sâu
2.6.1 Khái niệm học sâu
Học sâu (deep learning) là một chi của ngành máy học dựa trên một tập hợp các
thuật toán để cố gắng mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến
Học sâu là một phần của một họ các phương pháp học máy rộng hơn dựa trên đại diện học của dữ liệu ví dụ như, một hình ảnh có thể được biểu diễn bằng nhiều cách như một vector của các giá trị cường độ cho mỗi điểm ảnh, hoặc một cách trừu tượng hơn như là một tập hợp các cạnh, các khu vực hình dạng cụ thể, vv
Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo
ra các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn Một số đại diện được lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và được dựa trên các giải thích của mô hình xử lý và truyền thông thông tin trong một
hệ thống thần kinh, chẳng hạn như mã hóa thần kinh để cố gắng để xác định các mối quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh trong não
Nhiều kiến trúc mạng nơron học sâu khác đã được áp dụng cho các lĩnh vực như thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng tiếng nói và tin sinh học Các mô hình học sâu đã đạt được kết quả rất tốt đối với nhiều nhiệm vụ NLP khác nhau
Trang 19Hướng tiếp cận này có nhiều ứng dụng như: Hệ thống nhận diện hình ảnh như Google Photos, Google Search, Google Drive; hay các hệ thống nhận dạng giọng nói thương mại như Cortana, Xbox, Skype Translator…
2.6.2 Một số ứng dụng của học sâu (Deep Learning)
a Nhân dạng giọng nói
Nhận dạng giọng nói tự động quy mô lớn là trường hợp thành công dầu tiên và thuyết phục nhất của học sâu Các mạng nơ ron hồi quy LSTM có thể học các nhiệm
vụ “học rất sâu” liên quan đến các khoảng thời gian nhiều giây có chứa các sự kiện lời nói cách nhau bởi hàng ngàn bước thời gian riêng biệt, trong đó một bước thời gian tương ứng với 10 ms Sự ra đời của DNN (Deep Neural Network – mạng nơ ron sâu) để nhận dạng giọng nói và LSTM đã đẩy nhanh quá trình phát triển học sâu Ngày nay tất cả các hệ thống nhận dạng giọng nói thương mại như Cortana, Xbox, Skype Translator… đều dựa trên học sâu
b Dịch các ngôn ngữ
Các mạng nơ-ron đã được sử dụng để thực hiện các mô hình ngôn ngữ từ những năm 2000 LSTM đã giúp cải thiện các hệ thống dịch máy và mô hình hóa ngôn ngữ Các kỹ thuật quan trọng khác trong lĩnh vực này là lấy mẫu âm tính và nhúng từ
Nhúng từ, chẳng hạn như Word2Vec [15], có thể được coi là một lớp biểu diễn trong
kiến trúc học sâu, biến một từ nguyên tử thành một biểu diễn vị trí của từ so với các
từ khác trong tập dữ liệu; vị trí được biểu diễn dưới dạng một điểm trong không gian vector Sử dụng nhúng từ làm lớp đầu vào của RNN cho phép phân tích các câu và cụm từ bằng cách sử dụng một ngữ pháp vector thành phần hiệu quả Một ngữ pháp vector thành phần có thể được coi là ngữ pháp tự do ngữ cảnh xác suất (PCFG) được thực hiện bởi một RNN Bộ mã hóa tự động đệ quy được xây dựng trên các từ nhúng
để đánh giá độ tương tự của câu và phát hiện phép diễn giải Các kiến trúc Deep learning cung cấp kết quả tốt nhất cho phân tích cấu thành, phân tích tình cảm, truy xuất thông tin, hiểu ngôn ngữ nói, dịch máy, liên kết thực thể theo ngữ cảnh, phân loại văn bản và các loại khác
c Y khoa
Trí tuệ nhân tạo đang tạo ra những tiến bộ lớn trong lĩnh vực y học Với khả năng chuẩn đoán bệnh ở giai đoạn sớm, AI giúp tăng khả năng ngăn chặn và chữa trị cũng như giảm chi phí điều trị bệnh Ngoài ra AI hỗ trợ các nhà nghiên cứu khám phá ra các phương pháp, thuốc điều trị bệnh mới một cách hiệu quả Mặc dùng AI đã xuất hiện nhiều trong thập kỷ qua, nhưng những tiến bộ mới đã kích hoạt sự bùng nổ trong học sâu Học sâu giúp các nhà nghiên cứu phân tích dữ liệu ý tế để điều trị bệnh Nó giúp tăng cường khả năng phân tích hình ảnh y khoa của các bác sĩ để chuẩn đoán bệnh
d Thị giác máy
Thị giác máy tính đã xuất hiện trong nhiều năm qua và đã đóng góp quan trọng trong nhiều lĩnh vực sản xuất công nghiệp, y tế, quân sự, giao thông,… Học sâu bằng cách sử dụng các mạng nơ-ron khổng lồ là các máy dạy học để tự động hóa các nhiệm vụ được thực hiện bởi các hệ thống thị giác máy của con người Một số ứng
Trang 20dụng của Deep learning trong lĩnh vực thị giác máy tính: Phân loại ảnh (image classification); phát hiện đối tượng (object detection); phân đoạn đối tượng (object segmentation); chuyển phong cách; màu hóa ảnh, khôi phục ảnh
2.6.3 Một số phương pháp theo hướng tiếp cận học sâu
2.6.3.1 Mô hình biểu diễn từ bằng vector (Word2Vec)
Để khắc phục nhược điểm của phương pháp thống kê là số chiều của một vector quá lớn (bằng độ dài của từ điển, có thể đến cả triệu từ) và không quan tâm đến ngữ
nghĩa của văn bản Tác giả Tomas Mikolov và các công sự đã công bố phương pháp Word2Vec trong bài báo “Distributed Representations of Words and Phrasesand their
Compositionality)” [10] Đây là thuật toán theo phương pháp dự đoán
(Prediction-based embedding), dự đoán học biểu diễn vector từ thông qua những từ ngữ cảnh xung quanh nhằm cải thiện khả năng dự đoán ý nghĩa các từ
Word2Vec là một mạng neural 2 lớp với duy nhất 1 tầng ẩn, lấy đầu vào là một corpus lớn và sinh ra không gian vector (với số chiều khoảng vài trăm), với mỗi từ duy nhất trong corpus được gắn với một vector tương ứng trong không gian Các word vectors được xác định trong không gian vector sao cho những từ có chung ngữ cảnh trong corpus được đặt gần nhau trong không gian Dự đoán chính xác cao về ý nghĩa của một từ dựa trên những lần xuất hiện trước đây
Trang 21Nếu ta gán nhãn các thuộc tính cho một vector từ giả thiết, thì các vector được biểu diễn theo Word2Vec sẽ có dạng như sau:
Hai kiến trúc mạng nơron của Word2Vec:
- Mô hình CBOW, sử dụng từ ngữ cảnh (từ xung quanh) để dự đoán từ đích (target word) Mô hình này giả thiết vị trí của các từ ngữ cảnh không ảnh hưởng tới việc dự đoán từ target Ngược lại, mô hình Skip-gram, sử dụng từ target để dự đoán những từ ngữ cảnh xung quang nó
- Mô hình Skip-gram, sử dụng một từ để dự đoán ngữ cảnh mục tiêu hay các từ xung quanh (Continuous skip-gram) xem xét những từ ngữ cảnh xung quanh sẽ được đánh giá tốt hơn so với những từ trong ngữ cảnh nhưng ở vị trí xa hơn Mặc dù thứ tự
từ vẫn không được xem xét, mỗi vector của từ bối cảnh được xem xét và cân nhắc
Trang 22Cho một từ cụ thể ở giữa câu (input word), nhìn vào những từ ở gần và chọn ngẫu nhiên Mạng neural sẽ cho chúng ta biết xác suất của mỗi từ trong từ vựng về việc trở thành từ gần đó mà chúng ta chọn
Dưới đây là mô hình kiến trúc của mạng Skip-gram và cách xây dựng Dữ liệu huấn luyện mô hình word embeddings
Hình 2.2: Mô hình Skip-gram dạng tổng quát
Ví dụ: Xây dựng training data với windows size = 2 Ở đây windows được hiểu như một cửa sổ trượt qua mỗi từ Windows size = 2 tức là lấy 2 từ bên trái và bên phải mỗi từ trung tâm
Hình 2.3: Minh họa đầu vào và đầu ra của mô hình Skip-gram
Chi tiết về mô hình
- Xây dựng bộ từ vựng
Trang 23- Biểu diễn mỗi từ thành các one-hot-vector
- Đầu ra là một vector duy nhất, có kích thước bằng kích thước của bộ từ vựng, thể hiện xác suất của mỗi từ được là lân cận của từ đầu vào
- Không có hàm kích hoạt trên tầng ẩn
- Hàm kích hoạt trên tầng output là softmax
- Trong quá trình huấn luyện, input là 1 hot-vector, ouput cũng là 1 hot-vector
one Trong quá trình đánh giá sau khi huấn luyện, đầu ra phải là 1 phân bố xác suất
Vấn đề:
- Kích thước mạng nơron khá lớn: Khi số chiều của vector nhúng từ được thiết lập là 300, tập từ vựng là 10.000 từ thi mô hình cần 3 triệu tham số Đòi hỏi chi phí thời gian lớn để huấn luyện mô hình bằng thuật toán giảm gradient với kho ngữ liệu lớn
Một số cải tiến cho mô hình Word2Vec
Có 3 cải tiến cơ bản cho mô hình Word2Vec truyền thống:
Xử lý các cặp từ thông dụng hoặc cụm từ như là một từ đơn
Loại bỏ các từ thường xuyên lặp lại để giảm số lượng các ví dụ huấn luyện
Sửa đổi mục tiêu tối ưu hóa bằng một kỹ thuật gọi là “Negative Sampling”
Cải tiến 1: Xử lý cụm từ như một từ đơn: Ví dụ các từ như “thành_phố_Cảng”
có nghĩa khác nhau với từng từ “thành_phố” và “cảng”, Chúng ta sẽ coi như đó là một từ duy nhất, với word vector của riêng mình Điều này sẽ làm tăng kích thước từ vựng
Cải tiến 2: Loại bỏ các từ thường xuyên lặp lại: Các từ thường xuyên lặp lại
như “các”, “những”,… không cho chúng ta biết thêm nhiều hơn về ý nghĩa của những từ đi kèm nó và chúng cũng xuất hiện trong ngữ cảnh của khá nhiều từ Chúng
ta sẽ xác định xác suất loại bỏ và giữ lại một từ trong từ vựng thông qua tần suất xuất hiện của nó
Cải tiến 3: Negative Sampling: Mỗi mẫu huấn luyện chỉ thay đổi một tỷ lệ phần
trăm nhỏ các trọng số, thay vì tất cả chúng Khi huấn luyện mạng với 1 cặp từ, đầu ra của mạng sẽ là 1 one-hot vector, neural đúng thì đưa ra 1 còn hàng ngàn neural khác thì đưa ra 0 Chọn ngẫu nhiên 1 số lượng nhỏ các neural “negative” kết hợp với neural “positive” để cập nhật trọng số (chọn số negative là 5-20 hoạt động tốt với các
bộ dữ liệu nhỏ, với bộ dữ liệu lớn, số negative được thiết lập từ 2 đến5là phù hợp)
b) Mô hình CBOW
Ý tưởng của mô hình là dự đoán từ mục tiêu dựa vào các từ ngữ cảnh xung quanh nó trong một phạm vi nhất định Cho từ mục tiêu wc tại vị trí c trong câu văn bản, khi đó đầu vào là các từ ngữ cảnh (wc-m, …,wc-1, wc+1, …, wc+m) xung quanh từ
wc trong phạm vi m
Trang 24Hình 2.4: Minh họa đầu vào và đầu ra của mô hình CBOW
trên câu văn bản “I have a big dog and horse” với m =1
Mô hình CBOW
Hình 2.5: Mô hình CBOW dạng tổng quát
Đầu vào gồm C từ ngữ cảnh,V là kích thước của tập từ vựng và hyperparameter;
N là kích thước của hidden layer Các unit thuộc các layer kế cận nhau được kết nối theo kiểu kết nối đầy đủ (fully connected), tức mỗi node trong hidden layer được kết nối với tất cả các node trong layer trước
Trang 25Mỗi từ đầu vào ở vị trí thứ k trong tập từ vựng được biểu diễn bằng một one-hot vector có dạng:
Mỗi hàng của ma trận W là một biểu diễn vector có số chiều là N tương ứng
với một từ w trong tập từ vựng Ma trận h với kích thước N x 1 có dạng như sau:
= [
= ( ) =