Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐÌNH MẠNH

NGHIÊN CỨU CÁC PHƯƠNG PHÁP

TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT

TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HÀ NỘI, 12/2020

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

Mã Số: 8480101.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƯƠNG THÁI

HÀ NỘI, 12/2020

Trang 3

LỜI CAM ĐOAN

Tôi- Nguyễn Đình Mạnh – cam đoan luận văn này là công trình nghiên cứu của

bản thân tôi dưới sự hướng dẫn và chỉ bảo của PGS TS Nguyễn Phương Thái

Các kết quả nêu trong luận văn là trung thực và không sao chép toàn văn của bất

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn đặc biệt tới PGS TS Nguyễn Phương Thái, người đã

định hướng đề tài và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện Luận văn cao học này

Tôi xin chân thành cảm ơn các Thầy, các Cô trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, kinh nghịm quý báu trong suốt khóa học của tôi

Cuối cùng, tôi xin cảm ơn tới nhưng người thân, bạn bè luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong quá trình học cao học cũng như quá trình thực hiện luận văn cao học

Xin chân thành cảm ơn!

Trang 5

MỤC LỤC

DANH MỤC KÝ HIỆU, VIẾT TẮT i

DANH MỤC CÁC BẢNG ii

DANH MỤC ĐỒ THỊ, HÌNH VẼ iii

MỞ ĐẦU 1

CHƯƠNG 1 GIỚI THIỆU 2

1.1.Lý do chọn đề tài 2

1.2.Mục đích đề tài 2

1.3.Đối tượng đề tài 3

1.4.Phương pháp nghiên cứu 3

CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 4

2.1.Đặc điểm của văn bản tiếng Việt 4

2.1.1.Cấu tạo từ tiếng Việt 4

2.1.2.Biến hình từ tiếng Việt 5

2.1.3.Từ đồng nghĩa 5

2.1.4.Đặc điểm chính tả 5

2.2.Đặc điểm của văn bản Luật tiếng Việt 6

2.3.Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt 7

2.4.Tổng quan về bài toán đô độ tương tự văn bản 7

2.4.1.Khái niệm về độ tương tự văn bản 7

2.4.2.Ứng dụng của bài toán đo độ tương tự giữa hai văn bản 8

2.5.Phương pháp dựa trên thống kê 8

2.5.1.Khái niệm 8

2.5.2.Độ đo tương tự Jaccard 8

2.5.3.Độ đo TF-IDF 9

2.6.Phương pháp dựa trên mạng nơron học sâu 9

2.6.1.Khái niệm học sâu 9

2.6.2.Một số ứng dụng của học sâu (Deep Learning) 10

2.6.3.Một số phương pháp theo hướng tiếp cận học sâu 11

2.6.3.1.Mô hình biểu diễn từ bằng vector (Word2Vec) 11

2.6.3.2.Học chuyển (Transfer Learning) 18 CHƯƠNG 3 CÁC PHƯƠNG PHÁP ĐO ĐỘ TƯƠNG TỰ GIỮA CÁC VĂN BẢN 22

Trang 6

3.1.Tiền xử lý dữ liệu 22

3.2.Vector hóa văn bản và tính độ tương tự văn bản 22

3.2.1.Mộ số phương pháp theo tiếp cận thống kê 22

3.2.2.Phương pháp học sâu 27

3.2.2.1.Sử dụng Word2Vec 27

3.2.2.2.Học biểu diễn vector cho các văn bản 28

3.2.2.3 Áp dụng học chuyển (transfer learning) để tăng chất lượng vector biểu diễn văn bản 28

3.3.Đánh giá mô hình 29

CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ 31

4.1.Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm 31

4.2.Dữ liệu 31

4.2.1.Thu thập dữ liệu 31

4.2.2.Xử lý dữ liệu 32

4.3.Thực nghiệm 32

4.3.1.Thực nghiệm với Phương pháp Jacard 33

4.3.2.Thực nghiệm với phương pháp TF-IDF 33

4.3.3.Thực nghiệm với phương pháp Word2Vec 33

4.3.4.Thực nghiệm với phương pháp Doc2Vec 33

4.3.5.Phương pháp học chuyển 34

4.4.Kết quả 34

4.4.1.Đánh giá các phương pháp trên văn bản tiếng Anh 34

4.4.2.Đánh giá các phương pháp với truy vấn là 1 văn bản 34

4.4.3.Đánh giá các phương pháp với truy vấn là 1 đoạn văn ngắn 38

CHƯƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƯƠNG LAI 40

5.1.Kết luận 40

5.2.Công việc trong tương lai 40

TÀI LIỆU THAM KHẢO 41

Trang 7

DANH MỤC KÝ HIỆU, VIẾT TẮT

NLP Neuro – Linguistic – Programming RNN Recurrent Neural Network

LSTM Long Short Term Memory networks PCFG Probabilistic Context Free Grammar

AI Artificial intelligence

Trang 8

DANH MỤC CÁC BẢNG

Bảng 1: Biểu diễn văn bản theo TF 24

Bảng 2:Biểu diễn văn bản theo IDF 25

Bảng 3: Thống kê dữ liệu của văn bản luật 32

Bảng 4: So sánh kết quả 2 phương pháp Word2Vec và Doc2Vec 34

Bảng 5: Kết quả các phương pháp theo tiếp cận thống kê 35

Bảng 6: Kết quả các phương pháp theo tiếp cận học sâu 35

Bảng 7: Kết quả của các phương pháp học chuyển cải tiến và chưa có cải tiến 36

Bảng 8: Kết quả các phương pháp theo tiếp cận thống kê và học sâu 38

Trang 9

DANH MỤC ĐỒ THỊ, HÌNH VẼ

Hình 2.1: Mô hình Word2Vec 12

Hình 2.2: Mô hình Skip-gram dạng tổng quát 13

Hình 2.3: Minh họa đầu vào và đầu ra của mô hình Skip-gram 13

Hình 2.4: Minh họa đầu vào và đầu ra của mô hình CBOW 15

Hình 2.5: Mô hình CBOW dạng tổng quát 15

Hình 2.6: Mô hình học chuyển 18

Trang 10

MỞ ĐẦU

Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm

vụ trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày

02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các nhiệm vụ cải cách nền tư pháp của nước ta, trong đó có nhiệm vụ “đổi mới thủ tục

hành chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận công lý; … từng bước thực hiện việc công khai hóa các bản án…” Thực

hiện theo chỉ đạo này các văn bản Luật đã được số hóa và phổ biến đến người dân ngày một nhiều Lãnh đạo ngành Tòa án cũng chỉ đạo sát sao việc ứng dụng CNTT để nâng cao hiệu quả công việc của ngành Tòa án, cụ thể là việc phần mềm Công khai bản án đã được ra đời cung cấp bản án tới người dân, để họ có thể tìm kiếm các bản

án có trường hợp pháp lý tương tự trường hợp mình đang gặp phải Họ có thể biết trược được kết quả của việc kiện tụng, khi đó thay vì phải đưa vụ việc ra Tòa thì một giải pháp khả thi hơn đó là hòa giải để 2 bên đều có lơi, cũng là giảm bớt áp lực công việc cho ngành Tòa án Để làm được như vậy thì phần mềm cần phải hỗ trợ người dùng nhiều hơn nữa, không chỉ dừng lại ở việc tra cứu theo từ khóa cơ bản mà phải

hỗ trợ việc tra cứu theo nội dung ngữ nghĩa của văn bản

Hiện nay, cũng có một vài công trình nghiên cứu để xuất các phương pháp khác nhau để xác định độ tương đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so với các công trình nghiên cứu trên văn bản tiếng Anh Do đặc điểm của

từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt là văn bản Luật tiếng Việt Việc xử lý văn bản và xây dựng kho ngữ liệu chuẩn và đầy đủ là một thách thức

lớn Vì những lý do này, chúng tôi đã chọn đề tài luận văn là “Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng Việt” nhằm nghiên cứu

các phương pháp đo độ tương tự và thử nghiện các mô hình tính toán độ tương tự, từ đây đưa ra để xuất mô hình phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt Nội dung luật văn gồm:

 Chương 1 Giới thiệu tổng quan luận văn, mục đích và nội dung nghiên cứu

 Chương 2 Đưa ra một cái nhìn tổng quan về các kiến thức nền tảng trong bài toán đo độ tương tự giữa các văn bản

 Chương 3 Các phương pháp tính toán độ tương tự cho miền dữ liệu văn bản Luật tiếng Việt

 Chương 4 Thể hiện chi tiết về tập dữ liệu được sử dụng, các cài đặt cho thực nghiệm và kết quả của thực nghiệm

 Chương 5 Tóm tắt lại công việc của luận văn và đưa ra các công việc trong tương lai

Trang 11

CHƯƠNG 1 GIỚI THIỆU 1.1 Lý do chọn đề tài

Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm

vụ trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày 02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các nhiệm vụ cải cách nền tư pháp của nước ta, trong đó có nhiệm vụ “đổi mới thủ tục hành chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận công lý; … từng bước thực hiện việc công khai hóa các bản án…” Thực hiện theo chỉ đạo này, các văn bản Luật đã được số hóa và phổ biến đến người dân ngày một nhiều

Tuy nhiên, việc khai thác các thông tin tài liệu pháp lý cũng gặp rất nhiều khó khăn do các phần mềm mới chỉ dừng lại ở mức cho phép người dùng tìm kiếm theo

từ khóa, phân loại tố tụng mà chưa cung cấp được một công cụ tìm kiếm theo tình huống pháp lý mà người dân mô tả để đưa ra được văn bản pháp lý (Bản án) có độ tương tự nhất với trường hợp pháp lý mình đang gặp phải Hay việc đối sánh chính xác văn bản với nhau để tìm ra sự sai sót trong áp dụng pháp luật Nếu làm được điều này thì sẽ giải quyết được nhưng vấn đề sau:

- Thay vì đưa nhau ra Tòa, các bên tham gia vụ việc sẽ tiến hành hòa giải bởi

họ biết trước được kết quả nếu đưa vụ án ra xét xử thông qua bản án đã từng giải quyết trước đó Qua đó giảm bớt áp lực công việc cho ngành Tòa án

- Các nhà quản lý sẽ biết được các bản án đã ra có áp dụng pháp luật đúng hay không thông qua việc đối sánh các bản án với nhau, nếu 2 bản án có độ tương đồng cao mà lại có kết quả xét xử khác nhau như vậy việc áp dụng pháp luật tại 1 trong 2 bản án có vấn đề Từ đây họ sẽ điều chỉnh để hạn chế oan sai cho người dân,

Hiện nay, cũng có một vài công trình nghiên cứu để xuất các phương pháp khác nhau để xác định độ tương đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so với các công trình nghiên cứu trên văn bản tiếng Anh Do đặc điểm của

từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt lại là văn bản Luật tiếng Việt Việc xử lý văn bản và xây dựng được kho ngữ liệu chuẩn và đầy đủ là một vấn đến lớn Vì những lý do này, chúng tôi đã chọn tài liệu pháp lý làm miền dữ liệu chính cho luận văn

Xây dựng bộ dữ liệu văn bản luật tiếng Việt (Bản án) phục vụ cho các nghiên cứu về sau

Trang 12

1.3 Đối tượng đề tài

Nghiên cứu một số mô hình tính toán độ tương tự văn bản cả về cú pháp và ngữ nghĩa, xác định sự tương đồng của văn bản dựa trên từ, câu và toàn bộ văn bản và ứng dụng trong văn bản luật tiếng Việt

Thực nghiệm các phép đo độ tương tự đang được áp dụng từ đây đề xuất ra phương pháp để cải thiện phép đo độ tương tự với miền dữ liệu văn bản luật tiếng Việt

1.4 Phương pháp nghiên cứu

Nghiên cứu lý thuyết về mô hình tính độ tương đồng văn bản, các mô hình biểu diễn văn bản và ứng dụng các mô hình vào việc thử nghiệm các phương pháp đo độ tương tự văn bản luật tiếng Việt

Đề xuất giải pháp nhằm nâng cao hiệu xuất tính toán độ tương tự của văn bản luật tiếng Việt

Trang 13

CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 2.1 Đặc điểm của văn bản tiếng Việt

Văn bản tiếng Việt là một loại hình phương tiện để ghi nhận, lưu giữ và truyền đạt các thông tin từ chủ thể này sang chủ thể khác bằng ký hiệu gọi là chữ viết tiếng Việt Nó gồm tập hợp các câu có tính trọn vẹn về nội dung, hoàn chỉnh về hình thức,

có tính liên kết chặt chẽ và hướng tới một mục tiêu giao tiếp nhất định Hay nói cách khác, văn bản tiếng Việt là một dạng sản phẩm của hoạt động giao tiếp bằng ngôn ngữ được thể hiện ở dạng viết trên một chất liệu nào đó (giấy, bia đá, ) Văn bản bao gồm các tài liệu, tư liệu, giấy tờ có giá trị pháp lý nhất định, được sử dụng trong hoạt động của các cơ quan Nhà nước, các tổ chức chính trị, chính trị - xã hội, các tổ chức kinh tế như: các văn bản pháp luật, các công văn, tài liệu, giấy tờ

Do văn bản được viết bằng ngôn ngữ tiếng Việt vậy nên nó mang mọi đặc điểm của ngôn ngữ tiếng Việt

2.1.1 Cấu tạo từ tiếng Việt

Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết [3] Hai đặc trưng này chi phối toàn bộ toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và cần được chú ý khi xử lý tiếng Việt trên máy tính

- Tiếng tự thân nó không có ý nghĩa nhưng có thể ghép với nhau để tạo thành từ

có nghĩa, thường xuyên gặp ở những từ mượn như phéc-mơ-tuya, a-pa-tít, chính

mì-Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai nhóm sau thường chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thường được gọi là tiếng vô nghĩa

b) Từ, cụm từ

Từ được cấu tạo từ một hoặc nhiều tiếng Từ cấu tạo từ một tiếng gọi là từ đơn,

ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối quan hệ về nghĩa

Từ ghép được phân thành từ ghép đẳng lập và từ ghép chính phụ Đối với từ ghép đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa, ví dụ: ăn nói, bơi lội… Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối

Trang 14

quan hệ phụ thuộc với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa, tạo sắc thái cho thành phần chính, ví dụ: hoa hồng, đường sắt…

Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan

hệ ngữ pháp nhất định Ví dụ:

- Từ “học” là từ gồm một tiếng

- Từ “đại học” là từ gồm hai tiếng

- Cụm từ “khoa học máy tính” gồm 2 từ hay 4 tiếng

2.1.2 Biến hình từ tiếng Việt

Tiếng Việt không có hiện tượng biến hình từ bằng những phụ tố mang ý nghĩa ngữ pháp bên trong từ như tiếng Anh [3] Tuy nhiên, tiếng Việt cũng có một số hình thức biến hình như trường hợp thêm từ “sự” trước một động từ để biến nó thành danh

từ hay thêm tiếng “hóa” sau một danh từ để biến nó thành động từ tương đương, ví

dụ như “lựa chọn” và “sự lựa chọn”, “tin học” và “tin học hóa”

2.1.3 Từ đồng nghĩa

Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa nhưng khác nhau về

âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào

đó, hoặc đồng thời cả hai [3] Những từ đồng nghĩa với nhau lập thành một nhóm gọi

là nhóm đồng nghĩa Ví dụ: dễ, dễ dàng, dễ dãi là những nhóm từ đồng nghĩa

Từ đồng nghĩa thực chất không phải là những từ trùng nhau hoàn toàn về nghĩa

mà có những khác biệt nhất định Chính sự khác biệt đó là lí do tồn tại và làm nên sự khác nhau giữa các từ trong một nhóm từ đồng nghĩa

Thông thường các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó Vì thế, một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau Ví dụ, từ “coi” có thể tham gia vào các nhóm như coi – xem (coi hát, xem hát), coi – giữ (coi nhà, giữ nhà)

2.1.4 Đặc điểm chính tả

Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý

dữ liệu văn bản Một số đặc điểm chính tả tiếng Việt cần quan tâm như [3]:

- Các tiếng đồng âm: kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như: lý luận, lí luận, kĩ thuật, kỹ thuật…

- Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc…

- Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên

âm có ưu tiên cao nhất Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ nguyên tắc này nên có hiện tượng dấu được đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy…

- Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện

- Phiên âm tiếng nước ngoài: tồn tại cách viết giữ nguyên gốc tiếng nước ngoài

và phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po

Trang 15

- Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được giữa nối tên riêng hay chú thích

Ký tự ngắt câu: sử dụng nhiều loại ký tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách giữa các câu hoặc các vế câu trong câu ghép

2.2 Đặc điểm của văn bản Luật tiếng Việt

a) Khái niệm

Văn bản luật tiếng Việt là một bộ phận của văn bản tiếng Việt, nó mang đầy đủ

đặc tính của văn bản tiếng Việt Văn bản luật tiếng Việt hay văn bản pháp luật [4] “là

một hình thức để chủ thể mang thẩm quyền thể hiện ý chí, được thể hiện dưới dạng ngôn ngữ viết thông qua văn bản, bàn hành qua các hình thức, thủ tục mà pháp luật

đã quy định”

Văn bản luật tiếng Việt là được chia làm 03 nhóm gồm: văn bản pháp luật, văn bản áp dụng pháp luật và văn bản hành chính Mỗi nhóm trong hệ thống VBPL còn

có một số nét đặc thù về nội dung, tính chất và vai trò trong quản lý nhà nước

 Văn bản quy phạm pháp luật

Văn bản quy phạm pháp luật [4] là văn bản do cơ quan nhà nước ban hành hoặc

phối hợp ban hành theo thẩm quyền, hình thức, trình tự, thủ tục được quy định trong Luật này hoặc trong Luật ban hành văn bản quy phạm pháp luật của Hội đồng nhân dân, Uỷ ban nhân dân, trong đó có quy tắc xử sự chung, có hiệu lực bắt buộc chung, được Nhà nước bảo đảm thực hiện để điều chỉnh các quan hệ xã hội

Có hai cách để nhận biết đâu là một văn bản Quy phạm pháp luật

- Thứ nhất là nhìn vào cách trình bày văn bản, như trong mỗi văn bản luật đều có chứa kèm theo số năm ban hành văn bản hay có mô típ quen thuộc như sau: Nghị quyết số 01/2005/NQ-HĐTP; điểm a và e khoản 1 Điều 93; khoản 1 Điều 133…

- Thứ hai, có thể nhận biết văn bản luật là gì thông qua hai yếu tố là cơ quan ban hành và loại văn bản, cụ thể như sau:

 Quốc hội ban hành Hiến pháp, luật, Nghị quyết

 Ủy ban Thường vụ Quốc hội ban hành Nghị quyết, Pháp lệnh, Nghị quyết liên tịch

 Hội đồng thẩm phán Tòa án Nhân dân tối cao ban hành Nghị quyết

 Chánh án Tòa án Nhân dân tối cao ban hành Thông tư và Thông tư liên tịch

 …

 Văn bản áp dụng pháp luật

- Thứ nhất, văn bản áp dụng pháp luật ban hành ra dưới dạng quy định do những

cơ quan nhà nước, cá nhân hoặc tổ chức xã hội được nhà nước ủy quyền áp dụng pháp luật ban hành và được bảo đảm thực hiện trong trường hợp cần thiết bằng cưỡng chế nhà nước Chỉ những chủ thể có có thẩm quyền về những nội dung trong văn bản do pháp luật quy định mới có thẩm quyền ban hành văn bản áp dụng pháp luật Nếu văn bản áp dụng pháp luật mà nội dung ban hành xác định về nội dung được ban hành bởi cá nhân hay tổ chức mà pháp luật không quy định về thẩm quyền

Trang 16

ban hành thuộc cá nhân hay cơ quan tổ chức ban hành đó thì văn bản áp dụng pháp luật đó không có hiệu lực pháp luật

- Thứ hai, văn bản áp dụng pháp luật được thể hiện trong những hình thức pháp

lý dưới các dang hình thức nhất định nhất định như: bản án, quyết định, lệnh,…

- Hình thức của văn bản pháp luật bao gồm tên gọi và thể thức của văn bản pháp luật Đối với văn bản áp dụng pháp luật thì tên gọi do pháp luật quy định, tùy thuộc vào tính chất công việc mà văn bản áp dụng pháp luật có tên gọi khác nhau, đồng thời thông qua tên gọi của văn bản áp dụng pháp luật ta có thể nhận biết được cơ quan nào có thẩm quyền ban hành văn bản áp dụng pháp luật đó

 Văn bản hành chính

- là loại văn bản thường dùng để truyền đạt những nội dung và yêu cầu nào đó từ cấp trên xuống hoặc bày tỏ những ý kiến, nguyện vọng của cá nhân hay tập thể tới các cơ quan và người có quyền hạn để giải quyết

- Văn bản hành chính là loại văn bản mang tính thông tin quy phạm Nhà nước, cụ thể hóa việc thi hành văn bản pháp quy, giải quyết những vụ việc cụ thể trong khâu quản lý, như: quyết định nâng lương, quyết định kỉ luật, thông báo, giấy mời họp

2.3 Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt

Văn bản luật tiếng Việt là bộ phận của văn bản tiếng Việt do đó nó mang đầy đủ đặc tính của văn bản tiếng Việt, chỉ khác nó chứa nhiều thuật ngữ pháp lý Những thuật ngữ dùng để chỉ về những khái niệm thường dùng trong khoa học pháp lý hoặc các văn bản pháp luật và dùng để chỉ, mô tả một cách khái quát nhất, cô đọng nhất các hiện tượng, nội dung, trạng thái pháp lý Thuật ngữ pháp lý cốt lõi chính là những định nghĩa, khái niệm về các hiện tượng, sự vật trong hệ quy chiếu pháp luật

Thuật ngữ pháp lý có ý nghĩa rất lớn đối với việc nghiên cứu khoa học pháp lý cũng có ý nghĩa quan trọng trong việc giải thích các quy định của pháp luật

2.4 Tổng quan về bài toán đô độ tương tự văn bản

2.4.1 Khái niệm về độ tương tự văn bản

Độ tương tự văn bản (document similarity) hay khoảng cách giữa các văn bản là một trong những bài toán trọng tâm của truy hồi thông tin (information retrieval) [11] Việc đo lường mức độ giống nhau của các văn bản đóng một vai trò quan trọng trong nhiều bài toán như: tìm kiếm thông tin dựa trên nội dung của tài liệu [12], phân nhóm tài liệu dựa vào sự tương đồng về nội dung [13][14], … Độ tương tự văn bản là một đại lượng dùng để so sánh hai hay nhiều tài liệu văn bản với nhau Đại lượng này đặc trưng cho mức độ liên quan về ngữ nghĩa giữa các văn bản

Xét ví dụ gồm hai câu “Tôi thích xem phim” và “Tôi yêu phim”, Có thể thấy rằng hai câu trên có độ tương đồng về ngữ nghĩa rất cao

Theo tác giả Nguyễn Kim Anh [5] thì độ tương tự giữa hai văn bản ngoài việc so khớp từ đơn giản, điểm tương tự còn được xác định dựa trên số đơn vị từ vựng xuất hiện ở cả hai văn bản Đặc biệt cần phải quan tâm tới hiện tượng đồng nghĩa của từ, tầm quan trọng của từ như tần suất xuất hiện, vị trí xuất hiện của từ và câu trong văn bản

Trang 17

Để xem xét độ tương tự văn bản, ta cần xét văn bản ở trong 2 khía cạnh là độ tương tự giữa từ của hai văn bản và độ tương tự về ngữ nghĩa

 Độ tương tự của từ là khái niệm thể hiện tỷ lệ dựa trên tập từ chung của hai văn bản

 Độ tương tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các văn bản Độ tương tự về ngữ nghĩa giữa 2 văn bản thể hiện mối quan hệ về ngữ nghĩa giữa các từ, các câu trong văn bản Theo tác giả Đỗ Thị Thanh Nga thì độ tương tự ngữ nghĩa là khái niệm thể hiện

tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các tài liệu hoặc các thuật ngữ trong một danh sách các thuật ngữ [1] Độ tương đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa giữa các câu và các tài liệu văn bản Xét hai văn bản d1 và d2 Mục tiêu của luận văn này nhắm đến việc đo lường giá trị S(d1,d2), thể hiện hiện độ tương

tự giữa hai văn bản d1 và d2 Giá trị S càng cao thì sự giống nhau về ngữ nghĩa của hai văn bản càng cao

2.4.2 Ứng dụng của bài toán đo độ tương tự giữa hai văn bản

Bài toán đo độ tương tự giữa văn bản và văn bản được cả thế giới quan tâm nghiên cứu từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan Các ứng dụng phải kể đến như tìm kiếm thông tin, các tài liệu liên quan sẽ được xếp hạng theo thứ tự của độ tương tự Ngoài ra, độ tương tự văn bản còn được ứng dụng cho bài toán phân lớp văn bản, tóm tăt văn bản, bài toán xác định đạo văn Gần đây nhất là bài toán hỗ trợ pháp lý cũng đặc biệt được quan tâm và nghiên cứu Các phép đo độ tương tự giữa văn bản và văn bản chủ yếu dựa trên hai tiếp cận chính là các tiếp cận thống kê và các tiếp cận dựa trên mạng nơron học sâu (deep learning)

2.5 Phương pháp dựa trên thống kê

2.5.1 Khái niệm

Các phương pháp theo tiếp cận thống kê đánh giá độ tương tự giữa hai văn bản dựa trên tần suất xuất hiện của các từ trong câu Độ tương tự đo được tỷ lệ thuận với kích thước của tập từ chung giữa hai văn bản Một số phương pháp tiêu biểu theo tiếp cận này như: các phương pháp sử dụng độ đo Cosine, độ đo khoảng cách Eclide, Manhattan, phương pháp độ đo Jaccard, phương pháp TF-IDF[19],… Các phương pháp này tốc độ xử lý nhanh, tốn ít chi phí nhưng độ chính xác không cao về mặt ngữ nghĩa, do chưa quan tâm đến ngữ nghĩa trong văn bản mà chỉ quan tâm đến số lượng

từ chung giữa hai văn bản

2.5.2 Độ đo tương tự Jaccard

Đây là một trong những độ đo đầu tiên được sử dụng để đánh giá mức độ tương đồng ngữ nghĩa giữa các văn bản bằng cách so khớp mức độ trùng lặp giữa các từ của hai văn bản với nhau Ưu điểm của phương pháp này là tốc độ nhanh và không cần phải huấn luyện mô hình trước Nhược điểm của phương pháp này là không so khớp được mức độ ngữ nghĩa giữa các văn bản cũng như không biết được mức độ quan

Trang 18

trọng khác nhau của các từ trong văn bản Chi tiết về phương pháp này được trình bày trong phần sau của luận văn

2.5.3 Độ đo TF-IDF

Đây là độ đo rất nổi tiếng, được sử dụng trong nhiều bài toán NLP và khai phá

dữ liệu dạng văn bản với mục đích: tính weight (độ quan trọng) của từ (word) trong một văn bản cụ thể, văn bản đó nằm trong một tập nhiều văn bản khác nhau Cách tiếp cận này được sử dụng rộng rãi bởi tốc độ tính toán nhanh và kết quả nó đem lại cũng khá tốt Nó thường được sử dụng để làm một bước lọc cho nhiều bài toán Ví dụ như bài toán hỏi-đáp theo tiếp cận truy hồi câu trả lời [17] Trong bài toán này, ta đã

có một ngân hàng chứa hàng tỷ câu trả lời thuộc mọi lĩnh vực, mỗi khi có một câu hỏi, chương trình sẽ tìm câu trả lời thích hợp trong ngân hàng câu trả lời đó Nếu sử dụng các kĩ thuật học sâu phức tạp thì việc tìm kiếm trong tập câu trả lời khổng lồ như vậy là không hiệu quả trong một khoảng thời gian nhất định (các hệ thống hỏi đáp thường yêu cầu realtime) Chính vì thế, bước đầu tiên chúng ta cần rút gọn tập câu trả lời tiềm năng bằng cách dùng độ đo TF-IDF để chọn ra tốp k câu trả lời tốt nhất, sau đó mới áp dụng các kĩ thuật phức tạp khác để tìm ra câu trả lời tốt nhất trong k câu trả lời tiềm năng kia

Đây cũng là một tiếp cận được lựa chọn để thử nghiệm cho bài toán của chúng tôi và chi tiết phương pháp sẽ được trình bày trong phần sau

2.6 Phương pháp dựa trên mạng nơron học sâu

2.6.1 Khái niệm học sâu

Học sâu (deep learning) là một chi của ngành máy học dựa trên một tập hợp các

thuật toán để cố gắng mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến

Học sâu là một phần của một họ các phương pháp học máy rộng hơn dựa trên đại diện học của dữ liệu ví dụ như, một hình ảnh có thể được biểu diễn bằng nhiều cách như một vector của các giá trị cường độ cho mỗi điểm ảnh, hoặc một cách trừu tượng hơn như là một tập hợp các cạnh, các khu vực hình dạng cụ thể, vv

Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo

ra các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn Một số đại diện được lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và được dựa trên các giải thích của mô hình xử lý và truyền thông thông tin trong một

hệ thống thần kinh, chẳng hạn như mã hóa thần kinh để cố gắng để xác định các mối quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh trong não

Nhiều kiến trúc mạng nơron học sâu khác đã được áp dụng cho các lĩnh vực như thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng tiếng nói và tin sinh học Các mô hình học sâu đã đạt được kết quả rất tốt đối với nhiều nhiệm vụ NLP khác nhau

Trang 19

Hướng tiếp cận này có nhiều ứng dụng như: Hệ thống nhận diện hình ảnh như Google Photos, Google Search, Google Drive; hay các hệ thống nhận dạng giọng nói thương mại như Cortana, Xbox, Skype Translator…

2.6.2 Một số ứng dụng của học sâu (Deep Learning)

a Nhân dạng giọng nói

Nhận dạng giọng nói tự động quy mô lớn là trường hợp thành công dầu tiên và thuyết phục nhất của học sâu Các mạng nơ ron hồi quy LSTM có thể học các nhiệm

vụ “học rất sâu” liên quan đến các khoảng thời gian nhiều giây có chứa các sự kiện lời nói cách nhau bởi hàng ngàn bước thời gian riêng biệt, trong đó một bước thời gian tương ứng với 10 ms Sự ra đời của DNN (Deep Neural Network – mạng nơ ron sâu) để nhận dạng giọng nói và LSTM đã đẩy nhanh quá trình phát triển học sâu Ngày nay tất cả các hệ thống nhận dạng giọng nói thương mại như Cortana, Xbox, Skype Translator… đều dựa trên học sâu

b Dịch các ngôn ngữ

Các mạng nơ-ron đã được sử dụng để thực hiện các mô hình ngôn ngữ từ những năm 2000 LSTM đã giúp cải thiện các hệ thống dịch máy và mô hình hóa ngôn ngữ Các kỹ thuật quan trọng khác trong lĩnh vực này là lấy mẫu âm tính và nhúng từ

Nhúng từ, chẳng hạn như Word2Vec [15], có thể được coi là một lớp biểu diễn trong

kiến trúc học sâu, biến một từ nguyên tử thành một biểu diễn vị trí của từ so với các

từ khác trong tập dữ liệu; vị trí được biểu diễn dưới dạng một điểm trong không gian vector Sử dụng nhúng từ làm lớp đầu vào của RNN cho phép phân tích các câu và cụm từ bằng cách sử dụng một ngữ pháp vector thành phần hiệu quả Một ngữ pháp vector thành phần có thể được coi là ngữ pháp tự do ngữ cảnh xác suất (PCFG) được thực hiện bởi một RNN Bộ mã hóa tự động đệ quy được xây dựng trên các từ nhúng

để đánh giá độ tương tự của câu và phát hiện phép diễn giải Các kiến trúc Deep learning cung cấp kết quả tốt nhất cho phân tích cấu thành, phân tích tình cảm, truy xuất thông tin, hiểu ngôn ngữ nói, dịch máy, liên kết thực thể theo ngữ cảnh, phân loại văn bản và các loại khác

c Y khoa

Trí tuệ nhân tạo đang tạo ra những tiến bộ lớn trong lĩnh vực y học Với khả năng chuẩn đoán bệnh ở giai đoạn sớm, AI giúp tăng khả năng ngăn chặn và chữa trị cũng như giảm chi phí điều trị bệnh Ngoài ra AI hỗ trợ các nhà nghiên cứu khám phá ra các phương pháp, thuốc điều trị bệnh mới một cách hiệu quả Mặc dùng AI đã xuất hiện nhiều trong thập kỷ qua, nhưng những tiến bộ mới đã kích hoạt sự bùng nổ trong học sâu Học sâu giúp các nhà nghiên cứu phân tích dữ liệu ý tế để điều trị bệnh Nó giúp tăng cường khả năng phân tích hình ảnh y khoa của các bác sĩ để chuẩn đoán bệnh

d Thị giác máy

Thị giác máy tính đã xuất hiện trong nhiều năm qua và đã đóng góp quan trọng trong nhiều lĩnh vực sản xuất công nghiệp, y tế, quân sự, giao thông,… Học sâu bằng cách sử dụng các mạng nơ-ron khổng lồ là các máy dạy học để tự động hóa các nhiệm vụ được thực hiện bởi các hệ thống thị giác máy của con người Một số ứng

Trang 20

dụng của Deep learning trong lĩnh vực thị giác máy tính: Phân loại ảnh (image classification); phát hiện đối tượng (object detection); phân đoạn đối tượng (object segmentation); chuyển phong cách; màu hóa ảnh, khôi phục ảnh

2.6.3 Một số phương pháp theo hướng tiếp cận học sâu

2.6.3.1 Mô hình biểu diễn từ bằng vector (Word2Vec)

Để khắc phục nhược điểm của phương pháp thống kê là số chiều của một vector quá lớn (bằng độ dài của từ điển, có thể đến cả triệu từ) và không quan tâm đến ngữ

nghĩa của văn bản Tác giả Tomas Mikolov và các công sự đã công bố phương pháp Word2Vec trong bài báo “Distributed Representations of Words and Phrasesand their

Compositionality)” [10] Đây là thuật toán theo phương pháp dự đoán

(Prediction-based embedding), dự đoán học biểu diễn vector từ thông qua những từ ngữ cảnh xung quanh nhằm cải thiện khả năng dự đoán ý nghĩa các từ

Word2Vec là một mạng neural 2 lớp với duy nhất 1 tầng ẩn, lấy đầu vào là một corpus lớn và sinh ra không gian vector (với số chiều khoảng vài trăm), với mỗi từ duy nhất trong corpus được gắn với một vector tương ứng trong không gian Các word vectors được xác định trong không gian vector sao cho những từ có chung ngữ cảnh trong corpus được đặt gần nhau trong không gian Dự đoán chính xác cao về ý nghĩa của một từ dựa trên những lần xuất hiện trước đây

Trang 21

Nếu ta gán nhãn các thuộc tính cho một vector từ giả thiết, thì các vector được biểu diễn theo Word2Vec sẽ có dạng như sau:

 Hai kiến trúc mạng nơron của Word2Vec:

- Mô hình CBOW, sử dụng từ ngữ cảnh (từ xung quanh) để dự đoán từ đích (target word) Mô hình này giả thiết vị trí của các từ ngữ cảnh không ảnh hưởng tới việc dự đoán từ target Ngược lại, mô hình Skip-gram, sử dụng từ target để dự đoán những từ ngữ cảnh xung quang nó

- Mô hình Skip-gram, sử dụng một từ để dự đoán ngữ cảnh mục tiêu hay các từ xung quanh (Continuous skip-gram) xem xét những từ ngữ cảnh xung quanh sẽ được đánh giá tốt hơn so với những từ trong ngữ cảnh nhưng ở vị trí xa hơn Mặc dù thứ tự

từ vẫn không được xem xét, mỗi vector của từ bối cảnh được xem xét và cân nhắc

Trang 22

Cho một từ cụ thể ở giữa câu (input word), nhìn vào những từ ở gần và chọn ngẫu nhiên Mạng neural sẽ cho chúng ta biết xác suất của mỗi từ trong từ vựng về việc trở thành từ gần đó mà chúng ta chọn

Dưới đây là mô hình kiến trúc của mạng Skip-gram và cách xây dựng Dữ liệu huấn luyện mô hình word embeddings

Hình 2.2: Mô hình Skip-gram dạng tổng quát

Ví dụ: Xây dựng training data với windows size = 2 Ở đây windows được hiểu như một cửa sổ trượt qua mỗi từ Windows size = 2 tức là lấy 2 từ bên trái và bên phải mỗi từ trung tâm

Hình 2.3: Minh họa đầu vào và đầu ra của mô hình Skip-gram

Chi tiết về mô hình

- Xây dựng bộ từ vựng

Trang 23

- Biểu diễn mỗi từ thành các one-hot-vector

- Đầu ra là một vector duy nhất, có kích thước bằng kích thước của bộ từ vựng, thể hiện xác suất của mỗi từ được là lân cận của từ đầu vào

- Không có hàm kích hoạt trên tầng ẩn

- Hàm kích hoạt trên tầng output là softmax

- Trong quá trình huấn luyện, input là 1 hot-vector, ouput cũng là 1 hot-vector

one Trong quá trình đánh giá sau khi huấn luyện, đầu ra phải là 1 phân bố xác suất

Vấn đề:

- Kích thước mạng nơron khá lớn: Khi số chiều của vector nhúng từ được thiết lập là 300, tập từ vựng là 10.000 từ thi mô hình cần 3 triệu tham số Đòi hỏi chi phí thời gian lớn để huấn luyện mô hình bằng thuật toán giảm gradient với kho ngữ liệu lớn

Một số cải tiến cho mô hình Word2Vec

Có 3 cải tiến cơ bản cho mô hình Word2Vec truyền thống:

 Xử lý các cặp từ thông dụng hoặc cụm từ như là một từ đơn

 Loại bỏ các từ thường xuyên lặp lại để giảm số lượng các ví dụ huấn luyện

 Sửa đổi mục tiêu tối ưu hóa bằng một kỹ thuật gọi là “Negative Sampling”

Cải tiến 1: Xử lý cụm từ như một từ đơn: Ví dụ các từ như “thành_phố_Cảng”

có nghĩa khác nhau với từng từ “thành_phố” và “cảng”, Chúng ta sẽ coi như đó là một từ duy nhất, với word vector của riêng mình Điều này sẽ làm tăng kích thước từ vựng

Cải tiến 2: Loại bỏ các từ thường xuyên lặp lại: Các từ thường xuyên lặp lại

như “các”, “những”,… không cho chúng ta biết thêm nhiều hơn về ý nghĩa của những từ đi kèm nó và chúng cũng xuất hiện trong ngữ cảnh của khá nhiều từ Chúng

ta sẽ xác định xác suất loại bỏ và giữ lại một từ trong từ vựng thông qua tần suất xuất hiện của nó

Cải tiến 3: Negative Sampling: Mỗi mẫu huấn luyện chỉ thay đổi một tỷ lệ phần

trăm nhỏ các trọng số, thay vì tất cả chúng Khi huấn luyện mạng với 1 cặp từ, đầu ra của mạng sẽ là 1 one-hot vector, neural đúng thì đưa ra 1 còn hàng ngàn neural khác thì đưa ra 0 Chọn ngẫu nhiên 1 số lượng nhỏ các neural “negative” kết hợp với neural “positive” để cập nhật trọng số (chọn số negative là 5-20 hoạt động tốt với các

bộ dữ liệu nhỏ, với bộ dữ liệu lớn, số negative được thiết lập từ 2 đến5là phù hợp)

b) Mô hình CBOW

Ý tưởng của mô hình là dự đoán từ mục tiêu dựa vào các từ ngữ cảnh xung quanh nó trong một phạm vi nhất định Cho từ mục tiêu wc tại vị trí c trong câu văn bản, khi đó đầu vào là các từ ngữ cảnh (wc-m, …,wc-1, wc+1, …, wc+m) xung quanh từ

wc trong phạm vi m

Trang 24

Hình 2.4: Minh họa đầu vào và đầu ra của mô hình CBOW

trên câu văn bản “I have a big dog and horse” với m =1

 Mô hình CBOW

Hình 2.5: Mô hình CBOW dạng tổng quát

Đầu vào gồm C từ ngữ cảnh,V là kích thước của tập từ vựng và hyperparameter;

N là kích thước của hidden layer Các unit thuộc các layer kế cận nhau được kết nối theo kiểu kết nối đầy đủ (fully connected), tức mỗi node trong hidden layer được kết nối với tất cả các node trong layer trước

Trang 25

Mỗi từ đầu vào ở vị trí thứ k trong tập từ vựng được biểu diễn bằng một one-hot vector có dạng:

Mỗi hàng của ma trận W là một biểu diễn vector có số chiều là N tương ứng

với một từ w trong tập từ vựng Ma trận h với kích thước N x 1 có dạng như sau:

= [

= ( ) =

Định dạng
Số trang	51
Dung lượng	1,27 MB