1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng bộ kiểm tra căn cứ pháp lý của văn bản hành chính

61 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Bộ Kiểm Tra Căn Cứ Pháp Lý Của Văn Bản Hành Chính
Tác giả Nguyễn Thị Phương Thy
Người hướng dẫn TS. Đặng Trường Sơn
Trường học Trường Đại Học Công Nghệ TP. HCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2017
Thành phố TP. HỒ CHÍ MINH
Định dạng
Số trang 61
Dung lượng 2,04 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1. Lý do chọn đề tài (14)
  • 2. Mục tiêu của đề tài (14)
  • 3. Nội dung nghiên cứu (15)
  • 4. Phương pháp nghiên cứu (15)
  • Chương 1: TỔNG QUAN VỀ CĂN CỨ TRONG VĂN BẢN HÀNH CHÍNH (16)
    • 1.1 Giới thiệu về văn bản hành chính (16)
    • 1.2 Soạn thảo văn bản hành chính (17)
    • 1.3 Đề dẫn căn cứ trong văn bản hành chính (19)
    • 1.4 Căn cứ hợp lệ và không hợp lệ (22)
      • 1.4.1 Căn cứ hợp lệ (22)
      • 1.4.2 Căn cứ không hợp lệ (23)
      • 1.4.3 Các trường hợp ngoại lệ (24)
  • Chương 2: PHƯƠNG PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG VIỆT (26)
    • 2.1 Vấn đề tách từ trong văn bản tiếng Việt (26)
    • 2.2 Các hướng tiếp cận kỹ thuật tách từ tiếng Việt (27)
      • 2.2.1 Hướng tiếp cận dựa trên từ (27)
      • 2.2.2 Hướng tiếp cận dựa trên ký tự (28)
    • 2.3 Một số phương pháp tách từ tiếng Việt (29)
      • 2.3.1 So khớp từ dài nhất (Longest Matching) (29)
      • 2.3.2 Học dựa trên sự cải biến (30)
      • 2.3.3 Chuyển đổi trạng thái trọng số hữu hạn (31)
  • Chương 3: XÂY DỰNG BỘ KIỂM TRA CĂN CỨ VĂN BẢN HÀNH CHÍNH (34)
    • 3.1 Lưu đồ kiểm tra căn cứ trong văn bản hành chính (34)
    • 3.2 Đọc tập tin văn bản soạn thảo (35)
    • 3.3 Trích lọc căn cứ (36)
    • 3.4 Tách câu, tách từ trong căn cứ (37)
    • 3.5 Kiểm tra căn cứ (39)
    • 3.6 Trình bày kết quả (41)
  • Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ (42)
    • 4.1 Thực nghiệm (42)
      • 4.1.1 Trích lọc căn cứ từ một hay nhiều văn bản (42)
      • 4.1.2 Hiệu chỉnh Tách từ trong căn cứ với VnTokenizer (46)
      • 4.1.3 Kiểm tra căn cứ hợp lệ hay không hợp lệ (50)
    • 4.2 Đánh giá kết quả (56)
  • CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (59)
    • 5.1 Kết luận (59)
    • 5.2 Hướng phát triển (59)
  • TÀI LIỆU THAM KHẢO (60)

Nội dung

Mục tiêu của đề tài

- Mục tiêu tổng quát: Xây dựng bộ kiểm tra các căn cứ pháp lý của văn bản hành chính

- Mục tiêu/công việc cụ thể:

+ Xây dựng bộ dữ liệu các văn bản quy phạm pháp luật để làm cơ sở kiểm tra căn cứ

+ Đọc và tách được các từ trong nội dung tập tin văn bản soạn thảo

+ Ứng dụng các thuật toán, giải pháp tách để từ nhận dạng các từ khóa chính như số ký hiệu, ngày ban hành

+ Kiểm tra được nội dung căn cứ pháp lý của văn bản là hợp lệ hay không hợp lệ.

Nội dung nghiên cứu

Tìm hiểu các văn bản hành chính nhà nước còn hiệu lực là một nhiệm vụ quan trọng, giúp phân loại và gom nhóm các văn bản quy phạm pháp luật Việc xây dựng bộ cơ sở dữ liệu các văn bản này không chỉ hỗ trợ cho công tác quản lý nhà nước mà còn tạo điều kiện thuận lợi cho người dân và doanh nghiệp trong việc tra cứu và áp dụng pháp luật.

- Tìm hiểu cấu trúc của văn bản hành chính nhà nước

- Tìm hiểu các công cụ hoặc giải pháp đọc và tách ra các từ trong nội dung của văn bản soạn thảo

Kỹ thuật tách từ trong văn bản tiếng Việt là phương pháp quan trọng để nhận diện các thông tin như số ký hiệu, ngày ban hành và tên cơ quan ban hành của các căn cứ pháp lý Việc áp dụng kỹ thuật này giúp nâng cao độ chính xác trong việc xử lý và phân tích dữ liệu pháp lý.

Ứng dụng kỹ thuật tách từ trên văn bản soạn thảo giúp xác định các từ khóa chính như số ký hiệu, ngày ban hành và tên cơ quan ban hành, từ đó nâng cao hiệu quả tìm kiếm và phân tích thông tin.

So sánh từ khóa chính với nội dung trong cơ sở dữ liệu giúp xác định mức độ khớp nhau, từ đó đánh giá tính hợp lệ của căn cứ.

Phương pháp nghiên cứu

- Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài

- Tìm tài liệu bởi các từ khoá Kỹ thuật tách từ trong văn bản tiếng Việt

- Nghiên cứu tổng quan về trích dẫn căn cứ trong văn bản hành chính

- Nghiên cứu kỹ thuật tách từ trong văn bản hành chính tiếng Việt

- Xây dựng chương trình và đánh giá kết quả đạt được.

TỔNG QUAN VỀ CĂN CỨ TRONG VĂN BẢN HÀNH CHÍNH

Giới thiệu về văn bản hành chính

Văn bản quản lý hành chính nhà nước là các tài liệu chứa đựng quyết định và thông tin quản lý do cơ quan nhà nước ban hành theo thẩm quyền và quy trình nhất định Những văn bản này nhằm điều chỉnh mối quan hệ giữa các cơ quan nhà nước với nhau cũng như với tổ chức và công dân Nội dung chính của văn bản quản lý nhà nước bao gồm các quyết định và thông tin liên quan đến quản lý hành chính.

Văn bản quản lý nhà nước được ban hành bởi các cơ quan nhà nước có thẩm quyền theo quy định của Nhà nước Quá trình ban hành văn bản này tuân theo trình tự, thủ tục và hình thức nhất định Mục đích của các văn bản này là điều chỉnh các mối quan hệ quản lý hành chính giữa các cơ quan nhà nước với nhau và giữa các cơ quan nhà nước với tổ chức và công dân.

Trong lĩnh vực khen thưởng, nhân sự và đào tạo tại các cơ quan nhà nước thuộc trường học, việc ban hành văn bản hành chính là rất phổ biến Hàng năm, các trường thường phát hành nhiều loại văn bản như kế hoạch đào tạo, khen thưởng và điều động nhân sự Để tăng tính hợp pháp cho các văn bản này, cần có ít nhất hai căn cứ, thường được trích từ hàng ngàn văn bản đến và đi của cơ quan Tuy nhiên, việc kiểm tra các căn cứ này thường gặp khó khăn tại các nhà trường.

Văn bản hành chính là loại tài liệu mang tính quy phạm của Nhà nước, nhằm cụ thể hóa việc thực thi các văn bản pháp luật và giải quyết các vấn đề cụ thể trong công tác quản lý Hiện nay, văn bản hành chính được phân loại thành hai nhóm chính.

Văn bản hành chính cá biệt là công cụ thể hiện quyết định quản lý của cơ quan nhà nước có thẩm quyền, dựa trên các quy định chung và quyết định quy phạm từ cấp trên hoặc từ chính cơ quan đó Các loại văn bản này bao gồm quyết định cá biệt, chỉ thị cá biệt và nghị quyết cá biệt, nhằm giải quyết các công việc cụ thể trong quản lý hành chính.

Văn bản hành chính thông thường là các tài liệu thông tin điều hành, phục vụ cho việc thực hiện các quy định pháp luật hoặc giải quyết công việc cụ thể Chúng phản ánh tình hình, giao dịch và ghi chép công việc trong các cơ quan, tổ chức Hệ thống văn bản này rất đa dạng và phức tạp, được phân thành hai loại chính.

Công văn là loại văn bản dùng để giao dịch công việc giữa các cơ quan, đoàn thể, và không có tên loại văn bản ở đầu Điều này giúp phân biệt công văn với các loại văn bản hành chính khác.

Văn bản hành chính bao gồm các loại như thông báo, báo cáo, biên bản, tờ trình, đề án, chương trình, kế hoạch, hợp đồng, và nhiều loại giấy tờ khác như giấy đi đường, giấy giới thiệu, giấy nghỉ phép, giấy ủy nhiệm Mỗi loại văn bản này đều có tên gọi cụ thể, ví dụ như báo cáo, thông báo, và biên bản, giúp xác định rõ ràng mục đích và nội dung của chúng.

Văn bản hành chính là công cụ quan trọng để cụ thể hóa các quy định pháp luật, hướng dẫn thực hiện các chính sách và chủ trương của nhà nước, đồng thời hỗ trợ hiệu quả cho quá trình quản lý hành chính và cung cấp thông tin pháp luật.

Soạn thảo văn bản hành chính

Soạn thảo văn bản hành chính phải tuân theo hướng dẫn của Thông tư số 01/2011/TT-BNV của Bộ Nội vụ, bao gồm 4 chương và 6 phụ lục quy định về thể thức và kỹ thuật trình bày Thông tư này áp dụng cho các cơ quan nhà nước và tổ chức xã hội, quy định rõ ràng về phạm vi, thể thức, cách trình bày, kỹ thuật, phông chữ, khổ giấy và các yếu tố khác của văn bản hành chính Do đó, văn bản hành chính được trình bày theo khuôn mẫu cụ thể, giúp việc phân tích nội dung trở nên đơn giản hơn so với các loại văn bản khác.

Ví dụ về việc bố trí các thành phần văn bản hành chính theo Phụ lục II 1

Hình 1.1 Sơ đồ bố cục các thành phần thể thức văn bản

1 Phụ lục II, kèm theo thông tư 01/2011/TT-BNV của Bộ Nội vụ

2_ Tên cơ quan, tổ chức ban hành văn bản

3_ Số, ký hiệu của văn bản

4_ Địa danh và ngày, tháng, năm ban hành văn bản

5a_ Tên loại và trích yếu nội dung văn bản

5b_ Trích yếu nội dung công văn

7a_, 7b_, 7c_ Quyền hạn, chức vụ, họ tên và chữ ký của người có thẩm quyền

8_ Dấu của cơ quan, tổ chức

10a_ Dấu chỉ mức độ mật

10b_ Dấu chỉ mức độ khẩn

11_ Dấu thu hồi và chỉ dẫn về phạm vi lưu hành

12_ Chỉ dẫn về dự thảo văn bản

13_ Ký hiệu người đánh máy và số lượng bản phát hành

14_ Địa chỉ cơ quan, tổ chức; địa chỉ E-Mail; địa chỉ Website; số điện thoại, số Telex, số Fax

15_ Logo (in chìm dưới tên cơ quan, tổ chức ban hành văn bản)

Việc soạn thảo văn bản hành chính đúng quy định thường chỉ được thực hiện bởi những người đã qua đào tạo, trong khi những người mới vào cơ quan nhà nước thường gặp nhiều sai sót và thiếu tính thống nhất Điều này gây khó khăn cho việc sử dụng máy tính để phân tích nội dung của các văn bản hành chính.

Đề dẫn căn cứ trong văn bản hành chính

Căn cứ pháp lý là yếu tố quan trọng để kiểm tra tính hợp hiến và hợp pháp của văn bản hành chính Khi kiểm tra, người có thẩm quyền đối chiếu nội dung văn bản với các căn cứ pháp lý liên quan để xác định tính phù hợp với Hiến pháp, Luật và các quy định của cơ quan nhà nước cấp trên Nếu nội dung văn bản không đúng với quy định trong các căn cứ pháp lý, điều đó cho thấy văn bản thiếu căn cứ pháp lý Ví dụ, Quyết định số… của Hiệu trưởng trường Cao Đẳng Kinh Tế Kỹ Thuật Kiên Giang về việc bổ nhiệm viên chức quản lý cần được kiểm tra tính hợp pháp dựa trên các văn bản pháp lý liên quan.

Khi soạn thảo văn bản hành chính, phần căn cứ văn bản là yếu tố quan trọng và thường xuyên được sử dụng Mỗi loại văn bản hành chính có cách trình bày phần căn cứ khác nhau, và chúng ta cần dựa vào các văn bản đã có để làm căn cứ cho văn bản mới Đối với những văn bản có phần căn cứ pháp lý, mỗi căn cứ cần xuống dòng và kết thúc bằng dấu “chấm phẩy”, trong khi căn cứ cuối cùng sẽ kết thúc bằng dấu “phẩy”.

“Tùy theo thể loại và nội dung, văn bản có thể có phần căn cứ pháp lý để ban hành” 3

Trường hợp viện dẫn các điều, khoản, điểm của một văn bản cụ thể thì viết hoa chữ cái đầu của điều, khoản, điểm

- Căn cứ Điều 10 Bộ luật Lao động…

- Căn cứ Điểm a, Khoản 1, Điều 5 Luật Giao dịch điện tử… 4

Căn cứ pháp lý trong văn bản hành chính được đặt ở vị trí quan trọng, nằm ngay sau tiêu đề và trích yếu, nhưng trước phần nội dung chính của văn bản.

2 Khoản 2, Điều 11, thông tư số 01/2011/TT-BNV

3 Điểm b, Khoản 1, Điều 11 thông tư số 01/2011/TT-BNV

4 Khoản 6, Điều 5, thông tư số 01/2011/TT-BNV

Ví dụ về vị trí của các căn cứ trong văn bản nghị định [2]

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc

Số: 40/2010/NĐ-CP Hà Nội, ngày 12 tháng 04 năm 2010

Về kiểm tra và xử lý văn bản quy phạm pháp luật

Căn cứ Luật Tổ chức Chính phủ ngày 25 tháng 12 năm 2001;

Căn cứ Luật Tổ chức Hội đồng nhân dân và Ủy ban nhân dân ngày 26 tháng 11 năm 2003;

Căn cứ Luật Ban hành văn bản quy phạm pháp luật của Hội đồng nhân dân, Ủy ban nhân dân ngày 03 tháng 12 năm 2004;

Căn cứ Luật Ban hành văn bản quy phạm pháp luật ngày 03 tháng 6 năm 2008;

Xét đề nghị của Bộ trưởng Bộ Tư pháp,

Chương I NHỮNG QUY ĐỊNH CHUNG Điều 1 Đối tượng và phạm vi điều chỉnh ….”

Hình 1.2 Viện dẫn căn cứ trong nghị định của Chính Phủ

Nghị định nêu rõ các căn cứ pháp lý nằm dưới tiêu đề Nghị Định và trước Chương I, thể hiện vị trí quan trọng của các căn cứ trong các văn bản quy phạm pháp luật.

Cấu trúc của một căn cứ gồm:

- Đầu ngữ với cụm từ “Căn cứ”

- Số ký hiệu văn bản (nếu có)

Ví dụ một số cách trình bày của căn cứ ở một số văn bản đã được ban hành:

- Căn cứ đầy đủ các thành phần:

“Căn cứ Nghị định số 29/2012/NĐ-CP ngày 12 tháng 4 năm 2012 của Chính phủ về tuyển dụng, sử dụng và quản lý viên chức;”

- Căn cứ thiếu nơi ban hành:

Căn cứ hợp lệ và không hợp lệ

Căn cứ pháp lý là yếu tố quyết định tính hợp pháp của một văn bản, đảm bảo rằng nội dung quy định trong văn bản đó phải tương thích với các quy định của các căn cứ pháp lý đã được xác định.

Trong quá trình kiểm tra, người có thẩm quyền sẽ xem xét và đối chiếu nội dung văn bản với quy định pháp luật và quy định của cơ quan nhà nước cấp trên Mục tiêu là xác định xem văn bản được ban hành có đảm bảo tính hợp hiến và hợp pháp hay không.

Theo quy định tại khoản 1 Điều 3 Nghị định số 40/2010/NĐ-CP có nêu:

Việc ban hành cần phải dựa trên căn cứ pháp lý rõ ràng, bao gồm việc có đủ cơ sở pháp lý cho quá trình ban hành Đồng thời, các văn bản làm căn cứ pháp lý cũng phải được ký ban hành và thông qua đúng thời điểm khi văn bản được kiểm tra.

Như vậy, văn bản được ban hành đúng căn cứ pháp lý là văn bản đảm bảo đủ các yêu cầu:

Việc ban hành văn bản pháp luật cần có căn cứ pháp lý rõ ràng, tức là phải dựa trên các quy định của cơ quan nhà nước cấp trên về thẩm quyền, chức năng và nhiệm vụ của cơ quan ban hành Ngoài ra, văn bản mới phải phù hợp với đối tượng và phạm vi điều chỉnh đã được quy định, hoặc phải dựa trên những văn bản có hiệu lực pháp lý cao hơn mà cơ quan ban hành đã công bố trước đó.

Các văn bản pháp lý được sử dụng làm căn cứ đã được ký ban hành và có hiệu lực tại thời điểm kiểm tra Điều này có nghĩa là vào thời điểm văn bản được ban hành, các văn bản này chưa bị sửa đổi, bãi bỏ, huỷ bỏ, đình chỉ hoặc hết hiệu lực.

1.4.2 Căn cứ không hợp lệ

Căn cứ không hợp lệ là gì? Là những căn cứ vi phạm các điều sau đây:

- Chưa được ban hành hoặc hết hiệu lực ban hành

- Số ký hiệu trích dẫn không đúng với số ký hiệu gốc

- Sai ngày ban hành, tên cơ quan ban hành, hoặc trích yếu văn bản

- Căn cứ không phù hợp với nội dung văn bản

- Căn cứ hết hiệu lực ban hành

Trong luận văn này, chúng tôi chỉ xem xét những căn cứ pháp lý không hợp lệ, bao gồm các trường hợp có số ký hiệu trích dẫn không đúng, sai ngày ban hành, tên cơ quan ban hành, và đặc biệt là những căn cứ đã hết hiệu lực Đối với những căn cứ pháp lý hết hiệu lực một phần, việc xác định phần nào đã hết hiệu lực gặp khó khăn, do đó, chúng tôi coi những căn cứ này là hợp lệ và sẽ thông báo cảnh báo đến người dùng.

Để kiểm tra tính hợp lệ của căn cứ, chúng ta cần giải quyết hai vấn đề chính Đầu tiên, cần thực hiện tách từ trong văn bản để xác định các căn cứ, bao gồm số ký hiệu, cơ quan ban hành, ngày ban hành và nội dung tóm tắt của từng căn cứ.

Xây dựng một bộ dữ liệu văn bản là cần thiết để kiểm tra tính hợp lệ của các căn cứ pháp lý Giả thuyết đặt ra là nếu số ký hiệu văn bản được kiểm tra tồn tại trong bộ dữ liệu, thì số ký hiệu đó được coi là hợp lệ; ngược lại, nếu không tìm thấy, số ký hiệu sẽ không hợp lệ.

1.4.3 Các trường hợp ngoại lệ

Căn cứ pháp lý trong các văn bản hành chính rất đa dạng, thường bao gồm chỉ đạo từ lãnh đạo đơn vị hoặc dựa vào tình trạng thực tế của đơn vị Tuy nhiên, những căn cứ này không đủ để xác định tính pháp lý, do đó chúng ta xem xét chúng như những trường hợp ngoại lệ.

Khi kiểm tra kết quả trả về không tìm thấy trong cơ sở dữ liệu, có hai nguyên nhân chính: thứ nhất, người soạn thảo có thể đã nhập sai số hiệu văn bản; thứ hai, bộ dữ liệu văn bản chưa đầy đủ, dẫn đến việc không tìm thấy mặc dù nội dung được viết đúng Trong trường hợp này, hệ thống sẽ cảnh báo người sử dụng với thông báo "không tìm thấy".

Hình 1.3 Lỗi đánh máy khi viện dẫn căn cứ

Theo Nghị định số 29/2003/NĐ-CP, việc soạn thảo văn bản cần chú ý đến việc nhập dư ký tự trắng giữa ký tự "/" và "N" Điều này có thể dẫn đến việc máy tính nhận diện ký tự trắng như một phần của số hiệu, gây khó khăn trong việc tìm kiếm văn bản tương ứng trong cơ sở dữ liệu.

PHƯƠNG PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG VIỆT

Vấn đề tách từ trong văn bản tiếng Việt

Để xác định tính hợp lệ của căn cứ pháp lý, cần tách căn cứ từ văn bản soạn thảo và kiểm tra trong cơ sở dữ liệu Nếu căn cứ tồn tại và còn hiệu lực tại thời điểm ban hành, thì nó được coi là hợp lệ.

Tách từ trong văn bảng tiếng Việt là một bài toán khó, bởi tiếng Việt là một dạng ngôn ngữ đơn lập, với những đặc tính như sau:

 Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp

 Từ được cấu trúc từ tiếng

 Từ bao gồm từ đơn và từ phức (bao gồm từ láy và từ ghép)

Trong tiếng Anh và nhiều ngôn ngữ khác, từ ngữ được phân tách bằng dấu cách, trong khi tiếng Việt sử dụng dấu cách để phân tách các tiếng (âm tiết) thay vì từ Nhiều nghiên cứu đã chỉ ra rằng việc tách từ trong tiếng Việt gặp nhiều khó khăn, dẫn đến những nhận xét đáng chú ý về vấn đề này.

Tiếng Việt là ngôn ngữ phi hình thái, điều này khiến cho việc phân loại từ như danh từ, động từ, và tính từ trở nên khó khăn, ngay cả khi sử dụng từ điển.

 Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với phần xử lý các hư từ, phụ từ, từ láy…

Phương thức ngữ pháp chính là trật tự từ, do đó việc áp dụng phương pháp tính xác suất xuất hiện của từ có thể không đạt được độ chính xác như mong đợi.

Ranh giới từ trong tiếng Việt không được xác định mặc định bằng khoảng trắng, điều này gây khó khăn cho việc phân tích hình thái và tách từ Việc nhận diện ranh giới từ là rất quan trọng, đóng vai trò tiền đề cho các xử lý tiếp theo như kiểm tra lỗi chính tả, gán nhãn từ loại và thống kê tần suất từ.

 Vì tiếng Anh và tiếng Việt có những điểm khác biệt nên chúng ta không thể áp dụng y nguyên các thuật toán tiếng Anh cho tiếng Việt.

Các hướng tiếp cận kỹ thuật tách từ tiếng Việt

Dựa vào các kỹ thuật tách từ của tiếng Hán và những điểm tương đồng giữa tiếng Việt và tiếng Hán, chúng ta có thể xây dựng sơ đồ các hướng tiếp cận kỹ thuật tách từ tiếng Việt Kết quả khảo sát của Foo và Li [9] về tách từ trong văn bản tiếng Hoa cho thấy những ứng dụng và phương pháp hiệu quả trong việc phân tích ngôn ngữ.

Hình 2.1 Sơ đồ các hướng tiếp cận của kỹ thuật tách từ tiếng Hoa

2.2.1 Hướng tiếp cận dựa trên từ

Hướng tiếp cận dựa trên từ nhằm tách các từ hoàn chỉnh trong câu có thể chia thành ba phương pháp chính: phương pháp dựa trên thống kê, phương pháp dựa trên từ điển và phương pháp hybrid, kết hợp nhiều phương pháp khác nhau.

Shortest Match Longest Match Overlap Match

Hướng tiếp cận dựa trên thống kê (statistic-based): dựa trên các thông tin như tần số xuất hiện của từ trong tập huấn luyện ban đầu

Hướng tiếp cận dựa trên từ điển (dictionary-based) tập trung vào việc so khớp các cụm từ được tách ra từ văn bản với các từ trong từ điển Phương pháp này giúp xác định ý nghĩa và ngữ cảnh của từ ngữ trong văn bản một cách chính xác.

Có hai hướng tiếp cận để so khớp từ điển: full word/phrase và component Hướng tiếp cận full word/phrase yêu cầu sử dụng một từ điển hoàn chỉnh, trong khi hướng component sử dụng từ điển thành phần.

Tùy thuộc vào phương pháp so khớp từ, hướng tiếp cận 'full word/phrase' được chia thành ba loại: so khớp dài nhất, so khớp ngắn nhất và so khớp kết hợp Trong loại so khớp kết hợp, mỗi chuỗi phát sinh từ văn bản có thể chồng lấp lên chuỗi khác nếu chuỗi đó tồn tại trong từ điển.

Hiện nay, phương pháp so khớp dài nhất được coi là một trong những phương pháp quan trọng và hiệu quả nhất trong tiếp cận dựa trên từ điển.

Hướng tiếp cận hybrid kết hợp nhiều kỹ thuật khác nhau để tối ưu hóa kết quả bằng cách tận dụng ưu điểm của cả phương pháp dựa trên thống kê và từ điển Mặc dù mang lại hiệu quả cao, nhưng phương pháp này lại tiêu tốn nhiều thời gian xử lý, không gian lưu trữ và chi phí.

2.2.2 Hướng tiếp cận dựa trên ký tự

Trong tiếng Việt, hình vị nhỏ nhất là “tiếng”, được tạo thành từ nhiều ký tự trong bảng chữ cái Phương pháp rút trích tiếng, như unigram và n-gram, đã cho thấy hiệu quả qua các nghiên cứu, chẳng hạn như công trình của Lê An Hà, nơi xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phương pháp quy hoạch động để tối ưu hóa xác suất xuất hiện của các ngữ Ngoài ra, nghiên cứu của H Nguyễn tiếp cận khác biệt bằng cách không sử dụng ngữ liệu thô mà xem xét các yếu tố khác.

Internet là một kho ngữ liệu khổng lồ, và việc sử dụng thuật giải di truyền để tách từ tối ưu là một phương pháp hiệu quả So sánh giữa công trình của Lê An Hà và H Nguyễn cho thấy rằng H Nguyễn đạt được kết quả tốt hơn trong việc tách từ, mặc dù thời gian xử lý lâu hơn Phương pháp dựa trên nhiều ký tự nổi bật với tính đơn giản, dễ ứng dụng và tiết kiệm chi phí cho việc tạo chỉ mục và xử lý nhiều câu truy vấn Nhiều nghiên cứu đã chỉ ra rằng cách tách từ hai ký tự là lựa chọn thích hợp trong các phương pháp tách từ hiện nay.

Một số phương pháp tách từ tiếng Việt

2.3.1 So khớp từ dài nhất (Longest Matching)

Thuật toán Longest Matching là một phương pháp tham lam, hoạt động bằng cách phân tích các tiếng từ trái sang phải Nó tách ra các tiếng dài nhất có thể từ từ điển, dừng lại khi đã xét hết các tiếng Tuy nhiên, thuật toán này chỉ chính xác khi không có sự nhầm lẫn giữa các tiếng đầu của từ tiếp theo với từ trước đó, để đảm bảo rằng chúng tạo thành một từ hợp lệ trong từ điển.

V là danh sách các tiếng chưa xét

Wmax= từ đầu danh sách V; // từ dài nhất Foreach (v thuộc từ gồm các tiếng bắt đầu trong V)

If(length(v)> length(W max ) and v thuộc T) then W max = v; Loại đi các tiếng trong W max ở đầu danh sách V;

Ví dụ : Tôi là sinh viên trường Đại học Hutech

Bước Từ dài nhất có thể Các tiếng còn lại

1 Tôi là sinh viên trường Đại học Hutech

2 Là sinh viên trường Đại học Hutech

3 Sinh viên trường Đại học Hutech

- Tách từ nhanh đơn giản chỉ cần dựa vào từ điển

- Độ chính xác tương đối cao

- Độ chính xác phụ thuộc vào hoàn toàn vào tính đầy đủ và chính xác của từ điển

Phương pháp này sẽ không hiệu quả nếu chuỗi từ trước có liên quan đến các từ sau Chẳng hạn, trong cụm từ "một ông quan tài giỏi", các từ có thể được phân tách như sau: "một ||ông|| quan tài|| giỏi".

2.3.2 Học dựa trên sự cải biến Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta có thể cho máy “học” trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng

Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần thiết cho mô hình nhận diện từ Ưu điểm:

- Đặc điểm của phương pháp này là khả năng tự rút ra quy luật của ngôn ngữ

Cách tiếp cận dựa trên luật mang lại nhiều ưu điểm, nhưng nó cũng khắc phục những nhược điểm của việc xây dựng luật một cách thủ công bởi các chuyên gia.

- Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện)

- Có khả năng khử một số nhập nhằng của các mô hình ngôn ngữ theo kiểu thống kê

Phương pháp này sử dụng ngữ liệu có gán nhãn để tự động học các quy luật ngôn ngữ Tuy nhiên, việc xây dựng một tập ngữ liệu hoàn chỉnh với đầy đủ tiêu chí cho tiếng Việt là rất khó khăn và tốn kém về thời gian lẫn công sức.

- Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật tương đối đầy đủ

2.3.3 Chuyển đổi trạng thái trọng số hữu hạn

Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số (WFST) được giới thiệu vào năm 1996, với ý tưởng áp dụng trọng số là xác suất xuất hiện của từ trong ngữ liệu để duyệt qua câu cần xét Cách duyệt với trọng số lớn nhất sẽ xác định cách tách từ tối ưu Phương pháp này đã được Đinh Điền áp dụng trong nghiên cứu của mình, nơi ông kết hợp WFST với mạng Neural để giải quyết vấn đề nhập nhằng trong tách từ Hệ thống mà tác giả xây dựng bao gồm tầng WFST để xử lý tách từ, đồng thời giải quyết các đặc thù của tiếng Việt như từ láy và tên riêng, và tầng mạng Neural nhằm khử nhập nhằng về ngữ nghĩa sau khi tách từ.

Sơ đồ các bước sử lý của WFST

Xây dựng từ điển trọng số theo mô hình WFST coi việc phân đoạn từ như một chuyển dịch trạng thái có xác suất Từ điển D được mô tả là một đồ thị trạng thái hữu hạn có trọng số, với H là tập hợp các từ chính tả tiếng Việt và P là từ loại của từ (POS) Mỗi cung trong D có thể là từ một phần từ của H tới một phần từ khác của H, hoặc từ ký hiệu kết thúc từ З tới một phần từ của P Các nhãn trong D thể hiện chi phí ước lượng theo công thức Cost = - log(f/N), trong đó f là tần số của từ và N là kích thước tập mẫu Đối với các từ mới chưa gặp, xác suất có điều kiện Goog – Turning (Baayen) được áp dụng để tính toán trọng số.

Để giảm thiểu sự bùng nổ tổ hợp khi tạo ra các dãy từ từ một câu, tác giả đề xuất một phương pháp mới kết hợp với từ điển nhằm hạn chế hiện tượng này Khi phát hiện một cách phân đoạn từ không phù hợp, như không có trong từ điển, không phải là từ láy hay danh từ riêng, tác giả sẽ loại bỏ các nhánh phát sinh từ cách phân đoạn đó.

Để tối ưu hóa khả năng phân đoạn từ, tác giả sẽ chọn trường hợp phân đoạn có trọng số nhỏ nhất từ danh sách các cách phân đoạn từ có thể có Ví dụ, với câu "Tốc độ truyền thông tin sẽ cao", phương pháp này giúp xác định phân đoạn từ hiệu quả nhất.

Id(D)*D* = “Tốc độ # truyền thông # tin # sẽ # tăng # cao” 48.79

Id(D)*D* = “ Tốc độ # truyền # thông tin # sẽ # tăng# cao.” 48.70

Do đó, ta có được phân đoạn tối ưu là “Tốc độ # truyền # thông tin # sẽ # tăng # cao.”

Mô hình mạng neural được đề xuất nhằm đánh giá ba dãy từ loại: NNV, NVN, và VNN (N: Danh từ, V: Động từ) Mô hình này được huấn luyện bằng các câu mà cách phân đoạn từ vẫn chưa rõ ràng sau khi qua mô hình đầu tiên, giúp cải thiện độ chính xác trong việc phân loại từ.

- Mô hình cho kết quả phân đoạn từ với độ tin cậy (xác suất) kèm theo

- Nhờ có tầng mạng neural nên mô hình có thể khử nhập nhằng các trường hợp tần WFST cho ra nhiều ứng viên có kết quả ngang nhau

Phương pháp này đạt được độ chính xác cao, nhằm mục tiêu tách từ một cách chính xác, tạo nền tảng vững chắc cho việc dịch máy.

Việc xây dựng tập ngữ liệu, giống như phương pháp TBL, là một quá trình tỉ mỉ nhưng vô cùng cần thiết để hỗ trợ cho việc dịch máy sau này.

XÂY DỰNG BỘ KIỂM TRA CĂN CỨ VĂN BẢN HÀNH CHÍNH

Lưu đồ kiểm tra căn cứ trong văn bản hành chính

Từ những công việc cụ thể trong xây dựng bộ kiểm tra căn cứ văn bản hành chính, chúng ta xây dựng được lưu đồ như sau:

Hình 3.1 Lưu đồ kiểm tra căn cứ văn bản hành chính

Tách câu, tách từ Đọc văn bản

Trong lưu đồ, có năm bước công việc cần thực hiện, trong đó ba bước quan trọng nhất là trích lọc căn cứ, tách câu và tách từ, cùng với kiểm tra căn cứ Nghiên cứu này tập trung vào việc giải quyết những công việc quan trọng này.

Đọc tập tin văn bản soạn thảo

Để soạn thảo văn bản hành chính, cần sử dụng các chương trình soạn thảo văn bản, trong đó Microsoft Word là lựa chọn phổ biến Luận văn này tập trung vào việc nghiên cứu văn bản được tạo ra bằng Microsoft Word Để duyệt nội dung trong tập tin Word, cần sử dụng gói thư viện Microsoft Word 14.0 Object Library, được tích hợp trong NET Framework Khi lập trình bằng Microsoft Visual Studio 2013, người dùng cần thêm gói thư viện này vào phần References của ứng dụng, với phiên bản 8.5 của Microsoft Word 14.0 Object Library.

Để kiểm tra nhiều căn cứ trong Microsoft Word 14.0 Object Library, chúng ta có thể mở rộng khả năng đọc từ một tập tin thành đọc nhiều tập tin cùng lúc Cách đơn giản nhất để thực hiện điều này là nhóm tất cả các tập tin cần đọc vào một thư mục.

Hình 3.3 Thư mục các tập tin văn bản cần đọc

Trích lọc căn cứ

Mỗi văn bản hành chính có thể chứa từ một đến bốn căn cứ, với mỗi căn cứ thể hiện trong một đoạn riêng biệt Để trích lọc căn cứ, chúng ta cần tìm kiếm các đoạn văn bắt đầu bằng cụm từ “Căn cứ” Việc này giúp chúng ta tạo ra một danh sách các căn cứ quan trọng trong văn bản soạn thảo.

Sau khi hoàn thành bước này, chúng ta sẽ có danh sách các căn cứ và tiến hành bước tiếp theo, tác động vào từng căn cứ để mỗi cụm từ trở nên có nghĩa nhất.

Hình 3.4 Lưu đồ trích lọc căn cứ

Tách câu, tách từ trong căn cứ

Để xác định tính hợp lệ của căn cứ, cần kiểm tra các thành phần như số hiệu, ngày ban hành và cơ quan ban hành Quá trình này yêu cầu tách câu và tách từ trong văn bản căn cứ, giúp dễ dàng so sánh các thành phần với nội dung của văn bản.

Duyệt lần lượt từ dòng số

Xét 10 ký tự đầu chứa “căn cứ” không?

Thêm vào danh sách căn cứ

Bài nghiên cứu này chỉ ra rằng bộ dữ liệu không hợp lệ để xác định tính hợp lệ hay không hợp lệ Tác giả đã sử dụng bộ tách từ vnTokenizer, một công cụ tách từ tiếng Việt được phát triển bởi nhóm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương, dựa trên phương pháp so khớp tối đa (Maximum Matching) Dữ liệu được sử dụng bao gồm bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt.

Công cụ mã nguồn mở được phát triển bằng ngôn ngữ Java, cho phép dễ dàng sửa đổi, nâng cấp và tích hợp với các hệ thống phân tích văn bản tiếng Việt khác.

Quy trình thực hiện tách từ theo phương pháp khớp tối đa:

Quy trình tách từ của vnTokenizer bắt đầu với đầu vào là tệp văn bản tiếng Việt thô, định dạng txt Kết quả đầu ra sẽ là các từ đã được tách, có thể được lưu dưới định dạng đơn giản hoặc XML, tùy thuộc vào lựa chọn của người dùng.

Các đơn vị từ không chỉ bao gồm các từ có trong từ điển mà còn bao gồm chuỗi số, chuỗi kí tự nước ngoài, hình vị ràng buộc, dấu câu và các chuỗi kí tự hỗn tạp khác Ngoài ra, các đơn vị từ còn bao gồm các từ mới hoặc các từ được sinh ra theo quy tắc nhất định, như phương thức thêm phụ tố hoặc phương thức láy, cũng như các chuỗi kí hiệu không có trong từ điển.

Văn bản (tập tin txt)

Chuỗi các đơn vị từ (tập tin txt/xml) Tách từ

Công cụ sử dụng tập dữ liệu đi kèm bao gồm từ điển từ vựng tiếng Việt, danh sách các đơn vị từ mới, ôtômat tối tiểu hữu hạn trạng thái, và các biểu thức chính quy để lọc các đơn vị từ đặc biệt như số và ngày tháng Ngoài ra, còn có các tệp thống kê unigram và bigram trên kho văn bản đã được tách từ mẫu.

Khi tách từ trong tiếng Việt, các đơn vị từ đã được xác định trong từ điển sẽ được xử lý hiện tượng nhập nhằng bằng cách sử dụng thống kê unigram và bigram Những trường hợp nhập nhằng phổ biến trong tiếng Việt thường gặp phải trong quá trình này.

- Xâu AB vừa có thể hiểu là 1 đơn vị từ, vừa có thể là chuỗi 2 đơn vị từ A-

- Xâu ABC có thể tách thành 2 đơn vị AB-C hoặc A-BC

Chương trình chạy dưới dạng dòng lệnh:

- vnTokenizer.sh nếu chạy trên các hệ điều hành Linux/Unix/Mac OS

- vnTokenizer.bat nếu chạy trên các hệ điều hành MS Windows

Yêu cầu: Máy cần cài JRE (Java Runtime Environment) phiên bản >= 1.6 JRE

Kiểm tra căn cứ

Dựa trên kết quả phân tích các thành phần của căn cứ như loại văn bản, số hiệu, ngày ban hành, cơ quan ban hành và trích yếu, chúng ta tiến hành so sánh với bộ dữ liệu văn bản của các cơ quan có thẩm quyền để xác định tính hợp lệ của căn cứ Bộ dữ liệu này bao gồm 62.256 văn bản, trong đó có 59.156 văn bản pháp luật và 3.100 văn bản hành chính, bao gồm công văn đến và đi của Trường Cao đẳng KTKT Kiên Giang Việc kiểm tra căn cứ dựa trên tập hợp các văn bản pháp luật và hành chính do chính phủ, các bộ ngành, trung ương và UBND tỉnh ban hành.

Hình 3.6 Lưu đồ kiểm tra căn cứ

Khi kiểm tra một căn cứ, chúng ta sẽ rà soát trong hệ thống văn bản mẫu đã được ban hành Nếu căn cứ không tồn tại, có thể do văn bản chưa được ban hành hoặc dữ liệu kiểm tra chưa đầy đủ, và chúng ta sẽ thông báo không tìm thấy Nếu căn cứ được tìm thấy, chúng ta sẽ kiểm tra xem văn bản đó còn hiệu lực hay không; nếu hết hiệu lực, kết quả sẽ là căn cứ không hợp lệ, ngược lại, nếu còn hiệu lực, căn cứ sẽ được xác nhận là hợp lệ.

Căn cứ cần kiểm tra

Kiểm tra trong bộ dữ liệu văn bản

Thông báo không tìm thấy Không

Kiểm tra còn hiệu lực Không Căn cứ không hợp lệ

Trình bày kết quả

Trình bày kết quả là bước cuối cùng trong quá trình kiểm tra căn cứ của văn bản hành chính, nơi chúng ta đưa kết quả kiểm tra căn cứ lên giao diện chương trình Thông tin về căn cứ cần được trình bày một cách rõ ràng và cụ thể.

Kết quả này sẽ giúp người dùng quyết định liệu có nên sử dụng thông tin đó trong văn bản soạn thảo của mình hay không, nhằm nâng cao tính pháp lý của văn bản hành chính.

THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

Thực nghiệm

4.1.1 Trích lọc căn cứ từ một hay nhiều văn bản

Để tách căn cứ trong danh sách tập tin văn bản hành chính, chúng ta cần thực hiện tuần tự từng văn bản Trong quá trình này, đọc từng đoạn văn và kiểm tra xem nếu hai từ đầu câu bắt đầu bằng chữ "Căn cứ", thì đoạn văn đó sẽ được xác định là căn cứ và được thêm vào danh sách trả về.

Trong văn bản hành chính, căn cứ thường xuất hiện từ đoạn 5 đến đoạn 30, theo kết quả kiểm tra ngẫu nhiên 100 văn bản Để tiết kiệm thời gian và chi phí, chúng ta chỉ cần dò tìm căn cứ trong khoảng này.

Input: url - đường dẫn tập tin văn bản soạn thảo trên Microsoft Word

Output: Danh sách các đoạn văn bản là các căn cứ

The method `dsCanCu` initializes a list and opens a Microsoft Word document from a specified path It counts the number of paragraphs in the document, limiting the count to a maximum of 30 The method then iterates through the paragraphs, starting from the fifth, checking if each paragraph is non-null and contains more than 30 characters If the first ten characters of a paragraph, converted to lowercase, include the term "căn cứ," that paragraph is added to the list Finally, the method returns the list of relevant paragraphs.

Hình 4.1 Thuật toán tìm căn cứ trong tập tin văn bản microsoft word

Mỗi đoạn văn bản có chiều dài khác nhau tùy thuộc vào nội dung cụ thể của nó, tuy nhiên, đối với đoạn văn bản mang tính căn cứ, chiều dài tối thiểu của đoạn cần phải lớn hơn một mức nhất định để đảm bảo tính đầy đủ và rõ ràng.

30 ký tự, cho nên chúng ta sẽ loại bỏ những đoạn có chiều dài nhỏ hơn 30 ký tự

Thông tư số 05/2017/TT-BLĐTBXH của Bộ LĐTB&XH quy định về tuyển sinh và chỉ tiêu tuyển sinh trình độ trung cấp, cao đẳng đã được trình bày đúng theo quy tắc về căn cứ pháp lý.

Hình 4.2 Ví dụ viện dẫn căn cứ của một thông tư 5

Dựa vào cụm từ “Căn cứ” ở đầu câu, văn bản này chứa ba căn cứ pháp lý Bằng cách áp dụng kỹ thuật so sánh đơn giản, chúng ta có thể dễ dàng xác định và lọc ra ba căn cứ này từ tài liệu đã soạn thảo.

Hình 4.3 Kết quả tách căn cứ trong một văn bản hành chính

Theo thông tư 05/2017/TT-BLĐTBXH của Bộ LĐTB&XH, thuật toán đã tách được 3 căn cứ pháp lý trong thời gian chỉ 1.43 giây Như vậy, thời gian tách mỗi căn cứ là khoảng 0.48 giây.

5 Thông tư số 05/2017/TT-BLĐTBXH của Bộ LĐTB&XH

Trong ví dụ thứ hai, chúng tôi đã tách căn cứ từ danh sách 103 văn bản soạn thảo Sau 1 phút 58.46 giây (tương đương 118.46 giây), chúng tôi đã hoàn thành việc tìm và tách 103 căn cứ Trung bình, thời gian tìm căn cho mỗi văn bản là 1.15 giây, trong khi thời gian tách một căn cứ chỉ mất 0.44 giây.

Hình 4.4 Kết quả tách căn cứ trong nhiều văn bản hành chính

4.1.2 Hiệu chỉnh Tách từ trong căn cứ với VnTokenizer

Cú pháp: vnTokenizer.sh -i -o []

Trong đó: hai tùy chọn -i và -o là bắt buộc Ngoài ra, người dùng có thể cung cấp các tùy chọn không bắt buộc như sau:

+) -xo : dùng định dạng XML để biểu diễn kết quả thay vì định dạng mặc định là văn bản thô

Khi sử dụng tùy chọn -nu, người dùng không nên sử dụng dấu gạch dưới trong kết quả Thay vào đó, các âm tiết sẽ được phân cách bằng ký tự trắng, giúp cho kết quả trở nên rõ ràng và dễ đọc hơn.

Tùy chọn -sd cho phép sử dụng mô-đun tách câu trước khi tách từ Khi sử dụng tùy chọn này, vnTokenizer sẽ đầu tiên chia văn bản đầu vào thành các câu, sau đó tiến hành tách từ cho từng câu một.

Mô-đun tách câu mặc định không được sử dụng, trong khi vnTokenizer thực hiện tách từ trên toàn bộ văn bản Các tùy chọn này có thể được kết hợp để đạt được kết quả mong muốn.

Ví dụ: Xét một căn cứ sau:

“Căn cứ Nghị định số 110/2004/NĐ-CP ngày 08 tháng 4 năm 2004 của Chính phủ về công tác văn thư;” 6

Kết quả tách từ bằng vnTokenizer:

6 Theo Thông tư số 01/2011/TT-BNV

Hình 4.5 Kết quả tách từ trong căn cứ của vnTokenizer

Trong kết quả trên có nhiều từ được tách rất đúng nghĩa như: Căn cứ, Nghị định, ngày, tháng, năm, Chính phủ, về, công tác, văn thư

Để cải thiện khả năng tách số ký hiệu văn bản trong vnTokenizer, chúng ta cần chỉnh sửa tệp models/tokenization/exers/lexers.xml và thêm các biểu thức chính quy nhằm lọc số ký hiệu Ví dụ, với số ký hiệu 110/2004/NĐ-CP, có định dạng Số hiệu/Năm ban hành/Loại-Cơ quan ban hành, chúng ta sẽ xây dựng biểu thức để tách chuỗi ký tự này một cách chính xác.

Zaàảãáạăằẳẵắặâầẩẫấậbcd[đĐ]eèẻẽéẹêềểễếệfghiìỉĩíịjklmnoòỏõóọôồổỗốộơờởỡớợpqrst uùủũúụưừửữứựvwxyỳỷỹýỵz\d]+([\.\-/][\dA-

Hình 4.6 Biểu thức nhận dạng tách từ của một số hiệu

Theo quy định về kỹ thuật trình bày số, ký hiệu văn bản hành chính như sau:

Từ “Số” được viết thường, ký hiệu bằng chữ in hoa, cỡ chữ 13, kiểu chữ đứng, theo sau là dấu hai chấm Đối với các số nhỏ hơn 10, cần thêm số 0 phía trước Giữa số và ký hiệu văn bản có dấu gạch chéo (/), và giữa các nhóm chữ viết tắt ký hiệu văn bản có dấu gạch nối (-) mà không có khoảng cách.

Dạng văn bản số không có năm ban hành, như 42-NQ/TW 7, có định dạng là: Số-Loại/Tên cơ quan ban hành Để lọc chuỗi ký tự này, chúng ta sử dụng biểu thức.

Hình 4.7 Biểu thức nhận dạng tách từ của một số hiệu

Và cũng có số hiệu văn bản được định dạng như: Số/Loại-Tên cơ quan ban hành, thì biểu thức lọc chuỗi như sau:

Hình 4.8 Biểu thức nhận dạng tách từ của một số hiệu

7 Nghị quyết số 42-NQ/TW ngày 30/11/2004 của Bộ chính trị

Hình 4.9 Kết quả tách từ sau khi hiệu chỉnh biểu thức trong laxers

Kết quả cho thấy số hiệu văn bản được tách thành một chuỗi và lưu trữ trên một dòng, được xác định bởi thuộc tính "sohieu" trong tập tin phân tích XML.

Đánh giá kết quả

 Kiểm tra từng văn bản

Chúng tôi tiến hành kiểm tra chức năng xử lý văn bản, với đầu vào là 10 văn bản pháp luật do UBND tỉnh Kiên Giang ban hành trong năm 2017 Kết quả đầu ra sẽ xác định tính hợp lệ của từng văn bản, phân loại chúng thành hợp lệ, không hợp lệ hoặc không tìm thấy.

Công thức tính Precision = số căn cứ hợp lệ / số căn cứ kiểm tra

Công thức tính Recall = số căn cứ hợp lệ / số căn cứ lượng căn cứ hiện có Tính F1 = 2/((1/ Precision) + (1/ Recall))

Và kết quả thực nghiệm trên thu được như sau:

Bảng 4.2 Kết quả thực nghiệm chi tiết trên 10 văn bản UBND tỉnh Kiên Giang

Lượng căn cứ Căn cứ kiểm tra Hợp lệ Không hợp lệ Không tìm thấy trong CSDL Thời gian thực hiện Precision Recall F1

Kết quả thực nghiệm cho thấy trong 10 văn bản của UBND Tỉnh Kiên Giang, đã phát hiện 56 căn cứ, trong đó có 42 căn cứ hợp lệ, không có căn cứ nào không hợp lệ và 14 căn cứ không tìm thấy Thời gian tìm kiếm trung bình cho mỗi căn cứ là 6.59 giây, với giá trị trung bình của Precision đạt 1.00, Recall là 0.67 và F1 là 0.80.

 Kiểm tra nhiều văn bản

Thực nghiệm chức năng kiểm tra nhiều văn bản chúng ta sẽ thực nghiệm trên

100 văn bản của Bộ LĐTB&XH, cho chương trình chạy liên tục cho đến kết thúc, và kết quả thực nghiệm là:

Bảng 4.3 Kết quả thực nghiệm đồng loạt trên 100 văn bản Bộ LĐTBXH

Số Văn Bản Tổng căn cứ Căn cứ kiểm tra Hợp lệ Không hợp lệ Không tìm thấy trong CSDL Thời gian thực hiện Precision Recall F1

Hình 4.16 Giao diện chính của chương trình thực hiện nhiều văn bản

Kết quả thực nghiệm trên 100 văn bản của Bộ LĐTBXH cho thấy có 272 căn cứ, trong đó 109 hợp lệ và 100 không hợp lệ do hết hiệu lực, cùng với 62 căn cứ không tìm thấy Tổng thời gian thực hiện là 4 phút 12.84 giây, với thời gian xử lý trung bình mỗi văn bản là 2.44 giây, cho thấy kiểm tra nhiều văn bản cùng lúc sẽ nhanh hơn Giá trị trung bình của Precision là 0.45, Recall là 0.31 và F1 là 0.37 Các văn bản do Bộ ngành ban hành tìm được nhiều căn cứ hơn, trong khi việc không tìm thấy trong cơ sở dữ liệu chủ yếu do thiếu dữ liệu hoặc sai số hiệu căn cứ.

Ngày đăng: 09/07/2021, 18:17

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4] Nguyễn Việt Cường (2006), “Sử dụng các khái niệm mờ trong biểu diễn văn bản và áp dụng vào bài toán phân lớp văn bản”, luận văn tốt nghiệp đại học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Sử dụng các khái niệm mờ trong biểu diễn văn bản và áp dụng vào bài toán phân lớp văn bản
Tác giả: Nguyễn Việt Cường
Năm: 2006
[6] Nguyễn Việt Bình (2004), “Dùng lý thuyết tập thô và các kỹ thuật khác để phân loại, phân cụm văn bản tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04. Hà Nội Sách, tạp chí
Tiêu đề: Dùng lý thuyết tập thô và các kỹ thuật khác để phân loại, phân cụm văn bản tiếng Việt
Tác giả: Nguyễn Việt Bình
Năm: 2004
[11] Nguyễn Thị Vân Anh (2016). Căn cứ pháp lý - Cơ sở để kiểm tra văn bản quy phạm pháp luật [online], truy cập ngày 01/04/2017, từhttp://sotuphap.namdinh.gov.vn/so-tu--phap/1222/28300/39090/68786/xay-dung---kiem-tra-van-ban-quy-pham-phap-luat/can-cu-phap-ly---co-so-de-kiem-tra-van-ban-quy-pham-phap-luat.aspx Link
[12] Bộ tư pháp (2015). Căn cứ pháp lý - Cơ sở để kiểm tra văn bản quy phạm pháp luật [online], truy cập ngày 16/4/2017, từhttp://ktvb.moj.gov.vn/qt/tintuc/Pages/nghien-cuu-trao-doi.aspx?ItemID=10 Link
[13] Nguyen Van Hai (2015), Vietnamese Natural Language Processing [online], truy cập 14/4/2017, từ http://viet.jnlp.org/ Link
[14] Lưu Tuấn Anh, Yamamoto Kazuhide (2012) [online], truy cập ngày 14/5/2017, từ http://viet.jnlp.org/dongdu Link
[15] Cục Công nghệ thông tin - Bộ Tư pháp (2013). Cơ sở dữ liệu quốc gia về văn bản pháp luật [online], truy cập ngày 15/3/2017, từ http://vbpl.vn/pages/portal.aspx[16] Ths. NCS Nguyễn Mạnh Cường (2013), Trao đổi về cách viện dẫn các căn cứ ban hành trong một số quyết định (cá biệt) hiện nay [online], truy cập ngày15/6/2017, từ http://www.netc- Link
[1] Bộ Tư pháp (2010), Thông tư của Bộ Tư pháp quy định chi tiết thi hành một số điều của Nghị định số 40/2010/NĐ-CP ngày 12/04/2010 của Chính phủ về kiểm tra và xử lý văn bản quy phạm pháp luật, 20/2010/TT-BTP. Toàn quốc Khác
[2] Chính phủ (2010), Nghị định của chính phủ về việc kiểm tra và xử lý văn bản quy phạm pháp luật, 40/2010/NĐ-CP. Toàn quốc Khác
[3] Đỗ Phúc (2006), ‘Nghiên cứu ứng dụng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản tiếng Việt có xem xét ngữ nghĩa’, Tạp chí phát triển KH&CN, tập 9, số 2, pp.23-32 Khác
[5] Chính phủ (2011), Thông tư của Bộ Nội vụ về hướng dẫn thể thức và kỹ thuật trình bày văn bản hành chính, 01/2011/TT-BNV. Toàn quốc Khác
[7] Nguyễn Minh Thuyết, Nguyễn Văn Hiệp (2004), Thành phần câu tiếng Việt, Nhà xuất bản Giáo dục, Việt Nam Khác
[8] Lưu Tuấn Anh (2012). Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt.Tiếng Anh Khác
[9] Foo S., Li H, Chinese Word Segmentation and Its Effect on Information Retrieval, Information Processing & Management: An International Journal, 40(1), 2004, pp161-190.Tài liệu Internet Khác
[10] GS. Hồ Tú Bảo (2014). Xử lí văn bản tiếng Việt thuộc đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w