00050012938 nhận dạng thực thể Được Định danh trong văn bản tiếng việt liên quan Đến lĩnh vực kế toán

GIỚI THIỆU

Lý do chọn đề tài

Nhận dạng thực thể (NER) là quá trình xác định loại thực thể của từ trong văn bản, bao gồm tên riêng, địa danh, tổ chức, loài vật, và tên hoạt chất thuốc NER đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên, là nền tảng cho nhiều tác vụ phức tạp hơn như trích rút thông tin, tóm tắt văn bản, dịch máy, hiểu ngôn ngữ tự nhiên, và phát triển chatbot.

Doanh nghiệp đóng vai trò quan trọng trong nền sản xuất và kinh tế quốc dân, cả trên thế giới và tại Việt Nam Kế toán là nghiệp vụ bắt buộc trong các doanh nghiệp, được coi là một phần thiết yếu trong quản lý tài chính.

Ngôn ngữ của kinh doanh đang phát triển mạnh mẽ với sự xuất hiện của nhiều phần mềm kế toán trong nước và quốc tế tại thị trường Việt Nam Tuy nhiên, việc nghiên cứu và ứng dụng trí tuệ nhân tạo trong lĩnh vực này vẫn còn hạn chế, chỉ được áp dụng trong một số tác vụ nhất định Theo tìm hiểu của tác giả, hiện chưa có nghiên cứu hay ứng dụng nào có khả năng nhận diện thực thể được định danh trong văn bản Tiếng Việt liên quan đến kế toán.

Tác giả luận văn nghiên cứu và phát triển hệ thống nhằm cài đặt, đánh giá giải pháp và đo lường kết quả, tập trung vào việc giải quyết bài toán Nhận diện thực thể (NER) trong Xử lý ngôn ngữ tự nhiên tiếng Việt, đặc biệt trong lĩnh vực kế toán với dữ liệu có đặc thù cao.

Văn bản Tiếng Việt liên quan đến lĩnh vực kế toán gồm:

Văn bản luật liên quan đến Kế toán, bao gồm luật, thông tư, nghị định và công văn, đóng vai trò là tài liệu tham chiếu chính xác Đây là căn cứ quan trọng để xác định tính chính xác của kết quả đầu ra và là cơ sở để gắn nhãn cũng như kiểm thử dữ liệu.

- Sách, giáo trình, tạp chí chuyên khảo Kế toán Việt Nam

- Website chuyên ngành kế toán Việt Nam

- Tài liệu hướng dẫn sử dụng phần mềm kế toán sử dụng tại Việt Nam

Hóa đơn, chứng từ và sổ kế toán, bao gồm sổ cái, sổ chi tiết theo tài khoản, thẻ kho và sổ phụ ngân hàng, là những tài liệu quan trọng trong nghiệp vụ kế toán tại Việt Nam.

Để thực hiện các tác vụ Hiểu ngôn ngữ tự nhiên trên văn bản tiếng Việt trong lĩnh vực kế toán, cần có những tiền đề quan trọng như: kiểm toán tự động qua chương trình máy tính, gợi ý cho kế toán viên về các lỗi chính tả và nhầm lẫn, cũng như thực hiện định khoản kế toán tự động.

Hiện tại, chưa có nghiên cứu nào về nhận diện thực thể trong dữ liệu văn bản kế toán Tiếng Việt, và ngay cả với Tiếng Anh cũng vậy Do đó, tôi quyết định chọn đề tài nghiên cứu này.

“Nhận diện thực thể được định danh trong văn bản Tiếng Việt liên quan đến lĩnh vực kế toán”

Mục tiêu nghiên cứu

Chúng tôi đã xây dựng bộ dữ liệu văn bản tiếng Việt chuyên ngành kế toán mang tên VAD, bao gồm hơn 4.500 câu được gắn nhãn theo chuẩn IOB2 Bộ dữ liệu này nhằm phục vụ cho việc định danh và hỗ trợ cộng đồng nghiên cứu trong các tác vụ NLP.

Trong văn bản tiếng Việt chuyên ngành kế toán, có 08 loại thực thể định danh quan trọng bao gồm: loại thuế, mức thuế suất, loại chứng từ kế toán, số tài khoản kế toán, tên tài khoản kế toán, số tiền, đơn giá, và ngày tháng trên chứng từ/ngày tháng phát sinh nghiệp vụ kế toán/ngày tháng hạch toán (ghi sổ).

Hệ thống Nhận dạng thực thể trong văn bản Tiếng Việt cho lĩnh vực kế toán cung cấp API web services, giúp dễ dàng tích hợp với các ứng dụng khác và áp dụng kết quả nghiên cứu vào thực tế một cách hiệu quả.

Phương pháp nghiên cứu

- Tác giả tìm hiểu tổng quan các nghiên cứu trước đây về Nhận diện thực thể được đặt tên theo 2 chiều:

+ Chiều ngôn ngữ (Tiếng Việt, Tiếng Anh, các ngôn ngữ khác nếu có thể tìm được;

+ Chiều chuyên ngành: Chuyên ngành Kế toán, Tài chính, Bất động sản, sự kiện (Ví dụ COVID-19), Tài liệu Y sinh, v.v để rút ra thông tin về:

+ Khoảng trống nghiên cứu: Miền dữ liệu Tiếng Việt chuyên ngành kế toán đã có tác giả/nhóm tác giả nào thực hiện chưa?

Phương pháp hiệu quả nhất hiện nay để nâng cao độ chính xác trong việc nhận diện thực thể đặt tên trong lĩnh vực dữ liệu Tiếng Việt chuyên ngành Kế toán là sử dụng các kỹ thuật học máy tiên tiến Những phương pháp này yêu cầu ít dữ liệu bổ sung và có chi phí tính toán thấp, giúp tối ưu hóa quy trình mà vẫn đảm bảo chất lượng kết quả.

Thử nghiệm một số giải pháp tiềm năng nhằm lựa chọn phương án tối ưu cho việc nhận diện thực thể tiếng Việt trong lĩnh vực kế toán, đảm bảo độ chính xác cao với chi phí thấp, bao gồm chi phí tạo bộ dữ liệu, chi phí tính toán và thời gian xử lý.

Trong các nghiên cứu trước đây, có nhiều bước công việc khác nhau, bao gồm các công cụ và kỹ thuật như tách tiếng, tách từ, và tỷ lệ chia tập huấn luyện – xác nhận – kiểm thử Tác giả đã học hỏi kinh nghiệm và kết hợp các bước công việc từ các nghiên cứu khác nhau để xây dựng một quy trình giải quyết bài toán hiệu quả.

Từ đó hình thành câu hỏi nghiên cứu:

- Bài toán Nhận diện thực thể được định danh văn bản Tiếng Việt chuyên ngành kế toán đã có tác giả nào tiến hành chưa?

Một giải pháp hiệu quả và tiết kiệm chi phí cho bài toán Nhận diện thực thể (NER) trong lĩnh vực kế toán tiếng Việt sẽ được nghiên cứu Bài toán này, thuộc lĩnh vực khoa học và kỹ thuật, có nhiều phương pháp giải quyết khác nhau, và nghiên cứu này sẽ tập trung vào việc tìm ra một giải pháp cụ thể trong số các phương án đó.

Tổng quan nghiên cứu

Nhận dạng thực thể được định danh giúp xác định các chuỗi và cụm từ trong văn bản, bao gồm tên đối tượng như ngày tháng, tên riêng của người và địa danh, thời gian, tên hoạt chất trong thuốc, và mã cổ phiếu trên thị trường chứng khoán Các loại thực thể này rất đa dạng, không chỉ bao gồm những thực thể chung mà còn có những thực thể riêng biệt liên quan đến các chuyên ngành cụ thể.

The 6th International Conference on Message Understanding, held in 2015, was the first to evaluate Named Entity Recognition (NER) systems for the English language In 2002, the CoNLL conference, organized by SIGNLL (ACL's Special Interest Group on Natural Language Learning), assessed NER systems for Dutch, German, and Spanish Over time, the number of languages and types of entities evaluated has increased significantly.

Vào năm 2010, nhóm tác giả tại ĐH Quốc gia Hà Nội đã phát triển hệ thống NER cho Tiếng Việt với F-measure đạt 83% (Nguyen, D.B., et al., 2010) Cuộc thi VLSP 2016 đã thực hiện nhiều công việc liên quan đến NER và đạt được kết quả cao với các loại thực thể như tên địa danh, tên tổ chức và tên người Đối với Tiếng Việt, VLSP sử dụng các nhãn như N (Danh từ), V (Động từ), I-ORG (Tên riêng Tổ chức), O (Các phần tử khác), CH (Dấu chấm câu), và B-PER (Danh từ riêng – tên người) Các nhãn từ loại bao gồm N, NPP, V, CH, cùng với nhãn phân cụm cú pháp như B-NP, I-NP, B-VP, O.

Từ Từ loại Cụm từ Nhãn thực thể

Nhãn thực thể lồng (compound entities label)

Quỳnh NPP B-NP B-PER O là V B-VP O O học_viên N B-NP O O

Trường_đại_học N I-NP I-ORG O

Kinh tế quốc dân N I-NP I-ORG O

Bảng 2.1 Phân tích NER một câu Tiếng Việt theo cách gắn thẻ của VLSP 2016

Thông tin về bài toán NER Tiếng Việt đã được nghiên cứu trong miền dữ liệu tin đăng bất động sản, với mục tiêu trích rút thông tin Nghiên cứu của Pham, Lien Vi và Son Bao Pham (2012) đã xác định 9 loại thực thể quan trọng, bao gồm: loại tin đăng, loại nhà, diện tích, giá tiền, khu vực, tên liên hệ, điện thoại liên hệ, thư điện tử liên hệ và địa chỉ liên hệ Để giải quyết bài toán này, công nghệ JAPE tranducer đã được áp dụng, với các thông tin kỹ thuật liên quan có thể tham khảo tại trang GATE.

Recent research has focused on Vietnamese real estate advertisement data, particularly in the study titled "An end-to-end named entity recognition platform for Vietnamese real estate advertisement posts and analytical applications." This study identifies 13 types of entities relevant to the field (B T Nguyen et al., 2022).

Nghiên cứu mới về dữ liệu văn bản bất động sản đã áp dụng giải pháp kỹ thuật BERT để xử lý tác vụ Nhận diện thực thể tên (NER), vượt trội hơn so với các nghiên cứu trước đây như của Pham, Lien Vi và Son Bao Pham (2012) Các thông tin quan trọng về bất động sản bao gồm loại bất động sản, địa chỉ, giá tiền, kích thước, diện tích, độ rộng đường trước mặt, hướng bất động sản, loại đường đi vào, thiết kế nhà, đồ đạc trong nhà, hướng nhìn đặc biệt, dịch vụ tiện nghi xung quanh và tầng số Ngoài ra, nghiên cứu trước đó của Thinh Hung Truong et al (2021) đã tập trung vào NER trong lĩnh vực tin tức về đại dịch COVID-19 với 10 loại thực thể khác nhau Nghiên cứu hiện tại được thực hiện tại Viện Nghiên cứu trí tuệ nhân tạo VinAI.

Hillebrand, L và cộng sự, năm 2022, đã tiến hành tác vụ NER trên văn bản báo cáo tài chính của doanh nghiệp trong nghiên cứu có tên “KPI-BERT: A

The article discusses a joint named entity recognition (NER) and relation extraction model specifically designed for financial reports, utilizing eight types of entities: 1) KPI (Key Performance Indicators) representing key performance metrics; 2) cy (Current Year); 3) py (Prior Year); 4) increase indicating the rise in KPI; 5) decrease indicating the fall in KPI; 6) davon representing sub-indicators or parent indicators of a KPI; 7) davon-cy for sub/parent indicators of the current year; and 8) davon-py for sub/parent indicators of the prior year The study focuses on NER using German text data within corporate finance reports, highlighting the intersection with accounting.

Qua nghiên cứu nhiều tài liệu về Nhận diện thực thể tên (NER) trong các ngôn ngữ như Tiếng Việt và Tiếng Anh, cũng như các lĩnh vực khác nhau, tác giả nhận thấy chưa có nghiên cứu nào về NER trong văn bản Tiếng Việt chuyên ngành kế toán Điều này đã thúc đẩy tác giả tiến hành nghiên cứu theo hướng này.

KIẾN THỨC NỀN TẢNG

Văn bản Tiếng Việt

Tiếng Việt là ngôn ngữ chính thức của Việt Nam, với lịch sử phát triển lâu dài Các thành tố của văn bản Tiếng Việt bao gồm câu, từ, cụm từ và dấu phân cách Ngữ pháp Tiếng Việt được thể hiện qua cấu trúc câu và các loại từ như danh từ, động từ, tính từ, từ cảm thán và từ nối Ngoài ra, Tiếng Việt còn có nhiều biến thể theo vùng miền, với các đặc trưng riêng biệt ở Miền Bắc, Miền Nam và Miền Trung, cùng với nhiều từ ngữ và cụm từ địa phương phong phú.

Tiếng là đơn vị cơ bản cấu thành từ, trong khi cụm từ được hình thành từ sự kết hợp của hai hoặc nhiều từ Chẳng hạn, "tiền" là từ gồm một tiếng, "tiền mặt" là từ gồm hai tiếng, và cụm từ "tiền gửi ngân hàng" bao gồm bốn tiếng.

Tiếng Việt có 29 chữ cái: "a, ă, â, b, c, d, đ, e, ê, g, h, i, k, l, m, n, o, ô, p, q, r, s, t, u, ư, v, x, y" Ngôn ngữ này sử dụng các thanh điệu với ký hiệu văn bản tương ứng để thể hiện cách phát âm, bao gồm: Thanh ngang (không dấu) thể hiện âm bằng cao, Thanh huyền (dấu huyền) cho âm bằng thấp, Thanh ngã (dấu ngã) biểu thị âm cao gãy, Thanh hỏi (dấu hỏi) thể hiện âm thấp gãy, Thanh sắc (dấu sắc) cho âm cao lên, và Thanh nặng (dấu nặng) thể hiện âm thấp xuống.

Sự biến hình trong Tiếng Việt: "món tiền gửi ngân hàng", "khoản tiền gửi ngân hàng" Ở đây từ "món" và "khoản" có ý nghĩa tương tự nhau.

Văn bản Tiếng Việt trong lĩnh vực kế toán

Văn bản Tiếng Việt trong lĩnh vực kế toán yêu cầu sự chính xác cao trong từ vựng, với các từ khóa phải tuân thủ nghiêm ngặt Chuyên ngành kế toán được điều chỉnh theo hệ thống Luật, Nghị định, Thông tư và có mối liên hệ chặt chẽ với các chuẩn mực quốc tế Ví dụ, tên các tài khoản như “Tài khoản Tiền mặt” và “Tài khoản Tiền gửi ngân hàng” không có biến thể địa phương như “Tài khoản Tiền gửi Nhà băng” Từ “Nhà băng” chỉ là một từ dẫn xuất từ Tiếng Anh, nhưng trong văn bản kế toán, phải sử dụng chính xác “Tài khoản Tiền gửi Ngân hàng”.

Trong lĩnh vực kế toán, văn bản Tiếng Việt có độ nhập nhằng rất thấp nhờ vào tính chất chuyên ngành và sự liên quan đến tài chính, cùng với việc tuân thủ các quy định pháp lý nghiêm ngặt Tuy nhiên, việc giúp máy tính, đặc biệt là trí tuệ nhân tạo, hiểu được các logic trong văn bản kế toán Tiếng Việt vẫn đang là một thách thức lớn.

Trong lĩnh vực kế toán, các dạng chứa của văn bản Tiếng Việt bao gồm: văn bản luật, nghị định, thông tư và văn bản hướng dẫn; sổ cái ghi chép bằng sổ, bút và giấy; chứng từ kế toán; sách, giáo trình và tạp chí nghiên cứu chuyên ngành kế toán; hệ thống phần mềm kế toán và phần mềm hoạch định nguồn lực doanh nghiệp, trong đó kế toán là phân hệ lõi; hệ thống phần mềm của cơ quan quản lý như cơ quan thuế và cơ quan thống kê kinh tế; website cung cấp tin tức và tri thức về kế toán; diễn đàn trực tuyến và nhóm trên mạng xã hội chuyên ngành kế toán; cùng với các báo cáo tài chính.

Văn bản Tiếng Việt trong lĩnh vực kế toán là một phần quan trọng của ngôn ngữ chuyên ngành, mang những đặc trưng riêng biệt Những đặc trưng này ảnh hưởng đến cách xử lý và hiểu ngôn ngữ tự nhiên trong lĩnh vực kế toán, bên cạnh các đặc điểm chung của Tiếng Việt.

Miền dữ liệu văn bản kế toán Tiếng Việt có những đặc trưng riêng, ví dụ

Nhãn ACCOUNT_NUMBER là một số có độ dài tối đa 5 ký tự, hoàn toàn không chứa chữ cái Ví dụ, số tài khoản dài nhất là 33382, đại diện cho các loại thuế khác Giữa các chữ số không có dấu phân cách như “.” hay “,”, và không sử dụng dấu thập phân Để xác thực tính hợp lệ của số tài khoản, có thể sử dụng Regex.

Nhãn ACCOUNT_NUMBER có thể xuất hiện sau các từ như “TK”, “Tài khoản”, “tài khoản”, hoặc được ngăn cách bởi dấu phẩy với một ACCOUNT_NUMBER khác đứng trước hoặc sau.

Nhãn ACCOUNT_NAME theo thông tư 200/TT-BTC bao gồm 241 tên tài khoản có sẵn, với các biến thể có thể xuất hiện khi sử dụng từ viết tắt Ví dụ, các tên như Tiền mặt, Tài khoản tiền mặt, và Tài khoản Tiền Việt Nam Đồng đều mang ý nghĩa tương tự Ngược lại, Tiền gửi ngân hàng, Tài khoản tiền gửi ngân hàng, và Tài khoản USD (Tài khoản Tiền gửi ngân hàng với loại tiền Đô la Mỹ) lại có ý nghĩa khác biệt Điều này thể hiện cách thức giao tiếp và truyền đạt thông tin giữa các kế toán viên thông qua các biến thể tên tài khoản.

Hồ Gươm, Hồ Hoàn Kiếm và Bờ Hồ đều chỉ về một địa danh nổi tiếng mà mọi người đều quen thuộc.

Tính nhập nhằng của văn bản kế toán Tiếng Việt

Văn bản kế toán có tính chặt chẽ cao trong giai đoạn xử lý ngôn ngữ tự nhiên, nhưng khi chuyển sang giai đoạn hiểu ngôn ngữ tự nhiên, tính phụ thuộc vào ngữ cảnh trở nên rất quan trọng Ví dụ, sự nhập nhằng giữa số tiền và đơn giá có thể thấy rõ trong trường hợp đại lý mỹ phẩm Xuân Thủy nhập hàng từ Công ty cổ phần mỹ phẩm Sao Thái Dương, cụ thể là sản phẩm Kem dưỡng da bột nghệ 65 ml với đơn giá 35.000 đồng/tuýp.

Giá vốn hàng bán Kem dưỡng da bột nghệ 65 ml cho một tuýp là 35.000 đồng

Trong (1), 35.000 đồng thuộc về cụm từ 35.000 đồng/tuýp, thuộc loại thực thể

“Đơn giá” (tag UNIT_PRICE), tất nhiên, có thể xét là thuộc loại thực thể “Số tiền” (MONEY) nếu bỏ đi đuôi (/tuýp) cũng vẫn đúng

Trong (2), 35.000 đồng thuộc về loại thực thể “Số tiền” (tag MONEY) mà thôi

Nhiều từ và cụm từ có nghĩa tương đồng, chẳng hạn như "Tiền mặt" và "Tiền mặt Việt Nam đồng" Trong một số ngữ cảnh nhất định, giá trị tiền không cần mô tả cụ thể có thể được xem là "Tiền mặt" hoặc "Tiền chuyển khoản".

Nhiều từ và cụm từ có nghĩa tương tự nhau, do đó chúng thuộc cùng một loại thực thể Ví dụ, thực thể "Số tiền" sẽ được gán thẻ/tag MONEY trong nghiên cứu này.

Công ty cổ phần máy tính Sao Bắt Đẩu nhận 19.000.000_đ MONEY từ khách lẻ mua PC lắp ráp

Công ty cổ phần máy tính Sao Bắt Đẩu nhận 19.000.000_đồng MONEY từ khách lẻ mua PC lắp ráp

Công ty cổ phần máy tính Sao Bắt Đẩu nhận 19_triệu_đồng MONEY từ khách lẻ mua PC lắp ráp

Công ty cổ phần máy tính Sao Bắt Đẩu nhận chuyển khoản 19_triệu MONEY từ khách lẻ mua PC lắp ráp

Các hình thức khác nhau của số tiền: Trong văn bản kế toán, văn bản có thể chứa các con số chỉ giá trị tiền như

- 20.000.000 đồng (với phân cách 3 chữ số),

- 20.000.000 đ (với phân cách 3 chữ số, đơn vị tính ghi đ),

- 20.000.000 ₫ (với phân cách 3 chữ số, đơn vị tính ghi ₫, Ký hiệu đơn vị tiền tệ Việt Nam dạng Unicode, mã U+020AB , mã HTML ₫ , mã CSS code \20AB),

- 20.000.000 VND (Sử dụng đơn vị tiền tệ VND theo ISO 4217)

- 20000000 VND (Không có dấu phân cách cụm 3 chữ số, sử dụng đơn vị tiền tệ VND theo ISO 4217)

- 20 triệu đồng (sử dụng chữ thay cho số),

- 20.000.000 (không bao gồm đơn vị đồng, ví dụ dữ liệu trong ô – cell của bảng kê đơn giá, thành tiền từng món hàng riêng trên hóa đơn)

- 20.000 (không bao gồm đơn vị đồng, trên tiêu đề cột trong bảng có ghi đơn vị tính: nghìn đồng)

Trong kế toán, số tiền âm thường được biểu diễn bằng cách đặt con số trong cặp dấu ngoặc tròn thay vì sử dụng dấu trừ Ví dụ, số âm 20 triệu đồng sẽ được ghi là (20.000.000).

- Hai mươi triệu đồng chẵn (Mục số tiền bằng chữ trên Phiếu thu/Phiếu chi với sự chặt chẽ trong diễn đạt)

Nhận diện thực thể được định danh Tiếng Việt trong lĩnh vực kế toán đối mặt với nhiều thách thức, đặc biệt là với số tiền lên đến hai mươi triệu đồng.

Văn bản kế toán Tiếng Việt thường sử dụng nhiều từ viết tắt, gây khó khăn cho việc tách từ trong các luồng công việc NER Các miền dữ liệu như y sinh, bất động sản, và COVID-19 không thể áp dụng cho dữ liệu kế toán do sự phổ biến của từ viết tắt Thói quen viết tắt của kế toán viên xuất phát từ việc các từ khóa như hành động, tên tài khoản, và loại chứng từ thường lặp lại trong các nghiệp vụ hàng ngày, khiến việc viết đầy đủ trở nên mất thời gian Mặc dù hầu hết kế toán viên hiểu các từ viết tắt thông dụng, nhưng không phải ai cũng nắm rõ, dẫn đến sự khó khăn trong giao tiếp Phụ lục 3 cung cấp danh sách các từ viết tắt thường gặp trong văn bản kế toán Tiếng Việt.

Đánh giá Precision, Recall, F1 score

Đo kiểm tính chính xác của việc định danh thực thể trong văn bản được đánh giá bởi recall, precision (độ chính xác)và đo lường F1.

Kết quả model học máy trả về

Postivive True Positive False Positive Negative False Negative True Negative

Bảng 2.1 Bảng tra trạng thái liên đới giữa Thực tế và Kết quả mô hình học máy trả về

Công thức tính độ chính xác (Accuracy)

Công thức tính Độ đo F1 (F1_Score)

Ví dụ: Nợ TK 151, 156 Ghi tăng trị giá hàng nhập khẩu về hoàn thuế nhập khẩu và thuế TTĐB phải nộp

Gắn nhãn đúng (thực tế) là

Nợ TK_151ACCOUNT_NUMBER, 156ACCOUNT_NUMBER Ghi tăng trị giá hàng nhập khẩu về hoàn thuế_nhập_khẩuTAX_TYPE và thuế_TTĐBTAX_TYPE phải nộp

Nếu model học máy gắn nhãn là

Nợ TK_151ACCOUNT_NUMBER, 156ACCOUNT_NUMBER Ghi tăng trị giá hàng nhập_khẩuACCOUNT_NAME về hoàn thuế_nhập_khẩuTAX_TYPE và thuế_TTĐBTAX_TYPE phải nộp thì

Kết quả model học máy trả về

Postivive True Positive (4 thực thể):

156ACCOUNT_NUMBER thuế nhập khẩuTAX_TYPE thuế TTĐB TAX_TYPE

False Positive (1 thực thể): nhập khẩu ACCOUNT_NAME

Negative False Negative (0 thực thể)

Ghi NULL tăng NULL trị_giáNULL hàngNULL vềNULL hoànNULL vàNULL phải NULL nộpNULL

Bảng 2.2 Ví dụ minh họa True Positive, False Positive, True Negative và False

Ghi chú: NULL được sử dụng để chỉ các từ hoặc cụm từ không phải là thực thể sau khi đã qua quá trình tokenizer Trong trường hợp này, các chỉ số độ chính xác liên quan đến tất cả các loại thực thể được sử dụng trong nghiên cứu sẽ được xem xét.

Kết quả đo lường của mô hình (ở các phần sau) là tính theo tổng số toàn bộ các câu và xét với từng loại thực thể đơn lẻ

Chuẩn định dạng gắn nhãn IOB, lần đầu tiên được giới thiệu trong nghiên cứu “Text chunking using transformation-based learning” của Lance A Ramshaw và Mitchell P Marcus vào năm 1995, sử dụng quy tắc gắn nhãn cho các từ trong thực thể Trong đó, từ đầu tiên của thực thể được gán nhãn là I, trong khi từ đầu tiên của một thực thể cùng loại đứng liền trước được gán nhãn B Hiện nay, định dạng IOB2 được ưa chuộng, trong đó tất cả các từ bắt đầu thực thể đều được gán nhãn bằng chữ B.

Ví dụ có câu “Đơn giá mua bột mì và đường lần lượt là 30.000 đồng/kg 23.000 đồng/kg.”

Thực hiện tách từ Đơn_giá mua bột_mì và đường lần_lượt là 30.000 đồng / kg 23.000 đồng / kg

Gắn nhãn theo IOB: Đơn_giá mua bột_mì và đường lần_lượt là 30.000 đồng / kg 23.000 đồng / kg ,

O O O O O O O I-UNIT_PRICE I_UNIT_PRICE I_UNIT_PRICE

I_UNIT_PRICE B-UNIT_PRICE I_UNIT_PRICE I_UNIT_PRICE

Gắn nhãn theo IOB2, phần khác nhau được tô đậm: Đơn_giá mua bột_mì và đường lần_lượt là 30.000 đồng / kg 23.000 đồng / kg ,

O O O O O O O B-UNIT_PRICE I_UNIT_PRICE I_UNIT_PRICE

I_UNIT_PRICE B-UNIT_PRICE I_UNIT_PRICE I_UNIT_PRICE

Với UNIT_PRICE là nhãn cho đơn giá Sự khác nhau được tô đậm chỉ để nhằm theo dõi dễ hơn.

Học máy, mạng nơ-ron

A computer program learns from experience E regarding a task set T and a performance measure P If the program's performance on task T, as evaluated by P, improves based on the insights gained from experience E, it demonstrates the principles of machine learning.

Thuật toán học sâu = Tập dữ liệu + Hàm chi phí + Thủ tục tối ưu + Mô hình

Có rất nhiều kiến trúc mạng nơ-ron khác nhau: Mạng lan truyền thuận đa tầng, Mạng tích chập, Mạng nơ-ron hồi quy, v.v

Mạng nơ-ron tích chập (CNN) là một loại mạng nơ-ron nhân tạo phổ biến trong phân tích hình ảnh Được biết đến với tên gọi Mạng thần kinh nhân tạo bất biến không gian (SIANN), CNN sử dụng kiến trúc trọng số chia sẻ của các bộ lọc tích chập để tạo ra các bản đồ đối tượng từ đầu vào Mặc dù hầu hết các CNN không hoàn toàn bất biến với quá trình dịch do hoạt động lấy mẫu xuống, chúng vẫn có nhiều ứng dụng quan trọng trong nhận dạng hình ảnh và video, hệ thống đề xuất, phân loại và phân đoạn hình ảnh, phân tích hình ảnh y tế, xử lý ngôn ngữ tự nhiên, giao diện não - máy tính, và chuỗi thời gian tài chính.

Trong đó w(a) : Hàm gắn trọng số s: hàm số mới s(t): Ước lượng đã được làm trơn a: tuổi của một phép đo

Hình 3.1 Kiến trúc của một Mạng nơ-ron tích chập điển hình

(Nguồn: https://en.wikipedia.org/wiki/Convolutional_neural_network#/media/File:Typic al_cnn.png )

Hệ thống Mạng nơ-ron tích chập điển hình bao gồm các thành tố chính và luồng vận hành như sau: Đầu vào, tiếp theo là các lớp tích chập, sau đó là quá trình lấy mẫu thành phần, tiếp tục với các lớp tích chập khác, tiếp theo là lần lấy mẫu thành phần thứ hai, rồi đến kết nối đầy đủ, và cuối cùng là đầu ra.

Transformer là một kiến trúc mạng nơ-ron có nhiều điểm tương đồng và khác biệt so với CNN Khác với RNN, kiến trúc Transformer không sử dụng hồi quy mà áp dụng cơ chế “tự chú ý” (self-attention).

Hình 3.2 Ví dụ về tích chập 2 chiều

Hình 3.3 Trong một mạng tích chập: Kết nối thưa, được nhìn từ bên dưới

Trong một mạng tích chập: Kết nối thưa, được nhìn từ bên dưới (Nguồn: Goodfellow et al.)

Hình 2.1 Mạng nơ-ron có các đầu vào, hàm kích hoạt ở các layer khác nhau, được kết nối với nhau

Neural networks consist of interconnected inputs and activation functions across various layers Convolutional networks play a crucial role in deep learning.

2.5 Sơ lƣợc các tiến bộ trong nghiên cứu Xử lý ngôn ngữ tự nhiên

Nghiên cứu này kế thừa nhiều tiến bộ trong lĩnh vực NER và áp dụng phương pháp tiếp cận mới Tác giả sẽ trình bày các tiến bộ nổi bật trong nghiên cứu Xử lý ngôn ngữ tự nhiên theo trình tự thời gian từ trước đến nay trong phần dưới đây.

Mô hình ngôn ngữ đầu tiên dựa trên mạng nơ-ron có khả năng dự đoán từ tiếp theo trong câu thông qua mạng nơ-ron lan truyền thuận Nghiên cứu này đã tạo ra bước đột phá quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên.

“Một mô hình ngôn ngữ dựa trên xác suất và nơ-ron” của Yoshua Bengio, Réjean Ducharme, Pascal Vincent công bố năm 2000

Năm 2013, phương pháp "Túi đựng từ" (Bag of Words) đã được phát triển với kiến trúc CBOW, cho phép dự đoán từ hiện tại dựa trên ngữ cảnh, và Skip-gram, giúp dự đoán các từ xung quanh từ hiện tại Nghiên cứu nổi bật của Tomas Mikolov và các cộng sự đã chỉ ra "Ước tính hiệu quả của thể hiện từ trong không gian vectơ".

Hai phương thức chính cho nhiệm vụ "word2vec" là học từ các nhúng từ ngữ nghĩa và kết hợp chúng trong không gian vector Việc học từ tập lục quy mô lớn đã dẫn đến một số vấn đề sai lệch.

Năm 2013, kiến trúc RNN và CNN đã được phát triển để xử lý ngôn ngữ tự nhiên Mô hình RNN thuần túy lần đầu tiên được giới thiệu vào năm 1990, trong khi mô hình LSTM (Long-Short Term Memory) ra mắt vào năm 1997 Việc huấn luyện các RNN gặp nhiều khó khăn cho đến khi có nghiên cứu của Ilya Sutskever.

Mô hình seq2seq, ra mắt vào năm 2014, bao gồm một trình mã hóa tiếp nhận đầu vào có chiều dài biến đổi (như các từ tiếng Anh) và một trình giải mã tạo ra đầu ra tuần tự (như các từ tiếng Việt được dịch) bằng cách sử dụng các trạng thái ẩn có chiều dài cố định từ trình mã hóa [Ilya Sutkever et al., 2014].

Mô hình tiếp nhận câu đầu vào “ABC” và sản sinh câu đầu ra “WXYZ” Quá trình dừng lại khi mô hình tạo ra token EOS (Hết câu) LSTM xử lý câu đầu vào theo thứ tự ngược lại, giúp giảm bớt các phụ thuộc ngắn hạn trong dữ liệu, từ đó làm cho bài toán tối ưu trở nên dễ dàng hơn.

Nguồn: Ilya Sutkever, Oriol Vinyals, Quoc V Le - Sequence to sequence learning with neural networks - 2014

Hình 2.2 Minh họa trực quan mô hình được đề xuất cố gắng sinh từ đích thứ t

(t-th word) được cho bởi nguồn (x1, x2, …, xT)

Minh họa trực quan mô hình được đề xuất cố gắng sinh từ đích thứ t (t-th word) được cho bởi nguồn (x 1 , x 2 , …, x T )

Nguồn: Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio - Neural machine translateion by jointly learning to align and translate - ICLR 2015

Kiến trúc transformer được rình bày chi tiết hơn trong mục 4.5 do có liên quan chặt chẽ với nghiên cứu này

Năm 2018: Các mô hình ngôn ngữ đƣợc tiền huấn luyện (Pre-trained language models)

Sử dụng các mô hình tiền huấn luyện trên tập lục lớn như BERT, GPT, T5 và ELMO giúp học các quy tắc ngôn ngữ tổng quan, từ đó thể hiện những cải tiến gần đây trong lĩnh vực Xử lý ngôn ngữ tự nhiên so với các kết quả đỉnh cao trước đây Kiến trúc BERT sẽ được trình bày chi tiết hơn trong mục 4.7 do sự liên quan chặt chẽ với nghiên cứu này.

Mô hình Transformer là một kiến trúc mạng đơn giản dựa hoàn toàn vào cơ chế chú ý, loại bỏ khả năng lặp lại và tích chập Các mô hình này bao gồm bộ mã hóa và bộ giải mã, với hiệu suất tốt nhất khi kết nối chúng thông qua cơ chế chú ý Công trình nghiên cứu "Attention is all you need" của Ashish Vaswani và các cộng sự đã giới thiệu mô hình này, cho thấy tiềm năng vượt trội của nó trong việc xử lý trình tự.

Kiến trúc transformer ra đời dựa trên những tri thức nghiên cứu nổi bật trước đó, bao gồm RNN, LSTM, GRU và Quasi-RNN, với RNN sử dụng mô hình tuần tự để thể hiện Tuy nhiên, RNN gặp hạn chế trong việc tính toán theo vị trí, không thể áp dụng cho điện toán song song, và các tương tác dài trở thành nút thắt cổ chai cho máy tính có bộ nhớ cố định Bên cạnh đó, CNN cũng gặp khó khăn trong xử lý các tác vụ ngôn ngữ, khi các tương tác dài dẫn đến sự gia tăng tuyến tính hoặc logarit số lớp trong mạng nơ-ron.

Cơ chế attention ra đời (trước Transformer đã có các nghiên cứu về attention) trong các nghiên cứu nổi bật của Bahdanau et al., 2014 ; Brown et al.,

Sơ lược các tiến bộ trong nghiên cứu Xử lý ngôn ngữ tự nhiên

Chương này trình bày việc xây dựng bộ dữ liệu dựa trên mục tiêu và phương pháp nghiên cứu, cùng với các kiến thức nền tảng từ chương 1 và chương 2 Nghiên cứu mang tính ứng dụng, kế thừa từ các nghiên cứu nổi bật về Ngôn ngữ tự nhiên, Mạng nơ ron, Kiến trúc Transformer, BERT, và PhoBERT (của VinAI) cho ngôn ngữ Tiếng Việt Nghiên cứu cũng góp phần kiểm chứng hiệu quả của các nghiên cứu nền tảng trong thực tiễn Tất cả các câu được gắn nhãn thực thể bởi chuyên gia có chuyên môn và kinh nghiệm trong lĩnh vực kế toán theo chuẩn mực kế toán Việt Nam hiện hành, trong đó tác giả luận văn cũng là một kế toán viên.

Hình 3.1 Luồng thực hiện tạo VAD và huấn luyện mô hình

XÂY DỰNG BỘ DỮ LIỆU VAD

Luồng thực hiện

Chương này trình bày việc xây dựng bộ dữ liệu dựa trên mục tiêu và phương pháp nghiên cứu, cùng với các kiến thức nền tảng từ chương 1 và chương 2 Nghiên cứu mang tính ứng dụng, kế thừa từ các nghiên cứu nổi bật về Ngôn ngữ tự nhiên, Mạng nơ ron, Kiến trúc Transformer, BERT, và PhoBERT (của VinAI) cho ngôn ngữ Tiếng Việt Nghiên cứu cũng góp phần kiểm chứng hiệu quả của các nghiên cứu nền tảng trong thực tiễn Tất cả các câu được gắn nhãn thực thể bởi chuyên gia có kinh nghiệm trong lĩnh vực kế toán theo chuẩn mực kế toán Việt Nam hiện hành, trong đó tác giả luận văn cũng là một kế toán viên.

Hình 3.1 Luồng thực hiện tạo VAD và huấn luyện mô hình

Hình 3.1 minh họa các công việc chính trong luồng thực hiện, bao gồm cả việc xử lý dữ liệu và huấn luyện mô hình Để hiểu rõ hơn về quy trình tạo ra bộ dữ liệu VAD, các bước công việc chính được trình bày như sau:

(1) Xác định loại thực thể dùng trong nghiên cứu 

(2) Chọn tài liệu nguồn cho bộ dữ liệu 

(3) Nhập liệu vào tập tin văn bản

(4) Làm sạch dữ liệu, loại bỏ định dạng sinh ra bởi Microsoft Word, trang web, chữ hoa, v.v đưa vào tập tin thuần văn bản 

(5) Tách các đoạn văn bản thành từng câu, mỗi câu một dòng 

(6) Tách từ bằng thư viện VnCoreNLP phiên bản 1.2 

(7) Sửa lại việc tách từ bị tách sai bởi VnCoreNLP 

Gắn nhãn dữ liệu bằng công cụ đồ họa người dùng trên ứng dụng web Explosion Prodigy, với dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu SQLite.

Xuất khẩu dữ liệu quan hệ từ SQLite của Prodigy sang tập tin JSON và chuyển đổi định dạng JSON theo chuẩn của Prodigy thành tập tin văn bản theo chuẩn IOB2.

(10) Có được bộ dữ liệu VAD

Bước (1) được mô tả chi tiết trong Mục 3.2, trong khi Bước (2) sử dụng danh mục tài liệu từ Phụ lục 1 Bước (3) liên quan đến việc nhập liệu, chuyển đổi tài liệu sách giấy thành định dạng điện tử Bước (4) được trình bày trong Mục 3.3, đề cập đến 4 dạng dữ liệu cần làm sạch Bước (5) yêu cầu chuyển đoạn văn thành từng câu ngắn, mỗi câu không quá 256 từ, phù hợp với yêu cầu của PhoBERT và kiến trúc transformer Bước (6) sử dụng công cụ tách từ hiệu quả cho Tiếng Việt tổng quan Bước (7) giải quyết vấn đề tách từ trong miền dữ liệu văn bản kế toán Tiếng Việt Bước (8) áp dụng công cụ gắn nhãn chuyên nghiệp, hiệu quả với văn bản Tiếng Anh nhưng cần điều chỉnh cho văn bản Tiếng Việt Cuối cùng, Bước (9) xử lý chuyển đổi định dạng kết quả gắn nhãn của Prodigy sang định dạng chuẩn IOB2.

Xác định các nhãn

Trong lĩnh vực xử lý ngôn ngữ tự nhiên hiện nay, có nhiều định dạng và thực hành gán nhãn khác nhau Chẳng hạn, phần mềm Prodigy của hãng Explosion sử dụng định dạng tệp jsonp hoặc lưu trữ dữ liệu trong các hệ quản trị cơ sở dữ liệu như PostgreSQL và MySQL.

Trong nghiên cứu này, tác giả sử dụng định dạng gắn nhãn IOB2 cho bộ dữ liệu VAD (Vietnam Accounting Dataset) Bộ dữ liệu này đã được gắn nhãn theo chuẩn IOB2, phù hợp với các tiêu chuẩn nghiên cứu hiện hành.

1 ACCOUNT_NUMBER Số tài khoản Ví dụ: “TK 111”, “1111”,

2 ACCOUNT_NAME Tên tài khoản Ví dụ: “Thuế GTGT được khấu trừ”

3 DATE Ngày tháng năm phát sinh nghiệp vụ kế toán

4 TAX_TYPE Loại/Sắc thuế

5 TAX_RATE Thuế suất Ví dụ: “(Thuế GTGT) 10%”;

5 CURRENCY_TYPE Loại tiền Ví dụ: “đồng”, “VND”, “USD”

6 VOUCHER_TYPE Loại chứng từ kế toán Ví dụ: “Phiếu kế toán”, “Phiếu thu”

Bảng 3.1 Các nhãn sử dụng

Thực thể “Ngày tháng” và “Số tiền” xuất hiện phổ biến trong nghiên cứu Nhận dạng thực thể được định danh, đặc biệt trong lĩnh vực kế toán Trong bối cảnh này, “Ngày tháng” đóng vai trò quan trọng vì theo quy định pháp luật Việt Nam và quốc tế, mọi nghiệp vụ kế toán phải gắn liền với thời điểm phát sinh và ghi nhận Chỉ số attention của thực thể “Ngày tháng” trong văn bản kế toán cao hơn so với các lĩnh vực khác, với tần suất xuất hiện rõ rệt và yêu cầu độ chính xác cao Tương tự, thực thể “Số tiền” cũng mang tính chất đặc thù, vì kế toán đo lường giá trị thông qua các chỉ số tiền tệ cụ thể.

Phân tích các thực thể như “Đơn giá”, “Loại thuế”, và “Mức thuế suất” là cần thiết để hỗ trợ cho các tác vụ hạ nguồn đa dạng, bao gồm nhập liệu tự động và kiểm toán tự động Quá trình này cho phép so sánh và suy luận giữa giá trị của các thực thể với mục “Diễn giải” trên chứng từ, sổ cái, và sổ chi tiết kế toán, từ đó giúp phát hiện lỗi sai một cách tự động và trích rút thông tin hiệu quả.

Làm sạch dữ liệu thô

Trong quá trình gắn nhãn dữ liệu, việc xây dựng tập dữ liệu huấn luyện thường gặp sai sót do tính chất thủ công Chương trình xử lý có khả năng nhận diện các ngoại lệ trong mã nguồn, và tác giả sẽ tiến hành hiệu chỉnh dữ liệu gắn nhãn cho chính xác Ví dụ, có thể xảy ra tình trạng thiếu ký tự phân cách hoặc số thành phần của câu vượt quá số tag.

“Người mua chưa trả tiền”,O O O O

(Ngoại lệ: số tag ít hơn số token)

Lỗi do file CSV có các dòng trống gây ra sự cố khi thực thi Những lỗi này trong dữ liệu huấn luyện cần được điều chỉnh với sự hỗ trợ từ mã nguồn Cài đặt chương trình xử lý PhoBERT là bước quan trọng để giải quyết vấn đề trong nghiên cứu này.

Xây dựng bộ dữ liệu huấn luyện là quá trình thu thập và chuyển thể thông tin từ nhiều nguồn như sách kế toán tài chính, website, tạp chí chuyên ngành và văn bản luật liên quan đến kế toán bằng tiếng Việt, nhằm tạo ra một tập dữ liệu chất lượng cao (gold corpus) Bước tiếp theo là làm sạch dữ liệu, bao gồm việc loại bỏ các thông tin dư thừa như lời nói đầu trong sách, tiêu ngữ trong văn bản luật và các nội dung quảng cáo trên website.

Danh sách tài liệu được dùng để trích rút văn bản tại Phụ lục 1 “Nguồn tài liệu xây dựng tập dữ liệu”.

3.3.1 Làm sạch dữ liệu trường hợp có số thứ tự phía trước câu Ảnh minh họa về một tình huống cần làm sạch dữ liệu

Hình 3.2 Một trường hợp dữ liệu gốc trên trang web có chứa ký tự số thứ tự tại tiêu đề và nội dung chi tiết

Nguồn: Công ty Cổ phần MISA - 2023 https://helpsme.misa.vn/2023/kb/banhang_theodondathang/

Trong dữ liệu văn bản thô, nhiều câu kèm theo số thứ tự, ví dụ:

Công ty cổ phần tin học viễn thông Petrolimex đã nhập khẩu lô cảm biến độ cao cột chất lỏng từ Thái Lan, với thuế nhập khẩu là 20% và chi phí vận chuyển là 15.000.000 đồng.

2 Công ty cổ phần tin học viễn thông Petrolimex thanh toán 90% giá trị hợp đồng trả nhà cung cấp cảm biến độ cao cột chất lỏng bằng chuyển khoản ngân hàng, phí chuyển khoản là 1.123,32 USD Phần còn lại thanh toán sau 2 năm nếu không có vấn đề gì với sản phẩm theo tiêu chuẩn kỹ thuật cam kết

3 Tạm ứng cho nhân viên Nguyễn Văn An 5 triệu đồng công tác phí chuyến đi bảo hành hệ thống phần mềm quản lý Đại lý bán xăng bán lẻ tại Bắc Giang.” sau khi làm sạch dữ liệu sẽ là (phần giữa các câu được bổ sung thêm 1 dòng trống chỉ nhằm mục đích dễ theo dõi, trong thực tế tập dữ liệu sẽ không có dòng trống) Ví dụ trên sau khi làm sạch phần số thứ tự:

Công ty cổ phần tin học viễn thông Petrolimex đã nhập khẩu lô cảm biến độ cao cột chất lỏng từ Thái Lan, với thuế nhập khẩu là 20% và chi phí vận chuyển là 15.000.000 đồng.

Công ty cổ phần tin học viễn thông Petrolimex đã thực hiện thanh toán 90% giá trị hợp đồng cho nhà cung cấp cảm biến độ cao cột chất lỏng thông qua chuyển khoản ngân hàng, với phí chuyển khoản là 1.123,32 USD.

“Phần còn lại thanh toán sau 2 năm nếu không có vấn đề gì với sản phẩm theo tiêu chuẩn kỹ thuật cam kết.”

Nhân viên Nguyễn Văn An được tạm ứng 5 triệu đồng để chi trả công tác phí cho chuyến đi bảo hành hệ thống phần mềm quản lý Đại lý bán xăng bán lẻ tại Bắc Giang.

Các con số đề mục thứ tự bị loại bỏ để tránh gây ra sai lệch cho mô hình NER Các cụm văn bản dài được tách thành từng câu, và theo kiến trúc transformer, mỗi câu không được vượt quá 512 từ Những cụm văn bản quá dài sẽ không được chấp nhận.

3.3.2 Làm sạch dữ liệu trong trường hợp Ký tự bị biến đổi bởi Trình biên dịch/Trình tạo trang web

Một số ký tự trên trang web, như trong tài liệu hướng dẫn sử dụng phần mềm kế toán, có thể bị tự động chuyển đổi thành hình ảnh, ví dụ như ký tự dấu 3 chấm … trở thành hình ảnh ký tự (hình ảnh 2 dấu 2 chấm), không giống với văn bản gốc.

Nhập kho nguyên vật liệu bột mì, đường tinh luyện, … phục vụ sản xuất

Hình 3.3 Ví dụ minh họa ký tự gốc của văn bản bị biến đổi bởi Trình biên soạn

Ký tự … trong Microsoft Word bị biến đổi thành 1 ký tự đặc biệt

Khi bạn sao chép ký tự đặc biệt này vào trình soạn thảo văn bản thuần như Visual Studio Code, dấu ba chấm thực chất được lưu trữ trong tập tin dưới dạng một ký tự đặc biệt, không phải là ba dấu chấm riêng biệt.

Để đảm bảo tính chính xác trong quá trình huấn luyện, các phép biến đổi văn bản tự động từ một số trình biên soạn cần được sửa lại và làm sạch.

Dữ liệu trên trang web và tài liệu Microsoft Word có thể chứa một số ký tự bị biến đổi, chẳng hạn như ký tự “ trong Microsoft Word Office 365 Do đó, cần thực hiện quá trình làm sạch để khôi phục lại các ký tự đúng định dạng.

Hình 3.5 Ký tự bị biến đổi bởi trình soạn thảo Microsoft Office 365 Word

Hình 3.6 Ký tự dấu gạch ngang bị biến đổi bởi Trình soạn thảo Microsoft 365

Minh họa ký tự bị Trình soạn thảo làm sai lệch so với văn bản thuần (plain text)

3.3.3 Làm sạch dữ liệu trong trường hợp chữ viết hoa

Chữ viết hoa thường được sử dụng trong tiêu đề của các văn bản Tác giả chuyển đổi văn bản từ chữ viết hoa sang chữ viết thường và viết hoa chữ cái đầu câu theo chuẩn mực chung Nếu tiêu đề không có dấu chấm câu, cần bổ sung dấu chấm câu khi tập hợp các từ tạo thành một câu hoàn chỉnh.

RÚT TIỀN MẶT VỀ NHẬP QUỸ TỪ TIỀN GỬI NGÂN HÀNG cần chuẩn hóa thành

Rút tiền mặt về nhập quỹ tiền gửi ngân hàng

3.3.4 Loại bỏ các câu trùng lặp

Xử lý việc tách từ sai

Tác giả sử dụng VnCoreNLP phiên bản 1.2

VnCoreNLP phiên bản 1.2 cung cấp công cụ tokenization, nhưng nó chủ yếu phù hợp với Tiếng Việt phổ quát Tiện ích này gặp nhiều vấn đề khi áp dụng cho dữ liệu trong lĩnh vực kế toán.

Trong các trường hợp như vậy, người dùng cần xem xét giao diện, sau đó nhấn nút Từ chối (biểu tượng dấu gạch chéo trên nền đỏ) Tiếp theo, cần tách từ một cách thủ công và chuyển chúng sang một lô gắn nhãn khác.

Các ví dụ về việc tách từ tự động bởi VnCoreNLP bị sai trong miền dữ liệu văn bản kế toán

Câu gốc: Lập chứng từ mua hàng từ hóa đơn điện tử

Câu được tách từ bởi VnCoreNLP v1.2:

Lập chứng_từ mua hàng từ_hóa đơn điện_tử

Câu được tác giả sửa lại: Lập chứng_từ mua hàng từ hóa_đơn_điện_tử

Câu gốc: Nợ TK 152, 156, 611 Nguyên vật liệu, hàng hóa (Giá có thuế nhập khẩu)

Câu được tách từ bởi VnCoreNLP v1.2:

Nợ_TK 152 , 156 , 611 Nguyên_vật_liệu , hàng_hóa ( Giá có thuế nhập_khẩu )

Câu được tác giả sửa lại:

Nợ TK_152 , 156 , 611 Nguyên_vật_liệu , hàng_hóa ( Giá có thuế nhập_khẩu )

Việc áp dụng VnCoreNLP phiên bản 1.2 cho lĩnh vực kế toán đòi hỏi những điều chỉnh cần thiết để phù hợp với dữ liệu đặc thù Các chuyên gia trong lĩnh vực kế toán, dựa trên các chuẩn mực hiện hành của Việt Nam, sẽ có khả năng nắm bắt và thực hiện các hiệu chỉnh này.

Gắn nhãn

Cài đặt Prodigy phiên bản 1.11.11 trên hệ điều hành Windows 11 x64 với Python 3.10 để thực hiện gắn nhãn theo từng lô Sử dụng phần mềm thương mại Prodigy của hãng Explosion (trang chủ: https://prodi.gy/) và tạo môi trường Python virtual environment bằng Anaconda Navigator 2.3.2.

Khi chạy ứng dụng, các lô khác nhau với tùy chọn tập tin nguồn và tên cơ sở dữ liệu khác nhau sẽ yêu cầu các tham số truyền vào khác nhau.

Câu lệnh này minh họa cách gắn nhãn một lô dữ liệu từ tập tin văn bản sents25.txt vào cơ sở dữ liệu SQLite có tên db25 Từ khóa ner.manual được sử dụng bởi phần mềm Prodigy cho quá trình gắn nhãn thủ công, trong khi en chỉ định ngôn ngữ Tiếng Anh Bước này nhằm mục đích gắn nhãn dữ liệu theo chuẩn IOB2, và từ khóa en không ảnh hưởng đến việc gắn nhãn dữ liệu Tiếng Việt, mà chỉ định vị trí của ký tự ánh xạ đến thẻ.

Hình 4.5 mô tả cách chạy ứng dụng gắn nhãn Prodigy từ môi trường ảo Python 3.10 do Anaconda cung cấp Để truy cập vào web-app, người dùng cần mở trình duyệt và nhập địa chỉ http://localhost:8080.

Hình 3.7 Gắn nhãn dữ liệu với sự hỗ trợ của ứng dụng web Prodigy của hãng

Hình 4.7 Tập tin chứa các câu văn bản Tiếng Việt chuyên ngành kế toán sau khi được gắn nhãn

Ví dụ 1 câu trong tập tin sau khi được gắn nhãn chuẩn:

3.6 Thống kê từ đƣợc gắn nhãn có trong bộ dữ liệu

Thống kê dữ liệu đã gắn nhãn giúp cân bằng và hợp lý hóa tỷ lệ giữa các tập huấn luyện, kiểm định và kiểm thử, từ đó mang lại kết quả công bằng và khách quan hơn Ngoài ra, việc này còn cải thiện khả năng suy diễn kết quả và đánh giá tỷ lệ xuất hiện "tự nhiên" của các loại thực thể trong thực tiễn.

Kết quả thống kê cho thấy tỷ lệ xuất hiện của các thực thể trong dữ liệu thực tế có sự khác biệt đáng kể.

657,"Tính ra tiền_lương phải trả công_nhân sản_xuất là

75.000.000 đồng , nhân_viên quản_lý phân_xưởng sản_xuất là 20.000.000 đồng ",O O O O O O O O B-MONEY I-MONEY O O O O

O O B-MONEY I-MONEY O hành lấy bộ dữ liệu để gắn nhãn một cách “ngẫu nhiên” chứ chưa can thiệp vào tỷ lệ/mức độ xuất hiện của các thực thể

Trong thực tiễn, loại thực thể “Loại chứng từ” xuất hiện phổ biến trong văn bản kế toán Tiếng Việt, thể hiện qua nhiều từ và cụm từ khác nhau.

"Hóa đơn" và "hóa đơn điện tử" là những thuật ngữ phổ biến trong thực tế và nghiên cứu Điều này khẳng định rằng nguyên tắc làm việc trong ngành kế toán dựa trên chứng từ, và việc định khoản cũng như hạch toán phải xuất phát từ các chứng từ này Kết quả thống kê từ bộ dữ liệu cho thấy tầm quan trọng của hóa đơn trong quy trình kế toán.

STT Loại thực thể Số lƣợng thực

Ký hiệu Diễn giải thể

1 B-ACCOUNT_NAME Tên tài khoản kế toán 132

2 B-ACCOUNT_NUMBER Số tài khoản 142

5 B-TAX_RATE Mức thuế suất 157

6 B-TAX_TYPE Loại thuế suất 480

8 B-VOUCHER_TYPE Loại chứng từ 3289

Bảng 3.2 Thống kê số lượng thực thể trong bộ dữ liệu VAD

Thống kê từ được gắn nhãn có trong bộ dữ liệu

4.1 Dữ liệu cho việc huấn luyện mô hình học máy

Chương này tập trung vào việc lập trình và kết quả của các tham số huấn luyện mô hình học máy sau khi hiệu chỉnh Nội dung được xây dựng dựa trên hệ thống thực tế, với tiền đề từ mục tiêu nghiên cứu, phương pháp nghiên cứu, và các kiến thức nền tảng đã được đề cập trong chương 1, chương 2, cùng với bộ dữ liệu được xây dựng trong chương 3.

Tính nhập nhằng trong văn bản Tiếng Việt chuyên ngành Kế toán được giải quyết thông qua mô hình học máy, sử dụng bộ dữ liệu huấn luyện đã được gắn nhãn bởi các chuyên gia kế toán Mô hình này sẽ học và điều chỉnh dựa trên tập dữ liệu chuẩn tham chiếu Như đã đề cập trong mục 2.2, tính nhập nhằng không thể xử lý bằng cây quyết định do đầu vào văn bản không cố định và phụ thuộc vào người dùng.

Khi khai báo dữ liệu, tập dữ liệu VAD được chia thành ba phần: tập huấn luyện (64%), tập kiểm định (16%) và tập kiểm thử (20%), với tổng số 4657 câu, trong đó có 3664 câu cho tập huấn luyện, 501 câu cho tập kiểm định và 492 câu cho tập kiểm thử Tập tin cấu hình loại thẻ và đường dẫn đến các tập tin huấn luyện, kiểm định, kiểm thử được định nghĩa trong file YAML, với nội dung chi tiết có tại Phụ lục 2 - mục 2.4 Nghiên cứu sử dụng 8 loại thực thể và gắn nhãn theo chuẩn IOB2, dẫn đến tổng số loại thẻ là 17 (2 x 8 + 1).

 B-ACCOUNT_NUMBER : Số tài khoản kết toán

 B-ACCOUNT_NAME : Tên tài khoản kế toán

 B-DATE : Ngày tháng của Nghiệp vụ kinh tế/chứng từ kế toán

 B-TAX_TYPE : Loại thuế (Ví dụ: Thuế Giá trị gia tăng, Thuế nhập khẩu, Thuế GTGT)

 B-TAX_RATE : Mức thuế suất (Ví dụ: 10% - Thuế VAT, 5% - Thuế VAT, 20% - Thuế thu nhập doanh nghiệp)

 B-VOUCHER_TYPE : Loại chứng từ (ví dụ: Phiếu thu, Phiếu chi, Phiếu kế toán, Thẻ kho)

 B-MONEY : Số tiền (ví dụ: 125.000.000 đồng, 30.000.000 VND)

THỰC NGHIỆM VÀ KẾT QUẢ

Tiêu đề	Nhận dạng thực thể được định danh trong văn bản tiếng việt liên quan đến lĩnh vực kế toán
Tác giả	Đỗ Như Vý
Người hướng dẫn	PGS.TS. Nguyễn Phương Thái
Trường học	Đại Học Quốc Gia Hà Nội
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	74
Dung lượng	3,1 MB