Xây dựng mô hình trích xuất thông tin trong các văn bản hành chính

Đểtiện lợi cho quá trình trích xuất thông tin và số hóa dữ liệu, chúng tôi đề xuất xây dựng một hệthống có thể trích xuất thông tin từ hình ảnh văn bản hành chính một cách tự động trên n

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

XÂY DỰNG MÔ HÌNH TRÍCH XUẤT THÔNG TIN

GVPB : ThS TRẦN HỒNG TÀI SVTH : NGUYỄN HỮU THẮNG 1713239

TP Hồ Chí Minh, 8/2021

Trang 2

/"Z¤{"f詠pi"jq p"vjk羽p"e e"oqfwng"d鰻"uwpi"pj逢"vgzvnkpg"jc{"QET"vk院p"v噂k"jq p"ej雨pj"j羽"vj嘘pi

vt ej"zw医v"vj»pi"vkp"ejq"e e"f衣pi"x<p"d違p"j pj"ej pj0

/"Vj詠e"jk羽p"8 pj"ik "vt‒p"v壱r"f英"nk羽w"x "8逢c"tc"e e"rj¤p"v ej0

Trang 3

u pj

/"V e"ik違"8«"vjw"vj壱r"pjk隠w"f衣pi"f英"nk羽w"mj e"pjcw"x "vk院p"j pj"i p"pj«p"8亥{"8栄0

/"M院v"sw違"e栄c"nw¤p"x<p"ej泳pi"v臼"8逢嬰e"8瓜"ej pj"z e"v嘘v"e„"vk隠o"p<pi" r"f映pi"x q"vj詠e"vk宇p0

/"V e"ik違"e pi"8«"vj詠e"jk羽p"o荏"t瓜pi"pijk‒p"e泳w"ucpi"e e"n pj"x詠e"j壱w"z穎"n#."pj壱p"f衣pi"x́pi"xQET0

/"F詠"mk院p"m院v"sw違"u胤"8逢嬰e"vj穎"pijk羽o"荏"o泳e"e»pi"pijk羽r"vtqpi"u違p"rj育o"vj詠e"v院"8cpi"x壱p"j pjXQHHKEG."荏"vj運k"ikcp"v噂k"x噂k"pj英pi"e違k"vk院p"x隠"v pj"鰻p"8鵜pj0

90"Pj英pi"vjk院w"u„v"ej pj"e栄c"NXVP<

/"E„"vj吋"vk院p"j pj"vjw"vj壱r"f英"nk羽w"荏"o泳e"ecq"j挨p."t瓜pi"j挨p."u穎"f映pi"m院v"sw違"8cpi"e„"8吋"j厩"vt嬰"i ppj«p

/"V鰻pi"j嬰r"e e"pijk‒p"e泳w"x隠"z穎"n#"8欝"vj鵜"8cpi"e„"x "vk院p"j pj"e»pi"d嘘"mjqc"j丑e0

:0"A隠"pij鵜<"A逢嬰e"d違q"x羽 D鰻"uwpi"vj‒o"8吋"d違q"x羽 Mj»pi"8逢嬰e"d違q"x羽

;0"5"e¤w"j臼k"UX"rj違k"vt違"n運k"vt逢噂e"J瓜k"8欝pi<

c0"Vj泳"v詠"逢w"vk‒p"e e"e»pi"xk羽e"vtqpi"v逢挨pi"nck"n "i·."x "n#"fq0

320"A pj"ik "ejwpi"*d茨pi"ej英<"ik臼k."mj "VD+<"Ik臼k Ak吋o"<""""""";09132

M#"v‒p"*ijk"t "j丑"v‒p+

Trang 5

Chúng tôi xin cam đoan đây là công trình được nghiên cứu và phát triển bởi các thành viêntrong nhóm dưới sự hướng dẫn của TS Trần Tuấn Anh, TS Nguyễn Tiến Thịnh và anh TrầnHoài Nam Nội dung nghiên cứu và các kết quả đều là trung thực và chưa từng được công bốtrước đây Các số liệu, tài nguyên được thu thập từ các nguồn khác sẽ được ghi rõ trong phần tàiliệu tham khảo.

Ngoài ra, chúng tôi cũng có sử dụng một số nhận xét, đánh giá và số liệu của các tác giảkhác, cơ quan và tổ chức khác Tất cả đều có trích dẫn và chú thích nguồn gốc

Nếu phát hiện bất kỳ sự gian lận nào, chúng tôi xin hoàn toàn chịu trách nhiệm Trường Đạihọc Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh không liên quan đến những viphạm tác quyền, bản quyền do chúng tôi gây ra (nếu có) trong quá trình thực hiện luận văn tốtnghiệp đại học này

Nhóm sinh viên thực hiện đề tài

Trang 6

Trước tiên, chúng tôi xin cảm ơn chân thành đến TS Trần Tuấn Anh và TS Nguyễn Tiến Thịnh,những người đã dẫn dắt và định hướng cho chúng tôi những bước đi đầu tiên trên con đườngnghiên cứu khoa học, phát triển luận văn.

Bên cạnh đó, chúng tôi cũng chân thành cảm ơn đến đội ngũ giảng viên đầy nhiệt quyết củatrường Đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh, những người đã truyềncảm hứng và truyền đạt những kiến thức quý giá trong chặng đường dài đại học

Ngoài ra, chúng tôi cũng muốn gửi lời cám ơn chân thành đến anh Trần Hoài Nam, cựu sinhviên Khoá 2016, Khoa Khoa học và Kỹ thuật Máy tính, Trường Đại học Bách Khoa - Đại họcquốc gia Thành phố Hồ Chí Minh Cảm ơn anh vì những chỉ dẫn, nhận xét và đánh giá đã giúpchúng tôi hoàn thiện hơn khóa luận này

Cuối cùng, chúng tôi cũng muốn gửi lời cảm ơn đến gia đình, bạn bè và những người xungquanh đã luôn ủng hộ và giúp đỡ tôi trong suốt quá trình học tập tại trường Đại học Bách Khoa

- Đại học Quốc gia Thành phố Hồ Chí Minh

Nhóm sinh viên thực hiện đề tài

Trang 7

Văn bản hành chính (VBHC) là một trong những loại tài liệu phổ biến nhất trong cuộc sốnghằng ngày cũng như trong các cơ quan, doanh nghiệp trong và ngoài nước Những loại văn bảnnày chứa đựng rất nhiều thông tin và có cách thức trình bày khác nhau ứng với mỗi cơ quan, tổchức Hiện tại, việc trích xuất thông tin từ văn bản hành chính phần lớn được thực hiện thủ công,hoặc các hệ thống bán tự động dựa vào các kinh nghiệm, mẫu sẵn, dễ lỗi và kém linh hoạt Đểtiện lợi cho quá trình trích xuất thông tin và số hóa dữ liệu, chúng tôi đề xuất xây dựng một hệthống có thể trích xuất thông tin từ hình ảnh văn bản hành chính một cách tự động trên nhiềuloại, nhiều cách thức trình bày khác nhau.

Trong giới hạn của luận văn này chúng tôi sẽ tập trung giải quyết các vấn đề xung quanhvăn bản hành chính Việt Nam Nhưng do hạn chế về tập dữ liệu cũng như cách thức trình bàycủa các loại VBHC, chúng tôi trước hết sẽ thu thập và đánh giá dựa trên dữ liệu từ các văn bảnkhá phổ biến như là quyết định, thông báo từ các cơ quan thuộc thành phố Hồ Chí Minh Theo

đó, hệ thống sẽ nhận vào ảnh chụp một mẫu VBHC, và trả về các trường thông tin mà hệ thốngtrích xuất được, có thể bao gồm các thông tin như: Ngày xuất trình văn bản, Khóa-Tiêu đề, Địachỉ tổ chức, Giá trị-Nội dung, Qua quá trình khảo sát và nghiên cứu, chúng tôi đề xuất xâydựng hệ thống trích xuất thông tin gồm ba mô-đun chính: Phát hiện vùng văn bản, Nhận diện

ký tự quang học, Trích xuất thông tin

Về phương pháp đề xuất cho từng mô-đun chính, chúng tôi đề xuất sử dụng mô hình phânđoạn U-Net cho mô-đun Phát hiện vùng văn bản, mô hình Tesseract OCR do Google phát triểncho mô-đun Nhận diện ký tự quang học, mô hình mạng nơ-ron tích chập trên đồ thị (GraphConvolutional Neural Network) cho mô-đun Trích xuất thông tin Trong mỗi mô-đun, chúng tôi

đề xuất một vài biến thể và phương pháp đánh giá trên tập dữ liệu của chúng tôi nhằm chọnđược biến thể tốt nhất cho hệ thống

Về tập dữ liệu, văn bản hành chính tiếng Việt là loại văn bản khá đặc thù và độ bảo mật cao

Vì thế, chưa có tập dữ liệu nào thực sự phù hợp với hướng tiếp cận của chúng tôi, nên chúng tôi

đã tự thu thập và xây dựng một tập dữ liệu từ các quyết định, thông báo của các cơ quan ở thànhphố Hồ Chí Minh Theo đó, tập dữ liệu có 194 ảnh màu và xám được thu thập thông qua quátrình quét (scan) hoặc từ ảnh chụp điện thoại Chúng tôi đã tiến hành gán nhãn tập dữ liệu chophù hợp với hướng tiếp cận của các mô-đun

Trang 8

mô-đun Phát hiện vùng văn bản sẽ sử dụng độ đo Dice-score, mô-đun Nhận diện ký tự quanghọc được đánh giá bằng tỷ lệ sai số ký tự (Character Error Rate), và mô-đun Trích xuất thôngtin sử dụng kết hợp 4 độ đo cơ bản trong bài toán phân lớp là Accuracy (Acc), Precision (P),Recall (R) và F1-score (F1) Dựa trên kết quả đánh giá, ứng với mỗi mô-đun chúng tôi sẽ chọn

ra phương pháp có độ chính xác tốt nhất để xây dựng hệ thống trích xuất thông tin hoàn chỉnh,

và sẽ đánh giá độ chính xác của toàn hệ thống cũng dựa vào 4 độ đo Accuracy (Acc), Precision(P), Recall (R) và F1-score (F1)

Chúng tôi mong rằng, với những kết quả đạt được thông qua luận văn này sẽ đóng góp phầnnào cho cuộc cách mạng số hóa trong doanh nghiệp, tổ chức nói riêng, và ngành Thị giác máytính nói chung Qua đó, chứng minh được tính khả thi và tính ứng dụng của các hệ thống tríchxuất thông tin tự động

Trang 9

Mục lục

1.1 Đặt vấn đề và lý do chọn đề tài 8

1.2 Phạm vi và mục tiêu nghiên cứu 9

1.3 Bố cục luận văn 10

2 Kiến thức nền tảng 11 2.1 Các kiến thức cơ bản về học máy, học sâu 11

2.1.1 Mạng nơ-ron nhân tạo (Artificial Neural Nework - ANN) 11

2.1.2 Phép tính tích chập (Convolution) 15

2.1.3 Phép tính tích chập chuyển vị (Transposed Convolution) 17

2.1.4 Phép hợp nhất (Pooling) 18

2.1.5 Batch Normalization (BatchNorm) 18

2.1.6 Mạng nơ-ron tích chập (Convolutional Neural Nework - CNN) 19

2.1.7 Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) 21

2.1.8 Mạng nơ-ron tích chập trên đồ thị (GNN) 23

2.1.9 Các hiện tượng thường gặp trong học máy, học sâu 28

2.2 Các kiến thức cơ bản về phương pháp đánh giá 30

2.2.1 Accuracy 30

2.2.2 Ma trận nhầm lẫn 30

2.2.3 Precision, Recall và F1-score 31

2.3 Công cụ và thư viện 33

Trang 10

2.3.1 Computer Vision Annotation Tool - CVAT 33

2.3.2 Pytorch 33

2.3.3 Deep Graph Learning - DGL 34

2.3.4 Open Computer Vision - OpenCV 34

3 Một số công trình nghiên cứu liên quan 35 3.1 Khảo sát phương pháp 35

3.1.1 Cách tiếp cận theo xử lý ngôn ngữ tự nhiên (NLP-based approaches) 35

3.1.2 Cách tiếp cận theo thị giác máy tính (CV-based approaches) 35

3.1.3 Cách tiếp cận theo Chargrid 36

3.1.4 Cách tiếp cận theo mạng nơ-ron tích chập trên đồ thị (GNN-based ap-proaches) 37

3.2 Khảo sát tính ứng dụng 38

3.3 Khảo sát thách thức 38

4 Tập dữ liệu 40 4.1 Chuẩn bị dữ liệu 40

4.2 Thống kê dữ liệu 41

5 Phương pháp đề xuất 43 5.1 Phát hiện vùng văn bản 43

5.2 Nhận diện ký tự quang học 44

5.3 Trích xuất thông tin 46

5.3.1 Định nghĩa bài toán 46

5.3.2 Mô hình GraphSAGE 49

5.3.3 Mô hình Graph Attention Networks (GATs) 51

6 Hiện thực hệ thống 54 6.1 Phát hiện vùng văn bản 54

6.1.1 Tiền xử lý và làm giàu dữ liệu 54

6.1.2 Huấn luyện 54

6.1.3 Hậu xử lý 55

6.2 Nhận diện ký tự quang học 55

Trang 11

6.2.1 Tiền xử lý và làm giàu dữ liệu 55

6.3 Trích xuất thông tin 57

6.3.1 Mô hình hóa đồ thị 57

6.3.2 Tiền xử lý và thông tin đại diện nút 58

6.3.3 Kiến trúc mô hình 60

6.4 Xây dựng ứng dụng 62

7 Thí nghiệm và đánh giá 63 7.1 Phương pháp đánh giá 63

7.1.1 Phát hiện vùng văn bản 63

7.1.2 Nhận diện ký tự quang học 64

7.1.3 Trích xuất thông tin 65

7.1.4 Toàn bộ hệ thống 65

7.2 Kết quả thí nghiệm 65

7.2.1 Phát hiện vùng văn bản 65

7.2.2 Nhận diện ký tự quang học 66

7.2.3 Trích xuất thông tin 67

7.2.4 Toàn bộ hệ thống 71

8 Tổng kết 74 8.1 Kết quả đạt được 74

8.2 Hạn chế 75

8.3 Phương hướng phát triển 75

Trang 12

Danh sách hình vẽ

2.1 Cấu trúc của một nơ-ron Nguồn [2] 11

2.2 Mạng nơ-ron nhân tạo cơ bản Nguồn [4] 12

2.3 Các hàm kích hoạt phi tuyến thông dụng (a) Hàm Sigmoid, (b) Hàm Tanh, (c) Hàm ReLU, (d) Hàm Leaky ReLU Nguồn [5] 13

2.4 Minh họa phép tính tích chập trên ma trận ảnh xám Nguồn [6] 16

2.5 Minh họa phép tính tích chập chuyển vị Nguồn [8] 17

2.6 Phép pooling Nguồn [9] 18

2.7 Batch normalization Nguồn [10] 19

2.8 Kiến trúc mạng nơ-ron tích chập Nguồn [11] 20

2.9 Mô hình mạng RNN cơ bản Nguồn [12] 22

2.10 Hình ảnh minh họa một đồ thị vô hướng không chu trình Nguồn [14] 24

2.11 Biểu diễn đồ thị bàng ma trận kề Nguồn [15] 25

2.12 Biểu diễn đồ thị có hướng bằng ma trận liên thuộc Nguồn [15] 26

2.13 Biểu diễn đồ thị bằng danh sách kề Nguồn [15] 26

2.14 Trực quan hóa CVAT 34

3.1 Cách tiếp cận theo NLP Nguồn [20] 35

3.2 Cách tiếp cận theo CV Nguồn [20] 36

3.3 Chargrid Nguồn [21] 36

3.4 Chargrid pipeline Nguồn [23] 37

4.1 Phân bổ trường thông tin 42

5.1 Mô phỏng đầu vào và đầu ra của mô-đun Phát hiện vùng văn bản 44

5.2 Kiến trúc mô hình U-Net Nguồn [28] 45

Trang 13

5.3 Mô phỏng nhận diện ký tự quang học cơ bản Đầu vào (bên trái mũi tên) nhận

hình ảnh chứa các vùng văn bản và đầu ra (bên phải mũi tên) của quá trình Nhận

diện ký tự quang học 45

5.4 Mô phỏng đầu vào và đầu ra của mô-đun Trích xuất thông tin Đầu vào chứa thông tin về vị trí và ngữ nghĩa Đầu ra trả về dự đoán phân loại ngữ nghĩa cho từng thực thể như K_HEADER (Khóa-Tiêu đề), DATE (Ngày), V_CONTAIN (Giá trị-Nội dung), 47

5.5 Mô phỏng các cách định nghĩa bài toán Các box màu khác nhau thể loại thực thể khác nhau 48

5.6 Mô phỏng quá trình lấy mẫu, tổ hợp đặc trưng và dự đoán từ đặc trưng tổ hợp được của mô hình GraphSAGE Nguồn [35] 49

5.7 Giải thuật hiện thực quá trình tổ hợp đặc trưng trong đồ thị Nguồn [35] 50

5.8 Mô phỏng cơ chế tính toán trong mô hình GAT Nguồn [36] 52

6.1 Graph modeling Nguồn [39] 57

6.2 Chi tiết giải thuật graph modeling Nguồn [39] 58

6.3 Kết quả sơ khai của graph modeling Các bounding box viền xanh thể hiện vùng text line, nhãn của từng vùng text line được thể hiện bằng các text phía trên bên trái bounding box và các đoạn thẳng màu đỏ thể hiện liên kết giữa các nút với nhau 59

6.4 Kiến trúc mô hình GraphSAGE Nguồn [35] 60

6.5 Kiến trúc mô hình Multi-head GATs Nguồn [36] 61

7.1 Trực quan hóa kết quả Phát hiện vùng văn bản Với các đường bao màu xanh lá thể hiện các vùng văn bản đã được nhận diện 66

7.2 Trực quan hóa kết quả quá trình Nhận diện ký tự quang học theo từng dòng (line) 67 7.3 Trực quan hóa kết quả quá trình Nhận diện quang học một văn bản hành chính hoàn chỉnh Ảnh bên trái là văn bản gốc Ảnh bên phải là kết quả của quá trình nhận diện (có sử dụng kết quả của quá trình Phát hiện vùng văn bản) được khôi phục về kích thước và vị trí ban đầu 68

7.4 Độ chính xác và hàm lỗi của thí nghiệm GraphSAGE - Mean trong quá trình huấn luyện 70

7.5 Kết quả mô-đun Trích xuất thông tin trên một số mẫu văn bản khác nhau 70

Trang 14

8.1 Một mẫu văn bản hành chính có cấu trúc khác 76

Trang 15

Danh sách bảng

2.1 Ma trận nhầm lẫn (Confusion Matrix) 312.2 Ma trận nhầm lẫn cho bài toán phân loại 2 lớp: Positive và Negative 314.1 Các loại nhãn được sử dụng trong quá trình gán nhãn ngữ nghĩa vùng văn bản 417.1 Kết quả thí nghiệm Phát hiện vùng văn bản được đánh giá dựa trên DiceLoss 667.2 Kết quả đánh giá công cụ Tesseract OCR trước và sau khi huấn luyện thêm 677.3 Kiến trúc mô hình các thí nghiệm 687.4 Kết quả đánh giá thí nghiệm mô-đun Trích xuất thông tin 697.5 Kết quả đánh giá mô hình GraphSAGE - Mean trên từng trường thông tin 717.6 Kết quả đánh giá tổng thể trên toàn bộ hệ thống 727.7 Kết quả đánh giá chi tiết toàn bộ hệ thống trên các trường thông tin 728.1 Kế hoạch thực hiện luận văn 77

Trang 16

Văn bản hành chính thường được dùng để truyền đạt những nội dung và yêu cầu nào đó từcấp trên xuống hoặc bày tỏ những ý kiến, nguyện vọng của cá nhân hay tập thể tới các cơ quan

và người có quyền hạn để giải quyết

Là một trong những loại tài liệu cực kỳ thông dụng và quan trọng, văn bản hành chính đãxuất hiện từ rất lâu, hầu như mọi nơi trong đời sống hằng ngày cũng như trong các doanh nghiệp,

cơ quan lớn nhỏ Tuy nhiên do sự đa dạng về loại văn bản, nội dung cũng như mục đích sử dụng,

mà số lượng văn bản hành chính tăng lên rất nhiều trong mỗi doanh nghiệp, tổ chức Để phục vụcho mục đích lưu trữ, quản lý cũng như tổ chức, văn bản hành chính cần được trích xuất thôngtin đặc trưng trước khi đưa vào khâu quản lý Khi đó, nhu cầu trích xuất thông tin từ văn bản trởthành nhu cầu thiết yếu

Hiện tại, việc trích xuất thông tin từ văn bản hành chính phần lớn được thực hiện thủ công,hoặc các hệ thống tự động dựa vào các kinh nghiệm, mẫu có sẵn, dễ lỗi, kém linh hoạt, năngsuất thấp Đặc biệt hơn, khi số lượng văn bản cần trích xuất lớn, yêu cầu độ chính xác cao, thìviệc xử lý thủ công là điều rất khó và dễ phát sinh lỗi Do đó, đã xuất hiện nhu cầu trích xuấtthông tin từ hình ảnh văn bản hành chính một cách tự động, ổn định và chính xác để phục vụcác mục đích nêu trên

Trang 17

Gần đây, cùng với sự phát triển của trí tuệ nhân tạo, học máy, học sâu và hệ thống máy tínhhiện đại đã kéo theo sự phát triển nhanh chóng của lĩnh vực thị giác máy tính Lần lượt, các bàitoán khó đã được giải quyết với độ chính xác và ổn định cao, đã được ứng dụng vào đời sốngthực tế như Phát hiện và phân loại vật thể, Phát hiện lỗi tinh vi trong các sản phẩm, Vận hành

xe tự động, Nhận diện và phân tích khuôn mặt, Tuy nhiên, trong việc số hóa văn bản, cụ thể

là rút trích thông tin trong văn bản, thị giác máy tính vẫn chưa thực sự đạt được độ chính xác và

ổn định cao

Nhận thấy vai trò, tầm quan trọng và độ phổ biến của văn bản hành chính trong cuộc sốnghằng ngày cũng như nhu cầu xử lý chúng, chúng tôi mạnh dạn đề xuất ý tưởng xây dựng hệthống trích xuất thông tin tự động trong văn bản hành chính Tiếng Việt Cùng với sự phát triểnmạnh mẽ của lĩnh vực thị giác máy tính, chúng tôi mong muốn tạo ra sản phẩm có độ chính xác

và độ ổn định cao, tạo tiền đề cho việc ứng dụng rộng rãi sau này, tạo ra một cuộc cách mạngmới trong lĩnh vực số hóa văn bản

1.2 Phạm vi và mục tiêu nghiên cứu

Bài toán số hóa tài liệu rất đa dạng Trong đó, phổ biến có thể kể đến như Phát hiện vùng vănbản, Nhận diện ký tự quang học, Phân tích bố cục văn bản, Trích xuất trang văn bản, Tóm tắtvăn bản Các phương pháp đề xuất nhằm giải quyết từng bài toán cũng rất nhiều và đạt đượckết quả khá tốt Tuy nhiên, như đã đề cập ở phần trên, mong muốn của chúng tôi trong luận văn

này là Xây dựng mô hình trích xuất thông tin trong các văn bản hành chính, do đó luận văn

sẽ được giới hạn trong phạm vi ứng dụng các mô hình liên quan đã chứng minh được sự khả thi

để giải quyết bài toán của chúng tôi Bên cạnh đó, chúng tôi cũng đưa ra những cải tiến nhằmnâng cao độ chính xác, hiệu suất cũng như đảm bảo hệ thống làm việc hiệu quả và ổn định hơn

Về mục tiêu đề tài, chúng tôi mong muốn tạo ra hệ thống có thể trích xuất được càng nhiềuloại văn bản có bố cục khác nhau, ngôn ngữ khác nhau càng tốt Tuy nhiên, do giới hạn về thờigian cũng như nguồn lực, mục tiêu hiện tại của hệ thống là có thể trích xuất tốt các thông tin

từ các văn bản tiếng Việt Hệ thống sẽ trả về các thông tin quan trọng như Ngày xuất trình vănbản, Khóa-Tiêu đề, Địa chỉ tổ chức, Giá trị-Nội dung,

Về dữ liệu, do tính đặc thù và hạn chế về tập văn bản hành chính tiếng Việt, nên chúng tôi

sẽ tập trung vào các loại văn bản phổ biến nhất là quyết định và thông báo Chúng tôi đã tiếnhành thu thập và gán nhãn dữ liệu cho phù hợp với hệ thống của chúng tôi

Trang 18

1.3 Bố cục luận văn

Chúng tôi tổ chức bố cục nội dung luận văn gồm 8 chương như sau:

Chương 1 Tổng quan đề tài: Giới thiệu tổng quan, đặt vấn đề, đưa ra lý do cũng như động lực

giải quyết vấn đề Trích xuất thông tin từ văn bản hành chính.

Chương 2 Kiến thức nền tảng: Trình bày các kiến thức nền tảng cơ bản về học máy cũng như

thị giác máy tính mà chúng tôi sử dụng để giải quyết bài toán, đồng thời giới thiệumột số công cụ, thư viện có sẵn phục vụ quá trình hiện thực

Chương 3 Một số công trình nghiên cứu liên quan: Tiến hành thực hiện các khảo sát liên

quan đến đề tài, các cách tiếp cận giải quyết bài toán, khảo sát tính ứng dụng củachúng

Chương 4 Tập dữ liệu: Khảo sát về dữ liệu, cách thức thu thập, gán nhãn và tiền xử lý dữ liệu.

Chương 5 Phương pháp đề xuất: Đề xuất, trình bày và giải thích các phương pháp cho từng

mô-đun trong mô hình

Chương 6 Hiện thực hệ thống: Tiến hành hiện thực các mô-đun trong hệ thống.

Chương 7 Thí nghiệm và đánh giá: Tiến hành huấn luyện, đề xuất phương pháp đánh giá và

tiến hành đánh giá từ kết quả đạt được

Chương 8 Tổng kết: Tổng kết toàn bộ các công việc trong quá trình làm luận văn, các kết quả

đạt được và nêu ra khó khăn cũng như phướng hướng phát triển trong tương lai

Trang 19

Chương 2

Kiến thức nền tảng

2.1 Các kiến thức cơ bản về học máy, học sâu

2.1.1 Mạng nơ-ron nhân tạo (Artificial Neural Nework - ANN)

Hình 2.1: Cấu trúc của một nơ-ron Nguồn [2]

Mạng nơ-ron nhân tạo hay còn gọi ngắn gọi là mạng nơ-ron được lấy cảm hứng từ cấu tạo của

bộ não con người Bộ não con người chúng ta có khoảng hơn 10 triệu nơ-ron, mỗi nơ-ron cókhoảng 7 ngàn liên kết đến các nơ-ron khác [3] Mỗi nơ-ron chứa phần thân (cell body) là trungtâm xử lý của nơ-ron, sợi nhánh (dendrite) nhận tín hiệu từ các nơ-ron khác truyền đến và sợitrục (axon) nhận tín hiệu được xử lý từ phần thân và truyền tín hiệu đến các nơ-ron lân cận.Mỗi nơ-ron nhận tín hiệu từ các nơ-ron khác đưa qua trung tâm xử lý, nếu năng lượng đủ lớn

Trang 20

sẽ qua sợi trục và truyền đến các nơ-ron tiếp theo, ngược lại nơ-ron sẽ bị triệt tiêu và các nơ-ronsau sẽ không nhận được tín hiệu.

Sự ra đời của Mạng nơ-ron nhân tạo đã giải quyết được bài toán về toán tử XOR (được xem

là mùa đông AI lần thứ nhất) vào những năm 1970 Mạng nơ-ron nhân tạo với nhiều lớp ẩn(hidden layers) đã chứng minh rằng có thể biểu diễn xấp xỉ được các quan hệ phi tuyến kết hợpcùng với các hàm kích hoạt (activation function) nhằm giải quyết được nhược điểm của giảithuật học Perceptron (Perception learning algorithm) chỉ biểu diễn được các mối quan hệ tuyếntính

Kiến trúc của mạng nơ-ron nhân tạo gồm ba phần chính:

• Tầng đầu vào (input layer): Đại diện cho đầu vào của mạng

• Tầng ẩn (hidden layer): Nằm giữa tầng đầu vào và tầng đầu ra, gồm các suy luận logic cótác dụng trích xuất các thông tin quan trọng từ tầng đầu vào giúp mô hình đưa ra quyếtđịnh Một mạng nơ-ron nhân tạo có thể gồm một hoặc nhiều tầng ẩn

• Tầng đầu ra (output layer): Đại diện cho đầu ra của mạng

Hình 2.2: Mạng nơ-ron nhân tạo cơ bản Nguồn [4]

Như Hình 2.2, đây là một mạng nơ-ron nhân tạo cơ bản gồm tầng đầu vào (gồm 3 nơ-ron),một tầng ẩn (gồm 4 nơ-ron) và một tầng đầu ra (gồm 2 nơ-ron) Các nơ-ron nhận tín hiệu củacác nơ-ron tầng trước đó và thực hiện các phép tính toán, sau đó truyền tín hiệu đến các nơ-ron

ở tầng sau đó nếu năng lượng đủ lớn (ngược lại sẽ bị triệt tiêu) Giá trị của các nơ-ron được tínhtoán bằng tổng các tích giữa tín hiệu đầu vào và trọng số của nó và cộng một thêm giá trị bias

Và thông thường sẽ được qua thêm một hàm kích hoạt (activation function)

Trang 21

hệ số bias, σ là hàm kích hoạt Hàm kích hoạt thường được dùng là các hàm kích hoạt phi tuyến,

có mục đích chuẩn hóa và đảm bảo đầu ra của tính toán là phi tuyến tính

Hàm kích hoạt phi tuyến (Non-linear activation function)

Trong mạng nơ-ron nhân tạo, hàm kích hoạt là một hàm để xác định một nơ-ron nên đượckích hoạt (fired) hay không Song, hàm kích hoạt còn giúp chuẩn hóa đầu ra của quá trình tínhtoán trên các nơ-ron

Hình 2.3: Các hàm kích hoạt phi tuyến thông dụng (a) Hàm Sigmoid, (b) Hàm Tanh, (c) HàmReLU, (d) Hàm Leaky ReLU Nguồn [5]

.Một số hàm kích hoạt phổ biến:

• Hàm Sigmoid được tính bởi công thức như sau:

Trang 22

đề của hàm sigmoid là có thể gây ra hiện tượng triệt tiêu đạo hàm (kill gradient) khi giátrị của đầu ra của nơ-ron quá lớn hoặc quá nhỏ, dẫn đến không thể cập nhật được trọng số

Hàm tanh là một hàm tuyến tính với hàm sigmoid Tuy nhiên, nó biến một giá trị bất kì

về khoảng (−1, 1) Hàm tanh cũng gặp vấn đề triệt tiêu đạo hàm (kill gradient) như hàmsigmoid

• Hàm Rectified Linear Units (ReLU) được đề xuất với công thức như sau:

đó với một hằng số α nhỏ (thường là 0.01) Nhưng trên thực tế, Leaky RELU vẫn chưathật sự đưa ra kết quả thống nhất nên vẫn chưa được dùng phổ biến

• Hàm Softmax là một hàm biến không gian K chiều của các giá trị bất kì thành khônggian K chiều với các giá trị trong khoảng (0, 1) và tổng các giá trị trong không gian bằng

1 Hàm này có thể đại diện như một phân phối xác suất K biến, đảm bảo giá trị Ki cànglớn thì xác suất rơi vào khả năng i càng cao và ngược lại Hàm kích hoạt này thường được

Trang 23

đặt ở tầng đầu ra để biểu diễn xác suất thuộc về mỗi class (lớp) Hàm được biểu diễn bởicông thức toán học:

Thành phần không thể thiếu của phép tích chập là bộ lọc (kernel hay filter) Bộ lọc này bảnchất chỉ là một ma trận chứa các tham số và bộ tham số này là tham số có thể huấn luyện được(trainable parameter) Mỗi bộ lọc là một ma trận thường có kích thước nhỏ W × H × C (tùytheo quy ước của các thư viện hỗ trợ tính toán) Trong đó W , H, C lần lượt là chiểu rộng, chiềucao và chiều sâu của bộ lọc Mỗi bộ lọc sẽ có một điểm neo, thông thường là tâm của bộ lọc.Điểm neo này sẽ quyết định vùng ảnh hưởng mà bộ lọc áp lên để thực hiện phép tích chập Mỗilần thực hiện, bộ lọc sẽ trượt lần lượt theo chiều ngang (từ trái qua phải) và chiều dọc (từ trênxuống dưới) Tại mỗi vùng, giá trị tại điểm neo sẽ được tính toán và tổng hợp bằng cách tínhtích vô hướng (element-wise multiplication) giữa bộ lọc với vùng ảnh hưởng tương ứng Sau đótổng hợp bằng một phép tính tổng các giá trị đầu ra Hình 2.4 bên dưới minh họa phép tích chậptrên ảnh đầu vào là ảnh xám có kích thước 5 × 5, bộ lọc với kích thước 3 × 3

Cụ thể trong xử lý ảnh, phép tích chập trên miền không gian 2 chiều rời rạc (two-dimensionaldiscrete domain) được biểu diễn bằng công thức toán học như sau:

Iconv′ (u, v) = (I ∗ Hconv)(u, v) =

conv(u, v) là kết quả của phép tính tích chập

Do tính chất kết nối cục bộ (Local connectivity), thông tin của các điểm trong vùng ảnhhưởng được tổng hợp vào điểm neo (tâm của kernel), do đó ảnh hưởng đến kích thước ma

Trang 24

Hình 2.4: Minh họa phép tính tích chập trên ma trận ảnh xám Nguồn [6].

trận đầu ra Để kiểm soát kích thước đầu ra của phép tích chập, chúng ta có 4 siêu tham số(hyperparameter) [7] Cụ thể:

• Kích thước bộ lọc: Kích thước này quyết định đến diện tích vùng ma trận đầu vào chịu ảnh

hưởng khi thực hiện tích chập Kích thước bộ lọc càng lớn thì vùng ảnh hưởng cũng cànglớn, kéo theo khối lượng tính toán cũng lớn theo Thông thường kích thước này thườngnhỏ, kích thước lẻ và là ma trận vuông (mục đích để thông tin tổng hợp được dồn vào tâm)như là 3 × 3, 5 × 5, 7 × 7,

• Stride: Xác định độ dài bước trượt giữa các lần tính tích chập Ví dụ với stride = 1 thì bộ lọc sẽ trượt trên ảnh theo từng điểm ảnh, với stride = 2 thì sẽ trượt qua 2 điểm ảnh Bước

trượt càng lớn thì ma trận đầu ra càng nhỏ ứng với lượng thông tin được trích xuất ít hơn

• Padding: Thông số này quyết định đến kích thước của ma trận đầu ra Do sự chênh lệch

về kích thước giữa ma trận đầu vào và bộ lọc cũng như tính chất cục bộ đã đề cập ở trên,

mà ma trận đầu ra thường có kích thước nhỏ hơn Để giải quyết vấn đề này, padding sẽ

mở rộng ma trận đầu vào bằng cách chèn thêm xung quanh viền (thêm lề) các con số

Có nhiều phương pháp padding như hằng số (constant), phản chiếu (reflect), số không(zeros) Thông thường phương pháp zero-padding được dùng nhiều trong các mô hình bởi

tính đơn giản và hiệu quả của nó Như trong Hình 2.4 thì ở đây không sử dụng padding.

Trang 25

• Depth: Hay còn gọi là số kênh (channel) Đây là thông số nói lên độ sâu của lớp tích chập.

Số lượng ma trận đầu ra phụ thuộc vào số kênh của bộ lọc Mỗi channel chính là một bộ lọc Mỗi channel sẽ cho ra một các ma trận đầu ra tương ứng.

2.1.3 Phép tính tích chập chuyển vị (Transposed Convolution)

Phép tích chập chuyển vị là phép tính giúp khôi phục lại không gian kích thước dữ liệu và tínhliên kết của các đặc trưng của ma trận đặc trưng được sinh ra từ phép tích chập thông thường(convolution) Cách thức thực hiện tính toán của phép tích chập chuyển vị hoàn toàn giống vớiphép tích chập thông thường và cũng được định nghĩa thông qua bốn siêu tham số là kích thước

bộ lọc (size), bước trượt (stride), lề (padding) và kênh (depth/channel), nhưng có một vài điểmkhác nhau cơ bản như sau:

• Tích chập thông thường: Rút trích đặc trưng từ dữ liệu đầu vào, đồng thời thu hẹp về kích

thước không gian nhỏ hơn (downsampling)

• Tích chập chuyển vị: Khôi phục lại không gian kích thước của dữ liệu ban đầu mà vẫn giữ

tính liên kết của các đặc trưng (upsampling)

Hình 2.5: Minh họa phép tính tích chập chuyển vị Nguồn [8]

Một điểm cần lưu ý, đó là phép tích chập chuyển vị không phải là phép tích chập nghịch đảo(deconvolution) Vì bản chất, chúng giống nhau về cách thức thực hiện và đều khôi phục lại matrận đặc trưng về không gian kích thước ban đầu, nhưng khác nhau về giá trị Trong khi phéptích chập chuyển vị chỉ nhằm khôi phục lại kích thước và tính liên kết giữa các đặc trưng trướckhi đưa vào lớp tích chập, thì phép tích chập nghịch đảo nhằm khôi phục lại toàn bộ cả khônggian kích thước lẫn giá trị của các đặc trưng của dữ liệu ban đầu Chi tiết về cách thức hoạt độngcũng như sự khác nhau giữa các phép tích chập được trình bày chi tiết hơn trong tài liệu [8]

Trang 26

Phép tích chập chuyển vị là xương sống trong các thuật toán phân đoạn ảnh (image tation) và siêu phân giải (super-resolution), hoặc các kiến trúc mạng có cầu trúc phiên mã - dịch

segmen-mã (encoder - decoder) vì những thuật toán và kiến trúc như vậy có thể rút trích được thông tintoàn cục trong quá trình phiên mã, đồng thời sử dụng phép tích chập chuyển vị để "tái cấu trúc"lại ảnh với độ phân giải ban đầu trong quá trình dịch mã

2.1.4 Phép hợp nhất (Pooling)

Phép hợp nhất (pooling) giúp giảm kích thước của đầu ra của các tầng mạng nhằm giảm sốlượng tính toán, tham số cho mô hình và dễ kiểm soát được vấn đề quá khớp (overfitting).Thông thường phép pooling được chèn vào giữa các lớp tích chập trong kiến trúc mạng Hìnhthức được áp dụng phổ biến nhất của phép pooling là max pooling với kích thước kernel là 2 × 2

và stride bằng 2 để giảm kích thước của ma trận đại diện (representation matrix) hai lần theo cảchiều rộng (width) và chiều cao (height), đồng thời bỏ qua 75% các hàm kích hoạt

Hình 2.6: Phép pooling Nguồn [9]

Phép pooling hoạt động độc lập trên từng vùng dữ liệu đầu vào tương tự như phép tích chập.Phép pooling thường được sử dụng nhất trong các mô hình Deep Learning là max pooling (giátrị lớn nhất trong từng vùng dữ liệu) được thể hiện trong Hình 2.6 Ngoài ra, còn có một số phéppooling khác như nhỏ nhất (min), trung bình (mean), chuẩn hóa L2 norm,

2.1.5 Batch Normalization (BatchNorm)

Trong các mô hình deep learning, dữ liệu đầu vào thường không có cùng miền giá trị, dẫn đến

mô hình có thể học thiên vị về một số đặc trưng nhất định Vì thế, cần chuẩn hóa dữ liệu về

Trang 27

cùng một miền giá trị nhất định để mô hình xem các đặc trưng có vai trò như nhau Tuy nhiên,chuẩn hóa dữ liệu chỉ mới được áp dụng với dữ liệu đầu vào Tác giả Sergey Ioffe và ChristianSzegedy đã đề xuất một phương pháp (được gọi là Batch Normalization) để có thể chuẩn hóa

dữ liệu trên các tầng ẩn

Batch Normalization giúp chuẩn hóa dữ liệu trước khi qua đưa qua tầng tiếp theo Norm giúp cho mô hình hội tụ nhanh hơn và có thể đào tạo mô hình với learning rate lớn

Batch-Hình 2.7: Batch normalization Nguồn [10]

BatchNorm thực hiện chuẩn hóa dữ liệu bằng cách lấy giá trị ban đầu trừ đi giá trị trungbình rồi chia cho độ lệnh chuẩn (có thể thêm một hằng số epsilon để tránh việc phải chia cho 0).Cuối cùng, BatchNorm tối ưu hệ số scale và shift bên trong quá trình đào tạo nhằm đưa các dữliệu kiểm thử về cùng một phân phối để quá trình suy luận tốt hơn Lưu ý, trong quá trình đánhgiá mô hình sẽ không cật nhật giá trị scale và shift Chi tiết được thể hiện trong Hình 2.7.Ngoài ra, còn có một số cách chuẩn hóa khác như Layer Normalization, Instance Normal-ization, Group Normalization,

2.1.6 Mạng nơ-ron tích chập (Convolutional Neural Nework - CNN)Vấn đề với mạng nơ-ron kết nối đầy đủ

Trang 28

Qua mô tả và phân tích về mạng nơ-ron kết nối đầy đủ như trên, chúng ta sẽ thấy một vấn

đề Giả sử ảnh đầu vào là ảnh màu có kích thước 200 × 200 điểm ảnh, được biểu diễn dưới dạngmột tensor ba chiều 200 × 200 × 3 Do đó, để thể hiện hết nội dung bức ảnh, ta phải duỗi thẳngtấm ảnh thành một vector (xem mỗi kênh màu của mỗi pixel trong ảnh là một đặc trưng) vàtruyền vào input layer với tất cả 200 × 200 × 3 = 120000 đặc trưng Chỉ mới xét tầng đầu vào

đã cần tới 120000 đặc trưng Giả sử ở tầng ẩn thứ nhất, ta có 1000 nơ-ron, khi đó số lượng trọng

số cùng với bias giữa lớp đầu vào và lớp ẩn đầu tiên là 120000 × 1000 + 1000 = 120001000 Đómới chỉ là số lượng trọng số cho lớp đầu tiên Hơn nữa, khi kích thước ảnh tăng, hoặc kiến trúcmạng với số lớp ẩn cũng như số nơ-ron trên một lớp tăng lên (tức mạng sâu hơn), thì số lượngtrọng số còn tăng nhanh hơn nữa Với lượng trọng số khổng lồ như vậy, thì việc sử dụng mạngnơ-ron kết nối đầy đủ là điều không khả thi, cần giải pháp tốt hơn

Với dữ liệu hình ảnh, ta có một số nhận xét như sau, các lớp trong mạng nơ-ron có tác dụngrút trích thông tin quan trọng trong hình ảnh Hơn nữa các điểm ảnh ở gần nhau thường liên kếtvới nhau hơn là các điểm ảnh ở xa nhau Phép tính tích chập định nghĩa ở trên cũng có tác dụngrút trích đặc trưng của dữ liệu hình ảnh, hơn nữa nó còn có thể chia sẽ trọng số Do vậy, việc ápdụng các lớp tích chập vào mạng nơ-ron có thể giải quyết được vấn đề bùng nổ trọng số nhưngvẫn rút trích được đặc trưng của ảnh một cách hiệu quả Nhờ đó, khối lượng trọng số và tínhtoán của các kiến trúc mạng lớn sẽ được thu giảm rất đáng kể

Trang 29

• Phần phân lớp (Classification): Phần này tiến hành thực hiện phân lớp dựa trên các đặctrưng được rút trích được từ phần trích xuất đặc trưng.

Cũng giống như mạng nơ-ron đầy đủ, mạng nơ-ron tích chập cũng sử dụng một hàm kíchhoạt tại mỗi đầu ra của lớp tích chập Các hàm kích hoạt thường được sử dụng là hàm ReLUhoặc hàm Tanh Hàm kích hoạt này mục đích cũng là để phá vỡ tính chất tuyến tính của các đặctrưng, giúp cho mạng rút trích đặc trưng tốt hơn

Ngoài ra, một lớp rất quan trọng trong phần này đó là lớp hợp nhất (pooling) Các lớp hợpnhất này có thể là max pooling hoặc mean pooling Chúng được sử dụng giữa các lớp tích chập,mục đích đề giảm kích thước dữ liệu nhưng vẫn giữ được các đặc trưng quan trọng Nhờ đó,giảm thiểu số lượng tham số và thời gian tính toán của mô hình

Phần phân lớp

Trong phần phân lớp, mô hình thường sử dụng là dùng các lớp kết nối đầy đủ (fully connectedlayer) nhằm thực hiện phân lớp dựa trên các đặc trưng đã được rút trích từ phần trích xuất đặctrưng Do ràng buộc đầu vào của các lớp kết nối đầy đủ là một vector, nên ma trận đặc trưngthu được cần phải được duỗi thẳng (flattening) thành vector một chiều Các lớp kết nối đầy đủnày hoạt động như một mạng nơ-ron bình thường Sau quá trình lan truyền tín hiệu trong mạng,

cuối cùng đầu ra sẽ đi qua hàm softmax để thu được một phân phối xác suất, thể hiện xác suất

đối tượng thuộc về loại đối tượng nào

2.1.7 Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN)

Trong mạng nơ-ron nhân tạo truyền thống và mạng nơ-ron tích chập, các điểm dữ liệu là rời rạc

và độc lập với nhau, tức kết quả đầu ra của điểm dữ liệu này không ảnh gì tới đầu ra của điểm

Trang 30

dữ liệu khác Do đó chúng có thể được huấn luyện độc lập hoặc đồng thời (theo bó) với nhau,giúp tăng tốc quá trình huấn luyện Những kiểu mạng này được gọi là Feedforward Network.Tuy nhiên, kiểu mạng này không phù hợp với các bài toán mà dữ liệu có tính chất dạng chuỗituần tự, liên kết với nhau Ví dụ nếu muốn đoán từ tiếp theo có thể xuất hiện trong câu thì thôngtin của các từ liền trước là rất quan trọng, vì từ sau chắc chắn phụ thuộc ít nhiều vào ngữ cảnhcủa các từ trước đó Hoặc bài toán dự đoán hành động trong video, thứ tự và ngữ cảnh của cáckhung hình phụ thuộc vào nhau rất nhiều Một khung hình không có ý nghĩa, nhưng một chuỗi

có thứ tự các khung hình mới đủ thông tin nói lên hành động trong video đó Và để giải quyếtcác bài toán với kiểu dữ liệu này, mạng nơ-ron hồi quy ra đời

Ý tưởng chính của mạng nơ-ron hồi quy (Recurrent Neural Network) chính là sử dụng chuỗicác thông tin liên kết tuần tự với nhau Nói cách khác, mạng nơ-ron hồi quy có khả năng nhớcác dữ liệu xuất hiện trước nó, kết hợp với dữ liệu hiện tại để tính toán ra kết quả Mỗi điểm dữliệu sẽ bao gồm nhiều bước (step), mỗi bước sẽ được đưa lần lượt có thứ tự vào mạng, đầu racủa bước trước sẽ được kết hợp với dữ liệu của bước hiện tại được đưa vào mạng để xử lý chođến bước cuối cùng

Mạng nơ-ron hồi quy có cấu trúc như sau:

Hình 2.9: Mô hình mạng RNN cơ bản Nguồn [12]

Mô hình trên là một dạng triển khai đơn giản của mạng nơ-ron hồi quy Trong đó, việc tínhtoán được thực hiện như sau [13]:

• xtlà đầu vào tại bước thứ t

• st là trạng thái ẩn tại bước thứ t Nó chính là bộ nhớ của mạng RNN st được tính toándựa trên cả trạng thái ẩn phía trước nó và dữ liệu đầu vào tại bước thứ t Ta có công thức

Trang 31

như sau:

s0 = 0, st = f (U xt+ W st−1+ bs) (2.8)Với U và W là ma trận trọng số của mạng, bs là độ lệch, t >= 1 Hàm f được sử dụng

thường là một hàm kích hoạt phi tuyến như tanh hay ReLU.

• otlà đầu ra tại bước thứ t:

ot= V st+ bo (2.9)Với V là ma trận trọng số của mạng, bo là độ lệch

• Từ giá trị đầu ra ot, tùy vào tính chất bài toán, chúng ta có thể tính giá trị dự đoán ˆyt Ví

dụ trong bài toán phân lớp, ˆytchính là giá trị xác suất biểu diễn khả năng đối tượng thuộc

vào lớp đó sau khi đi qua hàm softmax:

ˆt= sof tmax(ot) (2.10)

Mạng RNN được áp dụng phổ biến và đạt được nhiều kết quả trong các bài toán như Chuyểngiọng nói sang văn bản (Speech to text), Phân loại sắc thái cho các bình luận (Sentiment classi-fication), Bài toán dịch tự động giữa các ngôn ngữ (Machine translation), Nhận diện hành độngtrong video (Video recognition), Dự đoán đột quỵ tim (Heart attack)

2.1.8 Mạng nơ-ron tích chập trên đồ thị (GNN)

2.1.8.1 Lý thuyết đồ thị

Đồ thị là một cấu trúc rời rạc, gồm một tập hợp các đỉnh (hoặc nút) nối với nhau bởi các cạnh(hoặc cung) Có nhiều loại cấu trúc đồ thị khác nhau tùy thuộc vào tính chất Từ đó, mỗi đồ thịgiúp biểu diễn và giải quyết các bài toán khác nhau

Định nghĩa

Một đồ thị G = (V, E) bao gồm một tập V không rỗng chứa hữu hạn các đỉnh (node) vàmột tập E là tập hữu hạn các cạnh (edge) nối giữa các đỉnh [14]

Phân loại đồ thị

Tùy thuộc vào tính chất, cấu trúc mà đồ thị được phân thành các loại:

• Đồ thị vô hướng hay có hướng (có hay không chiều của các cạnh nối)

Trang 32

Hình 2.10: Hình ảnh minh họa một đồ thị vô hướng không chu trình Nguồn [14].

• Đơn đồ thị hay đa đồ thị (có hay không nhiều cạnh xuất phát từ cùng một đỉnh và kết thúccũng cùng một đỉnh)

• Đồ thị có chu trình hay không có chu trình (tồn tại hay không một con đường xuất phát

và về đích tại cùng một đỉnh)

Các khái niệm về cấu trúc của đồ thị (Graph topology)

• Bậc của đỉnh (Degree): Là số cạnh kết nối với một nút Nó là một tham số cơ bản ảnh

hưởng đến các đặc điểm khác, chẳng hạn thể hiện vị trí trung tâm của nút đó trong đồ thị.Tham số này cũng chỉ ra đồ thị đã cho có mật độ thưa hay dày đặc, từ đó chọn cách thứcbiểu diễn phù hợp Trong đồ thị có hướng, bậc còn được chia thành bậc ra (out-degree)

và bậc vào (in-degree), trong đó bậc ra thể hiện cạnh xuất phát từ đỉnh nào và bậc vào thểhiện cạnh kết thúc tại đỉnh nào

• Trọng số của cạnh (Weight): Tham số thể hiện mức độ kết nối của hai đỉnh trong đồ thị.

Thông thường, thông tin về quan hệ giữa hai đỉnh trong đồ thị sẽ được số hóa và thể hiệndướ dạng trọng số của cạnh

• Khuyên (Loop): Hay còn gọi là vòng cung, là cạnh xuất phát và kết thúc tại cùng một

đỉnh Đôi khi cạnh đặc biệt này cũng có tham số

• Đường đi ngắn nhất (Shortest path): Là khoảng cách ngắn nhất giữa hai đỉnh trong đồ

thị Tham số này được sử dụng để mô hình hóa cách thông tin luân chuyển trong đồ thị

Biểu diễn đồ thị

Trang 33

Trong lý thuyết đồ thị, biểu diễn đồ thị là một kỹ thuật lưu trữ thông tin của đồ thị trong bộnhớ máy tính Trong toán học, đồ thị được biểu diễn bằng tập hợp các đỉnh và tập hợp các cạnhnối giữa các đỉnh, các cạnh thể là vô hướng hoặc có hướng, có thể có trọng số hoặc không cótrọng số Trong máy tính, có nhiều cách khác nhau để biểu diễn đồ thị, phụ thuôc vào mật độcác cạnh, thao tác thực hiện trên đồ thị.

• Ma trận liền kề: Là một ma trận vuông kích kích thước N × N , trong đó N là số đỉnh

của đồ thị Giá trị điểm giao giữa các hàng và cột là 1 khi có cạnh nối giữa hai đỉnh (chính

là chỉ số hàng và cột), ngược lại là 0 Tùy vào đồ thị vô hướng hay có hướng, mà ma trận

kề là ma trận đối xứng hoặc không (Hình 2.11)

Hình 2.11: Biểu diễn đồ thị bàng ma trận kề Nguồn [15]

Nếu là đồ thị mà các cạnh có trọng số, thì các giá trị 1 sẽ được thay thế bằng chính trọng

số của cạnh nối giữa hai đỉnh đấy

• Ma trận liên thuộc Là ma trận có số hàng bằng số đỉnh (V ), số cột bằng số cạnh (E) của

đồ thị Giá trị trong ma trận được điền bằng các giá trị −1, 0, 1 (Hình 2.12) Trong đó, với

A là ma trận liên thuộc, i là chỉ số hàng, j là chỉ số cột, ta có:

– Aij = −1 Cạnh j có hướng và đi vào đỉnh i

– Aij = 0 Cạnh j không đi qua đỉnh i

– Aij = 1 Cạnh j có hướng và đi ra từ đỉnh i

• Danh sách kề Được hiện thực là môt danh sách liên kết, trong đó mỗi đỉnh của đồ thị sẽ

giữ một danh sách các đỉnh nối với nó (có hướng hoặc vô hướng) Đỉnh không có cạnh

Trang 34

Hình 2.12: Biểu diễn đồ thị có hướng bằng ma trận liên thuộc Nguồn [15].

liên kết (trong đồ thị vô hướng) hoặc không có cạnh ra (trong đồ thị vô hướng) thì danhsách liên kết mà đỉnh đó giữ sẽ là danh sách rỗng (Hình 2.13)

Hình 2.13: Biểu diễn đồ thị bằng danh sách kề Nguồn [15]

2.1.8.2 Mạng nơ-ron tích chập trên đồ thị

Ngày nay, mạng nơ-ron tích chập trên đồ thị đã và đang được phát triển rất mạnh mẽ và đượcứng dụng nhiều trong các bài toán thực tế như trong Phân tích mạng xã hội, Hệ thống gợi ý, Mạng nơ-ron tích chập trên đồ thị đã chứng minh được vị thế của mình với việc diễn giải dữliệu trực tiếp trên đồ thị Trong khi các mạng khác như Mạng nơ-ron nhân tạo, Mạng nơ-rontích chập hay Mạng rơ-ron hồi quy không thể trích xuất trực tiếp thông tin từ dữ liệu không cócấu trúc như trên đồ thị

Mạng nơ-ron tích chập trên đồ thị là một mạng nơ-ron có thể trích xuất được những sự liênkết hay phụ thuộc của đồ thị Hiện nay, mạng nơ-ron tích chập trên đồ thị đang tồn tại hai hướngtiếp cận chính là Mạng nơ-ron tích chập đồ thị trên miền tần số (Spectral-based GCN) và Mạngnơ-ron tích chập đồ thị trên miền không gian (Spatial-based GCN) Mạng nơ-ron tích chập đồthị trên miền tần số định nghĩa các phép tích chập dựa trên lý thuyết về quang phổ Trong khi,

Trang 35

Mạng nơ-ron tích chập đồ thị trên miền không gian lại xây dựng phép tích chập bằng cách tổnghợp thông tin từ các đỉnh láng giềng Một nhược điểm lớn nhất của cách tiếp cận dựa trên quangphổ (Spectral-based approach) là yêu cầu xử lý đồng thời cả đồ thị, điều này gây nhiều khókhăn với những đồ thị có kích thước lớn Ngược lại, tiếp cận dựa trên không gian (Spatial-basedapproach) thực hiện phép tích chập trực tiếp trên đồ thị bằng cách tổng hợp thông tin từ các đỉnhláng giềng, cơ chế này giúp cho mô hình có thể thực hiện tính toán trên từng vùng nhỏ thay vì

cả một đồ thị

Mạng tích chập đồ thị trên miền tần số

Quang phổ nghe trông có vẻ phức tạp, nhưng nó đơn giản là một phép phân rã (decomposing)một tín hiệu (signal) thành nhiều thành phần Các thành phần này thường trực giao, tức là độclập tuyến tính với nhau Trong mạng nơ-ron tích chập đồ thị trên miền tần số, quang phổ đượcngầm định như một phép phân rã trị riêng (eigen-decomposition) của một đồ thị Laplacian(graph Laplacian) Nói một cách dễ hiểu, đồ thị Laplacian được xem như một ma trận liền kềđược chuẩn hóa (normalize) một cách đặc biệt, trong khi phép phân rã trị riêng là một cách đểtìm các thành phần trực giao tạo nên đồ thị Để thực hiện các phép tính toán trong miền tần số(frequence), đầu tiên đồ thị phải được chuyển từ miền không gian sang miền tần số Với xử lýảnh thông thường, để chuyển một tín hiệu từ miền không gian sang tần số, chúng ta chỉ cần nhân

nó với một ma trận Discrete Fourier Transform (DFT) Thay vào đó, đối với đồ thị, nó được biếnđổi thông qua công thức:

Trong đó V là ma trận vector riêng, Λ là ma trận trị riêng và L là đồ thị Laplacian

Phép tích chập quang thổ được định nghĩa thông qua công thức:

Trong đó Xkvà W(l)lần lượt là ma trận đặc trưng đỉnh (node feature) và trọng số tại lớp thứ k,

và V là ma trận trị riêng, ◦ là phép nhân vô hướng

Mạng tích chập đồ thị trên miền không gian

Mạng tích chập đồ thị không gian thực hiện phép tích chập bằng cách tổng hợp thông từcác láng giềng thông qua cơ chế truyền thông điệp (message passing) và tổng hợp thông tin(aggregation)

Trang 36

Truyền thông điệp hoạt động bằng cách truyền các thông tin từ các đỉnh lân cận đến đỉnhtrung tâm thông qua cạnh liên kết giữa hai đỉnh Sau đó, các thông tin này được tổng hợp vàođỉnh trung tâm thông qua một hàm tổng hợp (aggregation function) Một cách toán học, cơ chếnày được thể hiện bởi công thức:

2.1.9 Các hiện tượng thường gặp trong học máy, học sâu

2.1.9.1 Hiện tượng Overfitting

Trong học máy, một mô hình tốt là một mô hình có tính tổng quát, tức mô tả được đặc trưng,

xu hướng của dữ liệu cả trong lẫn ngoài tập dữ liệu huấn luyện Tuy nhiên trong quá trình huấnluyện mô hình, chúng ta quá mong muốn đạt được kết quả cao trong tập dữ liệu huấn luyện dễdẫn đến việc xây dựng mô hình bị Overfitting

Overfitting (Quá khớp) là một hiện tượng xảy ra trong quá trình huấn luyện một mô hìnhhọc máy, khi mà mô hình cố gắng mô tả tập dữ liệu huấn luyện (training data) hơn là trích xuấtcác đặc trưng từ chúng

Về cơ bản, Overfitting xảy ra khi mô hình quá phức tạp để mô phỏng tập dữ liệu huấn luyện.Điều này đặc biệt xảy ra khi lượng dữ liệu training quá nhỏ trong khi độ phức tạp của mô hìnhquá cao Trong mô hình mạng nơ-ron nhân tạo, độ phức tạp ở đây có thể được coi là số lượnglớp ẩn và số lượng nút bên trong từng lớp ẩn Mạng quá "sâu", tức quá phức tạp trong khi tập dữliệu huấn luyện nhỏ sẽ rất dễ dẫn đến Overfitting

Việc quá khớp này có thể dẫn đến dự đoán nhầm nhiễu và chất lượng mô hình không còn tốttrên tập dữ liệu kiểm tra (test data) hoặc với dữ liệu mới (unseen data)

Để tránh hiện tượng Overfitting, có rất nhiều kỹ thuật được sử dụng, điển hình như [16]:

• Validation: Ngoài việc chia tập dữ liệu ban đầu thành tập huấn luyện và tập kiểm tra,

chúng ta chia một lượng dữ liệu tạo thành tập kiểm thử (validation data) Mục đích củatập kiểm thử chính là để đánh giá chất lượng của mô hình đối với dữ liệu ngoài tập huấn

Trang 37

luyện trong quá trình huấn luyện mô hình Một khi chỉ số chất lượng này giảm, rất có thể

mô hình đang dần bị Overfitting

• Cross-validation: Là một cải tiến của validation với lượng dữ liệu trong tập kiểm thử là

nhỏ nhưng chất lượng mô hình được đánh giá trên nhiều tập kiểm thử khác nhau Mộtcách thường đường sử dụng là chia tập huấn luyện ra k tập con không có phần tử chung,

có kích thước gần bằng nhau Tại mỗi lần kiểm thử , một trong số k tập con được lấy ralàm tập kiểm thử Mô hình cuối được xác định dựa trên trung bình của các độ lỗi trên tậphuấn luyện và tập kiểm thử

• Dropout: Là một phương pháp tắt ngẫu nhiên các nút của các lớp ẩn trong mạng, tức cho

các nút đó giá trị không và tính toán như bình thường Việc này không những giúp lượngtính toán giảm đi mà còn làm giảm việc Overfitting [17]

• l2 regularization : Hay còn gọi là Weight decay, là việc thêm vào hàm mất mát (loss

function) một số hạng dùng để đánh giá độ phức tạp của mô hình Số hạng này càng lớn,

mô hình càng phức tạp Số hạng này được tính chính bằng norm 2 của bộ trọng số, không

tính bias Song song với việc tối ưu hàm mất mát, số hạng này cũng được tối ưu, giúp môhình tránh bị Overfitting

2.1.9.2 Hiện tượng Underfitting

Trái ngược với hiện tượng Overfitting là hiện tượng Underfitting, là khi mô hình xây dựng chưa

có độ chính xác cao trong tập dữ liệu huấn luyện cũng như chưa thể tổng quát hóa với tổng thể

dữ liệu Khi hiện tượng Underfitting xảy ra, mô hình sẽ không phải là tốt với bất kì bộ dữ liệunào trong bài toán đang xét

Hiện tượng Underfitting chủ yếu xảy ra khi mô hình cố gắng tổng quát hóa các dữ liệu phứctạp bằng các mô hình học máy đơn giản Ngoài ra, việc kết thúc sớm quá trình huấn luyện đểtránh Overfitting, cũng sẽ dễ dẫn đến mô hình bị Underfitting

Để tránh hiện tượng Underfitting, việc Tăng độ phức tạp của mô hình là điều tất yếu Điểnhình của việc này là tăng số lượng tham số của mô hình, hoặc thay đổi tính chất của mô hình từtuyến tính sang phi tuyến Song song với đó, việc điều chỉnh thời gian huấn luyện mô hình dựatrên các thông số, độ đo cũng rất quan trọng

Trang 38

2.2 Các kiến thức cơ bản về phương pháp đánh giá

2.2.1 Accuracy

Accuracy (độ chính xác) là phương pháp đánh giá cơ bản nhất và thường được sử dụng nhất.Cách đánh giá này được tính bằng tỉ lệ giữa tổng số dự đoán đúng trên tổng số điểm dữ liệutrong tập dữ liệu Tỉ số này càng cao, thể hiện mô hình hoạt động càng tốt

2.2.2 Ma trận nhầm lẫn

Nhằm khắc phục được vấn đề của phương pháp accuracy nói trên, một phương pháp đánh giá

mới được đề xuất nhằm đánh giá mô hình phân loại là Ma trận nhầm lẫn (confusion matrix).Phương pháp dùng bảng để mô tả hiệu suất của một mô hình phân loại trên tập dữ liệu đã biếtkết quả đúng, giúp ta có cái nhìn trực quan về hiệu suất các mô hình

Ma trận nhầm lẫn thể hiện rõ được từng điểm dữ liệu trong tập thực sự thuộc vào loại nào,được dự đoán rơi vào lớp nào Cụ thể như Bảng (2.1):

Trang 39

Ma trận bên trên chính là ma trận nhầm lẫn Nó là một ma trận vuông có kích thước đúng

bằng số lượng lớp dữ liệu Trong đó, hàng thứ i thể hiện tổng số điểm dữ liệu thực sự thuộc vào lớp i, cột thứ j thể hiện số lượng điểm dữ liệu được dự đoán thuộc về lớp j Tổng của các phần

tử trong toàn ma trận chính là số mẫu dữ liệu Các phần tử trên đường chéo chính là số điểm

được phân loại đúng của mỗi lớp Từ đây, ta có thể tính được accuracy bằng cách lấy tổng các

phần tử trên đường chéo chính chia cho tổng các phần tử trong toàn ma trận

2.2.3 Precision, Recall và F1-score

Độ chính xác (Precision) và Độ truy hồi (Recall) là phương pháp đánh giá hiệu quả mô hìnhphân lớp mà tập dữ liệu của các lớp chênh lệch nhau rất nhiều

Cụ thể hơn, giả sử ta đang xét bài toán phân loại nhị phân gồm 2 lớp: ung thư (positive),không ung thư (negative) Khi đó:

• Precision được định nghĩa là tỉ lệ số điểm thực sự Positive trong số những điểm được

phân loại là Positive

• Recall được định nghĩa là tỉ lệ số điểm được dự đoán đúng là Positive trong số những

điểm thực sự là Positive

Bảng 2.2: Ma trận nhầm lẫn cho bài toán phân loại 2 lớp: Positive và Negative

Predicted

Actual Positive True Position (TP) False Negative (FN)

Negative False Positive (FP) True Negative (TN)

Ta có Ma trận nhầm lẫn như Bảng 2.2, ta có các giá trị:

Trang 40

• Positive: Đối tượng được gán nhãn là Positive.

• Negative: Đối tượng được gán nhãn là Negative

• True Positive (TP): Đối tượng thuộc lớp Positive được dự đoán đúng là Positive

• False Negative (FN): Đối tượng thuộc lớp Positive được dự đoán sai là Negative

• False Positive (FP) Đối tượng thuộc lớp Negative được dự đoán sai là Positive

• True Negative (TN): Đối tượng thuộc lớp Negative được dự đoán đúng là Negative.Khi đó, công thức tính Precision và Recall theo định nghĩa như trên được xác định là:

P recision = TP

TP + FP Recall =

TP

TP + FN (2.15)Precision cao đồng nghĩa với việc độ chính xác của các điểm thuộc lớp Positive tìm được làcao Recall cao đồng nghĩa với việc tỉ lệ bỏ sót các điểm thực sự là Positive là thấp

Khi P recision = 1, mọi điểm tìm được đều thực sự là Positive, tức không có điểm Negativenào lẫn vào kết quả Tuy nhiên, P recision = 1 không đảm bảo mô hình đã tìm được tất cả cácđiểm Positive Nếu một mô hình chỉ tìm được đúng một điểm Positive mà nó chắc chắn nhất thì

ta không thể gọi nó là một mô hình tốt Tương tự, khi Recall = 1, mọi điểm Positive đều đượctìm thấy Tuy nhiên, đại lượng này lại không đo liệu có bao nhiêu điểm negative bị lẫn trong đó.Nếu mô hình phân loại mọi điểm là positive thì chắc chắn Recall = 1, tuy nhiên dễ nhận ra đây

là một mô hình cực kì không tốt Một mô hình tốt là một mô hình có sự hài hòa giữa 2 chỉ sốnày, và chúng phải cùng cao Khi đó ta cần thêm một phương pháp đánh giá nữa đó là F1-score.F1-score là hàm trung bình điều hòa của Precision và Recall, được tính bằng công thức:

F 1 = 2 ×precision × recall

precision + recall (2.16)F1-score có giá trị nằm trong khoảng (0, 1] F1-score cao khi cả Precision và Recall đều cao.Ngược lại, F1-score thấp khi ít nhất một trong hai phép đo Precision và Recall thấp F1-scorecàng cao, bộ phân lớp càng tốt

Tiêu đề	Xây Dựng Mô Hình Trích Xuất Thông Tin Trong Các Văn Bản Hành Chính
Tác giả	Nguyễn Hữu Thắng, Lê Cường Linh
Người hướng dẫn	TS. Trần Tuấn Anh, TS. Nguyễn Tiến Thịnh, ThS. Trần Hồng Tài
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn tốt nghiệp đại học
Năm xuất bản	2021
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	89
Dung lượng	3,87 MB