BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN NGỌC DUY SỐ HÓA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO Chuyên ngành KHOA HỌC MÁY TÍNH Mã chuyên ngành 8480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 Công trình được hoàn thành tại Trường Đại học Công nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học PGS TS Huỳnh Trung Hiếu Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Công nghiệp thành phố Hồ Chí Minh ngày 02 tháng.
Trang 1BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
NGUYỄN NGỌC DUY
SỐ HÓA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ
THUẬT TRÍ TUỆ NHÂN TẠO
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 8480101
LUẬN VĂN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022
Trang 2Công trình được hoàn thành tại Trường Đại học Công nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: PGS.TS Huỳnh Trung Hiếu
Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Công nghiệp thành phố Hồ Chí Minh ngày 02 tháng 03 năm 2022
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 PGS TS Nguyễn Hòa - Chủ tịch Hội đồng
2 TS Lê Thành Sách - Phản biện 1
3 TS Đặng Thị Phúc - Phản biện 2
4 TS Phạm Thị Thiết - Ủy viên
5 TS Lê Nhật Duy - Thư ký
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA/VIỆN
CÔNG NGHỆ THÔNG TIN
PGS TS NGUYỄN HÒA PGS TS HUỲNH TRUNG HIẾU
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN NGỌC DUY MSHV: 19000111
Ngày, tháng, năm sinh: 25/09/1991 Nơi sinh: Đồng Tháp
Chuyên ngành: Khoa học Máy tính Mã chuyên ngành: 8480101
I TÊN ĐỀ TÀI: SỐ HÓA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ THUẬT TRÍ
TUỆ NHÂN TẠO ………
NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu giải pháp số hóa dữ liệu
- Tiền xử lý dữ liệu dựa trên yêu cầu các bước và thực hiện các bước theo giải pháp
- Ứng dụng công cụ xử lý số hóa dữ liệu phiếu xét nghiệm covid19
- Phân tích kết quả và đưa ra hướng phát triển
II NGÀY GIAO NHIỆM VỤ: Theo Quyết định số 1032/QĐ-ĐHCN ngày
09/8/2021 về việc giao đề tài và cử người hướng dẫn luận văn thạc sĩ
III NGÀY HOÀN THÀNH NHIỆM VỤ: 09/02/2022
IV NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Huỳnh Trung Hiếu
Tp Hồ Chí Minh, ngày … tháng 3 năm 2022
Trang 4i
LỜI CẢM ƠN
Trong quá trình thực hiện luận văn cũng như trong những năm học vừa qua, Tôi đã nhận được sự chỉ bảo và hướng dẫn tận tâm của thầy PGS TS Huỳnh Trung Hiếu Lời đầu tiền tôi xin gửi tới thầy lời cảm ơn chân thành và sâu sắc nhất
Tôi xin chân thành cảm ơn tới các thầy, cô Khoa Công nghệ Thông tin, trường Đại học Công Nghiệp TP HCM đã tận tình dạy dỗ truyền đạt cho tôi những kiến thức chuyên sâu về chuyên ngành trong suốt thời gian học tập để tôi có được nền tảng kiến thức hỗ trợ rất lớn cho tôi trong quá trình làm luận văn thạc sĩ
Tôi cũng xin gửi lời cảm ơn chân thành đến thầy Lê Nhật Duy – Phó khoa Công nghệ thông tin đã hướng dẫn và giúp đỡ các biểu mẫu và quy trình hoàn thành đề tài luận văn từ khi bắt đầu đăng ký đề cương đến khi bảo vệ luận văn
Xin gửi lời cảm ơn đến thầy cô, cán bộ phòng Quản lý sau đại học đã tận tình giúp
đỡ, hỗ trợ tôi trong quá trình làm luận văn
Trong quá trình thực hiện, do hạn chế về kiến thức, kinh nghiệm cũng như thời gian nghiên cứu còn hạn chế, luận văn không thể tránh khỏi những sai sót
Tôi rất mong nhận được những ý kiến đóng góp của quý Thầy, Cô để luận văn được hoàn thiện hơn
Trân Trọng cảm ơn
Trang 5ii
TÓM TẮT LUẬN VĂN THẠC SĨ
Trong luận văn, tác giả nghiên cứu tiếp cận số hóa mẫu phiếu xét nghiệm Tiếp cận đề xuất dựa trên mô hình học sâu và sử dụng một số kỹ thuật hiện đại, luận văn bao gồm các bước: Bước 1 - Sử dụng thuật toán Yolov4 (You only look once version 4) xây dựng công cụ trích xuất đối tượng id, tên xét nghiệm, phương pháp, kết quả xét nghiệm trên đối tượng phiếu xét nghiệm Bước 2 - Sử dụng tiếp cận CTPN (Connectionist Text Proposal Network) trích xuất ảnh chứa văn bản từ những đối đượng id, tên xét nghiệm, phương pháp, kết quả Bước 3 - Sau khi đã có đối tượng ảnh chứa văn bản, tác giả sử dụng tiếp cận Tranformer OCR để nhận dạng ký tự từ các đối tượng ảnh text
Trang 6iii
ABSTRACT
In this thesis, author investgated in digitailizing medical test The proposed approach
is based on deep learning model and using modern techniques, it includes steps: Step
1 - Using Yolov4 (You only look once version 4) to detection object id, test name, method, test result on the test form object Step 2 - Using the CTPN (Connectionist Text Proposal Network) to extract text images from the id, test names, methods, and results Step 3 - After having the text image object, use the Transformer OCR algorithm is applied to recognize characters from the text image objects
Trang 7iv
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi Các kết quả nghiên cứu và các kết luận trong luận văn là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Học viên
(Chữ ký)
NGUYỄN NGỌC DUY
Trang 8v
MỤC LỤC
LỜI CẢM ƠN i
TÓM TẮT LUẬN VĂN THẠC SĨ ii
ABSTRACT iii
LỜI CAM ĐOAN iv
MỤC LỤC v
DANH MỤC HÌNH ẢNH viii
DANH MỤC BẢNG BIỂU xi
DANH MỤC TỪ VIẾT TẮT xii
MỞ ĐẦU 1
1 Đặt vấn đề 1
2 Mục tiêu nghiên cứu 1
2.1 Mục tiêu nghiên cứu tổng quát 1
2.2 Mục tiêu nghiên cứu cụ thể 1
3 Đối tượng và phạm vi nghiên cứu 2
3.1 Đối tượng 2
3.2 Phạm vi nghiên cứu 2
4 Cách tiếp cận và phương pháp nghiên cứu 2
4.1 Cách tiếp cận 2
4.2 Thời gian nghiên cứu 3
4.3 Địa điểm nghiên cứu 3
4.4 Vật liệu nghiên cứu 3
4.5 Phương pháp 3
5 Ý nghĩa thực tiễn của đề tài 3
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 5
1.1 Tổng quan về đề tài 5
1.2 Khó khăn thách thức 7
1.3 Đề xuất hướng giải quyết 7
CƠ SỞ LÝ THUYẾT 8
Trang 9vi
2.1 Nhận dạng đối tượng, nhận dạng ký tự OCR 8
2.1.1 Nhận dạng đối tượng 8
2.1.2 Nhận dạng ký tự 10
2.2 Các khái niệm, phương pháp tiền xử lý dữ liệu 10
2.2 YOLO 14
2.2.1 Các phiên bản YOLO 14
2.2.2 Kiến trúc YOLOv4 15
2.2.3 So sánh với các mô hình khác 18
2.3 CTPN 19
2.3.1 Kiến trúc CTPN 21
2.3.2 So sánh với các phương pháp khác 24
2.4 Tranformer OCR 26
2.4.1 Kiến trúc Tranformer OCR 27
2.5 Luận văn thạc sĩ “Đề tài Trí tuệ nhân tạo trong chuyển đổi số: ứng dụng hỗ trợ thu thập chỉ số đường huyết của thai phụ” của học viên Nguyễn Phạm Thanh Tâm 32
PHƯƠNG PHÁP ĐỀ XUẤT 35
3.1 Mô hình tổng quát 35
3.2 Thu thập dữ liệu 36
3.2.1 Tập dữ liệu phiếu xét nghiệm 36
3.2.2 Tập dữ liệu cho phát hiện văn bản 42
3.2.3 Tập dữ liệu cho OCR 46
3.2 Các bước xây dựng phương pháp 48
3.2.1 Phát hiện đối tượng trên phiếu xét nghiệm 48
3.2.2 Sử dụng CTPN phát hiện vùng chứa văn bản trên ảnh 49
3.2.3 Sử dụng Transformer OCR trích xuất văn bản 49
3.2.4 Quy trình thực nghiệm 50
THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ 51
4.1 Phát hiện đối tượng trên phiếu xét nghiệm bằng YOLOv4 51
4.2 Phát hiện ảnh chứa văn bản bằng CTPN 56
4.3 Nhận dạng ký tự tiếng việt bằng Transformer OCR 60
Trang 10vii
4.4 Đánh giá 65
TÀI LIỆU THAM KHẢO 68
PHỤ LỤC 70
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 71
Trang 11viii
DANH MỤC HÌNH ẢNH
Hình 2.1 Quy trình chung của bài toán nhận diện đối tượng 9
Hình 2.2 Quy trình chung của bài toán nhận diện ký tự OCR 10
Hình 2.3 Ví dụ minh họa Cutmix 11
Hình 2.4 Ví dụ minh họa Mosaic data augmentation [3] 12
Hình 2.5 Ví dụ minh họa Dropblock [4] 12
Hình 2.6 ví dụ One-hot encoding 13
Hình 2.7 Ma trận Gauss 13
Hình 2.8 Kiến trúc YOLOv4 [3] 15
Hình 2.9 Cấu trúc CSP [9] 16
Hình 2.10 Cấu trúc DenseNet [10] 16
Hình 2.11 Mish Activation Function [11] 18
Hình 2.12 Kết quả so sánh YOLOv4 với các SOTA (state-of the-art object detection) trên COCO dataset [3] 19
Hình 2.13 Ví dụ captcha [12] 20
Hình 2.14 Ví dụ chọn text trên ảnh [12] 20
Hình 2.15 Ví dụ minh họa ý tưởng CTPN [12] 21
Hình 2.16 Kiến trúc CTPN [13] 21
Hình 2.17 Kết quả nhận dạng CTPN trong điều kiện ảnh thiếu sáng [13] 25
Hình 2.18 Kết quả phát hiện CTPN trong các trường hợp phạm vi cực nhỏ (trong khung màu đỏ) [13] 26
Hình 2.19 Kiến trúc OCR phổ biến 26
Hình 2.20 Kiến trúc Transformer [20] 28
Hình 2.21 Ví dụ input embedding [21] 28
Hình 2.22 Minh họa Positional Encoding [21] 29
Hình 2.23 Ví dụ trích xuất self-Attention [21] 29
Hình 2.24 Minh họa tính ma trận Wo [21] 30
Hình 2.25 Masked Multi-head Attention [21] 31
Hình 2.26 Quá trình encode [21] 31
Hình 2.27 Quá trình decode [21] 32
Hình 2.28 Mô hình hệ thống của đề tài 32
Hình 3.1 Quy trình thực hiện số hóa trong luận văn 35
Hình 3.2 Phiếu xét nghiệm covid âm tính 37
Hình 3.3 Phiếu xét nghiệm covid dương tính 37
Hình 3.4 Tập dữ liệu thu thập 37
Hình 3.5 Sử dụng labelimg dán nhẵn 38
Hình 3.6 Kết quả file ảnh đã dán nhẵn trong labelimg 38
Trang 12ix
Hình 3.7 Các đối tượng được dáng nhẵn 39
Hình 3.8 Kết quả file txt dán nhẵn 1 39
Hình 3.9 Kết quả file txt dán nhẵn 2 40
Hình 3.10 Thư mục chứa mẫu đã dán nhẵn 41
Hình 3.11 Tập dữ liệu ICDAR 2013 42
Hình 3.12 Tập dữ liệu văn bản phiếu xét nghiệm 42
Hình 3.13 Đối tượng văn bản được dán nhẵn 43
Hình 3.14 Dán nhẵn bộ dữ liệu phiếu xét nghiệm 43
Hình 3.15 Kết quả dán nhẵn bộ dữ liệu phiếu xét nghiệm 44
Hình 3.16 Chuyển đổi dữ liệu đã dán nhẵn từ số thực sang tọa độ kiểu nguyên 44
Hình 3.17 Chuyển đổi tọa độ 4 góc 44
Hình 3.18 Chuyển đổi tọa độ 4 góc thành dữ liệu đầu vào CTPN 45
Hình 3.19 Biểu diễn hình ảnh kết quả sau khi chuyển đổi 45
Hình 3.20 Bộ dữ liệu sau khi chuyển đổi 46
Hình 3.21 Bộ dữ liệu ảnh Tiếng việt 46
Hình 3.22 Bộ dữ liệu kết hợp trích xuất từ phiếu xét nghiệm 47
Hình 3.23 Dán nhãn dữ liệu 47
Hình 3.24 Dán nhãn dữ liệu phiếu xét nghiệm 48
Hình 4.1 Thông tin máy tính sử dụng 51
Hình 4.2 Kết quả quá trình huấn luyện Yolov4 51
Hình 4.3 Biểu đồ loss diagram Yolov4 52
Hình 4.4 Kết quả nhận diện Yolov4 1 53
Hình 4.5 Kết quả nhận diện Yolov4 2 53
Hình 4.6 Kết quả nhận diện Yolov4 3 54
Hình 4.7 Kết quả nhận diện Yolov4 4 55
Hình 4.8 Kết quả nhận diện Yolov4 4 55
Hình 4.9 Ảnh các đối tượng trên phiếu xét nghiệm sau khi đã nhận dạng 1 56
Hình 4.10 Thông tin máy tính sử dụng 56
Hình 4.11 Quá trình huấn luyện CTPN 57
Hình 4.12 Nhận diện câu chữ bằng CTPN trên đối tượng method 57
Hình 4.13 Nhận diện câu chữ bằng CTPN trên đối tượng target_name 58
Hình 4.14 Nhận diện câu chữ bằng CTPN trên đối tượng result 58
Hình 4.15 Kết quả trích xuất câu chữ từ các đối tượng 1 58
Hình 4.16 Kết quả trích xuất câu chữ từ các đối tượng 2 59
Hình 4.17 Kết quả trích xuất ảnh văn bản đối tượng method 59
Hình 4.18 Kết quả trích xuất ảnh văn bản đối tượng target_name 59
Hình 4.19 Kết quả trích xuất ảnh văn bản đối tượng result 59
Hình 4.20 Thông tin máy tính huấn luyện 60
Hình 4.21 Kết quả huấn luyện Tranformer OCR 60
Trang 13x Hình 4.22 Biểu đồ loss diagram 61Hình 4.23 Kết quả nhận diện ký tự bằng Tranformer OCR 62
Trang 14xi
DANH MỤC BẢNG BIỂU
Bảng 2.1 Đánh giá CPTN trên bộ dữ liệu ICDAR 2013, 25
Bảng 4.1 Kết quả quá trình huấn luyện YOLOv4 52
Bảng 4.2 Kết quả quá trình huấn luyện CTPN 57
Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR 60
Trang 15CNN Convolutional Neural Network
CPS Cross-stage partial connections
CTPN Connectionist Text Proposal Network
GPU graphics processing unit
IOU Intersection over Union
OCR Optical Character Recognition
R-CNN Region-based Convolutional Neural Networks
RNN Recurrent Neural Network
SOTA State-Of-The-Art
SSD Single Shot Multibox Detector
YOLO You only look once
Trang 16Ứng dụng Trí tuệ Nhân tạo để Số hóa phiếu xét nghiệm là quá trình sử dụng các thuật toán Trí tuệ Nhân tạo nhận dạng chuyển đổi thông tin trên phiếu xét nghiệm thành định dạng kỹ thuật số Ví dụ: như quét một bức ảnh phiếu xét nghiệm hoặc chuyển đổi một phiếu giấy, hay định dạng PDF thành văn bản kỹ thuật số và lưu trữ thông tin xuống Cơ sở dữ liệu Hỗ trợ cho việc truy xuất, phân tích một cách dễ dàng
2 Mục tiêu nghiên cứu
2.1 Mục tiêu nghiên cứu tổng quát
- Nhận dạng đối tượng trên phiếu xét nghiệm với dữ liệu đầu vào là bộ cơ sở dữ
liệu phiếu xét nghiệm, sử dụng một mô hình mạng nơ-ron nhận dạng đối tượng trên phiếu xét nghiệm
- Nhận dạng ảnh chứa văn bản từ các đối tượng đã được trích xuất từ phiếu xét
nghiệm
- Trích xuất ký tự từ đối tượng ảnh chứa văn bản các đối tượng trên phiếu xét
nghiệm
2.2 Mục tiêu nghiên cứu cụ thể
- Nghiên cứu mạng nơ-ron nhân tạo
- Nghiên cứu phương pháp nhận diện ảnh
- Nghiên cứu phương pháp nhận diện ảnh chứa văn bản
- Nghiên cứu phương pháp nhận dạng ký tự quang học
Trang 172
- Áp dụng các phương pháp trên vào việc số hóa phiếu xét nghiệm
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng
- Lý thuyết về nhận dạng đối tượng, ký tự
- Các vấn đề liên quan đến các phương pháp nhận dạng đối tượng – phiếu xét
nghiệm
- Phương pháp nhận dạng phiếu xét nghiệm bằng YOLO (You only look once)
- Phương pháp nhận dạng ảnh chứa văn bản bằng CTPN (Connectionist Text
Proposal Network)
- Phương pháp nhận dạng ký tự Transformer OCR (Optical Character
Recognition)
3.2 Phạm vi nghiên cứu
- Lĩnh vực: Deep learning
- Không gian: Cài đặt và hiện thực trên máy tính
- Dữ liệu phiếu xét nghiệm được thu thập trên mạng 500 mẫu
- Dữ liệu được sử dụng cho bài toán nhận dạng ảnh chứa văn bản là bộ dữ liệu
ICDAR 2013 3422 mẫu
- Dữ liệu sử dụng nhận diện ký tự được thu thập trên mạng 344.743 mẫu
4 Cách tiếp cận và phương pháp nghiên cứu
4.1 Cách tiếp cận
- Tìm hiểu tổng quan về các công trình nghiên cứu có liên quan và các thành
tựu đã được hoàn thành trước đây
- Phân loại, nhận dạng ảnh đối tượng sử dụng CNN (Convolution Neural
Networks)
- Các phương pháp nhận dạng ký tự quang học
- Phân loại, nhận dạng ảnh đối tượng sử dụng YOLO v4 (You Look Only Once
version 4)
Trang 183
- Nhập dạng ảnh chứa văn bản sử dụng CTPN
- Nhận dạng ký tự sử dụng Tranformer OCR
- Xây dựng công cụ nhận dạng nhằm mục đích kiểm tra giải pháp và
đánh giá hiệu quả của hệ thống
4.2 Thời gian nghiên cứu
- Thời gian nghiên cứu từ 09/08/2021 đến 09/02/2022
4.3 Địa điểm nghiên cứu
- Nghiên cứu được thực hiện tại trường Đại học Công nghiệp thành phố Hồ Chí
Minh
4.4 Vật liệu nghiên cứu
- Máy tính, ảnh, các nguồn thông tin thu thập từ mạng Internet, tài liệu tham
khảo
4.5 Phương pháp
- Phương pháp nghiên cứu dựa trên tài liệu: thu thập, phân tích, xử lý thông tin
dựa trên các tài liệu như sách, báo, tạp chí,…đã in ấn hoặc công bố trên internet liên quan đến đề tài
- Phương pháp nghiên cứu dựa trên thực nghiệm: thông qua việc thử nghiệm
trên dữ liệu và đối sánh với các kết quả đã công bố
5 Ý nghĩa thực tiễn của đề tài
Số hóa phiếu xét nghiệm có tầm quan trọng rất lớn đối với việc xử lý, lưu trữ dữ liệu của bệnh nhân Số hóa phiếu xét nghiệm là phương pháp hiệu quả giúp:
- Kéo dài tuổi thọ của tài liệu gốc, không bị mất mát qua thời gian và qua các
lần sao chép dữ liệu
- Quản lý, lưu trữ và khai thác tập trung trên môi trường số
- Cắt giảm chi phí quản lý, nhập liệu thủ công, giảm thiểu diện tích không gian
lưu trữ tài liệu giấy
- Tăng cường khả năng bảo mật thông tin tài liệu