1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng học sâu trong việc chẩn đoán ung thư vú.pdf

92 7 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng học sâu trong việc chẩn đoán ung thư vú
Tác giả Hoàng Đức Quý
Người hướng dẫn TS. Nguyễn Ngọc Sơn
Trường học Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
Chuyên ngành Kỹ thuật điện tử
Thể loại Luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 92
Dung lượng 4,61 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1. Đặt vấn đề (0)
  • 2. Mục đích nghiên cứu (16)
  • 3. Đối tượng và phạm vi nghiên cứu (16)
  • 4. Phương pháp nghiên cứu (17)
  • 5. Ý nghĩa thực tiễn của đề tài (17)
    • 1.1 Sơ lược về ung thư vú (18)
    • 1.2 Hệ thống máy tính hổ trợ chẩn đoán (0)
    • 1.3 Phát biểu vấn đề (0)
    • 1.4 Nội dung nghiên cứu chính (0)
      • 1.4.1 Nội dung nghiên cứu (22)
      • 1.4.2 Những đóng góp chính (0)
    • 2.1 Sơ lược về học sâu (23)
    • 2.2 Mạng nơ-ron tích chập (25)
      • 2.2.1 Lớp tích chập (25)
      • 2.2.2 Lớp gộp (27)
      • 2.2.3 Lớp kết nối đầy đủ (28)
    • 2.3 Thuật toán YOLOv1 (28)
      • 2.3.1 Ý tưởng (29)
      • 2.3.2 Kiến trúc mô hình (31)
      • 2.3.3 Hàm mục tiêu (31)
      • 2.3.4 Thuật toán non-max suppression (33)
      • 2.3.5 Ưu và nhược điểm của YOLOv1 (35)
    • 2.4 Thuật toán YOLOv2 (35)
      • 2.4.1 Kiến trúc mô hình (35)
      • 2.4.2 Chuẩn hóa theo batch (Batch normalization) (37)
      • 2.4.3 Sử dụng bộ phân loại đầu vào phân giải cao (37)
      • 2.4.4 Dự đoán với hộp mỏ neo (38)
    • 2.5 Thuật toán YOLOv3 (39)
      • 2.5.1 Kiến trúc mô hình YOLOv3 (39)
      • 2.5.2 Đưa ra dự đoán trên các tỉ lệ khác nhau (41)
    • 2.6 Thuật toán YOLOv4 (43)
      • 2.6.1 Những cải thiện đáng kể (0)
      • 2.6.2 Kiến trúc mô hình YOLOv4 (46)
    • 2.7 Thuật toán YOLOv5 (49)
    • 3.1 Tập dữ liệu nhũ ảnh (0)
    • 3.2 Tiền xử lý dữ liệu (0)
    • 3.3 Xây dựng mô hình học sâu (0)
      • 3.3.1 Mô hình YOLOv3 (53)
      • 3.3.2 Mô hình YOLOv4 (55)
    • 3.4 Huấn luyện mô hình (0)
      • 3.4.1 Thông số phần cứng (56)
      • 3.4.2 Thiết lập cho huấn luyện (0)
    • 3.5 Đánh giá mô hình (58)
    • 3.6 Triển khai mô hình vào ứng dụng CAD (0)
    • 4.1 Kết quả huấn luyện mô hình (0)
    • 4.2 Kết quả đánh giá mô hình (64)
    • 4.3 Kết quả triển khai mô hình lên phần mềm (0)
  • TÀI LIỆU THAM KHẢO (73)
  • PHỤ LỤC (77)

Nội dung

Mục đích nghiên cứu Xây dựng một mô hình chẩn đoán bệnh ung thư vú dựa trên kỹ thuật học sâu nhằm hỗ trợ cho các bác sĩ x-quang trong việc chẩn đoán ung thư từ ảnh x-quang vú một cách

Trang 1

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

HOÀNG ĐỨC QUÝ

ỨNG DỤNG HỌC SÂU TRONG VIỆC CHẨN

ĐOÁN BỆNH UNG THƯ VÚ

Chuyên ngành: KỸ THUẬT ĐIỆN TỬ

Mã số: 8520203

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022

Trang 2

Công trình được hoàn thành tại Trường Đại học Công nghiệp TP Hồ Chí Minh

Người hướng dẫn khoa học: TS Nguyễn Ngọc Sơn Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Công nghiệp thành phố Hồ Chí Minh ngày tháng năm

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 PGS TS Nguyễn Tấn Lũy - Chủ tịch Hội đồng

2 PGS TS Nguyễn Đình Tuyên - Phản biện 1

3 TS Trần Hữu Toàn - Phản biện 2

4 PGS TS Trương Đình Nhơn - Ủy viên

5 TS Trần Minh Chính - Thư ký

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CÔNG NGHỆ ĐIỆN TỬ

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: HOÀNG ĐỨC QUÝ MSHV: 19630241 Ngày, tháng, năm sinh: 30/05/1993 Nơi sinh: TP Hồ Chí Minh Chuyên ngành: Kỹ thuật điện tử Mã chuyên ngành: 8520203

I TÊN ĐỀ TÀI:

Ứng dụng học sâu trong việc chẩn đoán ung thư vú

NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu lý thuyết về học sâu và ứng dụng vào nhận dạng khối u vú trong ảnh x-quang

- Xây dựng mô hình học sâu nhận dạng khối u vú

- Huấn luyện và đánh giá mô hình theo tiêu chí đánh giá đề xuất

- Triển khai ứng dụng hỗ trợ chẩn đoán ung thư sử dụng mô hình học sâu đề xuất

II NGÀY GIAO NHIỆM VỤ: Theo quyết định số 1035/QĐ-ĐHCN ngày 12/08/2021 III NGÀY HOÀN THÀNH NHIỆM VỤ: 04/03/2022

IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Ngọc Sơn

Tp Hồ Chí Minh, ngày … tháng … năm 20 …

Trang 4

Tôi cũng xin cảm ơn những đồng nghiệp của tôi là Nghiên cứu sinh Cao Văn Kiên, Nguyễn Tiến Đạt đã cho những góp ý hữu ích tới đề tài nghiên cứu của tôi

Cuối cùng nhưng vô cùng quan trọng, tôi muốn cảm ơn gia đình tôi, đặc biệt là mẹ và bạn gái tôi vì đã hết lòng tin tưởng và ủng hộ tôi trong thời gian tôi học tập

Trang 5

TÓM TẮT LUẬN VĂN THẠC SĨ

Trong những năm gần đây, học sâu đã được nghiên cứu và áp dụng rộng rãi trong lĩnh vực thị giác máy tính bởi tính hiệu quả của chúng trong nhiều ứng dụng khác nhau đã được chứng minh thông qua các nghiên cứu khoa học Đặc biệt, việc áp dụng học sâu vào phân tích ảnh y tế là một chủ đề thu hút nhiều sự chú ý Trong quyển luận văn này, học viên đề xuất một bộ khung phát hiện đối tượng tiên tiến có tên là YOLO áp dụng vào một mô hình máy tính hỗ trợ chẩn đoán (CAD) Cụ thể, mô hình có thể tự động phát hiện khối u trong ảnh x-quang vú kĩ thuật số được thu thập từ tập dữ liệu INbreast và phân loại chúng là lành tính hay ác tính mà không có sự can thiệp của con người Kết quả cho thấy mô hình đề xuất đạt 94.4% độ chính xác trung bình (mAP) trong việc phát hiện khối u, cho thấy tiềm năng áp dụng vào thực tiễn

Trang 6

ABSTRACT

In recent years, deep learning has been researched and broadly applied in the field of computer vision due to its effectiveness which had been proved in various application through scientific research Especially, applying deep learning in medical image analysis is a topic attracted a vast attention This thesis proposes a state-of-the-art object detection framework namely YOLO applied to a computer-aided detection (CAD) model Specifically, the model can detect tumors in digital mammograms automatically and distinguished them as benign or malignant without human intervention The quantiative result demonstrated that the proposed model reached 94.4% mAP in tumor detection task, showing the potential to be applied in practice

Trang 7

LỜI CAM ĐOAN

Công trình nghiên cứu trong quyển luận văn được thực hiện trực tiếp từ chính bản thân tôi Các kết quả nghiên cứu và các kết luận trong luận văn là trung thực, không sao chép dưới bất kỳ hình thức nào và dưới một nguồn dữ liệu nào Việc tham khảo tài liệu chuyên ngành như các tạp chí khoa học, sách, báo (nếu có) đã được trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định

Học viên

Hoàng Đức Quý

Trang 8

MỤC LỤC

LỜI CẢM ƠN i

TÓM TẮT LUẬN VĂN THẠC SĨ ii

ABSTRACT iii

LỜI CAM ĐOAN iv

MỤC LỤC v

DANH MỤC HÌNH ẢNH ix

DANH MỤC BẢNG BIỂU xi

DANH MỤC TỪ VIẾT TẮT xii

PHẦN MỞ ĐẦU 1

1 Đặt vấn đề 1

2 Mục đích nghiên cứu 1

3 Đối tượng và phạm vi nghiên cứu 1

4 Phương pháp nghiên cứu 2

5 Ý nghĩa thực tiễn của đề tài 2

TỔNG QUAN 3

1.1 Sơ lược về ung thư vú 3

1.2 Hệ thống máy tính hổ trợ chẩn đoán 4

1.3 Phát biểu vấn đề 5

1.4 Nội dung nghiên cứu chính 6

1.4.1 Nội dung nghiên cứu: 7

1.4.2 Những đóng góp chính: 7

Trang 9

CƠ SỞ LÝ THUYẾT 8

2.1 Sơ lược về học sâu 8

2.2 Mạng nơ-ron tích chập 10

2.2.1 Lớp tích chập 10

2.2.2 Lớp gộp 12

2.2.3 Lớp kết nối đầy đủ 13

2.3 Thuật toán YOLOv1 13

2.3.1 Ý tưởng 14

2.3.2 Kiến trúc mô hình 16

2.3.3 Hàm mục tiêu 16

2.3.4 Thuật toán non-max suppression 18

2.3.5 Ưu và nhược điểm của YOLOv1 20

2.4 Thuật toán YOLOv2 20

2.4.1 Kiến trúc mô hình 20

2.4.2 Chuẩn hóa theo batch (Batch normalization) 22

2.4.3 Sử dụng bộ phân loại đầu vào phân giải cao 22

2.4.4 Dự đoán với hộp mỏ neo 23

2.5 Thuật toán YOLOv3 24

2.5.1 Kiến trúc mô hình YOLOv3 24

2.5.2 Đưa ra dự đoán trên các tỉ lệ khác nhau 26

2.6 Thuật toán YOLOv4 28

Trang 10

2.6.1 Những cải thiện đáng kể 29

2.6.2 Kiến trúc mô hình YOLOv4 31

2.7 Thuật toán YOLOv5 34

XÂY DỰNG MÔ HÌNH HỌC CHẨN ĐOÁN UNG THƯ VÚ DÙNG HỌC SÂU 35

3.1 Tập dữ liệu nhũ ảnh 35

3.2 Tiền xử lý dữ liệu 36

3.3 Xây dựng mô hình học sâu 38

3.3.1 Mô hình YOLOv3 38

3.3.2 Mô hình YOLOv4 40

3.4 Huấn luyện mô hình 41

3.4.1 Thông số phần cứng 41

3.4.2 Thiết lập cho huấn luyện 42

3.5 Đánh giá mô hình 43

3.6 Triển khai mô hình vào ứng dụng CAD 45

KẾT QUẢ VÀ BÀN LUẬN 48

4.1 Kết quả huấn luyện mô hình 48

4.2 Kết quả đánh giá mô hình 49

4.3 Kết quả triển khai mô hình lên phần mềm 53

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 55

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA HỌC VIÊN 57

TÀI LIỆU THAM KHẢO 58

PHỤ LỤC 62

Trang 11

Phụ lục A: NGÔN NGỮ LẬP TRÌNH VÀ NHỮNG THƯ VIỆN CẦN THIẾT 62

Phụ lục B: MÃ CHƯƠNG TRÌNH XÂY DỰNG MÔ HÌNH YOLOv3 63

Phụ lục C: MÃ CHƯƠNG TRÌNH XÂY DỰNG MÔ HÌNH YOLOv4 65

Phụ lục D: MÃ CHƯƠNG TRÌNH XÂY DỰNG ỨNG DỤNG CAD 69

Phụ lục E: CÁC BƯỚC SỬ DỤNG PHẦN MỀM 73

Phụ lục F: DỰ ĐOÁN HỘP BAO ĐỐI TƯỢNG DỰA TRÊN HỘP NEO 74

Phụ lục G: ỨNG DỤNG WEB DỰA TRÊN THUẬT TOÁN ĐỀ XUẤT 75

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 77

Trang 12

DANH MỤC HÌNH ẢNH

Hình 1.1 Sơ đồ xử lý của một hệ thống CAD 4

Hình 2.1 Mối quan hệ giữa học sâu, học máy và AI 8

Hình 2.2 Mạng perceptron nhiều lớp 9

Hình 2.3 Mạng nơ-ron tích chập điển hình 10

Hình 2.4 Phép tương quan chéo hai chiều 11

Hình 2.5 Phép gộp cực đại và gộp trung bình 12

Hình 2.6 Lớp kết nối đầy đủ trong CNN 13

Hình 2.7 Ý tưởng của YOLO [25] 14

Hình 2.8 Véc-tơ dự đoán và véc-tơ nhãn ngõ ra để huấn luyện 15

Hình 2.9 Minh họa thuật toán NMS 19

Hình 2.10 Giá trị IOU giữa hai hộp giới hạn 19

Hình 2.11 Kiến trúc YOLOv2 22

Hình 2.12 Trường hợp sử dụng hai hộp mỏ neo để đưa ra dự đoán (màu vàng) 24

Hình 2.13 Cấu trúc khối Residual trong kiến trúc YOLOv3 26

Hình 2.14 Cấu trúc hoàn chỉnh của YOLOv3 27

Hình 2.15 Hiệu suất mô hình YOLOv4 so sánh với các mô hình phát hiện đối tượng tiên tiến khác [39] 29

Hình 2.16 Hàm kích hoạt Mish và ReLU 30

Hình 2.17 Mạng tổng hợp đường dẫn (PAN) 32

Hình 2.18 Kiến trúc CSPDarknet-53 33

Hình 3.1 Quy trình thực hiện nghiên cứu 35

Hình 3.2 Một số nhũ ảnh trong tập dữ liệu INbreast (a) ID: 22670465; (b) ID: 22613650; (c) ID: 22614127; (d) ID: 51048765 36

Hình 3 3 Lưu đồ tiền xử lý nhũ ảnh 37

Hình 3 4 Ví dụ tiền xử lý của nhũ ảnh ID:22613702 (a) Hình gốc; (b) Ảnh nhị phân; (c) Ảnh nhị phân đã lọc nhiễu; (d) Ảnh sau lọc nhiễu; (e) Trích xuất vùng ngực của nhũ ảnh; (f) Ảnh được chuẩn hóa; (g) Ảnh sau khi đệm 38

Hình 3.5 Kiến trúc mô hình học sâu đề xuất dựa trên thuật toán YOLOv3 39

Hình 3.6 Kiến trúc mô hình học sâu đề xuất dựa trên thuật toán YOLOv4 40

Trang 13

Hình 3.7 Các phép biến đổi ảnh 41

Hình 3.8 Phương pháp khởi động tốc độ học và suy giảm tốc độ học cô-sin 42

Hình 3.9 Giao diện thiết kế giao diện ứng dụng WPF trên phần mềm Visual Studio 2019 45

Hình 3.10 Quy trình triển khai mô hình vào ứng dụng 46

Hình 3.11 Lưu đồ thực hiện của phần mềm chẩn đoán khối u 47

Hình 4.1 Đồ thị khảo sát sự hội tụ hàm mục tiêu của hai mô hình YOLOv3 và YOLOv4 trên tập đánh giá 48

Hình 4.2 Đường cong PR với ba trường hợp kích thước ảnh đầu vào của mô hình YOLOv3: a) 416 x 416, b) 512 x 512, c) 608 x 608 và YOLOv4: d) 416 x 416, e) 512 x 512, f) 608 x 608 51

Hình 4 3 Một số kết quả phát hiện và chẩn đoán khối u trên tập đánh giá Tất cả ví dụ đến từ phân lớp lành tính (Màu xanh lá: vị trí khối u thật, màu xanh dương: dự đoán của mô hình) 52

Hình 4.4 Một số kết quả phát hiện và chuẩn đoán khối u trên tập đánh giá Tất cả ví dụ đến từ phân lớp ác tính (Màu xanh lá: vị trí khối u thật, màu xanh dương: dự đoán của mô hình) 53

Hình 4 5 Một số kết quả chẩn đoán trên phần mềm CAD đề xuất 54

Hình E.1 Chọn nhũ ảnh cần chẩn đoán 73

Hình E.2 Hiển thị kết quả chẩn đoán 73

Hình F.1 Dự đoán hộp bao đối tượng với hộp neo 74

Hình G.1 Sơ đồ khối ứng dụng web hỗ trợ chẩn đoán ung thư vú 75

Hình G.2 Giao diện ứng dụng web iDr 76

Trang 14

DANH MỤC BẢNG BIỂU

Bảng 2.1 Kiến trúc chi tiết của mạng YOLO với 24 lớp tích chập 16

Bảng 2.2 Darknet-19 21

Bảng 2.3 Kiến trúc Darknet-53 25

Bảng 3.1 Thông số thiết lập cho thí nghiệm 43

Bảng 4.1 Kết quả đánh giá mô hình với đầu vào có độ phân giải khác nhau 49

Bảng 4.2 So sánh với các nghiên cứu gần đây 50

Trang 15

DANH MỤC TỪ VIẾT TẮT

AI Artificial Intelligent

ANN Artificial Neural Network

BOF Bag of Freebies

BOS Bag of Specials

CAD Computer-Aided Detection

CNN Convolution Neural Network

CSP Cross Stage Partial

DL Deep Learning

FPN Feature Pyramid Network

IOU Intersection over Union

LR Learning Rate

mAP Mean Average Precision

MRI Magnetic Resonance Imaging

NMS Non-Max Supression

NMS Non-maximum Suppression

PAN Path Aggregation Network

ROI Region of Interest

SPP Spatial Pyramid Pooling

WPF Window Presentation Foundation

Trang 16

PHẦN MỞ ĐẦU

1 Đặt vấn đề

Ung thư vú là chứng bệnh mà các tế bào ác tính sinh ra trong các mô của tuyến vú Theo Hiệp Hội Ung Thư Hoa Kỳ, ung thư vú là loại ung thư phổ biến nhất ở nữ giới trên phạm vi toàn cầu và là loại ung thư phổ biến thứ hai nói chung Tại Mỹ, năm 2019, có 268,600 ca bệnh ung thư vú xâm lấn được chẩn đoán ở nữ và 2,670

ca ở nam Trong số đó, 41,760 phụ nữ và 500 đàn ông được cho là sẽ tử vong vì ung thư vú [1] Ở Việt Nam, số ca mắc mới trong năm 2018 là 15,529 ca (chiếm 9.2% tổng số ca ung thư) và 6,103 ca được cho là tử vong (chiếm 5.3% số ca tử vong do ung thư) [2] Tuy nhiên, tỉ lệ sống sót của bệnh nhân trong 5 năm được ước tính là 99% nếu bệnh nhân được chẩn đoán và phát hiện sớm khi ung thư vừa mới ở giai đoạn bắt đầu [1] Do đó, nghiên cứu trong việc chẩn đoán sớm bệnh ung thư vú là một đề tài nghiên cứu cụ thể thu hút nhiều sự chú ý và quan tâm

2 Mục đích nghiên cứu

Xây dựng một mô hình chẩn đoán bệnh ung thư vú dựa trên kỹ thuật học sâu nhằm

hỗ trợ cho các bác sĩ x-quang trong việc chẩn đoán ung thư từ ảnh x-quang vú một cách chính xác

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: kĩ thuật học sâu và ứng dụng của nó trong bài toán nhận diện khối u trong nhũ ảnh kĩ thuật số

Phạm vi nghiên cứu: ung thư vú thường đặc trưng bởi khối u trong ngực của phụ

nữ Vì vậy, đề tài luận văn tập trung vào bài toán phát hiện khối u trong nhũ ảnh

và gán nhãn nó là lành tính hay ác tính, những bất thường khác như vôi hóa, cấu trúc không đồng đều sẽ không được nghiên cứu hay cân nhắc đến

Trang 17

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu trong luận văn là:

• Nghiên cứu tài liệu khoa học có liên quan trực tiếp đến đề tài

• Thu thập dữ liệu nhũ ảnh từ nguồn mở được công nhận khoa học

• Xây dựng mô hình AI sử dụng ngôn ngữ lập trình Python và huấn luyện trên

máy ảo Google Colab

• Đánh giá, so sánh kết quả của mô hình với các kết quả nghiên cứu đã có

• Triển khai mô hình vào phần mềm hỗ trợ chẩn đoán

5 Ý nghĩa thực tiễn của đề tài

Ý nghĩa khoa học: Đưa ra giải pháp phát hiện khối u vú bằng mô hình học sâu dựa

trên thuật toán YOLO cải tiến bằng các kĩ thuật: khởi động và tinh chỉnh tốc độ

học cô-sin, tăng cường ảnh trong huấn luyện

Ý nghĩa thực tiễn: Cung cấp một công cụ hỗ trợ có tiềm năng ứng dụng vào thực

tiễn cho các bác sĩ x-quang trong việc chẩn đoán ung thư vú nhằm giảm thiểu tỉ lệ

chẩn đoán sai dẫn đến rủi ro về sức khỏe, tài sản và thời gian của bệnh nhân

Trang 18

TỔNG QUAN

1.1 Sơ lược về ung thư vú

Phần lớn ca bệnh ung thư vú được phát hiện khi người bệnh phát giác khối u sưng lên ở ngực hoặc nổi hạch ở nách, những triệu chứng không cụ thể như đau hay cảm giác nặng nề ở ngực, những sự thay đổi ở vùng da xung quanh vú như: đỏ, sưng, các vết sần sùi [1] Tuy nhiên, khi khối u còn nhỏ và dễ dàng chữa trị, không có bất cứ dấu hiệu hay một triệu chứng cụ thể nào xảy ra Vì vậy, việc phát hiện sớm bệnh ung thư vú là một nhân tố vô cùng quan trọng trong việc điều trị ung thư, góp phần giúp bệnh nhân tăng tỉ lệ điều trị thành công Có nhiều phương pháp trong việc chẩn đoán sớm bệnh ung thư vú như tự khám vú, khám vú định kì, chẩn đoán hình ảnh như: chụp nhũ ảnh, siêu âm vú, chụp cộng hưởng từ

Khối u vú thường được phát hiện thông qua chẩn đoán hình ảnh trước khi các triệu chứng phát triển hoặc sau khi người bệnh chú ý thấy một khối u lên ở ngực Siêu

âm vú (Ultrasonic) là kỹ thuật sử dụng sóng âm tần số cao quét qua phần ngực, kỹ thuật này thường được kết hợp với chụp nhũ ảnh để đánh giá trường hợp nhũ ảnh

có mật độ mô vú dày Chụp cộng hưởng từ (MRI – Magnetic Resonance Imaging) tuyến vú sử dụng sóng vô tuyến và từ trường để đưa ra hình ảnh chi tiết bên trong của tuyến vú So sánh với siêu âm vú và chụp nhũ ảnh, MRI nhạy hơn trong việc phát hiện các khối u nhỏ ở các đối tượng có nguy cơ mắc ung thư vú cao [3] Chụp nhũ ảnh (Mammography) là kỹ thuật chụp ảnh x-quang cho tuyến vú nhằm mục đích chẩn đoán và sàng lọc ung thư vú và các bệnh lý khác Mặc dù phương pháp chụp nhũ ảnh không thể chứng minh rằng vùng bất thường trong nhũ ảnh là ung thư, nhưng nếu nhũ ảnh cho thấy dấu hiệu đáng ngờ của ung thư thì một mẫu mô được lấy ra để tiến hành sinh thiết Tuy nhiên, những bất lợi của chụp nhũ ảnh là

ít hiệu quả với phụ nữ dưới 40 tuổi và phụ nữ có mật độ mô vú dày Gần đây, phát triển trong công nghệ chụp nhũ ảnh số như tăng cường độ tương phản nhũ ảnh số cho kết quả chẩn đoán tốt hơn là nhũ ảnh phim và siêu âm trong trường hợp mật độ mô vú dày [4], [5]

Trang 19

Như đã đề cập ở trên, trong trường hợp nghi ngờ bệnh nhân mắc ung thư vú, mẫu

mô tế bào được phân tích dựa trên kĩ thuật sinh thiết bằng kim (FNA) Nếu khối u

có thể sờ nắn được, cách đơn giản nhất là đâm vào khối u bằng một ống tiêm gắn kim nhỏ và trích phần cần phân tích ra Nếu khối u không thể sờ nắn được thì có thể sử dụng kim với sự hướng dẫn của máy siêu âm Chi tiết về phương pháp sinh thiết có thể xem trong tài liệu [6]

1.2 Hệ thống máy tính hổ trợ chẩn đoán

Mặc dù có sự phát triển của các kỹ thuật phát hiện ung thư vú, việc phân loại bệnh ung thư vẫn còn các vấn đề như: chất lượng hình ảnh y tế thấp và sai sót chủ quan

từ con người dẫn đến sơ suất trong chẩn doán Mộ nghiên cứu khảo sát cho thấy 31% trong số 8401 bác sĩ X-quang ở Mỹ thừa nhận từng có sơ suất [7] Nguyên nhân phổ biến nhất là do chẩn đoán sai, trong đó ung thư vú có số lượng ca sai sót thường xuyên nhất Do đó, các hệ thống máy tính hỗ trợ chẩn đoán (Computer-aided Detection - CAD) đã được phát triển để vượt qua các hạn chế hiện tại và được sử dụng trong nhiều phương pháp chẩn đoán hình ảnh khác nhau bao gồm: chụp x-quang vú (nhũ ảnh), siêu âm vú, và chụp MRI [8] Mục đích của hệ thống CAD là cải thiện chất lượng và năng suất của các bác sĩ lâm sàng trong việc chẩn đoán hình ảnh Một hệ thống CAD bao gồm bốn bước như hình 1.1

Bước 1: Ảnh y tế được tiền xử lý nhằm loại nhiễu (nhiễu muối tiêu, các kí hiệu góc chụp, nhiễu trắng)

Bước 2: Vùng tổn thương được xác định bằng các phương pháp xử lý hình ảnh Bước 3: Đặc trưng của vùng tổn thương được tính toán bởi các chuyên gia

Bước 4: Các đặc trưng được đưa vào mô hình phân loại để đưa ra kết quả

Hình 1.1 Sơ đồ quy trình hoạt động của một hệ thống CAD

Trang 20

1.3 Phát biểu vấn đề

Phát hiện khối u là một bước quan trọng trong quy trình hoạt động của một hệ thống CAD, nhằm xác định vùng tổn thương (ví dụ: khối u, vôi hóa…) cho các phân tích sâu hơn Đặc trưng của khối u bao gồm nhiều loại thuộc tính như: hình dạng, kích thước, và vị trí khối u trong nhũ ảnh Phát hiện khối u mang nhiều thách thức hơn các tác vụ phát hiện vùng tổn thương khác do sự giống nhau về đặc điểm của chúng so với các tế bào thông thường [9] Các hệ thống CAD thông thường dựa vào các bác sĩ x-quang đặc trưng hóa khối u và phân tích những đặc trưng thủ công này nhằm nhận biết chúng là lành tính hay ác tính thông qua các thuật toán học máy [10]–[12] Tuy nhiên, những đặc trưng quan trọng dễ bị thiếu sót trong quy trình truyền thống này

Mặt khác, trong các hệ thống CAD dựa trên trí tuệ nhân tạo (Artificial Intelligent – AI) gần đây, thuật toán học sâu trừu tượng hóa những đặc trưng của ảnh đầu vào như là một bộ miêu tả đặc trưng Cơ chế tự học là nhân tố thành công chính của những thuật toán học sâu ngày nay Đã có những báo cáo rằng những mô hình AI

có thể đạt được kết quả tương tự như những bác sĩ x-quang có chuyên môn cao [13]–[15] Hơn thế nữa, liên quan đến việc phát hiện và phân loại khối u trong nhũ ảnh, nhiều nghiên cứu đã được công bố [16]–[21]

Những tiến bộ trong lĩnh vực phát hiện đối tượng được xây dựng trên sự thành công của những phương pháp vùng đề xuất [22] với những mô hình học sâu nổi tiếng như R-CNN [23], Faster R-CNN [24] Cơ chế hoạt động của chúng là sử dụng phương pháp tìm kiếm chọn lọc để tạo ra một tập hợp những vùng tiềm năng chứa các đối tượng Kế tiếp, mô hình trích xuất những đặc trưng của vùng thông qua mạng neural tích chập (convolutional neural network – CNN) và cuối cùng xác định xác suất phân lớp cho đối tượng cũng như hộp bao (bounding box) chứa đối tượng bằng kĩ thuật hồi quy tuyến tính

Ứng dựng vào lĩnh vực phát hiện khối u, Akselrod-Ballin và cộng sự [17] kết hợp

mô hình Faster R-CNN được tinh chỉnh và một mô-đun phân đoạn vú với nhau để

Trang 21

thực hiện việc phát hiện và phân loại khối u trên một tập dữ liệu nhũ ảnh riêng tư Ribli và cộng sự [18] huấn luyện mô hình Faster R-CNN trên tập dữ liệu DDSM

và đánh giá mô hình trên tập dữ liệu INbreast Argawal và cộng sự [19] huấn luyện

mô hình mạng Faster R-CNN trên một tập dữ liệu quy mô lớn tên là OPTINAM Mammography Image Database (OMI-DB) và tinh chỉnh mô hình trên tập dữ liệu INbreast Mặc dù có những kết quả đáng kể, những hướng tiếp cận của họ tồn tại những hạn chế như: mô hình đề xuất phức tạp do cơ chế huấn luyện hai giai đoạn của phương pháp vùng đề xuất, dẫn đến tốc độ huấn luyện và đánh giá chậm Không giống như những hướng tiếp cận trên, Al-masni và cộng sự [20] và các tác giả trong [21] sử dụng mô hình học sâu YOLO [25] cho việc phát hiện và phân loại khối u trên nhũ ảnh Một trong những điểm mạnh thuật toán của mô hình YOLO là tốc độ, bởi vì nó sử dụng một mạng nơ-ron duy nhất xác định tọa độ đối tượng trên ảnh như một vấn đề hồi quy Tuy nhiên, mô hình của các tác giả trên có độ chính xác thấp và gặp khó khăn trong việc phát hiện những khối u đặc biệt nhỏ

do sự hạn chế của mô hình YOLO ở phiên bản đầu tiên Điều này là một hạn chế

to lớn trong việc phát hiện khối u trong nhũ ảnh bởi vì khối u thường rất nhỏ và chiếm một phần khiêm tốn trên nhũ ảnh Một điểm bất cập khác là họ đã sử dụng phương pháp tăng cường dữ liệu trước khi chia ra tập huấn luyện và tập đánh giá dẫn đến việc đánh giá mô hình không chính xác Tolba [26] sử dụng hai mô hình tiên tiến hơn là YOLOv3 và YOLOv4 trong việc phát hiện khối u và sử dụng kết quả này đưa vào bộ phân loại dựa trên mạng ResNet và Inception Tuy nhiên, hướng tiếp cận này có hạn chế là làm tăng sự phức tạp của mô hình dẫn đến những hạn chế như: giảm tốc độ xử lý của mô hình, tăng gánh nặng phần cứng; trong khi kết quả không thực sự cải thiện nhiều so với các công trình nghiên cứu trước

1.4 Nội dung nghiên cứu chính

Học viên đề xuất một hệ thống hỗ trợ chuẩn đoán bằng máy tính (CAD) dựa trên thuật toán YOLO (YOLOv3 và YOLOv4) So sánh với những phiên bản trước, YOLOv3 và YOLOv4 có nhiều cải thiện như cải tiến mô hình và đưa ra dự đoán trên nhiều tỉ lệ bản đồ đặc trưng, do đó tăng cường việc phát hiện vật thể nhiều

Trang 22

kích thước, đặc biệt là những vật thể nhỏ So sánh với phiên bản trước đó, kiến trúc mô hình được phát triển sâu hơn, đặc trưng được bảo tồn và tổng hợp trong các lớp mạng, do đó độ chính xác của mô hình được tăng đáng kể trong khi vẫn duy trì được điểm mạnh là tốc độ xử lý nhanh đảm bảo hoạt động theo thời gian thực

1.4.1 Nội dung nghiên cứu:

(1) Thu thập và tiền xử lý dữ liệu bằng cách sử dụng các kĩ thuật xử lý ảnh như biến đổi hình học: phép xói mòn (erosion), phép giãn nở (dilation), phương pháp tăng cường độ tương phản

(2) Xây dựng mô hình học sâu dựa trên thuật toán YOLOv3 và YOLOv4

(3) Tối ưu giai đoạn huấn luyện bằng các phương pháp tinh chỉnh tốc độ học như phương pháp khởi động tốc độ học và suy giảm tốc độ học cô-sin

(4) Giải quyết vấn đề hạn chế dữ liệu bằng các kĩ thuật tăng cường ảnh trong quá trình huấn luyện

(5) Đánh giá mô hình dựa trên các tiêu chí như độ chính xác trung bình (Average Precision), đồ thị đường cong độ chính xác – gọi lại (Precision – Recall curve) (6) Triển khai mô hình học sâu vào phần mềm CAD trên nền tảng NET của Microsoft

1.4.2 Những đóng góp chính:

(7) Học viên đề xuất một phần mềm CAD dựa trên mô hình học sâu tiên tiếng có thể đồng thời giải quyết đồng thời việc phát hiện và phân loại khối u trên nhũ ảnh (8) Học chuyển giao và kĩ thuật tăng cường dữ liệu tại chỗ được sử dụng để giải quyết nhược điểm thiếu hụt dữ liệu khi huấn luyện mô hình với tập dữ liệu nhỏ (9) Phương pháp khởi động tốc độ học và suy giảm cô-sin (cosine) được sử dụng

để tinh chỉnh giai đoạn huấn luyện

(10) Mô hình đề xuất được huấn luyện và đánh giá trên nhiều độ phân giải hình ảnh khác nhau nhằm tìm ra độ phân giải tối u của nhũ ảnh cho việc huấn luyện mô hình học sâu đề xuất

Trang 23

CƠ SỞ LÝ THUYẾT

2.1 Sơ lược về học sâu

Học sâu (Deep Learning) là một nhánh của học máy (Machine Learning), nhưng trong một thập kỉ gần đây đã phát triển một cách bùng nổ nhờ vào những đột phá trong cơ sở hạ tầng máy tính (phần cứng và phần mềm) và sự ra đời của các tập dữ liệu đủ lớn và được gán nhãn

Học sâu là một cơ chế học đặc trưng phân cấp Yoshua Bengio đưa ra bình luận của mình trong bài báo của ông [27]: “Những thuật toán học sâu tìm cách khai thác cấu trúc không biết ở dữ liệu đầu vào nhằm khám phá ra những miêu tả tốt, thường

ở nhiều cấp độ, với những đặc trưng cấp cao được xác định theo các đặc trưng cấp thấp hơn”

Ngoài ra, trong cuốn sách mà ông đồng tác giả với Ian Goodfellow và Aaron Courvile có tựa đề “Deep Learning” [28], các tác giả định nghĩa học sâu trên khía cạnh độ sâu của kiến trúc mô hình: “hệ thống phân cấp các khái niệm cho phép máy tính học những khái niệm phức tạp bằng cách xây dựng chúng từ những khái

AI

Hình 2.1 Mối quan hệ giữa AI và học máy, học sâu

Trang 24

niệm đơn giản hơn Nếu chúng ta vẽ một biểu đồ thể hiện các khái niệm này được xây dựng chồng lên nhau như thế nào thì biểu đồ sẽ sâu, với nhiều lớp Vì lí do này, chúng tôi gọi hướng tiếp cận này là học sâu”

Như vậy, có thể hiểu học sâu là một thuật toán phân tích dữ liệu với một cấu trúc logic tương tự với não người với nhiều lớp nơ-ron thần kinh liên kết với nhau Ta phân tích mạng Perceptron nhiều lớp như một ví dụ của học sâu (Hình 2.2)

Lớp X được gọi là lớp ngõ vào, H 1 tới H n là số lớp ẩn của mạng, càng nhiều lớp

ẩn, mô hình càng “sâu” hơn và có khả năng trích xuất thông tin chính xác hơn Trong quá trình huấn luyện, mạng Perceptron nhiều lớp sẽ cập nhật các ma trận

trọng số W 1 tới W n bằng giải thuật lan truyền ngược cho đến khi mạng dự đoán kết quả chính xác tương ứng với nhãn của dữ liệu huấn luyện

Tuy nhiên, trong lĩnh vực phân tích hình ảnh, đầu vào thường là các ma trận ba chiều, việc sử dụng mạng MLP là không hiệu quả do số lượng đầu vào quá lớn dẫn đến quá trình huấn luyện dễ bị quá khớp (overfitting) và yêu cầu phần cứng máy tính phải đủ khả năng lưu trữ và xử lý Do đó, mạng nơ-ron tích chập (CNN) là một mô hình học sâu được nghiên cứu, phát triển và ứng dụng rộng rãi bởi những tiện ích và tính hữu hiệu của nó, đặc biệt trong lĩnh vực phân tích hình ảnh

Hình 2.2 Mạng perceptron nhiều lớp

Trang 25

2.2 Mạng nơ-ron tích chập

Mạng CNN là một chi của mạng nơ-ron sâu được cấu thành từ ba lớp cơ bản: lớp tích chập, lớp gộp và lớp kết nối đầy đủ (Hình 2.3) được sử dụng phổ biến trong lĩnh vực xử lý hình ảnh Trong đó, các lớp tích chập và lớp gộp có nhiệm vụ trích

và xử lý bản đồ đặc trưng từ ảnh đầu vào, sau đó lớp kết nối đầy đủ nhận bản đồ đặc trưng này và tiến hành học những đặc trưng tiêu biểu nhằm đưa ra quyết định

ở ngõ ra của mạng

2.2.1 Lớp tích chập

Mạng nơ-ron tích chập như cái tên của nó thực hiện một loạt phép toán gọi là phép tích chập (convolution) Trong toán học, phép tích chập được hiểu là một phép toán tuyến tính thực hiện với hai hàm số cho kết quả là một hàm số thứ ba, phép tính chập được kí hiệu bằng dấu hoa thị (Phương trình 2-1)

Hình 2.3 Mạng nơ-ron tích chập điển hình

Trang 26

số Ví dụ trường hợp đầu vào là ảnh hai chiều 𝐼 ∈ 𝑅𝑖×𝑗, ta thường sử dụng bộ lọc hai chiều 𝐾:

𝑆(𝑖, 𝑗) = 𝐼(𝑖, 𝑗) ∗ 𝐾(𝑖, 𝑗) = ∑ ∑ 𝐼(𝑖 − 𝑚, 𝑗 − 𝑛)𝐾(𝑚, 𝑛)𝑚 𝑛 (2-2) Tuy nhiên, khái niệm tích chập sử dụng trong CNN là phương trình (2-3) thay vì (2-2) Phương trình này có tên là tương quan chéo (cross-correlation) Điểm khác biệt duy nhất giữa hai phép toán là phép tích chập lật bộ lọc theo chiều ngang, sau

đó lật theo chiều dọc còn phép tương quan chéo không lật bộ lọc Do đó, trong phạm vi quyển luận văn này, khi đề cập đến phép tích chập, ta hiểu đó là phép tương quan chéo Để hiểu rõ hơn, ta xét ví dụ ở Hình 2.4 Trong đó, kết quả của phép tích chập được tính bằng cách áp dụng bộ lọc vào vùng trên cùng, bên trái (ô màu xanh dương) của ma trận đầu vào và dịch chuyển từ phải sang trái và từ trên xuống dưới với sải bước (stride) bằng một

𝑆(𝑖, 𝑗) = 𝐼(𝑖, 𝑗) ⊗ 𝐾(𝑖, 𝑗) = ∑ ∑ 𝐼(𝑖 + 𝑚, 𝑗 + 𝑛)𝐾(𝑚, 𝑛)𝑚 𝑛 (2-3)

Một điều quan trọng phải lưu ý là thông thường đầu ra hay bản đồ đặc trưng sau khi thực hiện lớp tích chập có kích thước nhỏ hơn đầu vào Để tránh việc giảm kích thước, người ta có thể sử dụng các bộ đệm (padding) ở đầu vào

Hình 2.4 Phép tương quan chéo hai chiều

Đầu vào

Bộ lọc

Kết quả

Trang 27

Một cách tổng quát, với đầu vào là một ảnh xám có kích thước H × W, sải bước S,

bộ đệm P và bộ lọc có kích thước F × F thì đầu ra của lớp tích chập sẽ có kích

số nghiên cứu, người ta sử dụng phép tích chập với sải bước lớn để thực hiện việc giảm kích thước đầu vào, cho kết quả tốt hơn là phép gộp [29]–[31]

Hiện nay, có hai phép gộp phổ biến là gộp cực đại (max-pooling) và gộp trung bình (average pooling) Cái thứ nhất lấy giá trị cực đại của một vùng cụ thể (theo kích thước bộ lọc) trong bản đồ đặc trưng, trong khi cái thứ hai lấy giá trị trung bình (Hình 2.5)

Gộp cực đại, Kích thước: 2x2, Sải bước: 2

Gộp trung bình, Kích thước: 2x2, Sải bước: 2 Hình 2.5 Phép gộp cực đại và gộp trung bình

Trang 28

2.2.3 Lớp kết nối đầy đủ

Lớp kết nối đầy đủ có cấu trúc như một mạng nơ-ron thông thường (Hình 2.6) Các đặc trưng trích từ lớp tích chập được làm phẳng và đưa vào lớp kết nối đầy đủ

Mỗi đặc trưng X n=0, 1 n được kết nối với tất cả các nơ-ron của lớp kết nối đầy đủ

FC 1 và các nơ-ron của lớp FC 1 kết nối với tất cả các nơ-ron của lớp FC 2 Chính vì tính chất này mà lớp kết nối đầy đủ còn được cọi là lớp dày đặc

Trong quá trình huấn luyện, trọng số 𝑊 của lớp kết nối đầy đủ được cập nhật bằng thuật toán suy giảm độ dốc để tối thiểu hóa sai số giữa ngõ ra dự đoán và nhãn thực tế của ảnh đầu vào

2.3 Thuật toán YOLOv1

You Only Look Once (YOLO) được giới thiệu lần đầu bởi Joseph Redmon và cộng

sự [25] tạo nên một trường phái mới trong bài toán phát hiện đối tượng Trước đó,

để giải quyết bài toán trên, người ta thường dùng CNN với phương pháp vùng đề xuất (Region Proposal) với đại diện là họ mạng R-CNN Cụ thể, R-CNN trước tiên tạo ra các vùng có khả năng chứa đối tượng, sau đó chạy các bộ phân loại trên các vùng này và tiến hành hậu xử lý để loại bỏ các dự đoán trùng lắp và tinh chỉnh hộp bao đối tượng dự đoán được Vì cách thức hoạt động như trên mà họ mạng R-CNN được xếp vào trường phái bộ phát hiện hai giai đoạn

Hình 2.6 Lớp kết nối đầy đủ trong CNN

Trang 29

YOLOv1 đề xuất một mạng CNN duy nhất để thực hiện đồng thời việc dự đoán các hộp bao đối tượng và phân bố lớp của chúng Mô hình thống nhất này có nhiều lợi thế như: đơn giản trong ý tưởng và cách thực hiện, tốc độ xử lý thời gian thực

Do đó, YOLOv1 được áp dụng khá phổ biến trong các ứng dụng nhận dạng đối tượng trong thực tế

2.3.1 Ý tưởng

YOLO chia bức ảnh đầu vào thành các ô lưới (Hình 2.7) có kích thước 𝑆 × 𝑆 Nếu tâm của đối tượng nằm trong một ô lưới thì ô lưới này chịu trách nhiệm xác đối

tượng đó Mỗi ô lưới dự đoán B hộp chứa đối tượng và điểm số tự tin (confident

score) cho mỗi hộp Điểm số tự tin của hộp giới hạn thể hiện mô hình tự tin bao nhiêu vào dự đoán khả năng hộp giới hạn này chứa đối tượng Bên cạnh đó, mỗi

hộp chứa 4 thông số (x, y, w, h) tương ứng với tọa độ tâm và chiều rộng, chiều dài

của hộp

Mỗi ô lưới chỉ dự đoán một tập gồm 𝐶 phân bố xác suất phân lớp của đối tượng

bất kể số lượng hộp B Như vậy, ngõ ra của mạng là một tensor có kích thước

Hình 2.7 Ý tưởng của YOLO [25]

Trang 30

S × S ×(B × 5 + C) Với cấu trúc ngõ ra như vậy thì mỗi ô chỉ dự đoán được cho một đối tượng dẫn đến việc mô hình sẽ khó phát hiện đối tượng ở gần nhau do khả năng tâm của đối tượng nằm cùng một ô lưới Điểm bất lợi này sẽ được giải quyết trong những phiên bản sau của YOLO

Mục đích của thuật toán YOLO là phát hiện một đối tượng bằng cách dự đoán chính xác hộp chứa đối tượng đó và khoanh vùng đối tượng dựa trên tọa độ hộp chứa Mô hình YOLO được huấn luyện với những bức ảnh có nhãn là tọa độ hộp

sự thật (hộp chứa đối tượng được các chuyên gia xác định chính xác tọa độ) Do

đó, các vectơ hộp giới hạn dự đoán tương ứng với vectơ đầu ra ŷ và các vectơ hộp

sự thật tương ứng với nhãn ngõ ra vectơ y Nhãn vectơ 𝑦 và vectơ dự đoán ŷ được

minh họa ở Hình 2.8, trong đó ô màu xanh dương không có bất kỳ đối tượng nào, điểm tin cậy của dự đoán trong ô xanh dương bằng 0, khi đó tất cả các tham số còn lại sẽ bị bỏ qua Trong khi ô màu xanh lá chứa tâm của đối tượng (con chó) nên độ tin cậy của hộp chứa đối tượng (màu đỏ) bằng 1

ŷ =ۏێێێێێ

ۏێێێێێێ

0 ےۑۑۑۑۑۑې

Hình 2.8 Véc-tơ dự đoán và véc-tơ nhãn ngõ ra để huấn luyện

Trang 31

2.3.2 Kiến trúc mô hình

Một cách tổng quát, YOLOv1 là một mạng CNN gồm 24 lớp tích chập theo sau bởi hai lớp kết nối đầy đủ (fully connected layer) (Bảng 2.1) Có thể thấy các chuỗi lớp tích chập 1x1 theo sau bởi lớp tích chập 3 x 3 chiếm phần lớn cấu trúc của mạng YOLO Đây là ý tưởng từ cấu trúc mạng nổi tiếng GoogleNet [32] giúp làm giảm kích thước đầu vào và thực hiện việc tính toán nhanh hơn

Bảng 2.1 Kiến trúc chi tiết của mạng YOLO với 24 lớp tích chập

có thể dẫn đến việc huấn luyện không hội tụ và không ổn định Vì vậy, YOLO

Trang 32

dùng hai tham số λ coord và λ noobj để giải quyết vấn đề trên Cụ thể, λ coord được đặt bằng 5 để tăng ảnh hưởng của hàm mục tiêu từ dự đoán tọa độ hộp giới hạn và

𝜆𝑛𝑜𝑜𝑏𝑗 được đặt bằng 0.05 để giảm ảnh hưởng hàm mục tiêu từ các dự đoán độ tự tin từ các hộp không chứa đối tượng

i j

S B obj

(Phương trình 2-6) 1 ij obj bằng 1 nếu có đối tượng trong hộp bao thứ j tại ô thứ i,

bằng 0 nếu ngược lại

sự khác biệt cho các giá trị nhỏ hơn các giá trị lớn hơn Do đó, căn bậc hai của chiều rộng và chiều cao của hộp chứa được sử dụng thay cho chiều rộng và chiều cao trực tiếp

Trang 33

2 2

ˆˆ

S B obj

sự thật 1 ij obj được xác định bằng 1 nếu có đối tượng trong ô lưới, bằng 0 nếu không

có Còn 1 ij noobj thì ngược lại

Phần cuối cùng của hàm mất mát dùng để tính toán mất mát của phân bố xác suất

phân lớp (Phương trình 2-9), ngoại trừ có thêm 1 i obj, thuật ngữ này được sử dụng

vì YOLO không phạt lỗi phân loại ngay cả khi không có đối tượng nào trong ô

2

2 0

ˆ

S obj

2.3.4 Thuật toán non-max suppression

YOLO xuất ra nhiều hộp giới hạn dự đoán từ mỗi ô lưới (Hình 2.5) Do đó, sẽ có hiện tượng nhiều hộp giới hạn chồng chất cho một đối tượng (Hình 2.9), điều này

là không cần thiết vì ta chỉ cần một hộp giới hạn cho một đối tượng duy nhất Thuật toán non-max suppression (NMS) được thực hiện để loại bỏ những hộp không cần thiết Thuật toán NMS gồm 3 bước chính:

• Bước 1: Sắp xếp tất cả các hộp bao đối tượng dự đoán và chọn ra hộp có điểm số tự tin cao nhất

• Bước 2: Tìm tất cả hộp có giá trị IOU cao hơn ngưỡng với hộp được chọn

Trang 34

• Bước 3: Loại bỏ tất cả các hộp có giá trị IOU lớn hơn một ngưỡng định trước

Cần lưu ý là IOU chỉ tỉ lệ giao nhau giữa hai hộp bao đối tượng (Phương trình 10)

2-overlap union

S IOU

S

Trong đó, 𝑆𝑜𝑣𝑒𝑟𝑙𝑎𝑝 là phần diện tích giao giữa hộp giới hạn dự đoán và hộp sự thật của đối tượng và 𝑆𝑢𝑛𝑖𝑜𝑛 là diện tích phần hợp giữa chúng Hình 2.10 minh họa thuật toán NMS

Hình 2.10 Giá trị IOU giữa hai hộp giới hạn Hình 2.9 Minh họa thuật toán NMS

Trang 35

2.3.5 Ưu và nhược điểm của YOLOv1

Ưu điểm:

• Tốc độ xử lý thời gian thực

• Đơn giản trong ý tưởng và cách thực hiện

• Tính khái quát của mô hình cao

Nhược điểm:

• Độ chính xác chưa cao so với các mô hình họ R-CNN

• Khó phát hiện các đối tượng nằm gần nhau và có kích thước nhỏ

2.4 Thuật toán YOLOv2

YOLOv1 có nhiều hạn chế như: chỉ số Recall thấp (khả năng định vị tất cả đối tượng trong ảnh), sai sót trong trong việc khoanh vùng đối tượng nhiều hơn các thuật toán khác, khó khăn trong phát hiện các vật thể nhỏ và gần nhau Vì thế, YOLOv2 ra đời [33] với mục tiêu cải thiện trong độ chính xác mô hình mà vẫn giữ được điểm mạnh về tốc độ Một số ý tưởng được đề xuất để cải thiện độ chính xác của mô hình gồm: chuẩn hóa theo batch, sử dụng bộ phân loại có độ phân giải cao,

sử dụng hộp mỏ neo để đưa ra dự đoán

2.4.1 Kiến trúc mô hình

YOLOv2 sử dụng kiến trúc mạng Darknet-19 (Bảng 2.2) như bộ trích đặc trưng chính Darknet-19 gồm 19 lớp tích chập và 5 lớp gộp

Khác với YOLOv1, YOLOv2 hạ kích cỡ ảnh từ 448 xuống 416 Lí do được đưa ra

là vì tác giả muốn kích thước ngõ ra là một số lẻ để chỉ có một ô lưới trung tâm thay vì bốn ô lưới xung quanh vị trí trung tâm như phiên bản một Thuật toán YOLOv2 giảm mẫu với hệ số chia bằng 32 nên bản đồ đặc trưng ngõ ra là một mãng nhiều chiều hay tensor có kích thước 13 × 13 × D (Hình 2.11)

Trang 36

Trong đó, 𝐷 có cấu trúc là B * (5 + C) 𝐵 là số hộp neo sử dụng để dự đoán sẽ

được đề cập ở phần sau, 5 + C là thuộc tính của hộp bao đối tượng dự đoán và tập

hợp xác suất phân lớp của đối tượng Có thể thấy cấu trúc này có sự khác biệt với YOLOv1 nơi mà một ô lưới chỉ có thể đưa ra dự đoán cho một đối tượng duy nhất,

sự khác biệt này cho phép một ô lưới có thể dự đoán nhiều đối tượng trong trường hợp tâm các đối tượng cùng nằm trong một ô lưới Như vậy, nhược điểm khó phát hiện các đối tượng ở gần nhau trong ảnh được giải quyết

Trang 37

2.4.2 Chuẩn hóa theo batch (Batch normalization)

Chuẩn hóa theo batch (BN) là một trong những phương pháp chuẩn hóa phổ biến trong mô hình học sâu [34] BN có thể được áp dụng vào từng lớp riêng rẻ hay cho tất cả các lớp của mạng: đầu tiên tính giá trị ngõ ra sau kích hoạt của lớp mạng như thường lệ sau đó chuẩn hóa theo phương trình (2-11)

2.4.3 Sử dụng bộ phân loại đầu vào phân giải cao

Phiên bản đầu tiên của YOLO sử dụng 20 lớp tích chập như bộ trích đặc trưng để tiền huấn luyện trên tập ImageNet có kích thước ảnh 224 x 224 và chuyển đổi sang

mô hình phát hiện đối tượng bằng cách thêm vào 4 lớp tích chập và 2 lớp kết nối

Hình 2.11 Kiến trúc YOLOv2

Trang 38

đầy đủ (Bảng 2.1), sau đó đó tiếp tục huấn luyện mô hình với kích thước hình ảnh đầu vào 448 x 448

Ở YOLOv2, sau khi huấn luyện mạng Darknet-19 như bộ phân loại với tập dữ liệu ImageNet kích thước 224 x 224, tác giả tiếp tục huấn luyện mô hình thêm 10 chu

kì huấn luyện với ảnh có kích thước 448 x 448 để giúp mô hình điều chỉnh trọng

số phù hợp với hình ảnh có độ phân giải cao hơn trước khi chuyển đổi mô hình để huấn luyện cho việc phát hiện đối tượng Việc sử dụng bộ phân loại với đầu vào

có độ phân giải cao này giúp tăng mAP của mô hình xấp xỉ 4%

2.4.4 Dự đoán với hộp mỏ neo

Thay vì dự đoán tọa độ hộp bao đối tượng trực tiếp bằng lớp kết nối đầy đủ như phiên bản đầu tiên, YOLOv2 loại bỏ tất cả các lớp kết nối đầy đủ và sử dụng các hộp mỏ neo để đưa ra dự đoán về hộp bao đối tượng

Hộp mỏ neo (còn được gọi là hộp mặc định) là một tập hợp các hộp được xác định trước có hình dạng khớp với đối tượng (bao quanh đối tượng) Bởi vì hầu hết các đối tượng trong tập dữ liệu huấn luyện (ví dụ: người, xe đạp, v.v.) có tỉ lệ chiều cao và chiều rộng tương đối tương đồng Vì vậy, khi dự đoán các hộp bao đối tượng, chúng ta chỉ cần tinh chỉnh sai lệch kích thước hộp mỏ neo với đối tượng mong muốn Việc dự đoán sai lệch của hộp mỏ neo và hộp bao thật sự thay vì trực tiếp dự đoán tọa độ hộp bao đối tượng làm quá trình huấn luyện dễ dàng hơn (Phụ lục E)

Như đã đề cập ở phiên bản YOLO đầu tiên, ô lưới chứa tâm đối tượng sẽ chịu trách nhiệm dự đoán hộp bao đối tượng đó Hình 2.12 cho thấy tâm của con chó (hình tròn đỏ) nằm trong ô lưới chính giữa Cả hai hộp neo có tâm (màu vàng) trùng với tâm ô lưới, đều giao với hộp bao thật sự của đối tượng (hộp màu đỏ) Tuy nhiên, chỉ hộp có đường viền dày hơn được chọn do có tỉ lệ IOU với hộp đỏ cao nhất Thuật toán YOLOv2 sẽ điều chỉnh sai lệch giữa hộp neo này và hộp bao thật sự của đối tượng qua từng bước huấn luyện Việc sử dụng hộp mỏ neo để dự đoán làm tăng chỉ số Recall của mô hình YOLOv2 từ 81% lên 88% Cần lưu ý là kích

Trang 39

thước và số lượng hộp neo được chọn nhờ chạy thuật toán phân cụm K-mean (K

= 5) trên tập dữ liệu

2.5 Thuật toán YOLOv3

YOLOv3 ra đời với những cải tiến đáng kể như: kiến trúc mô hình lớn hơn, đưa ra

dự đoán trên nhiều tỉ lệ bản đồ đặc trưng Mô hình đã được sử dụng rộng rãi cho các tác vụ phát hiện đối tượng đặc biệt là trong các tập dữ liệu hình ảnh tự nhiên như PASCAL VOC [35], MSCOCO [36]

2.5.1 Kiến trúc mô hình YOLOv3

YOLOv3 sử dụng bộ trích đặc trưng gồm 53 lớp tích chập nhiều hơn phiên bản trước đó 34 lớp Đối với mạng nơ-ron sâu, nhiều lớp hơn có nghĩa là độ chính xác cao hơn Tuy nhiên, hình ảnh đầu vào bị thu nhỏ khi chuyển tiếp đến các lớp sâu hơn, dẫn đến mất các đặc trưng chi tiết Đó là lý do tại sao phiên bản YOLOv2 thường gặp khó khăn với việc phát hiện vật thể nhỏ Kaiming He và cộng sự công

bố mạng Residual (ResNet) với ý tưởng bỏ qua kết nối để giúp các bản đồ đặc Hình 2.12 Trường hợp sử dụng hai hộp mỏ neo để đưa ra dự đoán (màu vàng)

Trang 40

trưng truyền qua các lớp sâu hơn mà không xảy ra hiện tượng biến mất độ dốc (vanishing gradient) [37] Kiến trúc YOLOv3 là sự lai tạo giữa kiến trúc Darknet-

xử lý bản đồ đặc trưng

Ngày đăng: 25/11/2022, 09:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] A. C. Society. “Breast cancer facts & figures 2019–2020,” Am. Cancer Soc. Pp. 1–44, 2019 Sách, tạp chí
Tiêu đề: Breast cancer facts & figures 2019–2020
Tác giả: A. C. Society
Nhà XB: Am. Cancer Soc.
Năm: 2019
[2] C. Jenkins et al., “Breast cancer services in Vietnam: a scoping review,” Glob. Health Action. Vol. 11, no. 1, p. 1435344, 2018 Sách, tạp chí
Tiêu đề: Breast cancer services in Vietnam: a scoping review
Tác giả: C. Jenkins
Nhà XB: Global Health Action
Năm: 2018
[4] C. Dromain et al. “Dual-energy contrast-enhanced digital mammography: initial clinical results of a multireader, multicase study,” Breast Cancer Res.Vol. 14, no. 3, p. R94, 2012 Sách, tạp chí
Tiêu đề: Dual-energy contrast-enhanced digital mammography: initial clinical results of a multireader, multicase study
Tác giả: C. Dromain
Nhà XB: Breast Cancer Research
Năm: 2012
[5] M. Mori et al. “Diagnostic accuracy of contrast-enhanced spectral mammography in comparison to conventional full-field digital mammography in a population of women with dense breasts,” Breast Cancer. Vol. 24, no. 1, pp. 104–110, 2017 Sách, tạp chí
Tiêu đề: Diagnostic accuracy of contrast-enhanced spectral mammography in comparison to conventional full-field digital mammography in a population of women with dense breasts
Tác giả: M. Mori
Nhà XB: Breast Cancer
Năm: 2017
[6] O. L. Mangasarian et al. “Breast cancer diagnosis and prognosis via linear programming,” Oper. Res. Vol. 43, no. 4, pp. 570–577, 1995 Sách, tạp chí
Tiêu đề: Breast cancer diagnosis and prognosis via linear programming
Tác giả: O. L. Mangasarian
Nhà XB: Operations Research
Năm: 1995
[7] J. S. Whang et al. “The causes of medical malpractice suits against radiologists in the United States,” Radiology. Vol. 266, no. 2, pp. 548–554, 2013 Sách, tạp chí
Tiêu đề: The causes of medical malpractice suits against radiologists in the United States
Tác giả: J. S. Whang
Nhà XB: Radiology
Năm: 2013
[8] C. Dromain et al. “Computed-aided diagnosis (CAD) in the detection of breast cancer,” Eur. J. Radiol. Vol. 82, no. 3, pp. 417–423, 2013 Sách, tạp chí
Tiêu đề: Computed-aided diagnosis (CAD) in the detection of breast cancer
Tác giả: C. Dromain
Nhà XB: European Journal of Radiology
Năm: 2013
[9] E. Kozegar et al. “Assessment of a novel mass detection algorithm in mammograms,” J. Cancer Res. Ther. Vol. 9, no. 4, p. 592, 2013 Sách, tạp chí
Tiêu đề: Assessment of a novel mass detection algorithm in mammograms
Tác giả: E. Kozegar
Nhà XB: J. Cancer Res. Ther.
Năm: 2013
[10] J. Virmani et al. “PCA-PNN and PCA-SVM based CAD systems for breast density classification,” Applications of intelligent optimization in biology and medicine, Springer. Pp. 159–180 Sách, tạp chí
Tiêu đề: PCA-PNN and PCA-SVM based CAD systems for breast density classification
Tác giả: J. Virmani
Nhà XB: Springer
[11] N. I. R. Yassin et al. “Machine learning techniques for breast cancer computer aided diagnosis using different image modalities: A systematic review,” Comput. Methods Programs Biomed. Vol. 156, pp. 25–45, 2018 Sách, tạp chí
Tiêu đề: et al". “Machine learning techniques for breast cancer computer aided diagnosis using different image modalities: A systematic review,” "Comput. Methods Programs Biomed
[12] R. Cuocolo et al. “Machine learning applications in prostate cancer magnetic resonance imaging,” Eur. Radiol. Exp. Vol. 3, no. 1, pp. 1–8, 2019 Sách, tạp chí
Tiêu đề: et al." “Machine learning applications in prostate cancer magnetic resonance imaging,” "Eur. Radiol. Exp
[13] W. Gale et al. “Detecting hip fractures with radiologist-level performance using deep neural networks.” Nov. 2017 [Online]. Available:http://arxiv.org/abs/1711.06504, Feb. 20, 2021 Sách, tạp chí
Tiêu đề: Detecting hip fractures with radiologist-level performance using deep neural networks
Tác giả: W. Gale, et al
Nhà XB: arXiv
Năm: 2017
[14] J. G. Nam et al. “Development and validation of deep learning–based automatic detection algorithm for malignant pulmonary nodules on chest radiographs,” Radiology. Vol. 290, no. 1, pp. 218–228, 2019 Sách, tạp chí
Tiêu đề: Development and validation of deep learning–based automatic detection algorithm for malignant pulmonary nodules on chest radiographs
Tác giả: J. G. Nam
Nhà XB: Radiology
Năm: 2019
[15] P. Rajpurkar et al. “Deep learning for chest radiograph diagnosis: A retrospective comparison of the CheXNeXt algorithm to practicing radiologists,” PLoS Med. Vol. 15, no. 11, p. e1002686, 2018 Sách, tạp chí
Tiêu đề: Deep learning for chest radiograph diagnosis: A retrospective comparison of the CheXNeXt algorithm to practicing radiologists
Tác giả: P. Rajpurkar, et al
Nhà XB: PLOS Medicine
Năm: 2018
[16] A. Rodriguez-Ruiz et al. “Stand-alone artificial intelligence for breast cancer detection in mammography: comparison with 101 radiologists,” JNCI J.Natl. Cancer Inst. Vol. 111, no. 9, pp. 916–922, 2019 Sách, tạp chí
Tiêu đề: Stand-alone artificial intelligence for breast cancer detection in mammography: comparison with 101 radiologists
Tác giả: A. Rodriguez-Ruiz, et al
Nhà XB: JNCI J.Natl. Cancer Inst.
Năm: 2019
[17] A. Akselrod-Ballin et al. “A CNN based method for automatic mass detection and classification in mammograms,” Comput. Methods Biomech.Biomed. Eng. Imaging Vis. Vol. 7, no. 3, pp. 242–249, 2019 Sách, tạp chí
Tiêu đề: A CNN based method for automatic mass detection and classification in mammograms
Tác giả: Akselrod-Ballin, A
Nhà XB: Comput. Methods Biomech.Biomed. Eng. Imaging Vis.
Năm: 2019
[18] D. Ribli et al. “Detecting and classifying lesions in mammograms with deep learning,” Sci. Rep. Vol. 8, no. 1, pp. 1–7, 2018 Sách, tạp chí
Tiêu đề: Detecting and classifying lesions in mammograms with deep learning
Tác giả: D. Ribli
Nhà XB: Scientific Reports
Năm: 2018
[19] R. Agarwal et al. “Deep learning for mass detection in Full Field Digital Mammograms,” Comput. Biol. Med. Vol. 121, p. 103774, 2020 Sách, tạp chí
Tiêu đề: Deep learning for mass detection in Full Field Digital Mammograms
Tác giả: R. Agarwal
Nhà XB: Computers in Biology and Medicine
Năm: 2020
[20] M. A. Al-Masni et al. “Simultaneous detection and classification of breast masses in digital mammograms via a deep learning YOLO-based CAD system,” Comput. Methods Programs Biomed. Vol. 157, pp. 85–94, 2018 Sách, tạp chí
Tiêu đề: Simultaneous detection and classification of breast masses in digital mammograms via a deep learning YOLO-based CAD system
Tác giả: M. A. Al-Masni
Nhà XB: Computers in Biology and Medicine
Năm: 2018
[21] M. A. Al-Antari et al. “A fully integrated computer-aided diagnosis system for digital X-ray mammograms via deep learning detection, segmentation, and classification,” Int. J. Med. Inform. Vol. 117, pp. 44–54, 2018 Sách, tạp chí
Tiêu đề: A fully integrated computer-aided diagnosis system for digital X-ray mammograms via deep learning detection, segmentation, and classification
Tác giả: M. A. Al-Antari et al
Nhà XB: Int. J. Med. Inform.
Năm: 2018

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm