1. Trang chủ
  2. » Tất cả

Nghiên cứu ứng dụng trí tuệ nhân tạo trong chẩn đoán ung thư phổi sử dụng ảnh chụp ct

62 10 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu ứng dụng trí tuệ nhân tạo trong chẩn đoán ung thư phổi sử dụng ảnh chụp CT
Tác giả Nguyễn Đăng Nhật
Người hướng dẫn TS. Trần Ngọc Toàn
Trường học Trường Đại học Bách Khoa Hà Nội
Chuyên ngành Kỹ thuật Hạt nhân
Thể loại Luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 1,45 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TÓM T ẮT NỘI DUNG LUẬN VĂN Luận văn này nghiên cứu về tính ứng dụng của trí tuệ nhân tạo trong chẩn đoán và phát hiện sớm ung thư phổi dựa vào ảnh chụp CT, việc sử dụng một số lượng lớn

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ẢNH CHỤP CT

NGUY ỄN ĐĂNG NHẬT

nhatsneepbk@gmail.com

Ngành K ỹ thuật Hạt nhân

Gi ảng viên hướng dẫn: TS Trần Ngọc Toàn

HÀ N ỘI, 09/2022

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ẢNH CHỤP CT

NGUY ỄN ĐĂNG NHẬT

nhatsneepbk@gmail.com

Ngành K ỹ thuật Hạt nhân

Gi ảng viên hướng dẫn: TS Trần Ngọc Toàn

HÀ N ỘI, 09/2022

Chữ ký của GVHD

Trang 3

C ỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

H ọ và tên tác giả luận văn: NGUYỄN ĐĂNG NHẬT

Đề tài luận văn: “Nghiên cứu ứng dụng trí tuệ nhân tạo trong chẩn đoán ung thư phổi

sử dụng ảnh chụp CT”

Chuyên ngành: K ỹ thuật Hạt nhân

Mã s ố HV: 20202109M

Cán b ộ hướng dẫn: TS Trần Ngọc Toàn

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa,

bổ sung luận văn theo biên bản họp Hội đồng ngày13/10/2022 với các nội dung sau:

• Bổ sung danh mục các ký hiệu toán học

• Giảm số lượng các trích dẫn không cần thiết

• Sắp xếp lại hợp lý vị trí các hình vẽ và bảng biểu

• Sửa đổi lại bố cục trình bày sao cho hợp lý, dễ hiểu

• Biện luận và giải thích chi tiết hơn về kết quả luận văn

• Rút ra nh ững nhược điểm của nghiên cứu

• Ch ỉnh sửa lại lỗi đánh máy và chính tả

Hà N ội, ngày 30 tháng 10 năm 2022

Người hướng dẫn Tác gi ả luận văn

TS Tr ần Ngọc Toàn Nguyễn Đăng Nhật

CHỦ TỊCH HỘI ĐỒNG

TS Nguy ễn Văn Thái

THƯ VIỆN TẠ QUANG BỬU

Xác nhận đã nhận lại luận văn sau sửa chữa mã số ………

Ngày……tháng……năm 2022

(Ký ghi rõ họ tên)

ĐỀ TÀI LUẬN VĂN

Trang 4

Tên đề tài tiếng Việt:

UNG THƯ PHỔI SỬ DỤNG ẢNH CHỤP CT

Tên đề tài tiếng Anh:

A STUDY ON APPLICATION OF ARTIFICAL INTELLIGENCE IN DIAGNOSIS OF LUNG CANCER USING CT IMAGE

Giáo viên hướng dẫn

Ký và ghi rõ h ọ tên

TS Tr ần Ngọc Toàn

Trang 5

L ỜI CAM ĐOAN

Học viên xin cam đoan: Luận văn “Nghiên c ứu ứng dụng trí tuệ nhân tạo trong ch ẩn đoán ung thư phổi sử dụng ảnh chụp CT” là công trình nghiên cứu

của riêng học viên dưới sự hướng dẫn khoa học của TS Trần Ngọc Toàn, tại bộ môn Kỹ thuật Hạt nhân và Vật lý Môi Trường, Viện Vật lý Kỹ thuật, Đại học Bách Khoa Hà Nội

Luận văn có tham khảo các nghiên cứu và tài liệu khác nhau trong và ngoài nước, tất cả đều đã được trích dẫn đầy đủ Các số liệu trong luận văn được sử dụng trung thực, kết quả được trình bày trong luận văn chưa từng được bất kỳ tác giả nào công bố trong các công trình khác

Trang 6

L ỜI CẢM ƠN

Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến TS Trần Ngọc Toàn về sự hướng dẫn khoa học rất nhiệt tình và chu đáo trong thời gian tôi theo học Thạc sĩ

Thầy đã đưa ra những định hướng nghiên cứu cụ thể và những lời khuyên quý báu

để giúp tôi đạt được những kết quả có giá trị Cảm ơn Thầy đã giúp đỡ, động viên

và tạo mọi điều kiện thuận lợi nhất để tôi có thể học tập, nghiên cứu Tôi đã học được ở Thầy sự nghiêm túc và tính chuyên nghiệp trong công việc, những ý tưởng

mới mẻ và lòng say mê nghiên cứu khoa học, đó là một hành trang quan trọng cho tôi trong cuộc đời nghiên cứu sau này

Tôi xin chân thành cảm ơn TS Nguyễn Văn Thái, TS Trần Kim Tuấn, PGS

TS Phạm Đình Khang và các thầy cô trong bộ môn Kỹ thuật Hạt nhân và Vật lý Môi trường, Viện Vật lý Kỹ thuật đã nhiệt tình giảng dạy, động viên và đưa ra

những lời khuyên quý báu cho tôi trong những năm tháng học Đại học và học Thạc

sĩ tại Đại học Bách Khoa Hà Nội Những bài giảng của các thầy, cô là nền tảng

vững chắc để tôi có thể phát triển hơn nữa

Cuối cùng, tôi xin cảm ơn bố mẹ, gia đình, người thương, anh chị em bạn

bè đã luôn đồng hành, ủng hộ tôi trong công việc, cuộc sống, giúp tôi có thêm động

lực và quyết tâm hoàn thành ước mơ của mình

Xin chân thành cảm ơn!

Tác giả luận văn

Ký và ghi rõ h ọ tên

Trang 7

TÓM T ẮT NỘI DUNG LUẬN VĂN

Luận văn này nghiên cứu về tính ứng dụng của trí tuệ nhân tạo trong chẩn đoán và phát hiện sớm ung thư phổi dựa vào ảnh chụp CT, việc sử dụng một số lượng lớn dữ liệu có sẵn và chính xác sau đó sử dụng chính những bộ dữ liệu đó

để cho máy tính có thể học và tiếp thu được những đặc trưng của từng đối tượng, qua đó giúp máy tính có thể phân loại và lọc ra những ảnh tương tự sau này

Luận văn nghiên cứu về lý thuyết của mạng neuron nhân tạo, các khái niệm

về mạng nơ-ron, các mô hình nơ-ron nhân tạo phổ biến và khả năng ứng dụng của chúng vào các bài toán như: bài toán phân lớp, bài toán dự báo…

Để nghiên cứu về tính ứng dụng của trí tuệ nhân tạo, luận văn đi sâu vào

mạng nơ-ron tích chập Convolution Neural Network (còn gọi là ConvNet / CNN)

là một thuật toán Deep Learning có thể lấy hình ảnh đầu vào, gán độ quan trọng (các trọng số - weights và độ lệch - bias có thể học được) cho các đặc trưng, đối tượng khác nhau trong hình ảnh và có thể phân biệt được từng đặc trưng, đối tượng này với nhau Mạng nơ-ron này được áp dụng phổ biến trong các bài toán

xử lý ảnh bởi sự tối ưu về tốc độ cũng như hiệu quả của nó so với những mạng nơ-ron khác

Để ứng dụng mạng nơ-ron tích chập vào bài toán xử lý hình ảnh CT bệnh nhân ung thư, luận văn nghiên cứu về kiến trúc của mạng VGG16 một kiến trúc

nổi tiếng của mạng nơ-ron tích chập trong bài toán xử lý hình ảnh VGG16 được coi là mô hình CNN nâng cao AlexNet bằng cách thay thế các bộ lọc có kích thước

hạt nhân khổng lồ có nhiều bộ lọc kích thước hạt nhân 3x3 tuần tự, hình ảnh các

khối u trong ảnh CT được chuyển qua nhiều lớp phức hợp với các bộ lọc có trường

tiếp nhận tối thiểu 3x3 (đây là kích thước nhỏ nhất cần thiết để thu thập dữ liệu)

Nó sử dụng các bộ lọc tích chập 1×1 trong một cấu hình có thể được xem như là chuyển đổi tuyến tính các kênh đầu vào khác nhau Tổng hợp không gian được

thực hiện bằng cách sử dụng 5 lớp tổng hợp tối đa theo sau một vài lớp tích chập (mọi lớp tích chập không theo sau bằng tổng hợp tối đa) Sự sắp xếp tương tự của các lớp tổng hợp cực đại và các lớp tích chập được thực hiện nhất quán trong toàn

bộ kiến trúc

Trang 8

Kết quả của chương trình được đánh giá bằng các các phép đánh giá như: Arcuracy, Loss, F1-Score, AUC và Preciscion Hiệu năng của một mô hình thường được đánh giá trên các tập dữ liệu kiểm tra, việc sử dụng nhiều phép đánh giá khác nhau nhằm đánh giá chính xác được hiệu quả của chương trình

Trang 9

i

M ỤC LỤC

L ỜI CAM ĐOAN

L ỜI CẢM ƠN

TÓM T ẮT NỘI DUNG LUẬN VĂN

M Ở ĐẦU 1

CHƯƠNG I TỔNG QUAN CƠ SỞ LÝ THUYẾT 2

1.1 Tổng quan 2

1.2 Các loại ung thư phổ biến 7

Ung thư phổi tế bào nhỏ 8

Ung thư phổi không tế bào nhỏ 8

1.3 Giới thiệu về mạng nơ ron tích chập và ứng dụng 9

Khái niệm 9

Kiến trúc CNN 12

1.4 Các kiến trúc mạng nổi tiếng trên CNN 18

Kiến trúc VGG16 18

Kiến trúc LeNet(1998) 20

Kiến trúc Alexnet 21

So sánh cấu trúc mạng VGG16 với các cấu trúc mạng CNN khác 22

CHƯƠNG II XÂY DỰNG CHƯƠNG TRÌNH PHÂN LOẠI UNG THƯ PHỔI B ẰNG MẠNG NƠ-RON NHÂN TẠO 24

2.1 Chuẩn bị dữ liệu hình ảnh 25

2.2 Huấn luyện mô hình bằng cấu trúc VGG16 30

Max pooling (lớp tổng hợp cực đại) 32

Fully Connected Layer (lớp kết nối đầy đủ) 33

2.3 Mô hình tăng cường độ chính xác của VGG16 34

2.4 Các tỉ số đánh giá mô hình 35

Accuracy 35

Loss 37

AUC (Area Under the Curve) 39

Preciscion 41

F1-Score 42

CHƯƠNG III KẾT QUẢ VÀ THẢO LUẬN 43

a Kết quả của VGG16 với VGG16 kết hợp tăng cường dữ liệu 44

b So sánh kết quả với các mô hình khác 47

K ẾT LUẬN 49

DANH M ỤC TÀI LIỆU THAM KHẢO 50

Trang 10

ii

T ừ viết tắt Ti ếng Anh Ti ếng Việt

ANN Artificial Neural

Network

M ạng thần kinh nhân tạo

AI Artificial intelligence Trí tu ệ nhân tạo

AUC Area Under the Curve

CNN Convolution Neural

Network

Mạng nơ-ron tích chập

CT Computed Tomography ảnh chụp cắt lớp vi tính Conv Tích ch ập

Epoch s ố vòng lặp

MLP Multi Layer Perceptron M ạng truyền thẳng

Institute of Standards and Technology database

Cở sở dũ liệu hình ảnh về các chữ viết tay dung để huấn luyện mạng

Max Pooling Lớp tổng hợp cực đại

VGG16 Kiến trúc mạng CNN nổi

tiếng Pooling Layer L ớp tổng hợp

Overfitting Hi ện tượng quá khớp dữ liệu

trong h ọc máy OAR Organs At Risk Cơ quan cần bảo vệ có nguy

cơ nhận liều cao

Trang 11

iii

Hình 1.1 Hình ảnh máy chụp CT 3

Hình 1.2 Hình ảnh chụp cắt lớp vi tính của bệnh nhân ung thư phổi 4

Hình 1.3 Cấu tạo của tế bào nơron sinh học 10

Hình 1.4 Nơron nhân tạo 10

Hình 1.5 Phép tích chập được áp dụng vào mô hình mạng nơ ron tạo ra mạng nơ ron tích chập 11

Hình 1.6 Kiến trúc CNN 13

Hình 1.7 Mô tả trực quan lớp tích chập 14

Hình 1.8 kiến truc CNN bao gồm hai lớp tích chập trước lớp gộp 16

Hình 1.9 Mô hình mạng VGG16 19

Hình 1.10 Cấu trúc mạng Lenet với bài toán nhận dạng chữ viết tay 21

Hình 1.11 Cấu trúc mạng AlexNet 22

Hình 2.1 Mô hình chương trình phân loại ung thư phổi 24

Hình 2.2 Hình ảnh chụp CT phổi 27

Hình 2.3 Giao diện phần mềm chuyển đổi ảnh Dicom sang Jpeg 28

Hình 2.4 Hình ảnh chụp CT phổi sau khi thực hiện các phép tăng cường dữ liệu 30

Hình 2.5 Mô hình hoạt động của chương trình VGG16 31

Hình 2.6 Mô hình hoạt động của tích chập bất thường 32

Hình 2.7 Hình ảnh chụp CT của 4 loại bệnh ung thư 33

Hình 2.8 Mô hình tăng cường độ chính xác 36

Hình 2.9 Ví dụ về một kết quả tỉ số đánh giá accuracy 37

Hình 2.10 Ví dụ về một kết quả tỉ số đánh giá Loss 39

Hình 2.11 Đường cong biểu diễn overfitting và underfitting 40

Hình 2.12 Ví dụ về một kết quả tỉ số đánh giá AUC 41

Hình 2.13 Cách tính Precision 42

DANH M ỤC CÁC BẢNG BIỂU Bảng 3.1 Ma trận nhầm lẫn của mô hình phân loại 43

Bảng 3.2 Kết quả của hai mô hình phân loại 44

Bảng 3.3 Kết quả của mô hình tăng cường dữ liệu 45

Bảng 3.4 Kết quả các tỉ số đánh giá với các mặt bệnh 46

Bảng 3.5 Kết quả so sánh với các mô hình khác nhau 47

Bảng 3.6 Kết quả so sánh giữa các bác sĩ và AI 48

Trang 12

1

M Ở ĐẦU

1 Tính cấp thiết của đề tài

Chẩn đoán các ung thư phổi bằng hình ảnh hiện nay là việc sử dụng các kỹ thuật, máy móc nhằm tái tạo lại hình ảnh các vị trí trên cơ thể để từ đó quan sát được những điểm bất thường đang diễn ra, từ đó giúp các bác sỹ tìm ra đúng bệnh và giúp cải thiện việc điều trị

Hiện nay có rất nhiều phương pháp để xử lý những hình ảnh thu được từ việc tái tạo ảnh nhằm đưa ra chẩn đoán chính xác nhưng bị giới hạn ở một số

vị trí và cần sự can thiệp từ con người, yêu cầu những bác sỹ phải có trình độ chuyên môn giỏi để có thể đọc chính xác ảnh từ đó giúp cho việc điều trị bệnh được chính xác và hiệu quả Một trong các phương pháp hỗ trợ cho các bác sỹ

đó là sử dụng trí tuệ nhân tạo để xử lý, phân loại những hình ảnh đó giúp giảm

thiểu thời gian

Trí tuệ nhân tạo hay trí thông minh nhân tạo (Artificial intelligence – viết

tắt là AI) là một ngành thuộc lĩnh vực khoa học máy tính (Computer science), trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thông minh như con người

Trí tuệ nhân tạo khác với việc lập trình logic trong các ngôn ngữ lập trình

là ở việc ứng dụng các hệ thống học máy (machine learning) để mô phỏng trí

tuệ của con người trong các xử lý mà con người làm tốt hơn máy tính

Cụ thể, trí tuệ nhân tạo giúp máy tính có được những trí tuệ của con người

như: biết suy nghĩ và lập luận để giải quyết vấn đề, biết giao tiếp do hiểu ngôn

ngữ, tiếng nói, biết học và tự thích nghi…

2 Mục đích nghiên cứu

• Xây dựng chương trình giúp phân loại ảnh CT bốn loại ung thư phổi dựa trên mạng nơron nhân tạo

3 Phương pháp nghiên cứu

• Phân tích, thống kê và tính toán các tư liệu thu thập được,

• Mô hình hóa bài toán bằng việc ứng dụng thư viện mã nguồn mở

tensorflow cùng ngôn ngữ lập trình python

Trang 13

2

CHƯƠNG I TỔNG QUAN CƠ SỞ LÝ THUYẾT

1.1 Tổng quan

Ung thư phổi ngày càng trở nên phổ biến trên thế giới Hơn một phần tư trong số tất cả các bệnh ung thư được chẩn đoán có liên quan đến phổi Ung thư

phổi nguyên phát vẫn là nguyên nhân gây tử vong phổ biến nhất ở nam giới và

phụ nữ trên toàn thế giới Theo thống kê của tổ chức Y tế Thế giới (WHO) năm

2018 ước tính ung thư phổi gây ra khoảng 1.76 triệu trường hợp tử vong chiếm hơn 84% tổng số ca nhiễm trên thế giới Theo định nghĩa, ung thư phổi là một

khối u phổi ác tính được đặc trưng bởi sự tăng trưởng không kiểm soát được trong mô phổi Phát hiện sớm ung thư phổi có thể làm giảm tỷ lệ tử vong và tăng khả năng chữa khỏi cho người bệnh Ngày nay, việc chẩn đoán và xác định giai đoạn của ung thư phổi có thể dựa trên thăm khám lâm sàng, chụp X-quang tim phổi, chụp cắt lớp vi tính (CT), chụp cộng hưởng từ (MRI), xạ hình xương,

nội soi phế quản, nội soi trung thất, sinh thiết hạch, u phổi chẩn đoán mô bệnh

học

Chụp CT mô phỏng hiện nay đang trở nên phổ biến như một phương pháp đánh giá tổng thể giai đoạn ung thư Máy chụp cắt lớp vi tính (CT-Scanncer: Computed Tomography).Máy thực hiện phương thức này có nhiều loại khác nhau, hiện nay phổ biến nhất là loại máy chụp cắt lớp nhiều đầu thu (multidetector computed tomography, viết tắt là MDCT); người tiến hành tiến trình chụp cắt lớp bằng máy này gọi là kỹ thuật viên X quang (radiographers)

Trang 14

3

Hình 1.1 Hình ảnh máy chụp CT

Ảnh y tế thu nhận được từ máy chụp cắt lớp vi tính (CLVT) được phân tích bằng các thuật toán và lưu lại trên máy tính Tuy nhiên, giống như các kiện hàng trong các thùng container, chỉ có những chủ kiện hàng mới biết được bên trong đó là gì nếu các thông tin không được dán mác ở bên ngoài Không chỉ

phục vụ mục đích lưu trữ và chẩn đoán bệnh, chuẩn DICOM ra đời còn là cuộc cách mạng trong lĩnh vực nghiên cứu y khoa Khi các bác sỹ muốn tìm kiếm các trường hợp tương tự để giúp họ chẩn đoán và có kế hoạch điều trị thành công cho nhiều bệnh nhân khác Hơn nữa, ứng dụng của y học từ xa (telemedicine) không thể thành công nếu thiếu chuẩn DICOM, Khi các bệnh nhân ở vùng sâu, vùng xa không được tiếp cận với các bệnh viện tuyến trên một cách nhanh nhất, đối với các trường hợp khẩn cấp, thì việc truyền ảnh chụp được từ các Bệnh

viện tuyến dưới lên tuyến trên để được sự tư vấn của các chuyên gia đầu ngành

là hết sức quan trọng Năm 1980, Chuẩn DICOM đã được phát triển để giải quyết

vấn đề lưu trữ và truyền các thông tin chẩn đoán hình ảnh Trong đó có các thông tin của người bệnh như tên tuổi, số thẻ bảo hiểm, nhóm máu … DICOM được nghiên cứu lần đầu tiên vào năm 1983 và được công bố lần đầu tiên năm

1985 bởi tổ chức American College of Radiology (ACR) và National Electrical Manufacture Association (NEMA) Đầu những năm 1980, rất khó khăn để các nhà sản xuất máy chụp CLVT (CT scanner) và máy chụp cộng hưởng từ (MRI)

có thể mã hóa được hình ảnh 31 cho những thiết bị chung ACR và NEMA đã cùng đưa ra một tiêu chuẩn chung năm 1983 Tiêu chuẩn đầu tiên của họ,

Trang 15

và từ đó tiếp tục được sửa đổi và bổ sung

Hình 1.2 Hình ảnh chụp cắt lớp vi tính của bệnh nhân ung thư phổi

Sau khi thu được ảnh, bác sĩ sẽ sử dụng hình ảnh CT thu được để phân tích và chẩn đoán các mô phổi Việc chẩn đoán các bất thường của phổi bằng phương pháp thủ công là một quá trình tốn thời gian, mang tính chủ quan và đòi

hỏi các bác sĩ cần có nhiều kinh nghiệm Tuy nhiên, trong nhiều trường hợp, rất khó để bác sĩ có được chẩn đoán chính xác nếu không có sự trợ giúp của công

cụ bổ sung được gọi là Hệ thống chẩn đoán có sự hỗ trợ của máy tính (Computed Aided Diagnosis - CAD) Hệ thống chẩn đoán có sự hỗ trợ của máy tính (CAD)

là một công cụ chẩn đoán y tế hiệu quả và là điều kiện tiên quyết cho việc phân tích hình ảnh y tế thực tiễn Bác sĩ sử dụng hệ thống CAD để cung cấp thêm ý

kiến thứ hai để có được các chẩn đoán chính xác hơn Đây là công cụ rất hữu

ích, được sử dụng rộng rãi để cải thiện hiệu quả của việc điều trị

Trang 16

5

Đối với nhiều hệ thống CAD, luôn cần một quy trình phân đoạn ảnh chính xác của các cơ quan cần quan tâm để xác định vị trí cũng như kích thước của chúng Đây là bước khởi đầu tiên quyết để phân tích hình ảnh CT phổi định

lượng một cách hiệu quả Tuy nhiên, thiết kế một phương pháp phân đoạn phổi hiệu quả là một vấn đề đầy thách thức, đặc biệt đối với nhu mô phổi bất thường,

nơi các nốt và mạch máu cần được phân tách với nhu mô phổi Hơn nữa, phổi cần được phân tách ra khỏi các khu vực phế quản thường bị nhầm lẫn với các

mô phổi

Ngày nay, trí tuệ nhân tạo và học máy trong đó cụ thể hơn là Deep learning - Học sâu đã được sử dụng rộng rãi trong nhiều lĩnh vực, giúp các hệ thống hoạt động thông minh và hiệu quả hơn Khả năng nhận dạng hình ảnh của máy móc được huấn luyện thông qua Deep learning trong một số tình huống tốt

hơn so với con người đặc biệt trong điều kiện yêu cầu đưa ra kết luận nhanh, chính xác Điều này đã được chứng minh trong các ứng dụng liên quan đến tính năng khai thác tự động, phân loại hình ảnh và phát hiện đối tượng như các hệ thống nhận diện khuôn mặt người dùng, xe hơi tự lái hay drone giao hàng tự động Ngoài ra trí tuệ nhân tạo còn có ưu điểm khi không bị ảnh hưởng do quá trình làm việc trong thời gian dài, liên tục dẫn đến có thể đưa ra những phán đoán sai lầm, cảm tính Gần đây, việc áp dụng các kỹ thuật học sâu cho phân đoạn hình ảnh y tế đã nhận được sự quan tâm lớn bởi các nhà khoa học trên thế giới do chúng có khả năng học hỏi và xử lý lượng lớn dữ liệu một cách nhanh chóng và chính xác

Một số nhà nghiên cứu đã đề xuất và triển khai phát hiện ung thư phổi bằng các cách tiếp cận hình ảnh khác nhau xử lý và học máy Aggarwal, Furquan

và Kalra[1] đã đề xuất một mô hình cung cấp phân loại giữa các nốt và cấu trúc giải phẫu phổi bình thường Phương pháp trích xuất hình học, thống kê và mức

độ sáng tối của ảnh LDA được sử dụng như bộ phân loại và tạo ngưỡng tối ưu

để phân đoạn Hệ thống có độ chính xác 84%, độ nhạy 97,14% và độ đặc hiệu 53,33% Mặc dù hệ thống phát hiện được nốt ung thư, nhưng độ chính xác của

nó vẫn là khiêm tốn Jin, Zhang và Jin[2] đã sử dụng mạng nơ-ron tích chập làm

bộ phân loại trong hệ thống CAD của mình để phát hiện ung thư phổi Hệ thống

có độ chính xác 84,6%, độ nhạy 82,5% và độ đặc hiệu 86,7% Ưu điểm của mô

Trang 17

6

hình này là nó sử dụng bộ lọc tròn trong giai đoạn trích xuất khu vực quan tâm (ROI), giúp giảm thời gian huấn luyện và các bước nhận dạng Mặc dù giảm thời gian thực hiện nhưng độ chính xác vẫn chưa được cải thiện Sangamithraa

và Govindaraju [3]sử dụng thuật toán học không giám sát để phân loại hoặc phân đoạn Nó nhóm tập dữ liệu pixel theo các đặc điểm nhất định Để phân loại, mô hình này thực hiện bằng mạng lưới lan truyền ngược Các hàm như entropy, tương quan, đồng nhất, PSNR, SSIM được trích xuất bằng cách sử dụng mức độ sáng tối của anh phương pháp ma trận đồng xuất hiện (GLCM)

Hệ thống có độ chính xác khoảng 86,7% Roy, Sirohi và Patle [4,5] đã phát triển một hệ thống phát hiện nốt ung thư phổi bằng cách sử dụng hệ thống giao thoa

mờ và mô hình đường viền hoạt động Hệ thống này sử dụng chuyển đổi mức

độ sáng tối của ảnh để nâng cao độ tương phản của hình ảnh Mã hóa hình ảnh mới được thực hiện trước khi phân loại và hình ảnh kết quả được phân loại bằng cách sử dụng mô hình đường bao hoạt động Phân loại ung thư thực hiện bằng phương pháp suy luận mờ Các hàm như diện tích, trung bình, entropy, tương quan, độ dài trục chính, phụ độ dài trục được trích xuất để đào tạo bộ phân loại Nhìn chung, độ chính xác của hệ thống là 85% Tính hạn chế của nó không phân loại ung thư là lành tính hay ác tính là hạn chế trong của mô hình đề xuất này

Ở Việt Nam, việc chẩn đoán thủ công hoặc bán thủ công thông qua ảnh

CT gây tốn nhiều thời gian và công sức của bác sỹ Với áp lực từ số lượng bệnh nhân lớn, khối lượng công việc cần thực hiện nhiều, có thể dẫn đến sự mệt mỏi của các bác sỹ, việc chẩn đoán và lập kế hoạch điều trị đôi lúc chưa chính xác, làm giảm hiệu quả của việc điều trị Do đó, thiết lập một phần mềm hỗ trợ bác

sỹ trong việc phát hiện, xác định vị trí và kích thước khối u của phổi thông qua

kỹ thuật phân đoạn ảnh thông minh dựa trên việc ứng dụng học máy và học sâu

là việc làm cần thiết Điều này đồng thời cũng sẽ giúp giảm thiểu hơn nữa các tác hại không mong muốn tới cơ thể bệnh nhân

Trong những năm gần đây, các nhóm nghiên cứu của Việt Nam đã rất nhanh chóng bắt kịp xu hướng chung của thế giới là nghiên cứu ứng dụng trí tuệ nhân tạo để hỗ trợ bác sỹ chẩn đoán một số bệnh ung thư, trong đó có ung thư phổi Nhóm nghiên cứu của tác giả Trần Giang Sơn [6] và cộng sự đã xây dựng thành công mô hình phát hiện và nhận dạng vị trí, kích thước các nốt, khối

Trang 18

7

u phổi trên ảnh CT, đồng thời xây dựng thành công mô hình phân loại các nốt, khối u phổi trên ảnh chụp CT là lành tính hay ác tính Tuy nhiên, trong nghiên cứu của tác giả sử dụng bộ dữ liệu quốc tế Lunar16 mới chỉ dừng lại ở việc phân loại và phát hiện ảnh CT có phải ảnh ung thư hay không mà chưa phân loại được

từng mặt bệnh ung thư phổi cụ thể như ung thư phổi tế bào nhỏ, ung thư phổi tế bào lớn, và bộ dữ liệu của tác giả là không phải ảnh CT của những bệnh nhân

ung thư từ Việt Nam Vì vậy, tôi đề xuất đề tài: “Nghiên c ứu ứng dụng trí tuệ nhân t ạo trong chẩn đoán ung thư phổi sử dụng ảnh chụp CT” sử tập dữ

liệu huấn luyện bằng ảnh CT của những bệnh nhân tại bệnh viện K Việt Nam

nhằm mục đích tạo ra ra một bộ dữ liệu chuẩn có thể được sử dụng để huấn luyện cho các mô hình học máy ứng dụng vào việc phân loại, phân đoạn tự động hình ảnh CT, hỗ trợ bác sỹ trong quá trình chẩn đoán và điều trị ung thư phổi

1.2 Các loại ung thư phổ biến

Ung thư phổi là gì: Ung thư phổi xảy ra khi các tế bào bình thường ở phổi biến đổi thành tế bào bất thường và không tuân theo sự kiểm soát của cơ thể Ung thư phổi được chia ra thành hai loại chính là ung thư phổi không tế bào nhỏ (khoảng 80%) và ung thư phổi tế bào nhỏ (khoảng 20 %), trong đó ung thư phổi tế bào nhỏ tiến triển nhanh hơn Ở Việt Nam, ung thư phổi là nguyên nhân

tử vong hàng đầu ở cả hai giới

- Triệu chứng của ung thư phổi là gì?

Ở giai đoạn sớm, bệnh thường không có triệu chứng Ở giai đoạn muộn hơn, bạn có thể có các triệu chứng sau:

Ho khan, ho máu, hay ho có đờm

Trang 19

8

Ung thư phổi tế bào nhỏ

Ung thư phổi tế bào nhỏ được đánh giá là nguy hiểm nhất trong các dạng của ung thư phổi bởi khả năng lây lan nhanh chóng và mức độ lan phủ rộng chiếm tới 15% tổng các ca bệnh Khả năng phát triển các loại này cao gấp hai lần các loại khác và nhanh chóng di căn đi xa làm ảnh hưởng đến các bộ phận khác Sở dĩ có tên gọi này là do các tế bào ung thư phổi này thường có kích thước rất nhỏ, chủ yếu chứa các hạt nhân Ngoài ra, loại bệnh này còn có tên gọi khác đó là yến mạch tế bào ung thư Ung thư phổi tế bào nhỏ có khả năng xâm lấn rất nhanh, di căn sớm và rất khó điều trị Đa số các trường hợp bệnh phát sinh ở đường dẫn khí lớn (phế quản chính và phế quản thùy) Thông thường, khi bệnh nhân được chẩn đoán mắc phải loại ung thư này đều đã bước vào giai đoạn nặng của bệnh

Ung thư phổi không tế bào nhỏ

Ung thư phổi không tế bào nhỏ có tốc độ phát triển của tế bào và di căn chậm hơn so với ung thư phổi tế bào nhỏ Vì vậy nếu được phát hiện sớm và điều trị kịp thời, bệnh nhân có hy vọng sống cao hơn Ung thư phổi không tế bào nhỏ được chia thành các loại nhỏ hơn đó là: ung thư biểu mô tế bào vảy,

ung thư biểu mô tuyến, ung thư biểu mô tế bào lớn

Ung thư biểu mô tế bào vảy

Ung thư biểu mô tế bào vảy chiếm khoảng 30% số trường hợp mắc ung thư phổi Loại này thường diễn ra ở gần đường dẫn khí lớn trong phổi Vì thế

nó còn có tên gọi khác là ung thư phổi biểu mô dạng biểu bì Theo thống kê, vài năm gần đây tỷ lệ mắc ung thư biểu mô tế bào phổi đang giảm trong khi ung thư biểu mô tuyến có dấu hiệu gia tăng Phần lớn các khối u ung thư phổi tế bào vảy nằm ở vị trí trung tâm, chỗ phế quản lớn nối khí quản với phổi

Do vị trí gần kề phổi, nên loại ung thư này thường xuất hiện triệu chứng bệnh sớm hơn so với các loại ung thư phổi khác Cụ thể người bệnh thường bị khó thở, thở khò khè, ho dai dẳng, ho ra máu, bị đau vai lan xuống cánh tay, cảm giác kim châm trong bàn tay, mặt đỏ, đổ mồ hôi, mí mắt xệ xuống, cơ thể suy yếu Ngoài ra, khi mắc ung thư tế bào vảy người bệnh thường dễ bị tăng canxi huyết dẫn đến yếu cơ và chuột rút

Trang 20

9

Ung thư biểu mô tuyến

Gần 40% số trường hợp ung thư phổi là ung thư biểu mô tuyến, loại này thường bắt nguồn từ mô phổi ngoại vi Mặc dù hầu hết các trường hợp ung thư biểu mô tuyến có liên quan tới việc hút thuốc lá, nhưng đây cũng là loại ung thư phổ biến nhất ở những người hút ít hơn 100 điếu thuốc trong suốt cuộc đời và những người có tiền sử hút thuốc lá Một phân loại phụ của ung thư biểu mô tuyến đó là ung thư biểu mô tuyến phổi tại chỗ, loại này thường gặp hơn ở những

nữ giới không hút thuốc và có thể khả năng sống sót về lâu dài là cao hơn Hiện nay, xu hướng mắc phải loại bệnh này đang có dấu hiệu gia tăng Song, điều nguy hiểm là bệnh ít có triệu chứng rõ ràng, thường phát hiện ở những giai đoạn nặng Bệnh gặp nhiều ở nữ giới và những người không hút thuốc lá Bệnh xuất hiện ở trẻ em nhiều hơn so với ung thư biểu mô vảy, tuy nhiên lại có tiên lượng sống khả quan hơn

Ung thư biểu mô tế bào lớn

Ung thư biểu mô tế bào lớn là loại bệnh có thể xuất phát ở bất cứ vị trí nào của phổi và thường khó điều trị hơn so với hai loại trên Bệnh khá hiếm gặp, chỉ chiếm 15% Loại bệnh này có dấu hiệu phát triển và xâm lấn nhanh hơn rất nhiều so với các loại ung thư phổi không tế bào nhỏ.Do ung thư thường xuất hiện ở phần ngoài của phổi nên khi mắc bệnh, người bệnh sẽ nhanh chóng có những triệu chứng như ho lâu ngày, ho ra máu Trước đó, người bệnh sẽ có một

số biểu hiện sớm như mệt mỏi, khó thở, đau lưng, vai, ngực Ngoài ra, do phát triển ngay ngoài thành phổi nên ung thư biểu mô tế bào lớn có thể gây ra hiện tượng tràn dịch màng phổi và di căn đến thành ngực gây đau đớn, tức ngực mỗi

khi bệnh nhân hít thở sâu.Khả năng sống trên 5 năm của những bệnh nhân ung thư biểu mô tế bào lớn là rất thấp, chỉ chiếm khoảng 18% Với những bệnh nhân phát hiện sớm và điều trị kịp thời, tiên lượng sống có thể khả quan hơn

1.3 Giới thiệu về mạng nơ ron tích chập và ứng dụng

Khái niệm

Mạng thần kinh nhân tạo là hệ thống xử lý bằng máy tính được lấy cảm

hứng từ cơ chế vận hành của mạng nơ ron sinh học ANN được cấu thành bởi

số lượng lớn các nút tính toán liên kết nội (được gọi là các nơ ron), các nút liên

kết nội này hoạt động dưới một liên kết chặt chẽ với nhau trong một mô hình

Trang 21

10

Hình 1.4 Nơron nhân tạo

phân phối để học một cách tập trung từ dữ liệu đầu vào với mục tiêu tối ưu hóa

kết quả lối ra

Mạng nơron nhân tạo, Artificial Neural Network (ANN) [9-12] gọi tắt là mạng nơron, neural network, là một mô hình xử lý thông tin phỏng theo cách thức

xử lý thông tin của các hệ nơron sinh học Nó được tạo nên từ một số lượng lớn các phần tử (gọi là phần tử xử lý hay nơron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó Một nơron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng nơron.Cấu trúc của một nơron được mô tả trên hình dưới

ANN là một phần của kỹ thuật học máy, được chia thành hai phần: học

có giám sát và học không giám sát Học có giám sát là quá trình huấn luyện máy tính thông qua dữ liệu đầu vào đã được dán nhãn, các nhãn này đóng vai trò như

là kết quả lối ra đã xác định Mục tiêu của quá tình huấn luyện là làm giảm sai

Hình 1.3 Cấu tạo của tế bào nơron sinh học

Trang 22

11

số giữa kết quả tính toán từ mô hình và giá trị dán nhãn biết trước thông qua đó

hiệu chỉnh lại các phép tính tỏng mô hình Học không giám sát là quá tình huấn luyện tiếp cận theo hướng khác, trong đó bộ dữ liệu sử dụng để huấn luyện không dán nhãn Dự thảnh công của phép huấn luyện được đánh giá thông qua

khả năng suy giảm hoặc gia tăng của hàm đáng giá (Cost Function)

Giới hạn của cấu trúc ANN truyền thống là khả năng tính toán, giải quyết các bài toán phức tạp với lượng dữ liệu đầu vào rất lớn, đặc biệt đối với các bàn toán xử lý hình ảnh Ví dụ ANN có khả năng giải quyết khá tốt bài toán nhận

diện số viết tay, với dữ liệu chuẩn được lấy từ cơ sở dữ liệu của MNIST Bộ dữ

liệu số viết tay của MNIST cung cấp số lượng rất lớn ảnh chụp các chữ số viết tay có kích thước 28x28, đây là hình ảnh đen trắng do đó lớp ẩn đầu tiên của

mạng nơ ron chỉ bao gồm 784 trọng số (28x28x1) Giả sử bộ dữ liệu đầu vào

trở nên phức tạp hơn, là ảnh màu, kích thước 64x64 (64x64x3), điều này làm cho số lượng trọng số ở lớp ẩn đầu tiên lên tới 12.288 Để giải quyết bài toán này cấu trúc của ANN sẽ tăng lên rất lớn, trên thực tế chỉ đơn tăng kích thước (số lượng) của mạng nơ ron không thể giải quyết được vấn đề do hai lý do sau:

thứ nhất liên quan tới khả năng và thời gian tính toán của hệ thống; thứ hai khi

mạng ANN quá lớn sẽ dẫn tới hiện tượng quá mức (overfitting) là hiện tượng

hệ thống không có khả năng học hiệu quả bởi vì một số nguyên nhân Chính vì

những lý do kể trên mà ta buộc phải tìm cách làm giảm mức độ phức tạp nhằm nâng cao hiệu suất tính toán của mô hình

Hình 1.5 Phép tích chập được áp dụng vào mô hình mạng nơ ron tạo ra mạng nơ ron tích chập

Trang 23

có thể được nhận diện hoàn toàn thông qua thông tin cục bộ của ảnh Chính vì

lý do này số lượng kết nối đến ảnh đầu vào có thể giảm rõ rệt

Kiến trúc CNN

Như đã trình bày ở trên CNN phát triển với mục đích chính là xử lý ảnh,

do đó cấu trúc CNN sẽ được thiết kế tối ưu để cho việc xử lý dữ liệu đặc biệt này Một trong những khác biệt cơ bản giữa CNN và ANN là các nơ ron trong

mỗi lớp được sắp xếp trong một không gian 3 chiều bao gồm chiều không gian

của biến đầu vào (kích thước ảnh) và chiều sâu của ảnh Không giống như mô hình ANN chuẩn, nơ ron trong từng lớp chỉ kết nối với một vùng nhỏ không gian của lớp đang được nó xử lý (lớp phía trước) Trên thực tế điều này chỉ ra

rằng, giả sử đối với dữ liệu đầu vào có kích thước 64x64x4 kể trên sẽ dẫn tới

lớp ra có kích thước 1x1xn (trong đó n là số lượng xác xuất của các nhãn) khi chúng ta phân tách kích thước đầu đủ của dữ liệu đầu vào thành từng thể tích

nhỏ hơn dọc theo chiều sâu của nó

CNN được tạo thành từ 3 loại lớp cơ bản: lớp tích chập (Convolutional layer), lớp gộp (Pooling layer) và lớp kết nối đầy đủ (Fully-connected layer) Khi tất cả các lớp này xếp chồng lên nhau, mô hình CNN được hình thành Kiến trúc đơn giản của CNN được trình bày như trong hình:

Trang 24

13

Hình 1.6 Ki ến trúc CNN

Từ trên hình ta có thể thấy, CNN bao gồm các lớp sau:

- Lớp đầu vào (input layer): lưu giữ toàn bộ giá trị các pixel của ảnh

- Lớp tích chập (Convolutional layer): xác định đầu ra của nơ ron nối với

một phần của lối vào thông qua tích vô hướng giữa vùng không gian của lối vào

và các trọng số của nơ ron Hàm chỉnh lưu đơn vị tuyến tính (Rectified Linear Unit – ReLu) được sử dụng để áp hàm kích hoạt nguyên tốc như là sigmoid tới

lối ra của sự kích hoạt được tạo bởi lớp trước đó

- Lớp gộp (Pooling layer): sẽ thực hiện lấy mẫu dọc hạ cấp theo chiều không gian của dữ liệu đầu vào đã cho, nhằm làm giảm tham số trong kích hoạt

đó

- Lớp kết nối đầy đủ (Fully-connected layer): đây chính là một mạng ANN tiêu chuẩn, sử dụng để tạo ra kết quả từ hàm kích hoạt cho mục đích phân loại ReLu được khuyến cáo sử dụng giữa các lớp này nhằm nâng cao hiệu suất

Trang 25

14

Hình 1.7 Mô tả trực quan lớp tích chập

Mỗi khi trục dọc theo không gian 2 chiều của lối vào, lớp tích chập sẽ

tiến hành phép nhân vô hướng cho mỗi giá trị trong nhân Mạng sẽ học các nhân

được trỏ tới hay còn gọi là “cháy” (fire) khi chúng thấy đặc trưng cụ thể tại vị

trí không gian đã cho của lối vào, điều này thường được gọi là kích hoạt Mỗi

nhân có một bản đồ kích hoạt tương ứng được xếp chồng dọc theo chiều sâu để

tạo ra toàn bộ thể tích lối ra từ lớp tích chập Kích thước của vùng không gian

lối vào kết nối tới mỗi nơ ron trong lớp tích chập được gọi là kích thước trường

tiếp nhận (Receptive Filde Size) của nơ ron Ví dụ, cho dữ liệu đầu vào của

mạng là ảnh có kích thước 64x64x3 (ảnh RGB), ta tạo ra trường tiếp nhận có

kích thước 6x6, từ đó ta sẽ có tổng cộng 108 (6x6x3) trọng số của mỗi nơ ron

trong lớp tích chập

Lớp tích chập cũng có thể làm giảm đáng kể dự phức tạp của mô hình

bằng cách tối ưu lối ra của nó Quá trình tối ưu này thông qua 3 siêu biến là:

chiều sâu, bước (stride là bước dịch chuyển của filter quanh ảnh) và đệm 0

(zero-padding)

Chiều sâu của thể tích lối ra được tạo ra từ lớp tích chập có thể được thiết

lập thủ công thông qua số lượng nơ ron trong lớp tới cùng khu vực của lối vào

Điều này có thể được quan sát với dạng khác của ANN, trong đó, tất cả nơ ron

trong lớp ẩn được kết nối trực tiếp với mỗi nơ ron của lớp trước đó Việc suy

giảm siêu biến này có thể giảm thiểu vừa đủ khả năng nhận diện kiểu mẫu của

mô hình

Ta cũng có thể định nghĩa stride trong đó thiết lập chiều sâu xung quanh

kích thước không gian của lối vào mục đích để đặt trường tiếp nhận Ví dụ nếu

ta đặt stride bằng 1, khi đó ta sẽ có vùng chông lấp của trường tiếp nhận cực kỳ

Trang 26

15

lớn tạo thành một lượng rất lớn kích hoạt Ngược lại tăng giá trị stride sẽ làm

giảm chồng chập tuy nhiên lối ra sẽ có độ phân giải không gian thấp hơn

Đệm 0 (zero-padding) là một quá trình thêm vào biên của lối vào các pixel có giá trị 0 Đây là phương pháp hiệu quả nhằm kiểm soát tốt kích thước

của thể tích lối ra Bằng cách sử dụng kỹ thuật này chúng ta sẽ thay đổi kích thước không gian của lớp tích chập lối ra Để tính toán điều này, ta sẽ sử dụng công thức:

nơ ron sẽ không thể bao vừa lối vào

Tham số chia sẻ làm việc dựa trên giả sử rằng nếu một khu vực tính năng

là hữu dụng để tính toán tại một tập khu vực không gian thì nó cũng sẽ hữu dụng

tại một khu vực khác Nếu ta hạn chế mỗi bản đồ kích hoạt riêng biệt trong thể tích lối ra có cùng trọng số và bias, khi đó ta sẽ thấy sự suy giảm đáng kể của

số lượng tham số được tạo ra từ lớp tích chập Như là kết quả của điều này, khi

trạng thái lan truyền ngược xảy ra, mỗi nơ ron trong lối ra sẽ đại diện độ chênh

tổng thể trong đó có thể được tính tổng qua chiều sâu, như vậy chỉ cập nhật tập đơn của trọng số

một nhân có kích thước 2x2 được áp trên toàn bộ không gian lối vào với bước

bằng 2 Lớp cực đại này làm giảm kích thước của bản đồ kích hoạt xuống 25%

so với kích thước ban đầu trong khi giữ nguyên chiều sâu thể tích của lối vào Thông thường bước và bộ lọc của lớp gộp thường được đặt bằng 2x2, điều này cho phép lớp mở rộng ra toàn bộ miền không gian của lối vào Ngoài ra lớp đệp

Trang 27

một cách tuần tự, và cuối cùng là lớp kết nối đầy đủ Một kiến trúc khác của CNN là sự xếp chồng của 2 lớp tích chập trước mỗi lớp gộp, kiến trúc này cho phép lựa chọn được những đặc trưng rất phức tạp của lối vào

Hình 1.8 kiến trúc CNN bao gồm hai lớp tích chập trước lớp gộp

Thông thường ta có thể chia lớp tích chập kích thước lớn thành nhiều lớp

nhỏ hơn nhằm giảm độ phức tạp của quá trình tính toán trong mỗi lớp Ví dụ

nếu ta muốn xếp chồng 3 lớp tích chập lên trên của mỗi lớp khác với trường tiếp

nhận 3x3 Khi đó, mỗi nơ ron trong lớp tích chập đầu tiên sẽ quan sát không gian 3x3 của vector lối vào, nơ ron tại lớp tích chập thứ 3 sẽ quan sát không gian 5x5 của lối vào và tiếp theo nơ ron của lớp thứ 3 sẽ quan sát không gian 7x7 của lối vào Những đặc trưng phi tuyến cộng dồn này cho phép ta mô tả các đặc trưng của lối vào một cách mạnh mẽ hơn trong khi sử dụng các tham số ít hơn Hơn nữa

Lớp lối vào nên là các gí trị đệ quy chia hết cho 2, thường được chọn là: 32x32, 64x64, 96x96, 128x128, 224x224.Khi sử dụng bộ lọc có kích thước nhỏ, nên đặt bước dịch bằng 1 và sử dụng đệm 0 để chắc chắn rằng lớp tích chập không tự cấu hình lại kích thước của lối vào Số lượng đệm 0 cần thiết có thể được tính toán bằng cách lấy một kích thước của trường tiếp nhận và chia cho

2 kích hoạt

CNN là một thuật toán học máy mạnh mẽ, nó có thể xử lý một lượng dữ

liệu đầu vào rất lớn, ví dụ nếu lối vào có kích thước 227x227 (như trong mạng

Trang 28

17

ImageNet) và ta sử dụng bộ lọc với 64 nhân có đệm 0, như vậy kết quả sẽ là 3 véc tơ kích hoạt với kích thước 227x227x64, mô hình này tương ứng với 10 triệu kích hoạt hoặc tương đương 70MB bộ nhớ cho 1 ảnh Trong trường hợp này ta có hai lựa chọn: thứ nhất, chúng ta có thể làm giảm kích thước không gian của ảnh, thứ hai là ta có thể sử dụng hàm lọc với kích thước lớn hơn và tăng giá trị bước quét

Khả năng ứng dụng của mạng nơron nhân tạo

Đặc trưng của mạng nơron nhân tạo là khả năng học Nó có thể gần đúng mối quan hệ tương quan phức tạp giữa các yếu tố đầu vào và đầu ra của các quá trình cần nghiên cứu và khi đã học được thì việc kiểm tra độc lập thường cho kết quả tốt Sau khi đã học xong, mạng nơron nhân tạo có thể tính toán kết quả đầu ra tương ứng với bộ số liệu đầu vào mới

Về mặt cấu trúc, mạng nơron nhân tạo là một hệ thống gồm nhiều phần tử

xử lý đơn giản cùng hoạt động song song Tính năng này của ANN cho phép nó

có thể được áp dụng để giải các bài toán lớn

Về khía cạnh toán học, theo định lý Kolmogorov, một hàm liên tục bất

kỳ f (x1, x2…, xn) xác định trên khoảng In(với I = [0,1]) có thể được biểu diễn dưới dạng [4] :

trong đó: χj , Ψijlà các hàm liên tục một biến Ψij là hàm đơn điệu, không phụ thuộc vào hàm f Mặt khác, mô hình mạng nơron nhân tạo cho phép liên kết có trọng số các phần tử phi tuyến (các nơron đơn lẻ) tạo nên dạng hàm tổng hợp từ các hàm thành phần Do vậy, sau một quá trình điều chỉnh sự liên kết cho phù hợp (quá trình học), các phần tử phi tuyến đó sẽ tạo nên một hàm phi tuyến phức tạp có khả năng xấp xỉ hàm biểu diễn quá trình cần nghiên cứu Kết quả là đầu

ra của nó sẽ tương tự với kết quả đầu ra của tập dữ liệu dùng để luyện mạng Khi đó ta nói mạng nơron nhân tạo đã học được mối quan hệ tương quan đầu vào - đầu ra của quá trình và lưu lại mối quan hệ tương quan này thông qua bộ

(1.1)

Trang 29

Bài toán phân lớp : Loại bài toán này đòi hỏi giải quyết vấn đề phân

loại các đối tượng quan sát được thành các nhóm dựa trên các đặc điểm của các nhóm đối tượng đó Đây là dạng bài toán cơ sở của rất nhiều bài toán trong thực

tế : nhận dạng chữ viết, tiếng nói, phân loại gen, phân loại chất lượng sản phẩm,

trong việc xây dựng các mô hình dự báo sử dụng tập dữ liệu trong quá khứ để dự đoán số liệu trong tương lai Đây là nhóm bài toán khó và rất quan trọng trong nhiều ngành khoa học

Bài toán điều khiển và tối ưu hoá : Nhờ khả năng học và xấp xỉ hàm

mà mạng nơron nhân tạo đã được sử dụng trong nhiều hệ thống điều khiển tự động cũng như góp phần giải quyết những bài toán tối ưu trong thực tế

Tóm lại, mạng nơron nhân tạo được xem như là một cách tiếp cận đầy tiềm năng để giải quyết các bài toán có tính phi tuyến, phức tạp và đặc biệt là trong tình huống mối quan hệ bản chất vật lý của quá trình cần nghiên cứu không dễ thiết lập tường minh

1.4 Các kiến trúc mạng nổi tiếng trên CNN

Kiến trúc VGG16

Trang 30

trực quan lớn được sử dụng trong nghiên cứu phần mềm nhận dạng đối tượng

trực quan Kiến trúc VGG16 được phát triển và giới thiệu bởi Karen Simonyan

và Andrew Zisserman từ Đại học Oxford, vào năm 2014, thông qua bài báo của

họ “Các mạng kết hợp rất sâu để nhận dạng hình ảnh quy mô lớn” 'VGG' là tên

viết tắt của Visual Geometry Group, là một nhóm các nhà nghiên cứu tại Đại

học Oxford, những người đã phát triển kiến trúc này, và '16' ngụ ý rằng kiến trúc này có 16 lớp

Mô hình VGG16 đạt độ chính xác trong bài kiểm tra top 5 là 92,7% trong ImageNet, đây là tập dữ liệu của hơn 14 triệu hình ảnh thuộc 1000 lớp Đây là một trong những mô hình nổi tiếng được gửi đến Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) vào năm 2014 Nó đã thực hiện các cải tiến so với kiến trúc AlexNet bằng cách thay thế các bộ lọc có kích thước hạt nhân lớn (11 và 5 trong lớp chập đầu tiên và thứ hai, tương ứng) với nhiều bộ lọc kích thước hạt nhân 3x3 lần lượt VGG16 đã được đào tạo trong nhiều tuần sử dụng GPU NVIDIA Titan Black

VGG16 được sử dụng trong nhiều kỹ thuật phân loại ảnh học sâu và phổ biến do dễ thực hiện VGG16 được sử dụng rộng rãi trong các ứng dụng học tập

Trang 31

20

do ưu điểm của nó VGG16 là một Kiến trúc CNN, đã được sử dụng để giành chiến thắng trong Thử thách Nhận dạng Hình ảnh Quy mô lớn ImageNet (ILSVRC) vào năm 2014 Nó vẫn là một trong những kiến trúc tầm nhìn tốt nhất cho đến nay

Kiến trúc VGG16

Trong quá trình đào tạo, đầu vào cho các chuyển đổi là hình ảnh RGB 224

x 224 có kích thước cố định Trừ giá trị RGB trung bình được tính trên tập huấn luyện từ mỗi pixel là quá trình xử lý trước duy nhất được thực hiện ở đây Hình ảnh được chuyển qua một chồng các lớp tích hợp, trong đó các bộ lọc có trường tiếp nhận rất nhỏ: 3×3 (là kích thước nhỏ nhất để nắm bắt khái niệm trái / phải, lên / xuống, trung tâm và có cùng một trường tiếp nhận hiệu quả như một trường

7 x 7), được sử dụng Nó sâu hơn, có nhiều điểm phi tuyến tính hơn và có ít tham số hơn Trong một trong các cấu hình, bộ lọc tích chập 1×1, có thể được xem như một phép biến đổi tuyến tính của các kênh đầu vào (theo sau là không tuyến tính), cũng được sử dụng đầu vào lớp được cố định thành 1pixel cho các lớp phức hợp 3x3, điều này đảm bảo rằng độ phân giải không gian được giữ nguyên sau khi tích chập Năm lớp tổng hợp tối đa, theo sau một số lớp phức hợp, giúp tổng hợp không gian Tổng hợp tối đa được thực hiện trên cửa sổ 2×2 pixel, với bước 2

Có ba lớp Kết nối đầy đủ (FC) theo một chồng các lớp chập (các lớp này

có độ sâu khác nhau trong các kiến trúc khác nhau): hai lớp đầu tiên có 4096 kênh mỗi lớp, lớp thứ ba thực hiện phân loại ILSVRC 1000 chiều và do đó chứa

1000 kênh (một cho mỗi lớp) Lớp cuối cùng là lớp soft-max Cấu hình của các lớp được kết nối đầy đủ là giống nhau trong tất cả các mạng

Kiến trúc VGG 16 lớp hoạt động tốt nhất và nó đạt tỷ lệ sai số top 5 là 7,3% (độ chính xác 92,7%) trong ILSVRC - 2014, như đã đề cập ở trên VGG16 đã vượt trội đáng kể so với thế hệ trước của các cuộc thi ILSVRC - 2012 và ILSVRC -

2013

Kiến trúc LeNet(1998)

Lenet (1998): là một trong những mạng CNN lâu đời và nổi tiếng nhất được YanleCun phát triển vào anwm 1998, cấu trúc LeNet gồm 2layer

Ngày đăng: 09/01/2023, 13:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm