TÓM T ẮT NỘI DUNG LUẬN VĂN Luận văn này nghiên cứu về tính ứng dụng của trí tuệ nhân tạo trong chẩn đoán và phát hiện sớm ung thư phổi dựa vào ảnh chụp CT, việc sử dụng một số lượng lớn
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
ẢNH CHỤP CT
NGUY ỄN ĐĂNG NHẬT
nhatsneepbk@gmail.com
Ngành K ỹ thuật Hạt nhân
Gi ảng viên hướng dẫn: TS Trần Ngọc Toàn
HÀ N ỘI, 09/2022
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
ẢNH CHỤP CT
NGUY ỄN ĐĂNG NHẬT
nhatsneepbk@gmail.com
Ngành K ỹ thuật Hạt nhân
Gi ảng viên hướng dẫn: TS Trần Ngọc Toàn
HÀ N ỘI, 09/2022
Chữ ký của GVHD
Trang 3C ỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
H ọ và tên tác giả luận văn: NGUYỄN ĐĂNG NHẬT
Đề tài luận văn: “Nghiên cứu ứng dụng trí tuệ nhân tạo trong chẩn đoán ung thư phổi
sử dụng ảnh chụp CT”
Chuyên ngành: K ỹ thuật Hạt nhân
Mã s ố HV: 20202109M
Cán b ộ hướng dẫn: TS Trần Ngọc Toàn
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa,
bổ sung luận văn theo biên bản họp Hội đồng ngày13/10/2022 với các nội dung sau:
• Bổ sung danh mục các ký hiệu toán học
• Giảm số lượng các trích dẫn không cần thiết
• Sắp xếp lại hợp lý vị trí các hình vẽ và bảng biểu
• Sửa đổi lại bố cục trình bày sao cho hợp lý, dễ hiểu
• Biện luận và giải thích chi tiết hơn về kết quả luận văn
• Rút ra nh ững nhược điểm của nghiên cứu
• Ch ỉnh sửa lại lỗi đánh máy và chính tả
Hà N ội, ngày 30 tháng 10 năm 2022
Người hướng dẫn Tác gi ả luận văn
TS Tr ần Ngọc Toàn Nguyễn Đăng Nhật
CHỦ TỊCH HỘI ĐỒNG
TS Nguy ễn Văn Thái
THƯ VIỆN TẠ QUANG BỬU
Xác nhận đã nhận lại luận văn sau sửa chữa mã số ………
Ngày……tháng……năm 2022
(Ký ghi rõ họ tên)
ĐỀ TÀI LUẬN VĂN
Trang 4Tên đề tài tiếng Việt:
UNG THƯ PHỔI SỬ DỤNG ẢNH CHỤP CT
Tên đề tài tiếng Anh:
A STUDY ON APPLICATION OF ARTIFICAL INTELLIGENCE IN DIAGNOSIS OF LUNG CANCER USING CT IMAGE
Giáo viên hướng dẫn
Ký và ghi rõ h ọ tên
TS Tr ần Ngọc Toàn
Trang 5L ỜI CAM ĐOAN
Học viên xin cam đoan: Luận văn “Nghiên c ứu ứng dụng trí tuệ nhân tạo trong ch ẩn đoán ung thư phổi sử dụng ảnh chụp CT” là công trình nghiên cứu
của riêng học viên dưới sự hướng dẫn khoa học của TS Trần Ngọc Toàn, tại bộ môn Kỹ thuật Hạt nhân và Vật lý Môi Trường, Viện Vật lý Kỹ thuật, Đại học Bách Khoa Hà Nội
Luận văn có tham khảo các nghiên cứu và tài liệu khác nhau trong và ngoài nước, tất cả đều đã được trích dẫn đầy đủ Các số liệu trong luận văn được sử dụng trung thực, kết quả được trình bày trong luận văn chưa từng được bất kỳ tác giả nào công bố trong các công trình khác
Trang 6L ỜI CẢM ƠN
Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến TS Trần Ngọc Toàn về sự hướng dẫn khoa học rất nhiệt tình và chu đáo trong thời gian tôi theo học Thạc sĩ
Thầy đã đưa ra những định hướng nghiên cứu cụ thể và những lời khuyên quý báu
để giúp tôi đạt được những kết quả có giá trị Cảm ơn Thầy đã giúp đỡ, động viên
và tạo mọi điều kiện thuận lợi nhất để tôi có thể học tập, nghiên cứu Tôi đã học được ở Thầy sự nghiêm túc và tính chuyên nghiệp trong công việc, những ý tưởng
mới mẻ và lòng say mê nghiên cứu khoa học, đó là một hành trang quan trọng cho tôi trong cuộc đời nghiên cứu sau này
Tôi xin chân thành cảm ơn TS Nguyễn Văn Thái, TS Trần Kim Tuấn, PGS
TS Phạm Đình Khang và các thầy cô trong bộ môn Kỹ thuật Hạt nhân và Vật lý Môi trường, Viện Vật lý Kỹ thuật đã nhiệt tình giảng dạy, động viên và đưa ra
những lời khuyên quý báu cho tôi trong những năm tháng học Đại học và học Thạc
sĩ tại Đại học Bách Khoa Hà Nội Những bài giảng của các thầy, cô là nền tảng
vững chắc để tôi có thể phát triển hơn nữa
Cuối cùng, tôi xin cảm ơn bố mẹ, gia đình, người thương, anh chị em bạn
bè đã luôn đồng hành, ủng hộ tôi trong công việc, cuộc sống, giúp tôi có thêm động
lực và quyết tâm hoàn thành ước mơ của mình
Xin chân thành cảm ơn!
Tác giả luận văn
Ký và ghi rõ h ọ tên
Trang 7TÓM T ẮT NỘI DUNG LUẬN VĂN
Luận văn này nghiên cứu về tính ứng dụng của trí tuệ nhân tạo trong chẩn đoán và phát hiện sớm ung thư phổi dựa vào ảnh chụp CT, việc sử dụng một số lượng lớn dữ liệu có sẵn và chính xác sau đó sử dụng chính những bộ dữ liệu đó
để cho máy tính có thể học và tiếp thu được những đặc trưng của từng đối tượng, qua đó giúp máy tính có thể phân loại và lọc ra những ảnh tương tự sau này
Luận văn nghiên cứu về lý thuyết của mạng neuron nhân tạo, các khái niệm
về mạng nơ-ron, các mô hình nơ-ron nhân tạo phổ biến và khả năng ứng dụng của chúng vào các bài toán như: bài toán phân lớp, bài toán dự báo…
Để nghiên cứu về tính ứng dụng của trí tuệ nhân tạo, luận văn đi sâu vào
mạng nơ-ron tích chập Convolution Neural Network (còn gọi là ConvNet / CNN)
là một thuật toán Deep Learning có thể lấy hình ảnh đầu vào, gán độ quan trọng (các trọng số - weights và độ lệch - bias có thể học được) cho các đặc trưng, đối tượng khác nhau trong hình ảnh và có thể phân biệt được từng đặc trưng, đối tượng này với nhau Mạng nơ-ron này được áp dụng phổ biến trong các bài toán
xử lý ảnh bởi sự tối ưu về tốc độ cũng như hiệu quả của nó so với những mạng nơ-ron khác
Để ứng dụng mạng nơ-ron tích chập vào bài toán xử lý hình ảnh CT bệnh nhân ung thư, luận văn nghiên cứu về kiến trúc của mạng VGG16 một kiến trúc
nổi tiếng của mạng nơ-ron tích chập trong bài toán xử lý hình ảnh VGG16 được coi là mô hình CNN nâng cao AlexNet bằng cách thay thế các bộ lọc có kích thước
hạt nhân khổng lồ có nhiều bộ lọc kích thước hạt nhân 3x3 tuần tự, hình ảnh các
khối u trong ảnh CT được chuyển qua nhiều lớp phức hợp với các bộ lọc có trường
tiếp nhận tối thiểu 3x3 (đây là kích thước nhỏ nhất cần thiết để thu thập dữ liệu)
Nó sử dụng các bộ lọc tích chập 1×1 trong một cấu hình có thể được xem như là chuyển đổi tuyến tính các kênh đầu vào khác nhau Tổng hợp không gian được
thực hiện bằng cách sử dụng 5 lớp tổng hợp tối đa theo sau một vài lớp tích chập (mọi lớp tích chập không theo sau bằng tổng hợp tối đa) Sự sắp xếp tương tự của các lớp tổng hợp cực đại và các lớp tích chập được thực hiện nhất quán trong toàn
bộ kiến trúc
Trang 8Kết quả của chương trình được đánh giá bằng các các phép đánh giá như: Arcuracy, Loss, F1-Score, AUC và Preciscion Hiệu năng của một mô hình thường được đánh giá trên các tập dữ liệu kiểm tra, việc sử dụng nhiều phép đánh giá khác nhau nhằm đánh giá chính xác được hiệu quả của chương trình
Trang 9i
M ỤC LỤC
L ỜI CAM ĐOAN
L ỜI CẢM ƠN
TÓM T ẮT NỘI DUNG LUẬN VĂN
M Ở ĐẦU 1
CHƯƠNG I TỔNG QUAN CƠ SỞ LÝ THUYẾT 2
1.1 Tổng quan 2
1.2 Các loại ung thư phổ biến 7
Ung thư phổi tế bào nhỏ 8
Ung thư phổi không tế bào nhỏ 8
1.3 Giới thiệu về mạng nơ ron tích chập và ứng dụng 9
Khái niệm 9
Kiến trúc CNN 12
1.4 Các kiến trúc mạng nổi tiếng trên CNN 18
Kiến trúc VGG16 18
Kiến trúc LeNet(1998) 20
Kiến trúc Alexnet 21
So sánh cấu trúc mạng VGG16 với các cấu trúc mạng CNN khác 22
CHƯƠNG II XÂY DỰNG CHƯƠNG TRÌNH PHÂN LOẠI UNG THƯ PHỔI B ẰNG MẠNG NƠ-RON NHÂN TẠO 24
2.1 Chuẩn bị dữ liệu hình ảnh 25
2.2 Huấn luyện mô hình bằng cấu trúc VGG16 30
Max pooling (lớp tổng hợp cực đại) 32
Fully Connected Layer (lớp kết nối đầy đủ) 33
2.3 Mô hình tăng cường độ chính xác của VGG16 34
2.4 Các tỉ số đánh giá mô hình 35
Accuracy 35
Loss 37
AUC (Area Under the Curve) 39
Preciscion 41
F1-Score 42
CHƯƠNG III KẾT QUẢ VÀ THẢO LUẬN 43
a Kết quả của VGG16 với VGG16 kết hợp tăng cường dữ liệu 44
b So sánh kết quả với các mô hình khác 47
K ẾT LUẬN 49
DANH M ỤC TÀI LIỆU THAM KHẢO 50
Trang 10ii
T ừ viết tắt Ti ếng Anh Ti ếng Việt
ANN Artificial Neural
Network
M ạng thần kinh nhân tạo
AI Artificial intelligence Trí tu ệ nhân tạo
AUC Area Under the Curve
CNN Convolution Neural
Network
Mạng nơ-ron tích chập
CT Computed Tomography ảnh chụp cắt lớp vi tính Conv Tích ch ập
Epoch s ố vòng lặp
MLP Multi Layer Perceptron M ạng truyền thẳng
Institute of Standards and Technology database
Cở sở dũ liệu hình ảnh về các chữ viết tay dung để huấn luyện mạng
Max Pooling Lớp tổng hợp cực đại
VGG16 Kiến trúc mạng CNN nổi
tiếng Pooling Layer L ớp tổng hợp
Overfitting Hi ện tượng quá khớp dữ liệu
trong h ọc máy OAR Organs At Risk Cơ quan cần bảo vệ có nguy
cơ nhận liều cao
Trang 11iii
Hình 1.1 Hình ảnh máy chụp CT 3
Hình 1.2 Hình ảnh chụp cắt lớp vi tính của bệnh nhân ung thư phổi 4
Hình 1.3 Cấu tạo của tế bào nơron sinh học 10
Hình 1.4 Nơron nhân tạo 10
Hình 1.5 Phép tích chập được áp dụng vào mô hình mạng nơ ron tạo ra mạng nơ ron tích chập 11
Hình 1.6 Kiến trúc CNN 13
Hình 1.7 Mô tả trực quan lớp tích chập 14
Hình 1.8 kiến truc CNN bao gồm hai lớp tích chập trước lớp gộp 16
Hình 1.9 Mô hình mạng VGG16 19
Hình 1.10 Cấu trúc mạng Lenet với bài toán nhận dạng chữ viết tay 21
Hình 1.11 Cấu trúc mạng AlexNet 22
Hình 2.1 Mô hình chương trình phân loại ung thư phổi 24
Hình 2.2 Hình ảnh chụp CT phổi 27
Hình 2.3 Giao diện phần mềm chuyển đổi ảnh Dicom sang Jpeg 28
Hình 2.4 Hình ảnh chụp CT phổi sau khi thực hiện các phép tăng cường dữ liệu 30
Hình 2.5 Mô hình hoạt động của chương trình VGG16 31
Hình 2.6 Mô hình hoạt động của tích chập bất thường 32
Hình 2.7 Hình ảnh chụp CT của 4 loại bệnh ung thư 33
Hình 2.8 Mô hình tăng cường độ chính xác 36
Hình 2.9 Ví dụ về một kết quả tỉ số đánh giá accuracy 37
Hình 2.10 Ví dụ về một kết quả tỉ số đánh giá Loss 39
Hình 2.11 Đường cong biểu diễn overfitting và underfitting 40
Hình 2.12 Ví dụ về một kết quả tỉ số đánh giá AUC 41
Hình 2.13 Cách tính Precision 42
DANH M ỤC CÁC BẢNG BIỂU Bảng 3.1 Ma trận nhầm lẫn của mô hình phân loại 43
Bảng 3.2 Kết quả của hai mô hình phân loại 44
Bảng 3.3 Kết quả của mô hình tăng cường dữ liệu 45
Bảng 3.4 Kết quả các tỉ số đánh giá với các mặt bệnh 46
Bảng 3.5 Kết quả so sánh với các mô hình khác nhau 47
Bảng 3.6 Kết quả so sánh giữa các bác sĩ và AI 48
Trang 121
M Ở ĐẦU
1 Tính cấp thiết của đề tài
Chẩn đoán các ung thư phổi bằng hình ảnh hiện nay là việc sử dụng các kỹ thuật, máy móc nhằm tái tạo lại hình ảnh các vị trí trên cơ thể để từ đó quan sát được những điểm bất thường đang diễn ra, từ đó giúp các bác sỹ tìm ra đúng bệnh và giúp cải thiện việc điều trị
Hiện nay có rất nhiều phương pháp để xử lý những hình ảnh thu được từ việc tái tạo ảnh nhằm đưa ra chẩn đoán chính xác nhưng bị giới hạn ở một số
vị trí và cần sự can thiệp từ con người, yêu cầu những bác sỹ phải có trình độ chuyên môn giỏi để có thể đọc chính xác ảnh từ đó giúp cho việc điều trị bệnh được chính xác và hiệu quả Một trong các phương pháp hỗ trợ cho các bác sỹ
đó là sử dụng trí tuệ nhân tạo để xử lý, phân loại những hình ảnh đó giúp giảm
thiểu thời gian
Trí tuệ nhân tạo hay trí thông minh nhân tạo (Artificial intelligence – viết
tắt là AI) là một ngành thuộc lĩnh vực khoa học máy tính (Computer science), trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thông minh như con người
Trí tuệ nhân tạo khác với việc lập trình logic trong các ngôn ngữ lập trình
là ở việc ứng dụng các hệ thống học máy (machine learning) để mô phỏng trí
tuệ của con người trong các xử lý mà con người làm tốt hơn máy tính
Cụ thể, trí tuệ nhân tạo giúp máy tính có được những trí tuệ của con người
như: biết suy nghĩ và lập luận để giải quyết vấn đề, biết giao tiếp do hiểu ngôn
ngữ, tiếng nói, biết học và tự thích nghi…
2 Mục đích nghiên cứu
• Xây dựng chương trình giúp phân loại ảnh CT bốn loại ung thư phổi dựa trên mạng nơron nhân tạo
3 Phương pháp nghiên cứu
• Phân tích, thống kê và tính toán các tư liệu thu thập được,
• Mô hình hóa bài toán bằng việc ứng dụng thư viện mã nguồn mở
tensorflow cùng ngôn ngữ lập trình python
Trang 132
CHƯƠNG I TỔNG QUAN CƠ SỞ LÝ THUYẾT
1.1 Tổng quan
Ung thư phổi ngày càng trở nên phổ biến trên thế giới Hơn một phần tư trong số tất cả các bệnh ung thư được chẩn đoán có liên quan đến phổi Ung thư
phổi nguyên phát vẫn là nguyên nhân gây tử vong phổ biến nhất ở nam giới và
phụ nữ trên toàn thế giới Theo thống kê của tổ chức Y tế Thế giới (WHO) năm
2018 ước tính ung thư phổi gây ra khoảng 1.76 triệu trường hợp tử vong chiếm hơn 84% tổng số ca nhiễm trên thế giới Theo định nghĩa, ung thư phổi là một
khối u phổi ác tính được đặc trưng bởi sự tăng trưởng không kiểm soát được trong mô phổi Phát hiện sớm ung thư phổi có thể làm giảm tỷ lệ tử vong và tăng khả năng chữa khỏi cho người bệnh Ngày nay, việc chẩn đoán và xác định giai đoạn của ung thư phổi có thể dựa trên thăm khám lâm sàng, chụp X-quang tim phổi, chụp cắt lớp vi tính (CT), chụp cộng hưởng từ (MRI), xạ hình xương,
nội soi phế quản, nội soi trung thất, sinh thiết hạch, u phổi chẩn đoán mô bệnh
học
Chụp CT mô phỏng hiện nay đang trở nên phổ biến như một phương pháp đánh giá tổng thể giai đoạn ung thư Máy chụp cắt lớp vi tính (CT-Scanncer: Computed Tomography).Máy thực hiện phương thức này có nhiều loại khác nhau, hiện nay phổ biến nhất là loại máy chụp cắt lớp nhiều đầu thu (multidetector computed tomography, viết tắt là MDCT); người tiến hành tiến trình chụp cắt lớp bằng máy này gọi là kỹ thuật viên X quang (radiographers)
Trang 143
Hình 1.1 Hình ảnh máy chụp CT
Ảnh y tế thu nhận được từ máy chụp cắt lớp vi tính (CLVT) được phân tích bằng các thuật toán và lưu lại trên máy tính Tuy nhiên, giống như các kiện hàng trong các thùng container, chỉ có những chủ kiện hàng mới biết được bên trong đó là gì nếu các thông tin không được dán mác ở bên ngoài Không chỉ
phục vụ mục đích lưu trữ và chẩn đoán bệnh, chuẩn DICOM ra đời còn là cuộc cách mạng trong lĩnh vực nghiên cứu y khoa Khi các bác sỹ muốn tìm kiếm các trường hợp tương tự để giúp họ chẩn đoán và có kế hoạch điều trị thành công cho nhiều bệnh nhân khác Hơn nữa, ứng dụng của y học từ xa (telemedicine) không thể thành công nếu thiếu chuẩn DICOM, Khi các bệnh nhân ở vùng sâu, vùng xa không được tiếp cận với các bệnh viện tuyến trên một cách nhanh nhất, đối với các trường hợp khẩn cấp, thì việc truyền ảnh chụp được từ các Bệnh
viện tuyến dưới lên tuyến trên để được sự tư vấn của các chuyên gia đầu ngành
là hết sức quan trọng Năm 1980, Chuẩn DICOM đã được phát triển để giải quyết
vấn đề lưu trữ và truyền các thông tin chẩn đoán hình ảnh Trong đó có các thông tin của người bệnh như tên tuổi, số thẻ bảo hiểm, nhóm máu … DICOM được nghiên cứu lần đầu tiên vào năm 1983 và được công bố lần đầu tiên năm
1985 bởi tổ chức American College of Radiology (ACR) và National Electrical Manufacture Association (NEMA) Đầu những năm 1980, rất khó khăn để các nhà sản xuất máy chụp CLVT (CT scanner) và máy chụp cộng hưởng từ (MRI)
có thể mã hóa được hình ảnh 31 cho những thiết bị chung ACR và NEMA đã cùng đưa ra một tiêu chuẩn chung năm 1983 Tiêu chuẩn đầu tiên của họ,
Trang 15và từ đó tiếp tục được sửa đổi và bổ sung
Hình 1.2 Hình ảnh chụp cắt lớp vi tính của bệnh nhân ung thư phổi
Sau khi thu được ảnh, bác sĩ sẽ sử dụng hình ảnh CT thu được để phân tích và chẩn đoán các mô phổi Việc chẩn đoán các bất thường của phổi bằng phương pháp thủ công là một quá trình tốn thời gian, mang tính chủ quan và đòi
hỏi các bác sĩ cần có nhiều kinh nghiệm Tuy nhiên, trong nhiều trường hợp, rất khó để bác sĩ có được chẩn đoán chính xác nếu không có sự trợ giúp của công
cụ bổ sung được gọi là Hệ thống chẩn đoán có sự hỗ trợ của máy tính (Computed Aided Diagnosis - CAD) Hệ thống chẩn đoán có sự hỗ trợ của máy tính (CAD)
là một công cụ chẩn đoán y tế hiệu quả và là điều kiện tiên quyết cho việc phân tích hình ảnh y tế thực tiễn Bác sĩ sử dụng hệ thống CAD để cung cấp thêm ý
kiến thứ hai để có được các chẩn đoán chính xác hơn Đây là công cụ rất hữu
ích, được sử dụng rộng rãi để cải thiện hiệu quả của việc điều trị
Trang 165
Đối với nhiều hệ thống CAD, luôn cần một quy trình phân đoạn ảnh chính xác của các cơ quan cần quan tâm để xác định vị trí cũng như kích thước của chúng Đây là bước khởi đầu tiên quyết để phân tích hình ảnh CT phổi định
lượng một cách hiệu quả Tuy nhiên, thiết kế một phương pháp phân đoạn phổi hiệu quả là một vấn đề đầy thách thức, đặc biệt đối với nhu mô phổi bất thường,
nơi các nốt và mạch máu cần được phân tách với nhu mô phổi Hơn nữa, phổi cần được phân tách ra khỏi các khu vực phế quản thường bị nhầm lẫn với các
mô phổi
Ngày nay, trí tuệ nhân tạo và học máy trong đó cụ thể hơn là Deep learning - Học sâu đã được sử dụng rộng rãi trong nhiều lĩnh vực, giúp các hệ thống hoạt động thông minh và hiệu quả hơn Khả năng nhận dạng hình ảnh của máy móc được huấn luyện thông qua Deep learning trong một số tình huống tốt
hơn so với con người đặc biệt trong điều kiện yêu cầu đưa ra kết luận nhanh, chính xác Điều này đã được chứng minh trong các ứng dụng liên quan đến tính năng khai thác tự động, phân loại hình ảnh và phát hiện đối tượng như các hệ thống nhận diện khuôn mặt người dùng, xe hơi tự lái hay drone giao hàng tự động Ngoài ra trí tuệ nhân tạo còn có ưu điểm khi không bị ảnh hưởng do quá trình làm việc trong thời gian dài, liên tục dẫn đến có thể đưa ra những phán đoán sai lầm, cảm tính Gần đây, việc áp dụng các kỹ thuật học sâu cho phân đoạn hình ảnh y tế đã nhận được sự quan tâm lớn bởi các nhà khoa học trên thế giới do chúng có khả năng học hỏi và xử lý lượng lớn dữ liệu một cách nhanh chóng và chính xác
Một số nhà nghiên cứu đã đề xuất và triển khai phát hiện ung thư phổi bằng các cách tiếp cận hình ảnh khác nhau xử lý và học máy Aggarwal, Furquan
và Kalra[1] đã đề xuất một mô hình cung cấp phân loại giữa các nốt và cấu trúc giải phẫu phổi bình thường Phương pháp trích xuất hình học, thống kê và mức
độ sáng tối của ảnh LDA được sử dụng như bộ phân loại và tạo ngưỡng tối ưu
để phân đoạn Hệ thống có độ chính xác 84%, độ nhạy 97,14% và độ đặc hiệu 53,33% Mặc dù hệ thống phát hiện được nốt ung thư, nhưng độ chính xác của
nó vẫn là khiêm tốn Jin, Zhang và Jin[2] đã sử dụng mạng nơ-ron tích chập làm
bộ phân loại trong hệ thống CAD của mình để phát hiện ung thư phổi Hệ thống
có độ chính xác 84,6%, độ nhạy 82,5% và độ đặc hiệu 86,7% Ưu điểm của mô
Trang 176
hình này là nó sử dụng bộ lọc tròn trong giai đoạn trích xuất khu vực quan tâm (ROI), giúp giảm thời gian huấn luyện và các bước nhận dạng Mặc dù giảm thời gian thực hiện nhưng độ chính xác vẫn chưa được cải thiện Sangamithraa
và Govindaraju [3]sử dụng thuật toán học không giám sát để phân loại hoặc phân đoạn Nó nhóm tập dữ liệu pixel theo các đặc điểm nhất định Để phân loại, mô hình này thực hiện bằng mạng lưới lan truyền ngược Các hàm như entropy, tương quan, đồng nhất, PSNR, SSIM được trích xuất bằng cách sử dụng mức độ sáng tối của anh phương pháp ma trận đồng xuất hiện (GLCM)
Hệ thống có độ chính xác khoảng 86,7% Roy, Sirohi và Patle [4,5] đã phát triển một hệ thống phát hiện nốt ung thư phổi bằng cách sử dụng hệ thống giao thoa
mờ và mô hình đường viền hoạt động Hệ thống này sử dụng chuyển đổi mức
độ sáng tối của ảnh để nâng cao độ tương phản của hình ảnh Mã hóa hình ảnh mới được thực hiện trước khi phân loại và hình ảnh kết quả được phân loại bằng cách sử dụng mô hình đường bao hoạt động Phân loại ung thư thực hiện bằng phương pháp suy luận mờ Các hàm như diện tích, trung bình, entropy, tương quan, độ dài trục chính, phụ độ dài trục được trích xuất để đào tạo bộ phân loại Nhìn chung, độ chính xác của hệ thống là 85% Tính hạn chế của nó không phân loại ung thư là lành tính hay ác tính là hạn chế trong của mô hình đề xuất này
Ở Việt Nam, việc chẩn đoán thủ công hoặc bán thủ công thông qua ảnh
CT gây tốn nhiều thời gian và công sức của bác sỹ Với áp lực từ số lượng bệnh nhân lớn, khối lượng công việc cần thực hiện nhiều, có thể dẫn đến sự mệt mỏi của các bác sỹ, việc chẩn đoán và lập kế hoạch điều trị đôi lúc chưa chính xác, làm giảm hiệu quả của việc điều trị Do đó, thiết lập một phần mềm hỗ trợ bác
sỹ trong việc phát hiện, xác định vị trí và kích thước khối u của phổi thông qua
kỹ thuật phân đoạn ảnh thông minh dựa trên việc ứng dụng học máy và học sâu
là việc làm cần thiết Điều này đồng thời cũng sẽ giúp giảm thiểu hơn nữa các tác hại không mong muốn tới cơ thể bệnh nhân
Trong những năm gần đây, các nhóm nghiên cứu của Việt Nam đã rất nhanh chóng bắt kịp xu hướng chung của thế giới là nghiên cứu ứng dụng trí tuệ nhân tạo để hỗ trợ bác sỹ chẩn đoán một số bệnh ung thư, trong đó có ung thư phổi Nhóm nghiên cứu của tác giả Trần Giang Sơn [6] và cộng sự đã xây dựng thành công mô hình phát hiện và nhận dạng vị trí, kích thước các nốt, khối
Trang 187
u phổi trên ảnh CT, đồng thời xây dựng thành công mô hình phân loại các nốt, khối u phổi trên ảnh chụp CT là lành tính hay ác tính Tuy nhiên, trong nghiên cứu của tác giả sử dụng bộ dữ liệu quốc tế Lunar16 mới chỉ dừng lại ở việc phân loại và phát hiện ảnh CT có phải ảnh ung thư hay không mà chưa phân loại được
từng mặt bệnh ung thư phổi cụ thể như ung thư phổi tế bào nhỏ, ung thư phổi tế bào lớn, và bộ dữ liệu của tác giả là không phải ảnh CT của những bệnh nhân
ung thư từ Việt Nam Vì vậy, tôi đề xuất đề tài: “Nghiên c ứu ứng dụng trí tuệ nhân t ạo trong chẩn đoán ung thư phổi sử dụng ảnh chụp CT” sử tập dữ
liệu huấn luyện bằng ảnh CT của những bệnh nhân tại bệnh viện K Việt Nam
nhằm mục đích tạo ra ra một bộ dữ liệu chuẩn có thể được sử dụng để huấn luyện cho các mô hình học máy ứng dụng vào việc phân loại, phân đoạn tự động hình ảnh CT, hỗ trợ bác sỹ trong quá trình chẩn đoán và điều trị ung thư phổi
1.2 Các loại ung thư phổ biến
Ung thư phổi là gì: Ung thư phổi xảy ra khi các tế bào bình thường ở phổi biến đổi thành tế bào bất thường và không tuân theo sự kiểm soát của cơ thể Ung thư phổi được chia ra thành hai loại chính là ung thư phổi không tế bào nhỏ (khoảng 80%) và ung thư phổi tế bào nhỏ (khoảng 20 %), trong đó ung thư phổi tế bào nhỏ tiến triển nhanh hơn Ở Việt Nam, ung thư phổi là nguyên nhân
tử vong hàng đầu ở cả hai giới
- Triệu chứng của ung thư phổi là gì?
Ở giai đoạn sớm, bệnh thường không có triệu chứng Ở giai đoạn muộn hơn, bạn có thể có các triệu chứng sau:
• Ho khan, ho máu, hay ho có đờm
Trang 198
Ung thư phổi tế bào nhỏ
Ung thư phổi tế bào nhỏ được đánh giá là nguy hiểm nhất trong các dạng của ung thư phổi bởi khả năng lây lan nhanh chóng và mức độ lan phủ rộng chiếm tới 15% tổng các ca bệnh Khả năng phát triển các loại này cao gấp hai lần các loại khác và nhanh chóng di căn đi xa làm ảnh hưởng đến các bộ phận khác Sở dĩ có tên gọi này là do các tế bào ung thư phổi này thường có kích thước rất nhỏ, chủ yếu chứa các hạt nhân Ngoài ra, loại bệnh này còn có tên gọi khác đó là yến mạch tế bào ung thư Ung thư phổi tế bào nhỏ có khả năng xâm lấn rất nhanh, di căn sớm và rất khó điều trị Đa số các trường hợp bệnh phát sinh ở đường dẫn khí lớn (phế quản chính và phế quản thùy) Thông thường, khi bệnh nhân được chẩn đoán mắc phải loại ung thư này đều đã bước vào giai đoạn nặng của bệnh
Ung thư phổi không tế bào nhỏ
Ung thư phổi không tế bào nhỏ có tốc độ phát triển của tế bào và di căn chậm hơn so với ung thư phổi tế bào nhỏ Vì vậy nếu được phát hiện sớm và điều trị kịp thời, bệnh nhân có hy vọng sống cao hơn Ung thư phổi không tế bào nhỏ được chia thành các loại nhỏ hơn đó là: ung thư biểu mô tế bào vảy,
ung thư biểu mô tuyến, ung thư biểu mô tế bào lớn
• Ung thư biểu mô tế bào vảy
Ung thư biểu mô tế bào vảy chiếm khoảng 30% số trường hợp mắc ung thư phổi Loại này thường diễn ra ở gần đường dẫn khí lớn trong phổi Vì thế
nó còn có tên gọi khác là ung thư phổi biểu mô dạng biểu bì Theo thống kê, vài năm gần đây tỷ lệ mắc ung thư biểu mô tế bào phổi đang giảm trong khi ung thư biểu mô tuyến có dấu hiệu gia tăng Phần lớn các khối u ung thư phổi tế bào vảy nằm ở vị trí trung tâm, chỗ phế quản lớn nối khí quản với phổi
Do vị trí gần kề phổi, nên loại ung thư này thường xuất hiện triệu chứng bệnh sớm hơn so với các loại ung thư phổi khác Cụ thể người bệnh thường bị khó thở, thở khò khè, ho dai dẳng, ho ra máu, bị đau vai lan xuống cánh tay, cảm giác kim châm trong bàn tay, mặt đỏ, đổ mồ hôi, mí mắt xệ xuống, cơ thể suy yếu Ngoài ra, khi mắc ung thư tế bào vảy người bệnh thường dễ bị tăng canxi huyết dẫn đến yếu cơ và chuột rút
Trang 209
• Ung thư biểu mô tuyến
Gần 40% số trường hợp ung thư phổi là ung thư biểu mô tuyến, loại này thường bắt nguồn từ mô phổi ngoại vi Mặc dù hầu hết các trường hợp ung thư biểu mô tuyến có liên quan tới việc hút thuốc lá, nhưng đây cũng là loại ung thư phổ biến nhất ở những người hút ít hơn 100 điếu thuốc trong suốt cuộc đời và những người có tiền sử hút thuốc lá Một phân loại phụ của ung thư biểu mô tuyến đó là ung thư biểu mô tuyến phổi tại chỗ, loại này thường gặp hơn ở những
nữ giới không hút thuốc và có thể khả năng sống sót về lâu dài là cao hơn Hiện nay, xu hướng mắc phải loại bệnh này đang có dấu hiệu gia tăng Song, điều nguy hiểm là bệnh ít có triệu chứng rõ ràng, thường phát hiện ở những giai đoạn nặng Bệnh gặp nhiều ở nữ giới và những người không hút thuốc lá Bệnh xuất hiện ở trẻ em nhiều hơn so với ung thư biểu mô vảy, tuy nhiên lại có tiên lượng sống khả quan hơn
• Ung thư biểu mô tế bào lớn
Ung thư biểu mô tế bào lớn là loại bệnh có thể xuất phát ở bất cứ vị trí nào của phổi và thường khó điều trị hơn so với hai loại trên Bệnh khá hiếm gặp, chỉ chiếm 15% Loại bệnh này có dấu hiệu phát triển và xâm lấn nhanh hơn rất nhiều so với các loại ung thư phổi không tế bào nhỏ.Do ung thư thường xuất hiện ở phần ngoài của phổi nên khi mắc bệnh, người bệnh sẽ nhanh chóng có những triệu chứng như ho lâu ngày, ho ra máu Trước đó, người bệnh sẽ có một
số biểu hiện sớm như mệt mỏi, khó thở, đau lưng, vai, ngực Ngoài ra, do phát triển ngay ngoài thành phổi nên ung thư biểu mô tế bào lớn có thể gây ra hiện tượng tràn dịch màng phổi và di căn đến thành ngực gây đau đớn, tức ngực mỗi
khi bệnh nhân hít thở sâu.Khả năng sống trên 5 năm của những bệnh nhân ung thư biểu mô tế bào lớn là rất thấp, chỉ chiếm khoảng 18% Với những bệnh nhân phát hiện sớm và điều trị kịp thời, tiên lượng sống có thể khả quan hơn
1.3 Giới thiệu về mạng nơ ron tích chập và ứng dụng
Khái niệm
Mạng thần kinh nhân tạo là hệ thống xử lý bằng máy tính được lấy cảm
hứng từ cơ chế vận hành của mạng nơ ron sinh học ANN được cấu thành bởi
số lượng lớn các nút tính toán liên kết nội (được gọi là các nơ ron), các nút liên
kết nội này hoạt động dưới một liên kết chặt chẽ với nhau trong một mô hình
Trang 2110
Hình 1.4 Nơron nhân tạo
phân phối để học một cách tập trung từ dữ liệu đầu vào với mục tiêu tối ưu hóa
kết quả lối ra
Mạng nơron nhân tạo, Artificial Neural Network (ANN) [9-12] gọi tắt là mạng nơron, neural network, là một mô hình xử lý thông tin phỏng theo cách thức
xử lý thông tin của các hệ nơron sinh học Nó được tạo nên từ một số lượng lớn các phần tử (gọi là phần tử xử lý hay nơron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó Một nơron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng nơron.Cấu trúc của một nơron được mô tả trên hình dưới
ANN là một phần của kỹ thuật học máy, được chia thành hai phần: học
có giám sát và học không giám sát Học có giám sát là quá trình huấn luyện máy tính thông qua dữ liệu đầu vào đã được dán nhãn, các nhãn này đóng vai trò như
là kết quả lối ra đã xác định Mục tiêu của quá tình huấn luyện là làm giảm sai
Hình 1.3 Cấu tạo của tế bào nơron sinh học
Trang 2211
số giữa kết quả tính toán từ mô hình và giá trị dán nhãn biết trước thông qua đó
hiệu chỉnh lại các phép tính tỏng mô hình Học không giám sát là quá tình huấn luyện tiếp cận theo hướng khác, trong đó bộ dữ liệu sử dụng để huấn luyện không dán nhãn Dự thảnh công của phép huấn luyện được đánh giá thông qua
khả năng suy giảm hoặc gia tăng của hàm đáng giá (Cost Function)
Giới hạn của cấu trúc ANN truyền thống là khả năng tính toán, giải quyết các bài toán phức tạp với lượng dữ liệu đầu vào rất lớn, đặc biệt đối với các bàn toán xử lý hình ảnh Ví dụ ANN có khả năng giải quyết khá tốt bài toán nhận
diện số viết tay, với dữ liệu chuẩn được lấy từ cơ sở dữ liệu của MNIST Bộ dữ
liệu số viết tay của MNIST cung cấp số lượng rất lớn ảnh chụp các chữ số viết tay có kích thước 28x28, đây là hình ảnh đen trắng do đó lớp ẩn đầu tiên của
mạng nơ ron chỉ bao gồm 784 trọng số (28x28x1) Giả sử bộ dữ liệu đầu vào
trở nên phức tạp hơn, là ảnh màu, kích thước 64x64 (64x64x3), điều này làm cho số lượng trọng số ở lớp ẩn đầu tiên lên tới 12.288 Để giải quyết bài toán này cấu trúc của ANN sẽ tăng lên rất lớn, trên thực tế chỉ đơn tăng kích thước (số lượng) của mạng nơ ron không thể giải quyết được vấn đề do hai lý do sau:
thứ nhất liên quan tới khả năng và thời gian tính toán của hệ thống; thứ hai khi
mạng ANN quá lớn sẽ dẫn tới hiện tượng quá mức (overfitting) là hiện tượng
hệ thống không có khả năng học hiệu quả bởi vì một số nguyên nhân Chính vì
những lý do kể trên mà ta buộc phải tìm cách làm giảm mức độ phức tạp nhằm nâng cao hiệu suất tính toán của mô hình
Hình 1.5 Phép tích chập được áp dụng vào mô hình mạng nơ ron tạo ra mạng nơ ron tích chập
Trang 23có thể được nhận diện hoàn toàn thông qua thông tin cục bộ của ảnh Chính vì
lý do này số lượng kết nối đến ảnh đầu vào có thể giảm rõ rệt
Kiến trúc CNN
Như đã trình bày ở trên CNN phát triển với mục đích chính là xử lý ảnh,
do đó cấu trúc CNN sẽ được thiết kế tối ưu để cho việc xử lý dữ liệu đặc biệt này Một trong những khác biệt cơ bản giữa CNN và ANN là các nơ ron trong
mỗi lớp được sắp xếp trong một không gian 3 chiều bao gồm chiều không gian
của biến đầu vào (kích thước ảnh) và chiều sâu của ảnh Không giống như mô hình ANN chuẩn, nơ ron trong từng lớp chỉ kết nối với một vùng nhỏ không gian của lớp đang được nó xử lý (lớp phía trước) Trên thực tế điều này chỉ ra
rằng, giả sử đối với dữ liệu đầu vào có kích thước 64x64x4 kể trên sẽ dẫn tới
lớp ra có kích thước 1x1xn (trong đó n là số lượng xác xuất của các nhãn) khi chúng ta phân tách kích thước đầu đủ của dữ liệu đầu vào thành từng thể tích
nhỏ hơn dọc theo chiều sâu của nó
CNN được tạo thành từ 3 loại lớp cơ bản: lớp tích chập (Convolutional layer), lớp gộp (Pooling layer) và lớp kết nối đầy đủ (Fully-connected layer) Khi tất cả các lớp này xếp chồng lên nhau, mô hình CNN được hình thành Kiến trúc đơn giản của CNN được trình bày như trong hình:
Trang 2413
Hình 1.6 Ki ến trúc CNN
Từ trên hình ta có thể thấy, CNN bao gồm các lớp sau:
- Lớp đầu vào (input layer): lưu giữ toàn bộ giá trị các pixel của ảnh
- Lớp tích chập (Convolutional layer): xác định đầu ra của nơ ron nối với
một phần của lối vào thông qua tích vô hướng giữa vùng không gian của lối vào
và các trọng số của nơ ron Hàm chỉnh lưu đơn vị tuyến tính (Rectified Linear Unit – ReLu) được sử dụng để áp hàm kích hoạt nguyên tốc như là sigmoid tới
lối ra của sự kích hoạt được tạo bởi lớp trước đó
- Lớp gộp (Pooling layer): sẽ thực hiện lấy mẫu dọc hạ cấp theo chiều không gian của dữ liệu đầu vào đã cho, nhằm làm giảm tham số trong kích hoạt
đó
- Lớp kết nối đầy đủ (Fully-connected layer): đây chính là một mạng ANN tiêu chuẩn, sử dụng để tạo ra kết quả từ hàm kích hoạt cho mục đích phân loại ReLu được khuyến cáo sử dụng giữa các lớp này nhằm nâng cao hiệu suất
Trang 2514
Hình 1.7 Mô tả trực quan lớp tích chập
Mỗi khi trục dọc theo không gian 2 chiều của lối vào, lớp tích chập sẽ
tiến hành phép nhân vô hướng cho mỗi giá trị trong nhân Mạng sẽ học các nhân
được trỏ tới hay còn gọi là “cháy” (fire) khi chúng thấy đặc trưng cụ thể tại vị
trí không gian đã cho của lối vào, điều này thường được gọi là kích hoạt Mỗi
nhân có một bản đồ kích hoạt tương ứng được xếp chồng dọc theo chiều sâu để
tạo ra toàn bộ thể tích lối ra từ lớp tích chập Kích thước của vùng không gian
lối vào kết nối tới mỗi nơ ron trong lớp tích chập được gọi là kích thước trường
tiếp nhận (Receptive Filde Size) của nơ ron Ví dụ, cho dữ liệu đầu vào của
mạng là ảnh có kích thước 64x64x3 (ảnh RGB), ta tạo ra trường tiếp nhận có
kích thước 6x6, từ đó ta sẽ có tổng cộng 108 (6x6x3) trọng số của mỗi nơ ron
trong lớp tích chập
Lớp tích chập cũng có thể làm giảm đáng kể dự phức tạp của mô hình
bằng cách tối ưu lối ra của nó Quá trình tối ưu này thông qua 3 siêu biến là:
chiều sâu, bước (stride là bước dịch chuyển của filter quanh ảnh) và đệm 0
(zero-padding)
Chiều sâu của thể tích lối ra được tạo ra từ lớp tích chập có thể được thiết
lập thủ công thông qua số lượng nơ ron trong lớp tới cùng khu vực của lối vào
Điều này có thể được quan sát với dạng khác của ANN, trong đó, tất cả nơ ron
trong lớp ẩn được kết nối trực tiếp với mỗi nơ ron của lớp trước đó Việc suy
giảm siêu biến này có thể giảm thiểu vừa đủ khả năng nhận diện kiểu mẫu của
mô hình
Ta cũng có thể định nghĩa stride trong đó thiết lập chiều sâu xung quanh
kích thước không gian của lối vào mục đích để đặt trường tiếp nhận Ví dụ nếu
ta đặt stride bằng 1, khi đó ta sẽ có vùng chông lấp của trường tiếp nhận cực kỳ
Trang 2615
lớn tạo thành một lượng rất lớn kích hoạt Ngược lại tăng giá trị stride sẽ làm
giảm chồng chập tuy nhiên lối ra sẽ có độ phân giải không gian thấp hơn
Đệm 0 (zero-padding) là một quá trình thêm vào biên của lối vào các pixel có giá trị 0 Đây là phương pháp hiệu quả nhằm kiểm soát tốt kích thước
của thể tích lối ra Bằng cách sử dụng kỹ thuật này chúng ta sẽ thay đổi kích thước không gian của lớp tích chập lối ra Để tính toán điều này, ta sẽ sử dụng công thức:
nơ ron sẽ không thể bao vừa lối vào
Tham số chia sẻ làm việc dựa trên giả sử rằng nếu một khu vực tính năng
là hữu dụng để tính toán tại một tập khu vực không gian thì nó cũng sẽ hữu dụng
tại một khu vực khác Nếu ta hạn chế mỗi bản đồ kích hoạt riêng biệt trong thể tích lối ra có cùng trọng số và bias, khi đó ta sẽ thấy sự suy giảm đáng kể của
số lượng tham số được tạo ra từ lớp tích chập Như là kết quả của điều này, khi
trạng thái lan truyền ngược xảy ra, mỗi nơ ron trong lối ra sẽ đại diện độ chênh
tổng thể trong đó có thể được tính tổng qua chiều sâu, như vậy chỉ cập nhật tập đơn của trọng số
một nhân có kích thước 2x2 được áp trên toàn bộ không gian lối vào với bước
bằng 2 Lớp cực đại này làm giảm kích thước của bản đồ kích hoạt xuống 25%
so với kích thước ban đầu trong khi giữ nguyên chiều sâu thể tích của lối vào Thông thường bước và bộ lọc của lớp gộp thường được đặt bằng 2x2, điều này cho phép lớp mở rộng ra toàn bộ miền không gian của lối vào Ngoài ra lớp đệp
Trang 27một cách tuần tự, và cuối cùng là lớp kết nối đầy đủ Một kiến trúc khác của CNN là sự xếp chồng của 2 lớp tích chập trước mỗi lớp gộp, kiến trúc này cho phép lựa chọn được những đặc trưng rất phức tạp của lối vào
Hình 1.8 kiến trúc CNN bao gồm hai lớp tích chập trước lớp gộp
Thông thường ta có thể chia lớp tích chập kích thước lớn thành nhiều lớp
nhỏ hơn nhằm giảm độ phức tạp của quá trình tính toán trong mỗi lớp Ví dụ
nếu ta muốn xếp chồng 3 lớp tích chập lên trên của mỗi lớp khác với trường tiếp
nhận 3x3 Khi đó, mỗi nơ ron trong lớp tích chập đầu tiên sẽ quan sát không gian 3x3 của vector lối vào, nơ ron tại lớp tích chập thứ 3 sẽ quan sát không gian 5x5 của lối vào và tiếp theo nơ ron của lớp thứ 3 sẽ quan sát không gian 7x7 của lối vào Những đặc trưng phi tuyến cộng dồn này cho phép ta mô tả các đặc trưng của lối vào một cách mạnh mẽ hơn trong khi sử dụng các tham số ít hơn Hơn nữa
Lớp lối vào nên là các gí trị đệ quy chia hết cho 2, thường được chọn là: 32x32, 64x64, 96x96, 128x128, 224x224.Khi sử dụng bộ lọc có kích thước nhỏ, nên đặt bước dịch bằng 1 và sử dụng đệm 0 để chắc chắn rằng lớp tích chập không tự cấu hình lại kích thước của lối vào Số lượng đệm 0 cần thiết có thể được tính toán bằng cách lấy một kích thước của trường tiếp nhận và chia cho
2 kích hoạt
CNN là một thuật toán học máy mạnh mẽ, nó có thể xử lý một lượng dữ
liệu đầu vào rất lớn, ví dụ nếu lối vào có kích thước 227x227 (như trong mạng
Trang 2817
ImageNet) và ta sử dụng bộ lọc với 64 nhân có đệm 0, như vậy kết quả sẽ là 3 véc tơ kích hoạt với kích thước 227x227x64, mô hình này tương ứng với 10 triệu kích hoạt hoặc tương đương 70MB bộ nhớ cho 1 ảnh Trong trường hợp này ta có hai lựa chọn: thứ nhất, chúng ta có thể làm giảm kích thước không gian của ảnh, thứ hai là ta có thể sử dụng hàm lọc với kích thước lớn hơn và tăng giá trị bước quét
Khả năng ứng dụng của mạng nơron nhân tạo
Đặc trưng của mạng nơron nhân tạo là khả năng học Nó có thể gần đúng mối quan hệ tương quan phức tạp giữa các yếu tố đầu vào và đầu ra của các quá trình cần nghiên cứu và khi đã học được thì việc kiểm tra độc lập thường cho kết quả tốt Sau khi đã học xong, mạng nơron nhân tạo có thể tính toán kết quả đầu ra tương ứng với bộ số liệu đầu vào mới
Về mặt cấu trúc, mạng nơron nhân tạo là một hệ thống gồm nhiều phần tử
xử lý đơn giản cùng hoạt động song song Tính năng này của ANN cho phép nó
có thể được áp dụng để giải các bài toán lớn
Về khía cạnh toán học, theo định lý Kolmogorov, một hàm liên tục bất
kỳ f (x1, x2…, xn) xác định trên khoảng In(với I = [0,1]) có thể được biểu diễn dưới dạng [4] :
trong đó: χj , Ψijlà các hàm liên tục một biến Ψij là hàm đơn điệu, không phụ thuộc vào hàm f Mặt khác, mô hình mạng nơron nhân tạo cho phép liên kết có trọng số các phần tử phi tuyến (các nơron đơn lẻ) tạo nên dạng hàm tổng hợp từ các hàm thành phần Do vậy, sau một quá trình điều chỉnh sự liên kết cho phù hợp (quá trình học), các phần tử phi tuyến đó sẽ tạo nên một hàm phi tuyến phức tạp có khả năng xấp xỉ hàm biểu diễn quá trình cần nghiên cứu Kết quả là đầu
ra của nó sẽ tương tự với kết quả đầu ra của tập dữ liệu dùng để luyện mạng Khi đó ta nói mạng nơron nhân tạo đã học được mối quan hệ tương quan đầu vào - đầu ra của quá trình và lưu lại mối quan hệ tương quan này thông qua bộ
(1.1)
Trang 29• Bài toán phân lớp : Loại bài toán này đòi hỏi giải quyết vấn đề phân
loại các đối tượng quan sát được thành các nhóm dựa trên các đặc điểm của các nhóm đối tượng đó Đây là dạng bài toán cơ sở của rất nhiều bài toán trong thực
tế : nhận dạng chữ viết, tiếng nói, phân loại gen, phân loại chất lượng sản phẩm,
…
trong việc xây dựng các mô hình dự báo sử dụng tập dữ liệu trong quá khứ để dự đoán số liệu trong tương lai Đây là nhóm bài toán khó và rất quan trọng trong nhiều ngành khoa học
• Bài toán điều khiển và tối ưu hoá : Nhờ khả năng học và xấp xỉ hàm
mà mạng nơron nhân tạo đã được sử dụng trong nhiều hệ thống điều khiển tự động cũng như góp phần giải quyết những bài toán tối ưu trong thực tế
Tóm lại, mạng nơron nhân tạo được xem như là một cách tiếp cận đầy tiềm năng để giải quyết các bài toán có tính phi tuyến, phức tạp và đặc biệt là trong tình huống mối quan hệ bản chất vật lý của quá trình cần nghiên cứu không dễ thiết lập tường minh
1.4 Các kiến trúc mạng nổi tiếng trên CNN
Kiến trúc VGG16
Trang 30trực quan lớn được sử dụng trong nghiên cứu phần mềm nhận dạng đối tượng
trực quan Kiến trúc VGG16 được phát triển và giới thiệu bởi Karen Simonyan
và Andrew Zisserman từ Đại học Oxford, vào năm 2014, thông qua bài báo của
họ “Các mạng kết hợp rất sâu để nhận dạng hình ảnh quy mô lớn” 'VGG' là tên
viết tắt của Visual Geometry Group, là một nhóm các nhà nghiên cứu tại Đại
học Oxford, những người đã phát triển kiến trúc này, và '16' ngụ ý rằng kiến trúc này có 16 lớp
Mô hình VGG16 đạt độ chính xác trong bài kiểm tra top 5 là 92,7% trong ImageNet, đây là tập dữ liệu của hơn 14 triệu hình ảnh thuộc 1000 lớp Đây là một trong những mô hình nổi tiếng được gửi đến Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) vào năm 2014 Nó đã thực hiện các cải tiến so với kiến trúc AlexNet bằng cách thay thế các bộ lọc có kích thước hạt nhân lớn (11 và 5 trong lớp chập đầu tiên và thứ hai, tương ứng) với nhiều bộ lọc kích thước hạt nhân 3x3 lần lượt VGG16 đã được đào tạo trong nhiều tuần sử dụng GPU NVIDIA Titan Black
VGG16 được sử dụng trong nhiều kỹ thuật phân loại ảnh học sâu và phổ biến do dễ thực hiện VGG16 được sử dụng rộng rãi trong các ứng dụng học tập
Trang 3120
do ưu điểm của nó VGG16 là một Kiến trúc CNN, đã được sử dụng để giành chiến thắng trong Thử thách Nhận dạng Hình ảnh Quy mô lớn ImageNet (ILSVRC) vào năm 2014 Nó vẫn là một trong những kiến trúc tầm nhìn tốt nhất cho đến nay
• Kiến trúc VGG16
Trong quá trình đào tạo, đầu vào cho các chuyển đổi là hình ảnh RGB 224
x 224 có kích thước cố định Trừ giá trị RGB trung bình được tính trên tập huấn luyện từ mỗi pixel là quá trình xử lý trước duy nhất được thực hiện ở đây Hình ảnh được chuyển qua một chồng các lớp tích hợp, trong đó các bộ lọc có trường tiếp nhận rất nhỏ: 3×3 (là kích thước nhỏ nhất để nắm bắt khái niệm trái / phải, lên / xuống, trung tâm và có cùng một trường tiếp nhận hiệu quả như một trường
7 x 7), được sử dụng Nó sâu hơn, có nhiều điểm phi tuyến tính hơn và có ít tham số hơn Trong một trong các cấu hình, bộ lọc tích chập 1×1, có thể được xem như một phép biến đổi tuyến tính của các kênh đầu vào (theo sau là không tuyến tính), cũng được sử dụng đầu vào lớp được cố định thành 1pixel cho các lớp phức hợp 3x3, điều này đảm bảo rằng độ phân giải không gian được giữ nguyên sau khi tích chập Năm lớp tổng hợp tối đa, theo sau một số lớp phức hợp, giúp tổng hợp không gian Tổng hợp tối đa được thực hiện trên cửa sổ 2×2 pixel, với bước 2
Có ba lớp Kết nối đầy đủ (FC) theo một chồng các lớp chập (các lớp này
có độ sâu khác nhau trong các kiến trúc khác nhau): hai lớp đầu tiên có 4096 kênh mỗi lớp, lớp thứ ba thực hiện phân loại ILSVRC 1000 chiều và do đó chứa
1000 kênh (một cho mỗi lớp) Lớp cuối cùng là lớp soft-max Cấu hình của các lớp được kết nối đầy đủ là giống nhau trong tất cả các mạng
Kiến trúc VGG 16 lớp hoạt động tốt nhất và nó đạt tỷ lệ sai số top 5 là 7,3% (độ chính xác 92,7%) trong ILSVRC - 2014, như đã đề cập ở trên VGG16 đã vượt trội đáng kể so với thế hệ trước của các cuộc thi ILSVRC - 2012 và ILSVRC -
2013
Kiến trúc LeNet(1998)
Lenet (1998): là một trong những mạng CNN lâu đời và nổi tiếng nhất được YanleCun phát triển vào anwm 1998, cấu trúc LeNet gồm 2layer