Mục tiêu: Trong phạm vi đề tài này, chúng tôi sẽ: - Tìm hiểu tổng quan về các kỹ thuật học sâu, bài toán phân đoạn đối tượng trong ảnh, các phương pháp phân đoạn đối tượng trong ảnh
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 2021
Tên đề tài tiếng Việt:
PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI 3D Tên đề tài tiếng Anh:
SEGMENTATION ANEURYSM FOR 3D MRI IMAGE
Khoa/ Bộ môn: Công nghệ phần mềm
Thời gian thực hiện: 06 tháng
Cán bộ hướng dẫn: TS Lê Mình Hưng
Tham gia thực hiện
TT Họ và tên, MSSV Chịu trách
1. Đỗ Ngọc Cường Chủ nhiệm 0355766760 18520542@gm.uit.edu.vn
Thành phố Hồ Chí Minh – Tháng 10 /2021
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Ngày nhận hồ sơ
Mã số đề tài
(Do CQ quản lý ghi)
BÁO CÁO TỔNG KẾT
Tên đề tài tiếng Việt:
PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI 3D
Tên đề tài tiếng Anh:
SEGMENTATION ANEURYSM FOR 3D MRI IMAGE
Trang 3THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung:
- Tên đề tài: PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI
3D
- Chủ nhiệm: Đỗ Ngọc Cường
- Thành viên tham gia: Không
- Cơ quan chủ trì: Trường Đại học Công nghệ Thông tin
- Thời gian thực hiện: 06 tháng
2 Mục tiêu:
Trong phạm vi đề tài này, chúng tôi sẽ:
- Tìm hiểu tổng quan về các kỹ thuật học sâu, bài toán phân đoạn đối tượng trong ảnh, các phương pháp phân đoạn đối tượng trong ảnh y sinh và tìm thông tin dựa trên các nghiên cứu có sẵn
- Tìm hiểu các dữ liệu hiện có để ứng dụng vào bài toán
- Tiến hành cài đặt thử các phương pháp dựa trên các nghiên cứu hiện có và đánh giá
3 Tính mới và ứng dụng:
Với những bệnh nhân này cần chuẩn đoán và khám kịp thời để lên chiến lược điều trị và phương pháp phẫu thuật Phương pháp điều trị chủ yếu hiện nay là mổ kẹp túi phình (clipping the neck of an aneurysm) các quyết định về việc đặt tư thế phẫu thuật và
vị trí bác sĩ vẫn phụ thuộc vào phán đoán lâm sàng dựa trên kinh nghiệm của bác sĩ Chúng tôi tập trung vào việc phát hiện túi phình vị trí của nó bằng phương pháp học sâu
Chúng tôi kết hợp các hàm mất mát với nhau để tăng độ hiệu quả cho việc phát hiện
Trang 44 Tóm tắt kết quả nghiên cứu: trong bài báo cáo lần này nhóm em chỉ có thể tìm hiểu và đề xuất thêm vào phần backbone các module để cải thiện hiệu suất của bộ dữ liệu não 3D này Đạt được hiệu suất là Dice similarity coefficient: 0.38, Hausdorff distance (modified, 95th percentile): 16.36, Volumetric Similarity: 0.49.
và xử lý ảnh y khoa não MRI 3D, tìm cách giảm bớt lượng tài nguyên chi phí tính toán mỗi lần huấn luyện và kiểm thử Thay đổi và can thiệp vào hàm mất mát để tăng khả năng giám sát trong quá trình huấn luyện của kiến trúc mạng Nhằm đưa các thuật toán này vào hệ thống hỗ trợ phát hiện và chẩn đoán bệnh, giúp nâng cao độ chính xác của việc chẩn đoán mà không gây ra các phản ứng xấu lên cơ thể của bệnh nhân kèm theo là
sự giảm bớt khối lượng công việc và thời gian của các bác sĩ, chuyên gia Nó sẽ là bước đệm phóng cho các nghiên cứu tiếp theo để cải thiện và phát triển
7 Hình ảnh, sơ đồ minh họa chính
Cơ quan Chủ trì
(ký, họ và tên, đóng dấu)
Chủ nhiệm đề tài
(ký, họ và tên)
Trang 5MỤC LỤC
MỤC LỤC 5
DANH MỤC HÌNH 7
DANH MỤC BẢNG 8
TỔNG QUAN 9
1.1 Giới thiệu chung 9
1.2 Động lực nghiên cứu 10
1.2.1 Tính khoa học 10
1.2.2 Tính ứng dụng 10
1.3 Phát biểu bài toán 10
1.4 Phạm vi bài toán 10
1.5 Thách thức bài toán 11
1.6 Đóng góp của nghiên cứu 11
1.7 Cấu trúc báo cáo 12
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 12
2.1 Dữ liệu 3D 13
2.2 Cấu trúc hình học 14
2.2.1 Depth images 14
2.2.2 Point cloud 14
2.2.3 Voxel 15
2.2.4 Polygon Mesh 16
2.3 3D deeplearning 18
Trang 62.4 Classification 19
2.5 Object detection 21
2.6 Segmentation 25
2.7 Framework được thực hiện 26
THỰC NGHIỆM VÀ ĐÁNH GIÁ 28
3.1 Dữ liệu 29
3.2 Phương pháp đánh giá 30
3.3 Chiến lược thực nghiệm và kết quả 31
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 36
4.1 Kết luận 36
4.2 Hướng phát triển 37
LỜI CẢM ƠN 38
Trang 7DANH MỤC HÌNH
Hình 1 Mô tả tổng quan phương pháp 10
Hình 2 Tổng quan về nhận dạng đối tượng 13
Hình 3 Ví dụ về depth image 14
Hình 4 Ví dụ về point cloud 15
Hình 5 Ví dụ về Sparse voxel (Độ thưa thớt giảm dần từ trái qua phải) 16
Hình 6 Ví dụ về Mesh 17
Hình 7 Các ứng dụng của các mô hình trí tuệ nhân tạo 3D 18
Hinh 8 Tần suất xuất hiện từ khóa 3D trong các bài báo ở hội nghị CVPR 2019 19
Hình 9: Faster RCNN 23
Hình 10 Khác biệt giữa object detection và object segmentation 25
Hình 11 Ảnh X-quang đã được phân đoạn 26
Hình 12 Mất cân bằng giữa 3 nhãn 29
Hình 13 Trực quan hóa 3 lớp của một ảnh lấy ra từ bộ dữ liệu 30
Hình 14 Lần huấn luyện thứ nhất, Smooth loss và không tiền xử lý dữ liệu 32
Hình 15 Lần huấn luyện thứ hai, No smooth loss và không tiền xử lý dữ liệu 33
Hình 16 No Smooth Loss, đã tiền xử lý dữ liệu, đã cải tiến thêm phần backbone 34
Hình 17 Trực quan hóa kết quả 1 36
Hình 18 Trực quan hóa kết quả 2 37
Trang 8DANH MỤC BẢNG
Bảng 1: kết quả 35
Trang 9TỔNG QUAN
Trong chương này, chúng tôi giới thiệu chung về khóa luận, động lực nghiên cứu, xác định bài toán và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của khóa luận Phần tóm tắt từng chương trong khóa luận được trình bày ở cuối chương này
1.1 Giới thiệu chung
Phình mạch máu não là một có thể di chứng gây nguy hiểm đến tính mạng, và và
đi theo căn bệnh là các phương pháp xử lý triệu chứng phức tạp Việc chuẩn đoán thường xuyên và kiểm nghiệm tiền phẫu thuật sẽ là tiền đề cho các phương pháp chữa trị và phẫu thuật sau này Và hiện tại phương pháp chủ yếu để thực hiện việc chữa trị
là kẹp nơi bị phình mạch và để ngăn cho mạch không bị vỡ Quyết định vị trí và hướng của thanh kẹp vẫn phải phụ thuộc phần lớn vào kinh nghiệm của người điều trị
Với bài nghiên cứu này chúng ta sẽ tập trung vào phát triển và phân đoạn vị trí của túi phình bằng phương pháp học sâu, đô chính xác được quan tâm và là phần quan trọng nhất vì nó được sử dụng để lấy cổ túi phình
Dự án này chính là tiền đề để đóng góp cho các nghiên cứu sau này Qua đó có thể đóng góp và tiếp cận tới các bài toán như: đưa ra vị trí kẹp túi phình, …
Trang 10Hình 1 Mô tả tổng quan phương pháp
1.2 Động lực nghiên cứu
1.2.1 Tính khoa học
Bài toán phát hiện và đánh dấu nơi phình mạch sẽ hỗ trợ cho việc chuẩn đoán
và chưa trị cho các bệnh nhân bị phình mạch Từ dữ liệu này các y khoa, bác sĩ có thể đánh giá và đưa ra phương hướng điều trị tốt nhất cho tình hình bệnh nhân
1.2.2 Tính ứng dụng
● Cần chuẩn đoán và khám kịp thời để lên chiến lược điều trị và phương pháp phẫu thuật Phương pháp điều trị chủ yếu hiện nay là mổ kẹp túi phình (clipping the neck of an aneurysm) các quyết định về việc đặt tư thế phẫu thuật và vị trí bác sĩ vẫn phụ thuộc vào phán đoán lâm sàng dựa trên kinh nghiệm của bác sĩ
● Phân đoạn ngữ nghĩa biến đổi dữ liệu ảnh y sinh thô thành các thông tin có ý nghĩa
có cấu trúc không gian và đóng một vai trò thiết yếu trong việc phân tích khoa học Tạo ra nhiều ứng dụng hỗ trợ khám bệnh lâm sàng, lập kế hoạch trị liệu, phẫu thuật và theo dõi sự phát triển của các chỗ phình mạch Sự quan tâm về phương pháp phát hiện và phân đoạn tự động trong bối cảnh nghiên cứu ngày càng phát triển mạnh
1.3 Phát biểu bài toán
Báo cáo trình bày hai nội dung chính liên quan đến lĩnh vực thị giác máy tính và
hỗ trợ chuẩn đoán cho bệnh nhân:
• Input bài toán: Đầu vào là ảnh chụp mri não 3D
• Output bài toán: các nhãn đã được phân đoạn phình mạch
• Class: 0 – background, 1 – túi phình chưa điều trị và chưa bị vỡ, 2 – túi
phình đã được điều trị
1.4 Phạm vi bài toán
- Tìm hiểu về bài toán phân đoạn ảnh,
Trang 11- Tìm hiểu về bài toán xử lý ảnh và các thuật toán máy học và học sâu
- Tìm hiểu, áp dụng các kỹ thuật tiền xử lý ảnh y khoa
- Tìm hiểu phân loại các hàm mất mát được sử dụng cho bài toán ảnh y khoa Đánh giá, so sánh kết quả việc áp dụng các hàm mất mát để phân đoạn túi phình
1.6 Đóng góp của nghiên cứu
− Tìm hiểu bài toán phân đoạn ảnh 3D MRI
− Thực nghiệm các phương pháp đã tìm hiểu được
− Đưa ra một số nhận định về thách thức khó khăn của việc phân đoạn ảnh 3d,
sự mất cân bằng dữ liệu, và cách khắc phục bằng các kĩ thuật học sâu
Trang 121.7 Cấu trúc báo cáo
Báo cáo này được trình bày trong chương, nội dung chính được tóm tắt như dưới đây:
− Chương 1: Giới thiệu chung về khóa luận, động lực nghiên cứu, xác định bài toán và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của khóa luận
− Chương 2: Trình bày các cơ sở lý thuyết, nghiên cứu liên quan, xu hướng nghiên cứu mới đối với bài được đề cập trong khóa luận
− Chương 3: Trình bày kết quả thực nghiệm và đánh giá ưu điểm, hạn chế của các phương pháp được chọn để khảo sát
− Chương 4: Nêu kết quả đạt được, kết luận, định hướng nghiên cứu trong tương lai
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Trên thực tế các mô hình deep learning 3D khá giống các mô hình deep learning 2D, ở chương này sẽ khái quát lại các kiến thức cơ bản, ý tưởng hình thành các thuật toán deep learning trong thị giác máy tính Và phương pháp được thực nghiệm cho bài toán này
Trang 13Hình 2 Tổng quan về nhận dạng đối tượng
2.1 Dữ liệu 3D
Việc tổng hợp dữ liệu 3D từ một góc nhìn duy nhất là một chức năng thị giác cơ bản của con người, nhưng điều này cực kì thách thức đối với các thuật toán thị giác máy tính Nhưng những tiến bộ gần đây trong công nghệ thu thập dữ liệu 3D đã có một bước phát triển vượt bậc, các thiệt bị như LiDAR, RGB-D cameras Không giống như dữ liệu 2D có sẵn, dữ liệu 3D rất phong phú về tỷ lệ thông tin hình học, do đó tạo cơ hội cho máy tính có thể học được nhiều hơn.Tuy nhiên, tính khả dụng của dữ liệu 3D tương đối thấp hơn cùng với chi phí thu thập cao hơn dữ liệu 2D
Trong những năm gần đây, deep learning đã chứng tỏ được khả năng vượt trội trong việc giải quyết các tác vụ 2D-image như phân loại hình ảnh, phát hiện đối tượng, phân đoạn ngữ nghĩa, Và không phải ngoại lệ deep learning cũng cho thấy những tiến bộ vượt bậc trong việc ứng dụng vào các bài toán có input là các ảnh 3D
Trang 14Dữ liệu 3D được ứng dụng trong nhiều bài toán khác nhau, như là robotlcs, augmented realty, autonomous driving, medical image processing,
cố định Tuy nhiên, biểu diễn point cloud không có kết nối cục bộ giữa các điểm, do
đó dẫn đến mức độ tự do rất lớn và độ lớn nhiều chiều khiến việc tổng hợp chính xác trở nên khó khăn hơn
Trang 15Hình 4 Ví dụ về point cloud
2.2.3 Voxel
Voxel hoặc pixel thể tích là phần mở rộng trực tiếp của spatial-grid pixel thành volume-grid voxel Nói một các đơn giản, voxel là một pixel trong không gian ba chiều Vị trí tương đối, khoảng của mỗi voxel với nhau giúp xác định được cấu trúc duy nhất vật thể 3D Tuy nhiên, đối với mô hình 3D, việc biểu diễn các voxel khá là thưa thớt, có nghĩa là luôn luôn có sự mất mát về mặt thông tin, điều này dẫn đến việc đánh đổi tài nguyên tính toán và độ chính xác cũng là một thách thức đối với cách biểu diễn này
Trang 16Hình 5 Ví dụ về Sparse voxel (Độ thưa thớt giảm dần từ trái qua phải)
Đối với dữ liệu 3D, việc xác định cách biểu diễn loại dữ liệu là điều thiết yếu
Có nhiều phương pháp ra đời dựa theo các cách biểu diễn loại dữ liệu này:
Trang 17Hình 6 Ví dụ về Mesh
Volumetric: F Milletari et al Fully convolutional neural networks for
volumetric medical image segmentation[1] X Wang et al Volumetric attention for 3D medical image segmentation and detection[2] Graham et al Submanifold sparse convolutional networks (SSCNs)[3] Z Zhu et al A 3D coarse-to-fine framework for volumetric medical image segmentation[4]
Points: L Tchapmi et al Segcloud: Semantic segmentation of 3d point
clouds[5] HY Chiang et al A unified point-based framework for 3d segmentation[6]
L Landrieu et al Large-scale point cloud semantic segmentation with superpoint graphs[7] C Xu et al Squeezesegv3: Spatially-adaptive convolution for efficient point-cloud segmentation[8] G Te et al Rgcnn: Regularized graph cnn for point cloud segmentation[9]
Mesh: D George et al.3D mesh segmentation via multi-branch 1D convolutional
neural networks[10] G Bui et al.A multi-view recurrent neural network for 3D mesh segmentation[11] R Kalfarisi et al Crack detection and segmentation using deep learning with 3D reality mesh model for quantitative assessment and integrated visualization[12] Q Peng et al Deep learning-based optimal segmentation of 3D printed product for surface quality improvement and support structure reduction[13]
Trang 182.3 3D deeplearning
Hình 7 Các ứng dụng của các mô hình trí tuệ nhân tạo 3D
Những năm gần đây, từ khóa 3D khá là phổ biến trong các hội nghị lớn về trí tuệ nhân tạo hay thị giác máy tính, Với việc các thiết bị phần cứng càng ngày càng tiến bộ và tiên tiến, những tri thức hay lý thuyết giờ này không còn là điều viễn vông, nhờ vào các thuật toán học máy, các mô hinh deep learning 3D ra đời để đã giải quyết rất nhiều bài toán hóc búa và phức tạp
Trang 19Hinh 8 Tần suất xuất hiện từ khóa 3D trong các bài báo ở hội nghị CVPR 2019
Đối với dữ liệu 3D, việc xác định cách biểu diễn loại dữ liệu là điều thiết yếu
Có nhiều phương pháp ra đời dựa theo cách biểu diễn loại dữ liệu này:
2.4 Classification
Trong học máy, classification đề cập đế một vấn đề mô hình dự đoán nhãn trong những nhãn cần phân loại (biết trước) ví dụ:
• Phân loại thư rác
• Phát hiện ung thư
• Phát hiện viêm võng mạc
Trang 20Từ gĩc độ mơ hình hĩa, bất kì bài tốn học máy nào cũng cần bộ dữ liệu đủ tốt
để thuật tốn cĩ thể học được những “tri thức” tổng quát chứ khơng đơn giản chỉ là ghi nhớ
Nhiệm vụ là các mơ hình sẽ tìm ra các ánh xạ để chuyển dữ liều vào thành đầu
ra theo những nhãn cụ thể Khơng cĩ lý thuyết tốt về cách ánh xạ thuật tốn vào các dạng dữ liệu nào, thay vào đĩ, họ thực hiện các thử nghiệm được kiểm sốt và khám phá thuật tốn và cấu hình thuật tốn nào mang lại hiệu suất tốt nhất cho một nhiệm
vụ phân loại nhất định trên một bộ dữ liệu nhất định
Thơng thường cĩ ba loại nhiệm vụ phân loại chính:
• Phân loại nhị phân (Binary Classification)
• Phân loại đa lớp (Multi-class classification)
• Phân loại mất cân bằng (imbalanced classification)
Hiện nay, hầu hết các thuật tốn phần lớp đều trải qua hai giai đoạn: rút trích đặc trưng (feature extraction), sau đĩ đưa qua các thuật tốn học máy như là SVM, neural network, logistic regression, Nạve bayes, K-nearest neighbors, để phân lớp
Cĩ nhiều cách tiếp cận khác nhau, trong quá khứ các phương pháp máy học truyền thống đã từng được sử dụng nhưng nhược điểm của các phương pháp này phụ thuộc rất nhiều vào cơng đoạn rút trích đặc trưng, các đặc trưng này cĩ thể tốt hoặc khơng tốt tùy theo dữ liệu và thuật tốn sử dụng để huấn luyện nên hiệu suất đạt được vẫn chưa cao và khĩ cĩ thể đáp ứng được nhu cầu thực tế Tuy nhiên, năm 2012 với
sự xuất hiện của AlexNet[14] đã thành một bước đột phá trong thị giác máy tính nĩi chung và trong ảnh y tế nĩi riêng và kiến trúc CNN đã trở thành một cách tiếp cận phổ biến và đạt được độ hiệu quả và chính xác cao nhờ vào việc bộ rút trích đặc trưng bây giờ hồn tồn được tự động, các đặc trưng được cải thiện dần dần dựa trên hàm mục tiêu cần tối ưu
Trang 212.5 Object detection
Object detection hay dịch tiếng việt gọi là phát hiện đối tượng, đây là một thuật ngữ chung để một tả một tập hợp các nhiệm vụ thị giác máy tính liên quan đến phát hiện và xác định các đối tượng trong ảnh kỹ thuật số
Classification liên quan đến việc dự đoán nhãn là lớp của một đối tượng trong ảnh Object localization đề cập đến việc xác định vị trí của một hoặc nhiều đối tượng trong ảnh và vẽ các bounding box xung quanh phạm vi của đối tượng đó Object detection là kết hợp hai tác vụ này một hoặc nhiều đối tượng trong một hình ảnh Tóm lại object detection ban đầu được chia ra làm các nhiệm vụ nhỏ sau đó tổng hợp lại:
Phân loại ảnh (image classification): Dự đoán kiểu hoặc lớp của một đối tượng trong ảnh
• Đầu vào: Một hình ảnh với một đối tượng duy nhất, ví dụ như một bức ảnh
• Đầu ra: Một nhãn lớp (ví dụ một hoặc nhiều số nguyên được ánh xạ tới nhãn lớp)
Bản địa hóa đối tượng (Object localization): Định vị sự hiện diện của các đối tượng trong một hình ảnh và chỉ ra vị trí của chúng bằng một hộp giới hạn (bounding box)
• Đầu vào: Một hình ảnh có một hoặc nhiều đối tượng, chẳng hạn như một bức ảnh
• Đầu ra: Một hoặc nhiều hộp giới hạn (ví dụ: được xác định bởi một điểm, chiều rộng và chiều cao)
Phát hiện đối tượng (Object detection): Định vị sự hiện diện của các đối tượng bằng hộp giới hạn và các lớp của các đối tượng được định vị trong một hình ảnh
• Đầu vào: Một hình ảnh có một hoặc nhiều đối tượng, chẳng hạn như một bức ảnh