Lê Ngọc Hiếu Học viên thực hiện: Võ Phạm Huyền Khanh Lớp: DH17TH01 Ngày sinh: 29/05/1999 Nơi sinh: Long An Tên đề tài: XÂY DỰNG BÀI TOÁN CHẨN ĐOÁN UNG THƯ CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
-
XÂY DỰNG BÀI TOÁN CHẨN ĐOÁN UNG THƯ
CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH LOGIT
TRONG DEEP LEARNING
Trang 2
TRƯỜNG ĐẠI HỌC MỞ
THÀNH PHỐ HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN
CỘNG HÒA XÃ HỘI CHỦ NGHĨAVIỆT NAM
Độc lập – Tự do – Hạnh phúc
GIẤY XÁC NHẬN
Tôi tên là : Võ Phạm Huyền Khanh
Ngày sinh: 29/05/1999 Nơi sinh: Long An
Chuyên ngành: Công nghệ thông tin Mã học viên : 1751010056 Tôi đồng ý cung cấp toàn văn thông tin khóa luận tốt nghiệp hợp lệ về bản quyền cho Thư
viện trường Đại học Mở Thành phố Hồ Chí Minh Thư viện trường Đại học Mở Thành phố
Hồ Chí Minh sẽ kết nối toàn văn thông tin khóa luận tốt nghiệp vào hệ thống thông tin
khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh
Trang 3Ý KIẾN CHO PHÉP BẢO VỆ KHÓA LUẬN TỐT NGHIỆP
CỦA GIẢNG VIÊN HƯỚNG DẪN
Giảng viên hướng dẫn 1: TS.GVCC Lê Xuân Trường
Giảng viên hướng dẫn 2: Ths Lê Ngọc Hiếu
Học viên thực hiện: Võ Phạm Huyền Khanh Lớp: DH17TH01
Ngày sinh: 29/05/1999 Nơi sinh: Long An
Tên đề tài: XÂY DỰNG BÀI TOÁN CHẨN ĐOÁN UNG THƯ CỔ TỬ CUNG SỬ DỤNG
MÔ HÌNH LOGIT TRONG DEEP LEARNING
Ý kiến của giáo viên hướng dẫn về việc cho phép học viên được bảo vệ khóa luận trước
Hội đồng:
Thành phố Hồ Chí Minh, ngày tháng năm
Người nhận xét 1 Người nhận xét 2 .
Trang 4ii
LỜI CẢM ƠN
Để có thể hoàn thiện luận văn tốt nghiệp này, cũng như các kết quả nghiên cứu
của luận văn này, em xin trân trọng cảm ơn thầy TS.GVCC Lê Xuân Trường và thầy ThS Lê Ngọc Hiếu Các thầy đã tận tâm chỉ dẫn, truyền đạt những kiến thức và
kinh nghiệm quý báu cũng như giúp đỡ cho em trong suốt quá trình nghiên cứu và thực hiện luận văn này
Ngoài ra, em cũng xin gửi lời cảm ơn đến các quý thầy cô trong khoa Công nghệ thông tin đã trang bị cho em những kiến thức nền tảng quan trọng và bổ ích trong suốt quá trình theo học
Sau cùng, em xin gửi lời cảm ơn sâu sắc các bạn sinh viên cùng lớp học tập đã ủng hộ, động viên và giúp đỡ em vượt qua khó khăn trong suốt quá trình thực hiện luận văn
Trong quá trình nghiên cứu và thực hiện luận văn không tránh khỏi những thiếu sót Em rất mong nhận được những ý kiến đóng góp của thầy cô để có thể hoàn thiện hơn đề tài của mình
Xin chân thành cảm ơn!
TP.HCM, ngày 1 tháng 5 năm 2021
Sinh viên thực hiện luận văn
Võ Phạm Huyền Khanh
Trang 5iii
LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn “Xây dựng bài toán chẩn đoán ung thư cổ tử cung sử
dụng mô hình logit trong Deep Learning” là đề tài do tôi thực hiện
Ngoại trừ những tài liệu tham khảo được trích dẫn trong khóa luận này, tôi cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được ctông bố hoặc được sử dụng để nhận bằng cấp ở những nơi khác
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận văn này mà không được trích dẫn theo đúng quy định
Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các trường đại học hoặc cơ sở đào tạo khác
TP.HCM, ngày 1 tháng 5 năm 2021
Sinh viên thực hiện luận văn
Võ Phạm Huyền Khanh
Trang 9vii
NHẬN XÉT CHUNG VỀ QUÁ TRÌNH LÀM VIỆC CỦA
SINH VIÊN
Trang 10viii
DANH MỤC CÁC BẢNG
Bảng 1.1 Kết quả chạy mô hình phân loại 14Bảng 4.1 Mô tả các trường dữ liệu trong bộ dữ liệu các yếu tố ung thư cổ tử cung 39Bảng 4.2 Các thuộc tính được chọn sau quá trình xử lý dữ liệu 43
Trang 11ix
DANH MỤC CÁC HÌNH
Hình 1.1 Số lượng ca mắc ung thư mới trong năm 2020 tại Việt Nam [9] 3
Hình 1.2 Một số bệnh ung thư thường gặp ở người [8] 4
Hình 1.3 Mô hình dự báo ung thư cổ tử cung của bài báo [17] 8
Hình 1.4 Sơ đồ quy trình làm việc của bài toán [20] 10
Hình 1.5 Quy trình hoạt động của bài báo [13] 12
Hình 1.6 Quá trình tiền xử lý dữ liệu của bài báo [26] 13
Hình 1.7 Sơ đồ hoạt động của bài báo [27] 13
Hình 1.8 Kiến trúc của hệ thống chẩn đoán ung thư vú được đề xuất 17
Hình 2.1 Cổ tử cung trước và sau khi bị ung thư 20
Hình 2.2 Một số dấu hiệu nhận biết của ung thư cổ tử cung [40] 22
Hình 2.3 Các giai đoạn ung thư cổ tử cung [41] 22
Hình 2.4 Trí tuệ nhân tạo – AI [1] 23
Hình 2.5 Các lĩnh vực ứng dụng của Machine Learning [43] 24
Hình 2.6 Mối liên hệ giữa AI, Machine Learning và Deep Learning [46] 25
Hình 2.7 Mạng nơ-ron với hai lớp hidden [46] 26
Hình 2.8 Dữ liệu không cân bằng 29
Hình 2.9 Dữ liệu cân bằng 29
Hình 2.10 Mô hình mạng nơ-ron Drop Bên trái: Một mạng nơ-ron tiêu chuẩn với 2 lớp hidden Phải: Ví dụ về lưới mỏng được tạo ra bằng cách áp dụng tính năng dropout cho mạng ở bên trái Các đơn vị bị gạch chéo đã bị loại bỏ [57] 32
Hình 2.11 Early Stopping với đường màu xanh là train error, đường màu đỏ là validation error Trục x là số lượng vòng lặp, trục y là error Mô hình được xác định tại vòng lặp mà validation error đạt giá trị nhỏ nhất [56] 32
Hình 2.12 Ví dụ về đường cong ROC và AUC 34
Hình 3.1 Quy trình xây dựng mô hình dự đoán 37
Hình 4.1 Thống kê số lượng bệnh nhân mắc ung thư trong bộ dữ liệu 41
Hình 4.2 Biểu đồ thống kê số lượng giá trị bị thiếu trong bộ dữ liệu 42
Hình 4.3 Biểu đồ thống kê tỷ lệ giá trị bị thiếu của một số thuộc tính 42
Hình 4.4 Bộ dữ liệu gồm 27 thuộc tính đã được xử lý không chứa giá trị thiếu nào44 Hình 4.5 Thống kê các thuộc tính của bộ dữ liệu trước khi được xử lý 44
Trang 12x
Hình 4.6 Thống kê các thuộc tính của bộ dữ liệu trước khi được xử lý 45
Hình 4.7 Thống kê các thuộc tính của bộ dữ liệu sau khi được xử lý 45
Hình 4.8 Thống kê các thuộc tính của bộ dữ liệu sau khi được xử lý 45
Hình 4.9 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Smokes (years) 46
Hình 4.10 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Smokes (packs/year) 46
Hình 4.11 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Number of sexual partners 47
Hình 4.12 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Num of pregnancies 47
Hình 4.13 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Hormonal Contraceptives (years) 48
Hình 4.14 Biểu đồ về sự phân bổ của 2 thuộc tính Age và IUD (years) 48
Hình 4.15 Biểu đồ về sự phân bổ của 2 thuộc tính Age và First sexual intercourse 49 Hình 4.16 Biểu đồ tần số xuất hiện các giá trị của thuộc tính Age 49
Hình 4.17 Biểu đồ tần số xuất hiện các giá trị của thuộc tính First sexual intercourse 50
Hình 4.18 Biểu đồ tần số xuất hiện các giá trị của thuộc tính Number of sexual partners 50
Hình 4.19 Biểu đồ tần số xuất hiện các giá trị của thuộc tính Num of pregnancies 51 Hình 4.20 Biểu đồ phân bố các bệnh nhân có bệnh (các quan sát có giá trị dương tính) dựa trên hai yếu tố Age và Smokes (packs/year) 51
Hình 4.21 Biểu đồ phân bố các bệnh nhân không bệnh (các quan sát có giá trị âm tính) dựa trên hai yếu tố Age và Smokes (packs/year) 52
Hình 4.22 Kích thước của các tập train, validation và test 52
Hình 4.23 Mô hình với các lớp và tham số được đưa vào huấn luyện 53
Hình 4.24 Kết quả chạy thử model với 10 thuộc tính đầu tiên của bộ dữ liệu 54
Hình 4.25 Độ mất mát ban đầu của mô hình 54
Hình 4.26 Công thức tính bias 54
Hình 4.27 Kết quả tính bias 54
Hình 4.28 Chạy lại mô hình với bias 55
Hình 4.29 Công thức tính độ mất mát ban đầu 55
Hình 4.30 Kết quả tính độ mất mát 55
Hình 4.31 Biểu đồ so sánh hàm mất mát (loss) khi sử dụng careful initialization 56
Trang 13xi
Hình 4.32 Tiến hành chạy huấn luyện cho mô hình 56
Hình 4.33 Các biểu đồ đánh giá hiệu suất của mô hình trên giá trị False negatives 57 Hình 4.34 Đánh giá mô hình baseline 58
Hình 4.35 Biểu đồ quan sát đường cong ROC 59
Hình 4.36 Biểu đồ quan sát đường cong Precision-Recall 59
Hình 4.37 Thiết lập class weights cho mô hình 60
Hình 4.38 Tiến hành chạy huấn luyện cho mô hình với class weights 61
Hình 4.39 Các biểu đồ đánh giá hiệu suất của mô hình với class weights 61
Hình 4.40 Các chỉ số đánh giá mô hình với class weights 62
Hình 4.41 Biểu đồ đường cong ROC sau khi sử dụng class weights 63
Hình 4.42 Biểu đồ quan sát đường cong Precision-Recall sử dụng class weights 63
Hình 4.43 Tăng kích thước cho tập dữ liệu với Numpy 64
Hình 4.44 Tăng kích thước cho tập dữ liệu với tf.data 65
Hình 4.45 Các cặp (feature, label) trong bộ dữ liệu dương tính mới 65
Hình 4.46 Câu lệnh gộp hai bộ dữ liệu lại với nhau 65
Hình 4.47 Số bước cho mỗi epoch 65
Hình 4.48 Tiến hành chạy huấn luyện cho mô hình với oversamping 66
Hình 4.49 Các biểu đồ đánh giá hiệu suất của mô hình với oversampling 67
Hình 4.50 Tiến hành chạy huấn luyện lại cho mô hình với oversamping 67
Hình 4.51 Các biểu đồ đánh giá hiệu suất của mô hình với oversampling 68
Hình 4.52 Các chỉ số đánh giá mô hình với oversampling 68
Hình 4.53 Biểu đồ đường cong ROC sau khi sử dụng oversampling 69
Hình 4.54 Biểu đồ đường cong Precision-Recall sau khi sử dụng oversampling 70
Trang 14
xii
MỤC LỤC
LỜI CẢM ƠN ii
LỜI CAM ĐOAN iii
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 1 iv
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 2 v
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN vi
NHẬN XÉT CHUNG VỀ QUÁ TRÌNH LÀM VIỆC CỦA SINH VIÊN vii
DANH MỤC CÁC BẢNG viii
DANH MỤC CÁC HÌNH ix
MỤC LỤC xii
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 3
1.1 Lý do chọn đề tài 3
1.2 Mục tiêu nghiên cứu 5
1.3 Đối tượng và phạm vi nghiên cứu 5
1.3.1 Đối tượng nghiên cứu 5
1.3.2 Phạm vi nghiên cứu 6
1.4 Phương pháp nghiên cứu 6
1.4.1 Phương pháp nghiên cứu lý thuyết 6
1.4.2 Phương pháp nghiên cứu thực nghiệm 6
1.5 Các công trình liên quan 6
1.6 Bố cục của khóa luận 19
1.7 Kết luận chương 19
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 20
2.1 Ung thư cổ tử cung và những vấn đề về ung thư cổ tử cung 20
2.1.1 Sơ lược về ung thư 20
2.1.2 Ung thư cổ tử cung 20
2.1.3 Nguyên nhân gây ung thư cổ tử cung 21
2.1.4 Các yếu tố nguy cơ 21
2.1.5 Dấu hiệu của bệnh 21
2.1.6 Các giai đoạn phát triển của bệnh [39], [40] 22
Trang 15xiii
2.1.7 Phòng ngừa ung thư cổ tử cung [4] 22
2.2 Tổng quan về trí tuệ nhân tạo và mô hình logit 23
2.2.1 Trí tuệ nhân tạo 23
2.2.2 Machine Learning 24
2.2.3 Deep Learning 25
2.2.4 Neural network 26
2.2.5 Mô hình logit 27
2.2.6 Bài toán phân lớp dữ liệu không cân bằng [51] [52] 28
2.2.7 Keras và kỹ thuật xử lý imbalanced data [54] 30
2.2.8 Phương pháp đánh giá mô hình 33
2.3 Kết luận chương 35
CHƯƠNG 3 ĐỀ XUẤT PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU KHÔNG CÂN BẰNG VỚI MÔ HÌNH LOGIT 36
3.1 Phát biểu bài toán 36
3.2 Đề xuất phương pháp và thuật toán xử lý 36
3.2.1 Input: dữ liệu bệnh nhân 36
3.2.2 Processing: xây dựng mô hình 37
3.2.3 Output: kết luận 38
3.3 Kết luận chương 38
CHƯƠNG 4 CÀI ĐẶT VÀ THỬ NGHIỆM 39
4.1 Mô tả bộ dữ liệu 39
4.2 Kết quả xử lý dữ liệu 43
4.3 Xây dựng model 53
4.3.1 Xây dựng baseline model 53
4.3.2 Hiệu chỉnh model với class weights [62] 60
4.3.3 Hiêu chỉnh mô hình với oversampling [63] 64
4.4 Nhận xét 70
4.5 Kết luận chương 71
CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 72
5.1 Kết quả nghiên cứu của đề tài 72
5.2 Hạn chế của đề tài 72
5.3 Hướng phát triển của đề tài 72
Trang 16xiv
TÀI LIỆU THAM KHẢO 74
PHỤ LỤC 1 – CLEAN, SPLIT AND NORMALIZATION 82
PHỤ LỤC 2 – BUILDING MODEL 83
PHỤ LỤC 3 – MODEL WITH CLASS WEIGHTS 87
PHỤ LỤC 4 – MODEL WITH OVERSAMPLING 88
Trang 17Tính đến thời điểm hiện tại, AI được áp dụng vào ngành y tế [3] cụ thể là sử dụng trong chẩn đoán và quản lý các loại vấn đề về sức khỏe ngày càng nhiều Từ khâu phát hiện bệnh, đưa ra lộ trình điều trị cụ thể, theo dõi sức khỏe đến việc quản
lý khám chữa bệnh Đặc biệt trong lĩnh vực bệnh ung thư ngày càng gia tăng nhanh chóng với thiệt hại về mạng sống và kinh tế ngày càng cao trong xã hội hiện nay thì
sự hỗ trợ của AI là hoàn toàn cần thiết
Ung thư cổ tử cung [4] là bệnh ung thư phổ biến thứ 4 về số ca mắc mới và thứ 6 về số ca tử vong ở phụ nữ trên toàn thế giới Từ thống kê của GLOBOCAN [5] (Global Cancer Observatory) về bệnh ung thư cổ tử cung trên thế giới, ước tính có 604.127 trường hợp mắc mới và 341.831 ca tử vong trong năm 2020 Theo thống kê của HPV Information Cancer [6], trong năm 2018, Việt Nam có 4177 ca mắc mới và
có 2420 ca tử vong vì căn bệnh này Song song đó, trung bình mỗi ngày có khoảng
12 ca mắc mới và 7 ca tử vong
Phụ nữ ở độ tuổi hay mắc phải ung thư cổ tử cung là từ 30 trở lên, trung bình
là 48-52 tuổi [4] Mặc dù bệnh gây tổn thương lớn đến tử cung nhưng vì bệnh tiến triển âm thầm trong thời gian dài (5-20 năm) và các triệu chứng lại khá mờ nhạt, dễ gây nhầm lẫn với các bệnh phụ khoa khác nên rất khó để phát hiện khi bệnh ở giai đoạn đầu Phần lớn người bệnh đến khám và điều trị khi bệnh đã ở giai đoạn muộn,
Trang 18vệ được mạng sống của người dân
Do đó, trong đề tài này, tôi xin trình bày nghiên cứu về khai phá tri thức và
“Xây dựng bài toán chẩn đoán ung thư cổ tử cung sử dụng mô hình logit trong Deep Learning”.
Trang 19và di căn
Theo GLOBOCAN [7], ung thư là nguyên nhân gây tử vong đứng hàng thứ hai trên toàn cầu và là nguyên nhân gây ra khoảng 10 triệu ca tử vong mỗi năm Trên toàn thế giới, có khoảng 1/6 trường hợp tử vong là do ung thư
Tỉ lệ ung thư ngày càng tăng qua các năm mà không có dấu hiệu giảm đi Cũng theo GLOBOCAN, hiện nay chỉ có 185/204 quốc gia có báo cáo thống kê về tình hình bệnh ung thư [7] Thống kê của bộ y tế năm 2020 [8] cho thấy, Việt Nam xếp thứ 91/185 về tỷ lệ mắc mới và thứ 50/185 về tỷ suất tử vong trên 100.000 người Thứ hạng này tương ứng của năm 2018 là 99/185 và 56/185 Như vậy, có thể thấy là tình hình mắc mới và tử vong do ung thư ở Việt Nam đều đang tăng nhanh
Hình 1.1 Số lượng ca mắc ung thư mới trong năm 2020 tại Việt Nam [9]
Tại Việt Nam, ước tính có khoảng 182.563 ca mắc mới và 122.690 ca tử vong
do ung thư mỗi năm Cứ 100.000 người thì có 159 người được chẩn đoán mắc bệnh
Dạ dàyĐại trực tràngKhác
Trang 204
và 106 người tử vong bởi ung thư [8]
Ở Việt Nam, các loại ung thư như: ung thư phổi, ung thư gan, ung thư dạ dày, ung thư đại trực tràng và ung thư tuyến tiền liệt là phổ biến nhất đối với nam giới (chiếm khoảng 65.8% trên tổng các loại ung thư) Còn ở nữ giới, những bệnh phổ biến nhất là: ung thư vú, ung thư phổi, ung thư đại trực tràng, ung thư dạ dày, ung thư gan và ung thư cổ tử cung (chiếm khoảng 59.4% tổng các loại ung thư) [6]
Hình 1.2 Một số bệnh ung thư thường gặp ở người [8]
Khoảng một phần ba số ca tử vong bởi ung thư là do: lạm dụng rượu, thuốc lá; ăn thiếu chất có trong các loại rau, củ, quả; hạn chế các hoạt động thể chất cũng như đã có bệnh nền là thừa cân, béo phì Theo thống kê từ Global Health Data Exchange (GHDx) [10], sử dụng thuốc lá là yếu tố nguy cơ quan trọng nhất của ung thư vì nó là nguyên nhân gây ra khoảng 25% các ca tử vong do ung thư Các bệnh nhiễm trùng gây ung thư, chẳng hạn như viêm gan và virus u nhú ở người (HPV), chiếm tới khoảng 30% các trường hợp ung thư ở các nước có thu nhập thấp
và trung bình thấp [11]
Tình hình ung thư ở các nước có thu thập thấp và trung bình là rất nghiêm trọng Cụ thể, có tới 70% trường hợp tử vong do ung thư xảy ra tại đây 2019 [12] Bệnh biểu hiện ở giai đoạn muộn và thiếu khả năng tiếp cận do kết quả chẩn đoán
và điều trị quá phổ biến Kết quả từ báo cáo của cuộc điều tra toàn cầu năm 2019 [12] cho thấy điều trị toàn diện đạt mức hơn 90% ở các quốc gia có thu nhập cao nhưng lại dưới 15% ở các quốc gia có thu nhập thấp
Ung thư là một căn bệnh tiềm ẩn, vì không có những biểu hiện đặc trưng ở giai đoạn đầu nên bệnh ung thư rất khó phát hiện Kèm theo đó, chính sự lơ là,
Trang 21Vì chưa có những chính sách tốt của xã hội cũng như sự thiếu hụt kiến thức về căn bệnh và sự tự giác trong việc tầm soát, kiểm tra nên tỷ lệ mắc căn bệnh này ngày càng tăng lên Trong vài năm gần đây, ung thư cổ tử cung đã trở thành nỗi âu lo của mọi chị em Từ đó em cảm thấy việc nghiên cứu về những yếu tố nguy cơ để dự đoán ung thư cổ tử cung là cần thiết
Từ những lý do trên, luận văn này xin đề xuất và nghiên cứu bài toán chẩn đoán bệnh ung thư cổ tử cung được ứng dụng trí tuệ nhân tạo để dự đoán thông qua các yếu tố nguy cơ sẽ được trình bày trong phần sau của bài luận văn Cụ thể, đề tài khóa luận có tên như sau:
Tên tiếng Việt: “Xây dựng bài toán chẩn đoán ung thư cổ tử cung sử dụng
mô hình phân lớp logit trong Deep Learning với Keras”
Tên tiếng Anh: “Develop cervical cancer diagnostic problem using logit
model with Deep Learning”
1.2 Mục tiêu nghiên cứu
Nghiên cứu, ứng dụng mô hình phân lớp logit trong học sâu (Deep Learning)
để xây dựng mô hình chẩn đoán bệnh ung thư cổ tử cung
Từ mục tiêu chính đó có những mục tiêu cụ thể như sau:
• Nghiên cứu cơ sở lý thuyết về bệnh ung thư và ung thư cổ tử cung
• Trí tuệ nhân tạo
• Machine learning
• Deep learning
• Bài toán phân lớp theo mô hình logit trong deep learning
• Nghiên cứu về Keras, Tensorflow
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Mô hình chẩn đoán bệnh trong máy học, cụ thể là Deep Learning với mô hình
Trang 22• Nghiên cứu về bệnh ung thư cổ tử cung
• Bộ dữ liệu được sử dụng trong luận văn này là bộ dữ liệu ung thư cổ tử cung
từ UCI Machine Learning Repository [13], dữ liệu được tập hợp tại Bệnh viện Universitario de Caracas ở Caracas, Venezuela
1.4 Phương pháp nghiên cứu
1.4.1 Phương pháp nghiên cứu lý thuyết
• Nghiên cứu về bệnh ung thư cổ tử cung, triệu chứng và các yếu tố nguy cơ của bệnh
• Nghiên cứu về mô hình chẩn đoán bệnh trong máy học
• Tổng hợp các tài liệu liên quan đến lĩnh vực nghiên cứu: chẩn đoán bệnh ung thư cổ tử cung, mô hình logit trong deep learning
• Phân tích, thiết kế hệ thống theo quy trình sao cho dễ sử dụng, hiệu quả, dễ nâng cấp, sửa chữa bổ sung
1.4.2 Phương pháp nghiên cứu thực nghiệm
• Khảo sát và phân tích bệnh ung thư cổ tử cung, các vấn đề liên quan đến chẩn đoán ung thư cổ tử cung
• Nghiên cứu bộ dữ liệu về bệnh ung thư cổ tử cung
• Xây dựng mô hình logit trong Deep Learning để chẩn đoán
1.5 Các công trình liên quan
“A k-NN method for lung cancer prognosis with the use of a genetic
algorithm for feature selection” [14]
Bài báo của M Negar, Z Yasser và N Seyed [11] in năm 2021, đã áp dụng phương pháp học máy kNN kết hợp với thuật toán di truyền (Genetic algorithm) chọn lọc tính năng để phân loại nguy cơ của bệnh nhân ung thư phổi theo ba mức
Trang 237
độ: thấp, trung bình và cao Mục tiêu của việc sử dụng GA là để xác định sự kết hợp tốt nhất của các tính năng nhằm giảm thiểu tính toán sai lầm tổng thể của phương pháp kNN Dữ liệu của bài toán được lấy từ trang Data world [15] với 1000 mẫu, mỗi mẫu gồm 23 đặc trưng về các yếu tố nguy cơ của bệnh ung thư phổi Mô hình được xây dựng trên 4 phương pháp là: Decision tree, kNN không có GA (k=6), kNN không có GA (k=10) và kNN có GA (k=6) Sau khi so sánh kết quả từ bốn phương pháp kiểm tra, với mẫu là 500 bệnh nhân, nhận thấy sau khi áp dụng thuật toán di truyền, bộ phân loại k-NN cho kết quả độ chính xác của phân loại đã tăng đến 100% và thời gian thực thi mô hình cũng đã đạt mức thấp nhất so với các phương pháp còn lại
“Disease Prediction via Graph Neural Networks” [16]
Trong bài báo này, nhóm tác giả đã giới thiệu một mô hình sáng tạo dựa trên Graph Neural Networks (GNN) để dự đoán bệnh tật, sử dụng các cơ sở kiến thức bên ngoài để tăng cường dữ liệu EMR thiếu và tìm hiểu các cách nhúng nút mang tính đại diện cao cho bệnh nhân, các bệnh và triệu chứng từ biểu đồ khái niệm y tế
và biểu đồ hồ sơ bệnh nhân được xây dựng tương ứng từ cơ sở kiến thức y tế và EMR Bằng cách tổng hợp thông tin từ các nút lân cận được kết nối trực tiếp, bộ
mã hóa biểu đồ thần kinh được đề xuất có thể tạo ra các bản nhúng thu thập kiến thức từ cả hai nguồn dữ liệu một cách hiệu quả, và có thể suy ra các phương pháp nhúng cho một bệnh nhân mới dựa trên các triệu chứng được báo cáo trong EMR của họ để cho phép dự đoán chính xác về cả các bệnh nói chung và các bệnh hiếm gặp Các thử nghiệm mở rộng trên tập dữ liệu EMR trong thế giới thực đã chứng minh hiệu suất hiện đại của mô hình đề xuất
“Data-Driven Cervical Cancer Prediction Model with Outlier Detection and Over-Sampling Methods” [17]
Công trình hiện tại đề xuất một mô hình dự đoán ung thư cổ tử cung (Cervical Cancer Prediction Model - CCPM) đưa ra dự đoán sớm về ung thư cổ tử cung bằng cách sử dụng các yếu tố nguy cơ [13] làm đầu vào
Trang 248
Hình 1.3 Mô hình dự báo ung thư cổ tử cung của bài báo [17]
CCPM trước tiên loại bỏ các giá trị ngoại lệ bằng cách sử dụng các phương pháp phát hiện ngoại lệ như Density-based Spatial Clustering of Applications with Noise(DBSCAN) và Isolation Forest (iForest) và bằng cách tăng số lượng trường hợp để cân bằng tập dữ liệu, chẳng hạn như thông qua Synthetic Minority Over-sampling Technique (SMOTE) và SMOTE với liên kết Tomek (SMOTETomek) Cuối cùng, nó sử dụng Random Forest (RF) làm bộ phân loại Do đó, CCPM nằm trên bốn kịch bản: (1) DBSCAN + SMOTETomek + RF, (2) DBSCAN + SMOTE + RF, (3) iForest + SMOTETomek + RF, và (4) iForest + SMOTE + RF
Sau khi quan sát nhận thấy rằng RF hoạt động tốt nhất trong số một số bộ phân loại học máy phổ biến Hơn nữa, CCPM được đề xuất cho thấy độ chính xác tốt hơn so với các phương pháp được đề xuất trước đây để dự báo ung thư cổ tử cung
“A new expert system in prediction of lung cancer disease based on fuzzy soft sets” [18]
Mục đích của bài báo này là phát triển một hệ thống chuyên gia mờ mới (Fuzzy Expert System) để dự đoán bệnh ung thư phổi Quá trình dự đoán sử dụng
hệ thống chuyên gia mềm mờ này bao gồm bốn bước chính:
(1) Chuyển các đầu vào có giá trị thực thành các số mờ
(2) Biến đổi các số dữ liệu mờ thành các tập mờ mềm
(3) Rút gọn, sử dụng phương pháp giảm tham số thông thường, họ thu được của các tập mềm mờ thành một họ mới của các tập mềm mờ
Cancer Dataset
Data Processing
Feature Extraction
Outlier Detection based on DBSCAN/ iForest
Outlier Elimination
Data balance based on SMOTE/
SMOTETomek
New Data
Random Forest Classifier
Performance Evaluation
Trang 259
(4) Sử dụng thuật toán đề xuất để lấy dữ liệu đầu ra
Dữ liệu của bài báo được lấy từ Khoa Hô hấp của bệnh viện ngực Nam Kinh, Trung Quốc Các thuộc tính xem xét bao gồm: sút cân, khó thở, đau ngực, có máu trong đờm, ho dai dẳng, tuổi – đây là sáu triệu chứng quan trọng nhất của ung thư phổi Thử nghiệm trên 45 bệnh nhân tại Khoa Hô hấp của Bệnh viện Nan jing Chest, Trung Quốc, trong đó số lượng dữ liệu đào tạo được lấy là 55 bản ghi và 45 bản ghi còn lại đã được sử dụng cho quá trình thử nghiệm
Trong công trình này, nhóm tác giả đã phát triển một Fuzzy Soft Expert System dựa trên Fuzzy Soft Sets Độ chính xác lượng hóa của hệ thống được đề xuất là 100% Từ kết quả đạt được có thể kết luận rằng việc sử dụng Fuzzy Soft
Expert System có thể tạo ra các kết quả có giá trị cho việc phát hiện ung thư phổi
“Supervised Algorithms of Machine Learning for the Prediction of
sử dụng cho chủ đề này cũng đã được xác định
(2) Một bảng câu hỏi do nhà nghiên cứu thực hiện đã được thiết kế và tính hợp lệ của nó đã được xác nhận bằng cách sử dụng tính hợp lệ về nội dung dựa trên đánh giá tài liệu và ý kiến chuyên gia về đối tượng nghiên cứu, và độ tin cậy của
nó được xác nhận bằng cách tính Cronbach’s alpha là 0,87
(3) Các tác giả đã trình bày với một bệnh viện giảng dạy trực thuộc Đại học Khoa học Y tế Shahid Beheshti để có được các quyền cần thiết và điều tra dữ liệu
có sẵn trong hồ sơ bệnh án của bệnh nhân
(4) Dữ liệu của tất cả các bệnh nhân được thu thập theo cách hồi cứu cắt ngang bằng cách xem xét hồ sơ y tế của họ và phỏng vấn họ sau khi được sự đồng ý của
Trang 2610
học máy Sau khi phân loại, mô hình hóa được thực hiện trong hai giai đoạn sử dụng SVM, QUEST, C&R Tree, MLP-ANNs và RBF-ANNs Các mô hình được đánh giá bằng cách sử dụng độ nhạy, độ đặc hiệu, diện tích dưới đường cong ROC
Hình 1.4 Sơ đồ quy trình làm việc của bài toán [20]
Bài báo này chủ yếu thảo luận về hiệu suất của các thuật toán phân loại khác nhau trên cơ sở phân tích biểu đồ phân phối và ROC trong đó Naive Bayes đạt kết quả cao nhất
“Machine Learning based Approaches for Cancer Prediction: A Survey”
[22]
Trong bài báo này, nhóm tác giả đã khảo sát các tài liệu nghiên cứu để so sánh
độ chính xác của các thuật toán khác nhau của Machine Learning về bệnh ung thư
Trang 2711
phụ thuộc vào các tập dữ liệu đã cho và các thuộc tính của chúng Một số bài báo
sử dụng kỹ thuật phân loại rất phổ biến như: Support Vector Machine (SVM), Random Forest (RF), Nạve Bayes (NB), Decision Tree (DT), K-Nearest Neighbor (KNN), Artificial Neural Network (ANN), Fuzzy Neural Network (FNN), Radial Basis Function Network (RBFN), Shuffled Frog Leaping with Levy Flight, Particle Swarm Optimization, Back Propagation Neural Network, Multilayered Perceptron, SVM Recursive Feature Elimination, v.v Để dự đốn bệnh ung thư dựa trên tập
dữ liệu đã cho, kết quả tốt nhất trong số tất cả các kỹ thuật máy học tìm thấy ở đây
là SVM
“Hybrid Machine Learning Model of Extreme Learning Machine Radial basis function for Breast Cancer Detection and Diagnosis; a Multilayer Fuzzy Expert System” [23]
Bài báo này trình bày một phương pháp dựa trên hệ thống chuyên gia mờ đa lớp để phát hiện ung thư vú bằng cách sử dụng mơ hình extreme learning machine (ELM) classification model integrated với radial basis function (RBF) được gọi là ELM-RBF, xem xét tập dữ liệu Wisconsin [24] Độ chính xác của quá trình đào tạo, kiểm tra và xác nhận đối với mơ hình ELM-RBF được báo cáo lần lượt là
99,72, 99,23 và 95,69%
“Predicting Cervical cancer using machine learning methods” [25]
Riham Alsmariy và cộng sự đã đề xuất nghiên cứu về việc sử dụng các thuật tốn ML để tìm ra một mơ hình cĩ khả năng chẩn đốn ung thư với độ chính xác
và độ nhạy cao Bài nghiên cứu sử dụng bộ dữ liệu yếu tố nguy cơ ung thư cổ tử cung từ Đại học California tại Irvine (UCI) [13] bao gồm 36 thuộc tính (gồm bốn biến mục tiêu-Hinselmann, Schiller, Cytology và Biopsy cùng các yếu tố nguy cơ) của 858 bệnh nhân để xây dựng mơ hình phân loại thơng qua phương pháp bỏ phiếu kết hợp ba bộ phân loại: Desicion tree, logistic và random forest
Phương pháp SMOTE (The synthetic minority oversampling technique) được
sử dụng để giải quyết vấn đề mất cân bằng tập dữ liệu và cùng với phương pháp PCA (the principal component analysis), để giảm các kích thước mà khơng ảnh hưởng đến độ chính xác của mơ hình Sau đĩ, kỹ thuật stratified 10-fold cross-validation đã được sử dụng để ngăn chặn vấn đề overfitting
Trang 2812
Hình 1.5 Quy trình hoạt động của bài báo [13]
Bốn mô hình dự đoán được tạo ra bằng cách sử dụng bộ dữ liệu các yếu tố nguy cơ ung thư cổ tử cung UCI cho từng biến mục tiêu: Hinselmann, Schiller, Cytology và Biopsy Sau khi kết hợp các phương pháp trên, đường cong ROC (ROC_AUC) của bốn mô hình dự báo cho từng biến mục tiêu đã cho tỷ lệ cao hơn
Độ chính xác, độ nhạy và tỷ lệ PPA được cải thiện từ 0,93% lên 5,13%, 39,26% lên 46,97% và 2% lên 29% tương ứng cho tất cả các biến mục tiêu
“Cervical cancer prediction through different screening methods using data mining” [26]
Cũng sử dụng phương pháp bỏ phiếu SMOTE và kỹ thuật stratified 10-fold cross-validation, Talha Mahboob Alam và cộng sự đã công bố bài báo dự đoán ung thư cổ tử cung bằng cách sử dụng ba bộ phân loại: Boosted decision tree, decision forest và thuật toán decision jungle và đánh giá hiệu suất trên cơ sở đường cong AUROC, độ chính xác, độ đặc hiệu và độ nhạy Phương pháp luận của bài nghiên cứu gồm ba bước chính: đầu tiên là lựa chọn tập dữ liệu, thứ hai là tiền xử lý dữ liệu để chuẩn bị cho quá trình phân loại, cuối cùng là xây dựng mô hình phân loại dựa trên bốn biến mục tiêu để dự đoán Với tập dữ liệu về yếu tố nguy cơ của bệnh ung thư cổ tử cung [13], quá trình tiền xử lý dữ liệu bao gồm năm bước được mô tả trong sơ đồ bên dưới
•Normalization
•Balancing the dataset SMOTE
processing
Pre•PCA Principal Componen
-t Analysis
Feature Selection
•Split_Train _Test
•Voting classifier
•Validation
Modeling •Cervical
cancer or not
Predict and Evaluation
Trang 2913
Hình 1.6 Quá trình tiền xử lý dữ liệu của bài báo [26]
Có bốn phương pháp sàng lọc trong tập dữ liệu được dán nhãn là Biopsy, Cytology, Schiller và Hinslemann Bốn phương pháp sàng lọc này đã được sử dụng
để chẩn đoán ung thư và mỗi phương pháp sàng lọc được đào tạo với cùng một bộ
dữ liệu Boosted decision tree hoạt động tốt hơn tất cả các phương pháp khác
Sau khi chạy mô hình, Boosted decision tree cung cấp kết quả dự đoán rất cao với 97,8% trên đường cong AUROC với phương pháp sàng lọc Hinselmann Kết quả thu được bởi các bộ phận phân loại khác kém hơn đáng kể so với Boosted decision tree
“Prediction of cervical cancer occurrence using genetic algorithm and
support vector machine” [27]
Abisoye Blessing và nhóm tác giả thuộc trường đại học Công nghệ Liên bang của Nigeria đã đề xuất nghiên cứu dự đoán ung thư cổ tử cung bằng cách kết hợp Genetic Algorithm (GA) và Support Vector Machine (SVM) Cụ thể là thảo luận
về cách dữ liệu ung thư cổ tử cung được xử lý trước để loại bỏ nhiễu, các tính năng phù hợp được lựa chọn từ dữ liệu được thu thập và chuẩn bị dữ liệu để phân loại Sau đó là sử dụng thuật toán SVM trong việc đào tạo hệ thống bằng dữ liệu đã chuẩn bị để phân loại ung thư cổ tử cung
Hình 1.7 Sơ đồ hoạt động của bài báo [27]
Thay thế các giá trị ngoại lệ bằng giá trị trung bình
Dùng Decimal Scaling
để chuẩn hóa dữ liệu
Sử dụng phương pháp SMOTE
để cân bằng dữ liệu
Bắt đầu Thu thập dữ liệu Tiền xử lý dữ liệu Phân loại Thống kê Kết thúc
Trang 30đã được sử dụng trong nghiên cứu này để chuẩn hóa dữ liệu cho bài toán
Bài toán sử dụng SVM được chạy theo hai trường hợp: phân loại theo Biopsy
và Hinselmann Bảng dưới đây mô tả kết quả của quá trình chạy mô hình trên dữ liệu test
Bảng 1.1 Kết quả chạy mô hình phân loại [27]
Phân loại Biopsy Phân loại Hinselmann
Độ nhạy 89% => mô hình nhận ra các
trường hợp ung thư
50% => mô hình chỉ có thể phát hiện các trường hợp ung thư trung bình
dữ liệu không cân bằng
96% => điều này không thể chấp nhận được đối với tập
dữ liệu không cân bằng
“Evaluation of machine learning based optimized feature selection
approaches and classifcation methods for cervical cancer prediction” [28]
B Nithya1 và V Ilango thuộc Viện Công Nghệ CMR, Ấn Độ đã công bố bài nghiên cứu “Evaluation of machine learning based optimized feature selection approaches and classifcation methods for cervical cancer prediction” Bài báo này nhằm mục đích tìm hiểu sâu hơn bằng cách áp dụng machine learning techniques
Trang 3115
trong R để phân tích các yếu tố nguy cơ của bệnh ung thư cổ tử cung Ngoài ra bài báo này nhằm xây dựng một vài mô hình phân loại sử dụng các phương pháp C5.0, Random forest, rpast, KNN and SVM
Dữ liệu ung thư cổ tử cung [13] được xử lý bằng cách xem xét tất cả các dòng trong tập dữ liệu thông qua việc thay thế các giá trị bị thiếu bằng giá trị trung bình của chúng, chỉ loại bỏ các cột có giá trị bị thiếu Do đó, sau quá trình làm sạch dữ liệu, tập dữ liệu có 858 hàng với 26 yếu tố dự đoán Các kỹ thuật Feature Selection (FS) cũng được sử dụng trong quá trình xử lý trước dữ liệu để tìm kiếm các mô hình dữ liệu chính xác
Các mô hình phân loại Machine Learning với các phương pháp C5.0, RF, RPART, SVM và KNN đã được xây dựng với kỹ thuật k-fold cross-validation với tất cả 26 tính năng Nhìn chung, C5.0 và các bộ phân loại đã hoạt động khá tốt với
độ chính xác 100% và có thể xác định ung thư cổ tử cung
“Cancer Disease Prediction Using Naive Bayes, K-Nearest Neighbor and J48 algorithm” [29]
Bài báo của Shanjida Khan Maliha và cộng sự [12] in năm 2019 đã sử dụng Naive Bayes, k-NN và J48 algorithm kết hợp với phương pháp 10-fold cross-validation để dự đoán bệnh ung thư Dữ liệu của bệnh nhân đang trải qua căn bệnh được sử dụng trong bài nghiên cứu đã được xác minh bởi các bác sĩ Tập dữ liệu này chứa 61 thuộc tính về các triệu chứng và một số phần kiểm tra của bệnh ung thư, còn lại là 1 thuộc tính đại diện cho các loại bệnh ung thư của 1059 bệnh nhân Công cụ Weka được sử dụng với mục đích đo lường độ chính xác của bộ dữ liệu bệnh ung thư, bao gồm 9 loại: ung thư não, ung thư máu, ung thư tuyến tuỵ, ung thư tuyến tiền liệt, ung thư buồng trứng, ung thư vú, ung thư thực quản, ung thư phổi và ung thư đại trực tràng Kết quả sau khi chạy mô hình cho thấy độ chính xác trong Naive Bayes, k-NN và J48 lần lượt là 98,2%, 98,8% và 98,5%
“Prediction of Cervical Cancer Using Machine Learning Techniques” [30]
Năm 2019, Jaswinder Singh và Sandeep Sharma đã đề xuất một mô hình dự đoán ung thư cổ tử cung như sau: bước đầu tiên bao gồm bắt đầu quét người bị nhiễm bằng cách sử dụng cảm biến Các cảm biến được áp dụng cho đầu ngón tay
và bàn chân của bệnh nhân để lấy huyết áp, chỉ số đường huyết và nhịp hô hấp Ngoài ra, quét bên dưới bụng cho đến đùi sẽ giúp hệ thống đề xuất quét ung thư cổ
Trang 3216
tử cung Bước thứ hai yêu cầu quá trình hô hấp dữ liệu để thông tin ngữ cảnh được xác định trước được xác nhận dựa trên kết quả thu thập được từ bước đầu tiên Các kết quả thu thập được được lưu giữ trong một tập thử nghiệm, trong khi tập huấn luyện được xây dựng từ tập dữ liệu được xác định trước từ hô hấp Bước thứ ba sau đây huấn luyện các mô hình phân loại sử dụng tập huấn luyện, tiếp theo là dự đoán giai đoạn ung thư bằng tập thử nghiệm Các giá trị ngưỡng được dự đoán bởi bộ phân loại học máy xác thực tập hợp kiểm tra Các tiêu chuẩn về y tế được nhà cung cấp dịch vụ chăm sóc sức khỏe xác nhận chúng trước khi tạo báo cáo Vòng này cung cấp xác thực chéo gấp mười lần và sửa dự đoán giai đoạn sau khi tạo báo cáo mô-đun được hướng dẫn
“Machine Learning Techniques for Detecting and Predicting Breast
Cancer” [31]
Nghiên cứu này đề cập đến tầm quan trọng và việc sử dụng hiệu quả các kỹ thuật máy học để phân tích các loại ung thư vú khác nhau và giảm tỷ lệ tử vong Khả năng sử dụng của bộ phân loại học máy và tiện ích của nó trong dự đoán / tiên lượng ung thư có thể làm giảm tỷ lệ tử vong Phân tích đa dạng của các nghiên cứu tập trung vào việc phát triển các mô hình dự đoán đúng và hiệu quả bằng cách sử dụng các thuật toán phân loại dựa trên học máy có giám sát Ứng dụng các kỹ thuật phân loại Machine learning khác nhau như kỹ thuật ANN, NBC, DT, CNN, SVM
để lựa chọn tính năng và nghiên cứu dữ liệu sinh học đa chiều, tích hợp dữ liệu không đa chiều là một nguồn tài nguyên tốt cho sự hiểu biết của con người trong
dự đoán ung thư vú và tiên lượng các bệnh
“Development of predictive models for cervical cancer based on gene expression profiling data” [32]
Trong nghiên cứu này, các tác giả sử dụng tập dữ liệu được lấy từ Ngân hàng
Mô của Nhóm Ung thư Phụ khoa (PA, Hoa Kỳ) để phân loại ung thư cổ tử cung dựa trên dữ liệu biểu hiện gen Đầu tiên, tập dữ liệu sẽ trải qua quá trình trích xuất
dữ liệu để lấy và truy xuất dữ liệu hoặc thông tin có liên quan trong tập dữ liệu Việc xử lý trước dữ liệu sau đó được áp dụng trên tập dữ liệu để loại bỏ dữ liệu không liên quan và dư thừa có trong tập dữ liệu Để thực hiện phân loại dữ liệu hồ
sơ biểu hiện gen của tập dữ liệu microarray thành cụm của chúng, một cấu trúc giống cây được xây dựng bằng cách sử dụng phân cụm phân cấp Bằng các thuật
Trang 3317
toán máy học được triển khai của Support Vector Machine (SVM) và Random Forset (RF) trên tập dữ liệu, có thể phát triển mô hình dự đoán ung thư cổ tử cung Trong mô hình SVM, thuật toán Principal Components Analysis (PCA) được sử dụng cho kỹ thuật lựa chọn đối tượng địa lý Kỹ thuật này rất hữu ích để giảm kích thước cao của tập dữ liệu để tạo điều kiện cho thuật toán tạo ra hiệu suất tốt Tập
dữ liệu mới được xây dựng sẽ được thực thi bằng cách sử dụng mô hình SVM để
có được độ chính xác của dự đoán Để so sánh, Random Forest cũng được áp dụng
để có được độ chính xác của mô hình dự đoán ung thư cổ tử cung
“Design and Implementation of a Fuzzy Expert System for Diagnosing Breast Cancer” [33]
Trong bài báo này, nhóm tác giả đã đề xuất một hệ thống chuyên gia mờ để chẩn đoán và khuyến nghị điều trị các vấn đề về ung thư vú, cung cấp cho bác sĩ và bệnh nhân thông tin về loại ung thư và khuyến nghị điều trị
Hình 1.8 Kiến trúc của hệ thống chẩn đoán ung thư vú được đề xuất [33]
“Machine Learning Applied to Cervical Cancer Data” [34]
Vào năm 2019, Dhwaani Parikh và Vineet Menon đã xây dựng mô hình Machine Learning để áp dụng vào bộ dữ liệu ung thư cổ tử cung Mô hình được xây dựng dựa trên 3 thuật toán Machine Learning: K-NN, Decision Tree, Random Forest Trong quá trình phân tích ban đầu, người ta thấy rằng tập dữ liệu bị sai lệch
do đó xác thực chéo k lần được thực hiện Đối với k-NN tập dữ liệu được chia
50-50 Feature Selection được thực hiện và các đặc tính đã chọn được sử dụng để dự
Trang 3418
đoán Đối với thuật toán Decision Tree và Random Forest, dữ liệu được tách
25-75 Việc điều chỉnh tham số được thực hiện để có được dự đoán tốt nhất với điểm đánh giá tối ưu Các tác giả cũng sử dụng thuật toán Hill Climbing để chọn các đặc tính Thuật toán được sử dụng đã tối ưu hóa toán học và áp dụng tìm kiếm heuristic trong trí tuệ nhân tạo
“BOADICEA: a comprehensive breast cancer risk prediction model
incorporating genetic and nongenetic risk factors” [35]
Bài báo này đã sử dụng một mô hình Breast and Ovarian Analysis of Disease Incidence and Carrier Estimation Algorithm (BOADICEA) kết hợp với gen di truyền cùng với các yếu tố nguy cơ và tiền sử gia đình của bệnh nhân để dự báo nguy cơ ung thư vú một cách toàn diện
“Machine learning Technique for detection of Cervical Cancer using k-NN and Artificial Neural Network” [36]
Một mô hình học máy được đề xuất bởi hai nhà khoa học Priyanka K Malli và
Dr Suvarna Nandyal sử dụng thuật toán K-NN và Artificial Neural Network để phát hiện ung thư cổ tử cung Việc phát hiện ung thư cổ tử cung bằng xét nghiệm đốm tế bào vi mô (dịch lấy từ cổ tử cung) [36] [19] Do đó, kỹ thuật xử lý hình ảnh kỹ thuật
số mức độ cao được yêu cầu xác định các bất thường trong hệ thống phát hiện ung thư liên quan đến tế bào của con người Kỹ thuật được đề xuất cung cấp các đặc điểm về màu sắc và hình dạng của nhân và tế bào chất của tế bào cổ tử cung Nhân
và tế bào chất được tách ra khỏi tế bào sử dụng kỹ thuật dựa trên Fuzzy tiên tiến KNN và ANN được huấn luyện với các đặc điểm hình dạng và đặc điểm màu sắc của các đơn vị phân đoạn của tế bào và sau đó một mẫu tế bào cổ tử cung chưa biết được phân loại bằng kỹ thuật này Kết quả phân loại cho thấy độ chính xác là 88,04% đối với KNN và 54% đối với ANN Mô hình được đề xuất có thể được nâng cao hơn nữa bằng cách sử dụng các bộ phân loại khác
Những bài báo trên với mục đích tạo ra mô hình dự đoán bệnh ung thư như ung thư phổi, vú, cổ tử cung được thu thập trong những năm 2021-2019 đã áp dụng những phương pháp xử lý dữ liệu và các thuật toán học máy mới nhất cho bài toán của họ Với độ chính xác trên 95%, nhận thấy các bài báo trên rất phù hợp làm cơ
sở cho khóa luận này, đáng chú ý là phương pháp của các bài [25], [26], [27], [28],
[29]
Trang 3519
1.6 Bố cục của khóa luận
Chương I: Tổng quan đề tài nghiên cứu
Chương II: Cơ sở lý thuyết
Chương III: Đề xuất phương pháp xử lý dữ liệu không cân bằng với mô
hình logit
Chương IV: Cài đặt và thử nghiệm
Chương V: Kết luận và hướng phát triển
1.7 Kết luận chương
Chương này trình bày tổng quan về thực trạng bệnh ung thư và cụ thể là ung thư cổ cung đang cướp đi mạng sống của hàng nghìn người mỗi năm Bên cạnh đó, trình bày về phương hướng xây dựng mô hình chẩn đoán bệnh ung thư cổ tử cung Chương này cũng đã lựa chọn kỹ thuật AI về dự báo, làm cơ sở đưa ra giải pháp cho các bài toán chẩn đoán tương ứng Song song đó, chương này cũng trình bày một số công trình nghiên cứu liên quan đã được công bố trong giai đoạn gần đây
Bài toán phân lớp theo mô hình logit trong Deep Learning
Trang 3620
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Ung thư cổ tử cung và những vấn đề về ung thư cổ tử cung
2.1.1 Sơ lược về ung thư
Ung thư [37] là một thuật ngữ chung cho một nhóm lớn các bệnh có thể ảnh hưởng đến bất kỳ bộ phận nào của cơ thể Các thuật ngữ khác được sử dụng là khối
u ác tính và khối u Đặc điểm bệnh ung thư là sự tạo ra nhanh chóng của các tế bào bất thường phát triển vượt ra ngoài ranh giới thông thường của chúng, và sau đó có thể xâm lấn các bộ phận liền kề của cơ thể và lây lan sang các cơ quan khác – quá trình sau này được gọi là di căn Di căn là nguyên nhân chính gây tử vong do ung thư
2.1.2 Ung thư cổ tử cung
Cổ tử cung [38] là bộ phận nằm giữa tử cung và âm đạo, có độ dài khoảng 5cm là nơi ngăn chặn các bệnh lây truyền qua đường tình dục Đầu mở của cổ tử cung thông với âm đạo, được bao phủ bởi một lớp mô mỏng, lớp mô này được tạo thành từ các tế bào
Ung thư cổ tử cung [4] là một bệnh lý ác tính của tế bào gai hoặc biểu mô tuyến cổ tử cung, hình thành khi các tế bào ở cổ tử cung phát triển bất thường, tạo
ra khối u trong cổ tử cung, nhân lên vô kiểm soát và xâm lấn khu vực xung quanh, thậm chí di căn đến các bộ phận khác trong cơ thể Độ tuổi thường hay mắc phải ung thư cổ tử cung là từ 30-59, đỉnh điểm là 48-52 tuổi
Hình 2.1 Cổ tử cung trước và sau khi bị ung thư
Trang 3721
2.1.3 Nguyên nhân gây ung thư cổ tử cung
Nguyên nhân chủ yếu gây ra ung thư cổ tử cung [4] là do virus Human Papillomavirus (HPV) Gần 99% bệnh nhân ung thư cổ tử cung bị nhiễm virus HPV Trong đó virus HPV tuýp 16 và 18 chiếm đến 70% nguyên nhân gây ung thư
cổ tử cung
Virus HPV có thể lây truyền khi tiếp xúc trực tiếp qua da, qua quan hệ tình dục, bao gồm cả âm đạo, hậu môn, miệng và tay
2.1.4 Các yếu tố nguy cơ
Đã có rất nhiều nghiên cứu về nguy cơ mắc ung thư cổ tử cung, dưới đây là một số yếu tố làm tăng nguy cơ mắc bệnh [4]:
• Quan hệ tình dục sớm hoặc quan hệ tình dục với nhiều người
• Mang thai sớm hoặc mang thai nhiều lần
• Hút thuốc lá
• Suy giảm miễn dịch, yếu tố nội tiết
• Mắc bệnh lây lan qua đường tình dục
• Lạm dụng thuốc tránh thai trong thời gian dài
• Vệ sinh cá nhân kém
2.1.5 Dấu hiệu của bệnh
Tương tự các loại ung thư khác, ung thư cổ tử cung ở giai đoạn đầu hầu như không có triệu chứng điển hình Khi có dấu hiệu rõ ràng, ung thư đã phát triển và lan rộng Dưới đây là những dấu hiệu nhận biết của ung thư cổ tử cung [39]:
Trang 3822
Hình 2.2 Một số dấu hiệu nhận biết của ung thư cổ tử cung [39]
2.1.6 Các giai đoạn phát triển của bệnh [39], [40]
Hình 2.3 Các giai đoạn ung thư cổ tử cung [40]
2.1.7 Phòng ngừa ung thư cổ tử cung [4]
Để phòng tránh nguy cơ mắc bệnh, nữ giới nên tránh các yếu tố nguy cơ, không quan hệ tình dục sớm, hạn chế số lượng bạn tình, thực hiện quan hệ tình dục
an toàn bằng cách sử dụng bao cao su và dụng cụ bảo vệ răng miệng, tránh quan hệ tình dục với những người có nhiều bạn tình cũng như những người bị mắc bệnh tình dục và không hút thuốc lá
Trang 3923
Ngoài ra, nguyên nhân chủ yếu gây ra ung thư cổ tử cung là do lây nhiễm virus HPV Vì thế, cách phòng ngừa ung thư cổ tử cung đơn giản và hiệu quả là tiêm vắc xin phòng HPV Độ tuổi tiêm vắc xin HPV là từ 9-26 tuổi
2.2 Tổng quan về trí tuệ nhân tạo và mô hình logit
2.2.1 Trí tuệ nhân tạo
Như đã trình bày ở phần mở đầu của luận văn, trí tuệ nhân tạo [1] là trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành
vi thông minh như con người Trí tuệ nhân tạo khác với việc lập trình logic trong các ngôn ngữ lập trình là ở việc ứng dụng các hệ thống học máy để mô phỏng trí tuệ của con người trong các xử lý mà con người làm tốt hơn máy tính
Hình 2.4 Trí tuệ nhân tạo – AI [1]
Cùng với sự phát triển xã hội hiện đại như ngày nay, AI đã không còn là một
từ ngữ xa lạ Công nghệ ngày càng lớn mạnh, AI càng đi sâu vào nhiều lĩnh vực của đời sống con người chẳng hạn như sức khỏe, kinh doanh, giáo dục, sản xuất, Amazon Go là một minh chứng rõ ràng nhất của AI, khi khách hàng không cần phải xếp hàng mà chỉ cần đăng nhập vào tài khoản Amazon Go, lấy các sản phẩm cần thiết và rời đi Các thao tác thanh toán, gửi hóa đơn được thực hiện một cách chính xác, tự động và không cần phải nhờ đến sự trợ giúp của con người Với tốc độ phát triển cao như vậy thì trong tương lai AI chắc chắn sẽ đạt được nhiều thành tựu hơn nữa
Trang 4024
2.2.2 Machine Learning
Học máy (Machine Learning) [41] là một tập hợp con của AI cung cấp cho máy tính khả năng tự động học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể Do đó, học máy là một phương pháp giúp máy móc giải quyết vấn đề bằng cách đạt được khả năng suy nghĩ
Hình 2.5 Các lĩnh vực ứng dụng của Machine Learning [42]
Machine Learning thường được phân thành hai nhóm chính là dựa trên phương thức học và dựa trên chức năng của mỗi thuật toán [43] Nhóm thứ nhất – dựa trên phương thức học lại được chia làm bốn nhóm rất phổ biến:
• Supervised Learning (Học có giám sát)
• Unsupervised Learning (Học không giám sát)
• Semi-Supervised Learning (Học bán giám sát)
• Reinforcement Learning (Học Củng Cố)
Nhóm thứ hai dựa trên chức năng của các thuật toán như:
• Regression Algorithms
• Classification Algorithms