Xây dựng bài toán chuẩn Đoán ung thư cổ tử cung sử dụng mô hình logit trong deep learning

Lê Ngọc Hiếu Học viên thực hiện: Võ Phạm Huyền Khanh Lớp: DH17TH01 Ngày sinh: 29/05/1999 Nơi sinh: Long An Tên đề tài: XÂY DỰNG BÀI TOÁN CHẨN ĐOÁN UNG THƯ CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

-

XÂY DỰNG BÀI TOÁN CHẨN ĐOÁN UNG THƯ

CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH LOGIT

TRONG DEEP LEARNING

Trang 2

TRƯỜNG ĐẠI HỌC MỞ

THÀNH PHỐ HỒ CHÍ MINH

KHOA CÔNG NGHỆ THÔNG TIN

CỘNG HÒA XÃ HỘI CHỦ NGHĨAVIỆT NAM

Độc lập – Tự do – Hạnh phúc

GIẤY XÁC NHẬN

Tôi tên là : Võ Phạm Huyền Khanh

Ngày sinh: 29/05/1999 Nơi sinh: Long An

Chuyên ngành: Công nghệ thông tin Mã học viên : 1751010056 Tôi đồng ý cung cấp toàn văn thông tin khóa luận tốt nghiệp hợp lệ về bản quyền cho Thư

viện trường Đại học Mở Thành phố Hồ Chí Minh Thư viện trường Đại học Mở Thành phố

Hồ Chí Minh sẽ kết nối toàn văn thông tin khóa luận tốt nghiệp vào hệ thống thông tin

khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh

Trang 3

Ý KIẾN CHO PHÉP BẢO VỆ KHÓA LUẬN TỐT NGHIỆP

CỦA GIẢNG VIÊN HƯỚNG DẪN

Giảng viên hướng dẫn 1: TS.GVCC Lê Xuân Trường

Giảng viên hướng dẫn 2: Ths Lê Ngọc Hiếu

Học viên thực hiện: Võ Phạm Huyền Khanh Lớp: DH17TH01

Ngày sinh: 29/05/1999 Nơi sinh: Long An

Tên đề tài: XÂY DỰNG BÀI TOÁN CHẨN ĐOÁN UNG THƯ CỔ TỬ CUNG SỬ DỤNG

MÔ HÌNH LOGIT TRONG DEEP LEARNING

Ý kiến của giáo viên hướng dẫn về việc cho phép học viên được bảo vệ khóa luận trước

Hội đồng:

Thành phố Hồ Chí Minh, ngày tháng năm

Người nhận xét 1 Người nhận xét 2 .

Trang 4

ii

LỜI CẢM ƠN

Để có thể hoàn thiện luận văn tốt nghiệp này, cũng như các kết quả nghiên cứu

của luận văn này, em xin trân trọng cảm ơn thầy TS.GVCC Lê Xuân Trường và thầy ThS Lê Ngọc Hiếu Các thầy đã tận tâm chỉ dẫn, truyền đạt những kiến thức và

kinh nghiệm quý báu cũng như giúp đỡ cho em trong suốt quá trình nghiên cứu và thực hiện luận văn này

Ngoài ra, em cũng xin gửi lời cảm ơn đến các quý thầy cô trong khoa Công nghệ thông tin đã trang bị cho em những kiến thức nền tảng quan trọng và bổ ích trong suốt quá trình theo học

Sau cùng, em xin gửi lời cảm ơn sâu sắc các bạn sinh viên cùng lớp học tập đã ủng hộ, động viên và giúp đỡ em vượt qua khó khăn trong suốt quá trình thực hiện luận văn

Trong quá trình nghiên cứu và thực hiện luận văn không tránh khỏi những thiếu sót Em rất mong nhận được những ý kiến đóng góp của thầy cô để có thể hoàn thiện hơn đề tài của mình

Xin chân thành cảm ơn!

TP.HCM, ngày 1 tháng 5 năm 2021

Sinh viên thực hiện luận văn

Võ Phạm Huyền Khanh

Trang 5

iii

LỜI CAM ĐOAN

Tôi cam đoan rằng luận văn “Xây dựng bài toán chẩn đoán ung thư cổ tử cung sử

dụng mô hình logit trong Deep Learning” là đề tài do tôi thực hiện

Ngoại trừ những tài liệu tham khảo được trích dẫn trong khóa luận này, tôi cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được ctông bố hoặc được sử dụng để nhận bằng cấp ở những nơi khác

Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận văn này mà không được trích dẫn theo đúng quy định

Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các trường đại học hoặc cơ sở đào tạo khác

TP.HCM, ngày 1 tháng 5 năm 2021

Sinh viên thực hiện luận văn

Võ Phạm Huyền Khanh

Trang 9

vii

NHẬN XÉT CHUNG VỀ QUÁ TRÌNH LÀM VIỆC CỦA

SINH VIÊN

Trang 10

viii

DANH MỤC CÁC BẢNG

Bảng 1.1 Kết quả chạy mô hình phân loại 14Bảng 4.1 Mô tả các trường dữ liệu trong bộ dữ liệu các yếu tố ung thư cổ tử cung 39Bảng 4.2 Các thuộc tính được chọn sau quá trình xử lý dữ liệu 43

Trang 11

ix

DANH MỤC CÁC HÌNH

Hình 1.1 Số lượng ca mắc ung thư mới trong năm 2020 tại Việt Nam [9] 3

Hình 1.2 Một số bệnh ung thư thường gặp ở người [8] 4

Hình 1.3 Mô hình dự báo ung thư cổ tử cung của bài báo [17] 8

Hình 1.4 Sơ đồ quy trình làm việc của bài toán [20] 10

Hình 1.5 Quy trình hoạt động của bài báo [13] 12

Hình 1.6 Quá trình tiền xử lý dữ liệu của bài báo [26] 13

Hình 1.7 Sơ đồ hoạt động của bài báo [27] 13

Hình 1.8 Kiến trúc của hệ thống chẩn đoán ung thư vú được đề xuất 17

Hình 2.1 Cổ tử cung trước và sau khi bị ung thư 20

Hình 2.2 Một số dấu hiệu nhận biết của ung thư cổ tử cung [40] 22

Hình 2.3 Các giai đoạn ung thư cổ tử cung [41] 22

Hình 2.4 Trí tuệ nhân tạo – AI [1] 23

Hình 2.5 Các lĩnh vực ứng dụng của Machine Learning [43] 24

Hình 2.6 Mối liên hệ giữa AI, Machine Learning và Deep Learning [46] 25

Hình 2.7 Mạng nơ-ron với hai lớp hidden [46] 26

Hình 2.8 Dữ liệu không cân bằng 29

Hình 2.9 Dữ liệu cân bằng 29

Hình 2.10 Mô hình mạng nơ-ron Drop Bên trái: Một mạng nơ-ron tiêu chuẩn với 2 lớp hidden Phải: Ví dụ về lưới mỏng được tạo ra bằng cách áp dụng tính năng dropout cho mạng ở bên trái Các đơn vị bị gạch chéo đã bị loại bỏ [57] 32

Hình 2.11 Early Stopping với đường màu xanh là train error, đường màu đỏ là validation error Trục x là số lượng vòng lặp, trục y là error Mô hình được xác định tại vòng lặp mà validation error đạt giá trị nhỏ nhất [56] 32

Hình 2.12 Ví dụ về đường cong ROC và AUC 34

Hình 3.1 Quy trình xây dựng mô hình dự đoán 37

Hình 4.1 Thống kê số lượng bệnh nhân mắc ung thư trong bộ dữ liệu 41

Hình 4.2 Biểu đồ thống kê số lượng giá trị bị thiếu trong bộ dữ liệu 42

Hình 4.3 Biểu đồ thống kê tỷ lệ giá trị bị thiếu của một số thuộc tính 42

Hình 4.4 Bộ dữ liệu gồm 27 thuộc tính đã được xử lý không chứa giá trị thiếu nào44 Hình 4.5 Thống kê các thuộc tính của bộ dữ liệu trước khi được xử lý 44

Trang 12

x

Hình 4.6 Thống kê các thuộc tính của bộ dữ liệu trước khi được xử lý 45

Hình 4.7 Thống kê các thuộc tính của bộ dữ liệu sau khi được xử lý 45

Hình 4.8 Thống kê các thuộc tính của bộ dữ liệu sau khi được xử lý 45

Hình 4.9 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Smokes (years) 46

Hình 4.10 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Smokes (packs/year) 46

Hình 4.11 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Number of sexual partners 47

Hình 4.12 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Num of pregnancies 47

Hình 4.13 Biểu đồ về sự phân bổ của 2 thuộc tính Age và Hormonal Contraceptives (years) 48

Hình 4.14 Biểu đồ về sự phân bổ của 2 thuộc tính Age và IUD (years) 48

Hình 4.15 Biểu đồ về sự phân bổ của 2 thuộc tính Age và First sexual intercourse 49 Hình 4.16 Biểu đồ tần số xuất hiện các giá trị của thuộc tính Age 49

Hình 4.17 Biểu đồ tần số xuất hiện các giá trị của thuộc tính First sexual intercourse 50

Hình 4.18 Biểu đồ tần số xuất hiện các giá trị của thuộc tính Number of sexual partners 50

Hình 4.19 Biểu đồ tần số xuất hiện các giá trị của thuộc tính Num of pregnancies 51 Hình 4.20 Biểu đồ phân bố các bệnh nhân có bệnh (các quan sát có giá trị dương tính) dựa trên hai yếu tố Age và Smokes (packs/year) 51

Hình 4.21 Biểu đồ phân bố các bệnh nhân không bệnh (các quan sát có giá trị âm tính) dựa trên hai yếu tố Age và Smokes (packs/year) 52

Hình 4.22 Kích thước của các tập train, validation và test 52

Hình 4.23 Mô hình với các lớp và tham số được đưa vào huấn luyện 53

Hình 4.24 Kết quả chạy thử model với 10 thuộc tính đầu tiên của bộ dữ liệu 54

Hình 4.25 Độ mất mát ban đầu của mô hình 54

Hình 4.26 Công thức tính bias 54

Hình 4.27 Kết quả tính bias 54

Hình 4.28 Chạy lại mô hình với bias 55

Hình 4.29 Công thức tính độ mất mát ban đầu 55

Hình 4.30 Kết quả tính độ mất mát 55

Hình 4.31 Biểu đồ so sánh hàm mất mát (loss) khi sử dụng careful initialization 56

Trang 13

xi

Hình 4.32 Tiến hành chạy huấn luyện cho mô hình 56

Hình 4.33 Các biểu đồ đánh giá hiệu suất của mô hình trên giá trị False negatives 57 Hình 4.34 Đánh giá mô hình baseline 58

Hình 4.35 Biểu đồ quan sát đường cong ROC 59

Hình 4.36 Biểu đồ quan sát đường cong Precision-Recall 59

Hình 4.37 Thiết lập class weights cho mô hình 60

Hình 4.38 Tiến hành chạy huấn luyện cho mô hình với class weights 61

Hình 4.39 Các biểu đồ đánh giá hiệu suất của mô hình với class weights 61

Hình 4.40 Các chỉ số đánh giá mô hình với class weights 62

Hình 4.41 Biểu đồ đường cong ROC sau khi sử dụng class weights 63

Hình 4.42 Biểu đồ quan sát đường cong Precision-Recall sử dụng class weights 63

Hình 4.43 Tăng kích thước cho tập dữ liệu với Numpy 64

Hình 4.44 Tăng kích thước cho tập dữ liệu với tf.data 65

Hình 4.45 Các cặp (feature, label) trong bộ dữ liệu dương tính mới 65

Hình 4.46 Câu lệnh gộp hai bộ dữ liệu lại với nhau 65

Hình 4.47 Số bước cho mỗi epoch 65

Hình 4.48 Tiến hành chạy huấn luyện cho mô hình với oversamping 66

Hình 4.49 Các biểu đồ đánh giá hiệu suất của mô hình với oversampling 67

Hình 4.50 Tiến hành chạy huấn luyện lại cho mô hình với oversamping 67

Hình 4.51 Các biểu đồ đánh giá hiệu suất của mô hình với oversampling 68

Hình 4.52 Các chỉ số đánh giá mô hình với oversampling 68

Hình 4.53 Biểu đồ đường cong ROC sau khi sử dụng oversampling 69

Hình 4.54 Biểu đồ đường cong Precision-Recall sau khi sử dụng oversampling 70

Trang 14

xii

MỤC LỤC

LỜI CẢM ƠN ii

LỜI CAM ĐOAN iii

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 1 iv

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 2 v

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN vi

NHẬN XÉT CHUNG VỀ QUÁ TRÌNH LÀM VIỆC CỦA SINH VIÊN vii

DANH MỤC CÁC BẢNG viii

DANH MỤC CÁC HÌNH ix

MỤC LỤC xii

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 3

1.1 Lý do chọn đề tài 3

1.2 Mục tiêu nghiên cứu 5

1.3 Đối tượng và phạm vi nghiên cứu 5

1.3.1 Đối tượng nghiên cứu 5

1.3.2 Phạm vi nghiên cứu 6

1.4 Phương pháp nghiên cứu 6

1.4.1 Phương pháp nghiên cứu lý thuyết 6

1.4.2 Phương pháp nghiên cứu thực nghiệm 6

1.5 Các công trình liên quan 6

1.6 Bố cục của khóa luận 19

1.7 Kết luận chương 19

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 20

2.1 Ung thư cổ tử cung và những vấn đề về ung thư cổ tử cung 20

2.1.1 Sơ lược về ung thư 20

2.1.2 Ung thư cổ tử cung 20

2.1.3 Nguyên nhân gây ung thư cổ tử cung 21

2.1.4 Các yếu tố nguy cơ 21

2.1.5 Dấu hiệu của bệnh 21

2.1.6 Các giai đoạn phát triển của bệnh [39], [40] 22

Trang 15

xiii

2.1.7 Phòng ngừa ung thư cổ tử cung [4] 22

2.2 Tổng quan về trí tuệ nhân tạo và mô hình logit 23

2.2.1 Trí tuệ nhân tạo 23

2.2.2 Machine Learning 24

2.2.3 Deep Learning 25

2.2.4 Neural network 26

2.2.5 Mô hình logit 27

2.2.6 Bài toán phân lớp dữ liệu không cân bằng [51] [52] 28

2.2.7 Keras và kỹ thuật xử lý imbalanced data [54] 30

2.2.8 Phương pháp đánh giá mô hình 33

CHƯƠNG 3 ĐỀ XUẤT PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU KHÔNG CÂN BẰNG VỚI MÔ HÌNH LOGIT 36

3.1 Phát biểu bài toán 36

3.2 Đề xuất phương pháp và thuật toán xử lý 36

3.2.1 Input: dữ liệu bệnh nhân 36

3.2.2 Processing: xây dựng mô hình 37

3.2.3 Output: kết luận 38

CHƯƠNG 4 CÀI ĐẶT VÀ THỬ NGHIỆM 39

4.1 Mô tả bộ dữ liệu 39

4.2 Kết quả xử lý dữ liệu 43

4.3 Xây dựng model 53

4.3.1 Xây dựng baseline model 53

4.3.2 Hiệu chỉnh model với class weights [62] 60

4.3.3 Hiêu chỉnh mô hình với oversampling [63] 64

4.4 Nhận xét 70

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 72

5.1 Kết quả nghiên cứu của đề tài 72

5.2 Hạn chế của đề tài 72

5.3 Hướng phát triển của đề tài 72

Trang 16

xiv

TÀI LIỆU THAM KHẢO 74

PHỤ LỤC 1 – CLEAN, SPLIT AND NORMALIZATION 82

PHỤ LỤC 2 – BUILDING MODEL 83

PHỤ LỤC 3 – MODEL WITH CLASS WEIGHTS 87

PHỤ LỤC 4 – MODEL WITH OVERSAMPLING 88

Trang 17

Tính đến thời điểm hiện tại, AI được áp dụng vào ngành y tế [3] cụ thể là sử dụng trong chẩn đoán và quản lý các loại vấn đề về sức khỏe ngày càng nhiều Từ khâu phát hiện bệnh, đưa ra lộ trình điều trị cụ thể, theo dõi sức khỏe đến việc quản

lý khám chữa bệnh Đặc biệt trong lĩnh vực bệnh ung thư ngày càng gia tăng nhanh chóng với thiệt hại về mạng sống và kinh tế ngày càng cao trong xã hội hiện nay thì

sự hỗ trợ của AI là hoàn toàn cần thiết

Ung thư cổ tử cung [4] là bệnh ung thư phổ biến thứ 4 về số ca mắc mới và thứ 6 về số ca tử vong ở phụ nữ trên toàn thế giới Từ thống kê của GLOBOCAN [5] (Global Cancer Observatory) về bệnh ung thư cổ tử cung trên thế giới, ước tính có 604.127 trường hợp mắc mới và 341.831 ca tử vong trong năm 2020 Theo thống kê của HPV Information Cancer [6], trong năm 2018, Việt Nam có 4177 ca mắc mới và

có 2420 ca tử vong vì căn bệnh này Song song đó, trung bình mỗi ngày có khoảng

12 ca mắc mới và 7 ca tử vong

Phụ nữ ở độ tuổi hay mắc phải ung thư cổ tử cung là từ 30 trở lên, trung bình

là 48-52 tuổi [4] Mặc dù bệnh gây tổn thương lớn đến tử cung nhưng vì bệnh tiến triển âm thầm trong thời gian dài (5-20 năm) và các triệu chứng lại khá mờ nhạt, dễ gây nhầm lẫn với các bệnh phụ khoa khác nên rất khó để phát hiện khi bệnh ở giai đoạn đầu Phần lớn người bệnh đến khám và điều trị khi bệnh đã ở giai đoạn muộn,

Trang 18

vệ được mạng sống của người dân

Do đó, trong đề tài này, tôi xin trình bày nghiên cứu về khai phá tri thức và

“Xây dựng bài toán chẩn đoán ung thư cổ tử cung sử dụng mô hình logit trong Deep Learning”.

Trang 19

và di căn

Theo GLOBOCAN [7], ung thư là nguyên nhân gây tử vong đứng hàng thứ hai trên toàn cầu và là nguyên nhân gây ra khoảng 10 triệu ca tử vong mỗi năm Trên toàn thế giới, có khoảng 1/6 trường hợp tử vong là do ung thư

Tỉ lệ ung thư ngày càng tăng qua các năm mà không có dấu hiệu giảm đi Cũng theo GLOBOCAN, hiện nay chỉ có 185/204 quốc gia có báo cáo thống kê về tình hình bệnh ung thư [7] Thống kê của bộ y tế năm 2020 [8] cho thấy, Việt Nam xếp thứ 91/185 về tỷ lệ mắc mới và thứ 50/185 về tỷ suất tử vong trên 100.000 người Thứ hạng này tương ứng của năm 2018 là 99/185 và 56/185 Như vậy, có thể thấy là tình hình mắc mới và tử vong do ung thư ở Việt Nam đều đang tăng nhanh

Hình 1.1 Số lượng ca mắc ung thư mới trong năm 2020 tại Việt Nam [9]

Tại Việt Nam, ước tính có khoảng 182.563 ca mắc mới và 122.690 ca tử vong

do ung thư mỗi năm Cứ 100.000 người thì có 159 người được chẩn đoán mắc bệnh

Dạ dàyĐại trực tràngKhác

Trang 20

4

và 106 người tử vong bởi ung thư [8]

Ở Việt Nam, các loại ung thư như: ung thư phổi, ung thư gan, ung thư dạ dày, ung thư đại trực tràng và ung thư tuyến tiền liệt là phổ biến nhất đối với nam giới (chiếm khoảng 65.8% trên tổng các loại ung thư) Còn ở nữ giới, những bệnh phổ biến nhất là: ung thư vú, ung thư phổi, ung thư đại trực tràng, ung thư dạ dày, ung thư gan và ung thư cổ tử cung (chiếm khoảng 59.4% tổng các loại ung thư) [6]

Hình 1.2 Một số bệnh ung thư thường gặp ở người [8]

Khoảng một phần ba số ca tử vong bởi ung thư là do: lạm dụng rượu, thuốc lá; ăn thiếu chất có trong các loại rau, củ, quả; hạn chế các hoạt động thể chất cũng như đã có bệnh nền là thừa cân, béo phì Theo thống kê từ Global Health Data Exchange (GHDx) [10], sử dụng thuốc lá là yếu tố nguy cơ quan trọng nhất của ung thư vì nó là nguyên nhân gây ra khoảng 25% các ca tử vong do ung thư Các bệnh nhiễm trùng gây ung thư, chẳng hạn như viêm gan và virus u nhú ở người (HPV), chiếm tới khoảng 30% các trường hợp ung thư ở các nước có thu nhập thấp

và trung bình thấp [11]

Tình hình ung thư ở các nước có thu thập thấp và trung bình là rất nghiêm trọng Cụ thể, có tới 70% trường hợp tử vong do ung thư xảy ra tại đây 2019 [12] Bệnh biểu hiện ở giai đoạn muộn và thiếu khả năng tiếp cận do kết quả chẩn đoán

và điều trị quá phổ biến Kết quả từ báo cáo của cuộc điều tra toàn cầu năm 2019 [12] cho thấy điều trị toàn diện đạt mức hơn 90% ở các quốc gia có thu nhập cao nhưng lại dưới 15% ở các quốc gia có thu nhập thấp

Ung thư là một căn bệnh tiềm ẩn, vì không có những biểu hiện đặc trưng ở giai đoạn đầu nên bệnh ung thư rất khó phát hiện Kèm theo đó, chính sự lơ là,

Trang 21

Vì chưa có những chính sách tốt của xã hội cũng như sự thiếu hụt kiến thức về căn bệnh và sự tự giác trong việc tầm soát, kiểm tra nên tỷ lệ mắc căn bệnh này ngày càng tăng lên Trong vài năm gần đây, ung thư cổ tử cung đã trở thành nỗi âu lo của mọi chị em Từ đó em cảm thấy việc nghiên cứu về những yếu tố nguy cơ để dự đoán ung thư cổ tử cung là cần thiết

Từ những lý do trên, luận văn này xin đề xuất và nghiên cứu bài toán chẩn đoán bệnh ung thư cổ tử cung được ứng dụng trí tuệ nhân tạo để dự đoán thông qua các yếu tố nguy cơ sẽ được trình bày trong phần sau của bài luận văn Cụ thể, đề tài khóa luận có tên như sau:

Tên tiếng Việt: “Xây dựng bài toán chẩn đoán ung thư cổ tử cung sử dụng

mô hình phân lớp logit trong Deep Learning với Keras”

Tên tiếng Anh: “Develop cervical cancer diagnostic problem using logit

model with Deep Learning”

1.2 Mục tiêu nghiên cứu

Nghiên cứu, ứng dụng mô hình phân lớp logit trong học sâu (Deep Learning)

để xây dựng mô hình chẩn đoán bệnh ung thư cổ tử cung

Từ mục tiêu chính đó có những mục tiêu cụ thể như sau:

• Nghiên cứu cơ sở lý thuyết về bệnh ung thư và ung thư cổ tử cung

• Trí tuệ nhân tạo

• Machine learning

• Deep learning

• Bài toán phân lớp theo mô hình logit trong deep learning

• Nghiên cứu về Keras, Tensorflow

1.3 Đối tượng và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu

Mô hình chẩn đoán bệnh trong máy học, cụ thể là Deep Learning với mô hình

Trang 22

• Nghiên cứu về bệnh ung thư cổ tử cung

• Bộ dữ liệu được sử dụng trong luận văn này là bộ dữ liệu ung thư cổ tử cung

từ UCI Machine Learning Repository [13], dữ liệu được tập hợp tại Bệnh viện Universitario de Caracas ở Caracas, Venezuela

1.4 Phương pháp nghiên cứu

1.4.1 Phương pháp nghiên cứu lý thuyết

• Nghiên cứu về bệnh ung thư cổ tử cung, triệu chứng và các yếu tố nguy cơ của bệnh

• Nghiên cứu về mô hình chẩn đoán bệnh trong máy học

• Tổng hợp các tài liệu liên quan đến lĩnh vực nghiên cứu: chẩn đoán bệnh ung thư cổ tử cung, mô hình logit trong deep learning

• Phân tích, thiết kế hệ thống theo quy trình sao cho dễ sử dụng, hiệu quả, dễ nâng cấp, sửa chữa bổ sung

1.4.2 Phương pháp nghiên cứu thực nghiệm

• Khảo sát và phân tích bệnh ung thư cổ tử cung, các vấn đề liên quan đến chẩn đoán ung thư cổ tử cung

• Nghiên cứu bộ dữ liệu về bệnh ung thư cổ tử cung

• Xây dựng mô hình logit trong Deep Learning để chẩn đoán

1.5 Các công trình liên quan

“A k-NN method for lung cancer prognosis with the use of a genetic

algorithm for feature selection” [14]

Bài báo của M Negar, Z Yasser và N Seyed [11] in năm 2021, đã áp dụng phương pháp học máy kNN kết hợp với thuật toán di truyền (Genetic algorithm) chọn lọc tính năng để phân loại nguy cơ của bệnh nhân ung thư phổi theo ba mức

Trang 23

7

độ: thấp, trung bình và cao Mục tiêu của việc sử dụng GA là để xác định sự kết hợp tốt nhất của các tính năng nhằm giảm thiểu tính toán sai lầm tổng thể của phương pháp kNN Dữ liệu của bài toán được lấy từ trang Data world [15] với 1000 mẫu, mỗi mẫu gồm 23 đặc trưng về các yếu tố nguy cơ của bệnh ung thư phổi Mô hình được xây dựng trên 4 phương pháp là: Decision tree, kNN không có GA (k=6), kNN không có GA (k=10) và kNN có GA (k=6) Sau khi so sánh kết quả từ bốn phương pháp kiểm tra, với mẫu là 500 bệnh nhân, nhận thấy sau khi áp dụng thuật toán di truyền, bộ phân loại k-NN cho kết quả độ chính xác của phân loại đã tăng đến 100% và thời gian thực thi mô hình cũng đã đạt mức thấp nhất so với các phương pháp còn lại

“Disease Prediction via Graph Neural Networks” [16]

Trong bài báo này, nhóm tác giả đã giới thiệu một mô hình sáng tạo dựa trên Graph Neural Networks (GNN) để dự đoán bệnh tật, sử dụng các cơ sở kiến thức bên ngoài để tăng cường dữ liệu EMR thiếu và tìm hiểu các cách nhúng nút mang tính đại diện cao cho bệnh nhân, các bệnh và triệu chứng từ biểu đồ khái niệm y tế

và biểu đồ hồ sơ bệnh nhân được xây dựng tương ứng từ cơ sở kiến thức y tế và EMR Bằng cách tổng hợp thông tin từ các nút lân cận được kết nối trực tiếp, bộ

mã hóa biểu đồ thần kinh được đề xuất có thể tạo ra các bản nhúng thu thập kiến thức từ cả hai nguồn dữ liệu một cách hiệu quả, và có thể suy ra các phương pháp nhúng cho một bệnh nhân mới dựa trên các triệu chứng được báo cáo trong EMR của họ để cho phép dự đoán chính xác về cả các bệnh nói chung và các bệnh hiếm gặp Các thử nghiệm mở rộng trên tập dữ liệu EMR trong thế giới thực đã chứng minh hiệu suất hiện đại của mô hình đề xuất

“Data-Driven Cervical Cancer Prediction Model with Outlier Detection and Over-Sampling Methods” [17]

Công trình hiện tại đề xuất một mô hình dự đoán ung thư cổ tử cung (Cervical Cancer Prediction Model - CCPM) đưa ra dự đoán sớm về ung thư cổ tử cung bằng cách sử dụng các yếu tố nguy cơ [13] làm đầu vào

Trang 24

8

Hình 1.3 Mô hình dự báo ung thư cổ tử cung của bài báo [17]

CCPM trước tiên loại bỏ các giá trị ngoại lệ bằng cách sử dụng các phương pháp phát hiện ngoại lệ như Density-based Spatial Clustering of Applications with Noise(DBSCAN) và Isolation Forest (iForest) và bằng cách tăng số lượng trường hợp để cân bằng tập dữ liệu, chẳng hạn như thông qua Synthetic Minority Over-sampling Technique (SMOTE) và SMOTE với liên kết Tomek (SMOTETomek) Cuối cùng, nó sử dụng Random Forest (RF) làm bộ phân loại Do đó, CCPM nằm trên bốn kịch bản: (1) DBSCAN + SMOTETomek + RF, (2) DBSCAN + SMOTE + RF, (3) iForest + SMOTETomek + RF, và (4) iForest + SMOTE + RF

Sau khi quan sát nhận thấy rằng RF hoạt động tốt nhất trong số một số bộ phân loại học máy phổ biến Hơn nữa, CCPM được đề xuất cho thấy độ chính xác tốt hơn so với các phương pháp được đề xuất trước đây để dự báo ung thư cổ tử cung

“A new expert system in prediction of lung cancer disease based on fuzzy soft sets” [18]

Mục đích của bài báo này là phát triển một hệ thống chuyên gia mờ mới (Fuzzy Expert System) để dự đoán bệnh ung thư phổi Quá trình dự đoán sử dụng

hệ thống chuyên gia mềm mờ này bao gồm bốn bước chính:

(1) Chuyển các đầu vào có giá trị thực thành các số mờ

(2) Biến đổi các số dữ liệu mờ thành các tập mờ mềm

(3) Rút gọn, sử dụng phương pháp giảm tham số thông thường, họ thu được của các tập mềm mờ thành một họ mới của các tập mềm mờ

Cancer Dataset

Data Processing

Feature Extraction

Outlier Detection based on DBSCAN/ iForest

Outlier Elimination

Data balance based on SMOTE/

SMOTETomek

New Data

Random Forest Classifier

Performance Evaluation

Trang 25

9

(4) Sử dụng thuật toán đề xuất để lấy dữ liệu đầu ra

Dữ liệu của bài báo được lấy từ Khoa Hô hấp của bệnh viện ngực Nam Kinh, Trung Quốc Các thuộc tính xem xét bao gồm: sút cân, khó thở, đau ngực, có máu trong đờm, ho dai dẳng, tuổi – đây là sáu triệu chứng quan trọng nhất của ung thư phổi Thử nghiệm trên 45 bệnh nhân tại Khoa Hô hấp của Bệnh viện Nan jing Chest, Trung Quốc, trong đó số lượng dữ liệu đào tạo được lấy là 55 bản ghi và 45 bản ghi còn lại đã được sử dụng cho quá trình thử nghiệm

Trong công trình này, nhóm tác giả đã phát triển một Fuzzy Soft Expert System dựa trên Fuzzy Soft Sets Độ chính xác lượng hóa của hệ thống được đề xuất là 100% Từ kết quả đạt được có thể kết luận rằng việc sử dụng Fuzzy Soft

Expert System có thể tạo ra các kết quả có giá trị cho việc phát hiện ung thư phổi

“Supervised Algorithms of Machine Learning for the Prediction of

sử dụng cho chủ đề này cũng đã được xác định

(2) Một bảng câu hỏi do nhà nghiên cứu thực hiện đã được thiết kế và tính hợp lệ của nó đã được xác nhận bằng cách sử dụng tính hợp lệ về nội dung dựa trên đánh giá tài liệu và ý kiến chuyên gia về đối tượng nghiên cứu, và độ tin cậy của

nó được xác nhận bằng cách tính Cronbach’s alpha là 0,87

(3) Các tác giả đã trình bày với một bệnh viện giảng dạy trực thuộc Đại học Khoa học Y tế Shahid Beheshti để có được các quyền cần thiết và điều tra dữ liệu

có sẵn trong hồ sơ bệnh án của bệnh nhân

(4) Dữ liệu của tất cả các bệnh nhân được thu thập theo cách hồi cứu cắt ngang bằng cách xem xét hồ sơ y tế của họ và phỏng vấn họ sau khi được sự đồng ý của

Trang 26

10

học máy Sau khi phân loại, mô hình hóa được thực hiện trong hai giai đoạn sử dụng SVM, QUEST, C&R Tree, MLP-ANNs và RBF-ANNs Các mô hình được đánh giá bằng cách sử dụng độ nhạy, độ đặc hiệu, diện tích dưới đường cong ROC

Hình 1.4 Sơ đồ quy trình làm việc của bài toán [20]

Bài báo này chủ yếu thảo luận về hiệu suất của các thuật toán phân loại khác nhau trên cơ sở phân tích biểu đồ phân phối và ROC trong đó Naive Bayes đạt kết quả cao nhất

“Machine Learning based Approaches for Cancer Prediction: A Survey”

[22]

Trong bài báo này, nhóm tác giả đã khảo sát các tài liệu nghiên cứu để so sánh

độ chính xác của các thuật toán khác nhau của Machine Learning về bệnh ung thư

Trang 27

11

phụ thuộc vào các tập dữ liệu đã cho và các thuộc tính của chúng Một số bài báo

sử dụng kỹ thuật phân loại rất phổ biến như: Support Vector Machine (SVM), Random Forest (RF), Nạve Bayes (NB), Decision Tree (DT), K-Nearest Neighbor (KNN), Artificial Neural Network (ANN), Fuzzy Neural Network (FNN), Radial Basis Function Network (RBFN), Shuffled Frog Leaping with Levy Flight, Particle Swarm Optimization, Back Propagation Neural Network, Multilayered Perceptron, SVM Recursive Feature Elimination, v.v Để dự đốn bệnh ung thư dựa trên tập

dữ liệu đã cho, kết quả tốt nhất trong số tất cả các kỹ thuật máy học tìm thấy ở đây

là SVM

“Hybrid Machine Learning Model of Extreme Learning Machine Radial basis function for Breast Cancer Detection and Diagnosis; a Multilayer Fuzzy Expert System” [23]

Bài báo này trình bày một phương pháp dựa trên hệ thống chuyên gia mờ đa lớp để phát hiện ung thư vú bằng cách sử dụng mơ hình extreme learning machine (ELM) classification model integrated với radial basis function (RBF) được gọi là ELM-RBF, xem xét tập dữ liệu Wisconsin [24] Độ chính xác của quá trình đào tạo, kiểm tra và xác nhận đối với mơ hình ELM-RBF được báo cáo lần lượt là

99,72, 99,23 và 95,69%

“Predicting Cervical cancer using machine learning methods” [25]

Riham Alsmariy và cộng sự đã đề xuất nghiên cứu về việc sử dụng các thuật tốn ML để tìm ra một mơ hình cĩ khả năng chẩn đốn ung thư với độ chính xác

và độ nhạy cao Bài nghiên cứu sử dụng bộ dữ liệu yếu tố nguy cơ ung thư cổ tử cung từ Đại học California tại Irvine (UCI) [13] bao gồm 36 thuộc tính (gồm bốn biến mục tiêu-Hinselmann, Schiller, Cytology và Biopsy cùng các yếu tố nguy cơ) của 858 bệnh nhân để xây dựng mơ hình phân loại thơng qua phương pháp bỏ phiếu kết hợp ba bộ phân loại: Desicion tree, logistic và random forest

Phương pháp SMOTE (The synthetic minority oversampling technique) được

sử dụng để giải quyết vấn đề mất cân bằng tập dữ liệu và cùng với phương pháp PCA (the principal component analysis), để giảm các kích thước mà khơng ảnh hưởng đến độ chính xác của mơ hình Sau đĩ, kỹ thuật stratified 10-fold cross-validation đã được sử dụng để ngăn chặn vấn đề overfitting

Trang 28

12

Hình 1.5 Quy trình hoạt động của bài báo [13]

Bốn mô hình dự đoán được tạo ra bằng cách sử dụng bộ dữ liệu các yếu tố nguy cơ ung thư cổ tử cung UCI cho từng biến mục tiêu: Hinselmann, Schiller, Cytology và Biopsy Sau khi kết hợp các phương pháp trên, đường cong ROC (ROC_AUC) của bốn mô hình dự báo cho từng biến mục tiêu đã cho tỷ lệ cao hơn

Độ chính xác, độ nhạy và tỷ lệ PPA được cải thiện từ 0,93% lên 5,13%, 39,26% lên 46,97% và 2% lên 29% tương ứng cho tất cả các biến mục tiêu

“Cervical cancer prediction through different screening methods using data mining” [26]

Cũng sử dụng phương pháp bỏ phiếu SMOTE và kỹ thuật stratified 10-fold cross-validation, Talha Mahboob Alam và cộng sự đã công bố bài báo dự đoán ung thư cổ tử cung bằng cách sử dụng ba bộ phân loại: Boosted decision tree, decision forest và thuật toán decision jungle và đánh giá hiệu suất trên cơ sở đường cong AUROC, độ chính xác, độ đặc hiệu và độ nhạy Phương pháp luận của bài nghiên cứu gồm ba bước chính: đầu tiên là lựa chọn tập dữ liệu, thứ hai là tiền xử lý dữ liệu để chuẩn bị cho quá trình phân loại, cuối cùng là xây dựng mô hình phân loại dựa trên bốn biến mục tiêu để dự đoán Với tập dữ liệu về yếu tố nguy cơ của bệnh ung thư cổ tử cung [13], quá trình tiền xử lý dữ liệu bao gồm năm bước được mô tả trong sơ đồ bên dưới

•Normalization

•Balancing the dataset SMOTE

processing

Pre•PCA Principal Componen

-t Analysis

Feature Selection

•Split_Train _Test

•Voting classifier

•Validation

Modeling •Cervical

cancer or not

Predict and Evaluation

Trang 29

13

Hình 1.6 Quá trình tiền xử lý dữ liệu của bài báo [26]

Có bốn phương pháp sàng lọc trong tập dữ liệu được dán nhãn là Biopsy, Cytology, Schiller và Hinslemann Bốn phương pháp sàng lọc này đã được sử dụng

để chẩn đoán ung thư và mỗi phương pháp sàng lọc được đào tạo với cùng một bộ

dữ liệu Boosted decision tree hoạt động tốt hơn tất cả các phương pháp khác

Sau khi chạy mô hình, Boosted decision tree cung cấp kết quả dự đoán rất cao với 97,8% trên đường cong AUROC với phương pháp sàng lọc Hinselmann Kết quả thu được bởi các bộ phận phân loại khác kém hơn đáng kể so với Boosted decision tree

“Prediction of cervical cancer occurrence using genetic algorithm and

support vector machine” [27]

Abisoye Blessing và nhóm tác giả thuộc trường đại học Công nghệ Liên bang của Nigeria đã đề xuất nghiên cứu dự đoán ung thư cổ tử cung bằng cách kết hợp Genetic Algorithm (GA) và Support Vector Machine (SVM) Cụ thể là thảo luận

về cách dữ liệu ung thư cổ tử cung được xử lý trước để loại bỏ nhiễu, các tính năng phù hợp được lựa chọn từ dữ liệu được thu thập và chuẩn bị dữ liệu để phân loại Sau đó là sử dụng thuật toán SVM trong việc đào tạo hệ thống bằng dữ liệu đã chuẩn bị để phân loại ung thư cổ tử cung

Hình 1.7 Sơ đồ hoạt động của bài báo [27]

Thay thế các giá trị ngoại lệ bằng giá trị trung bình

Dùng Decimal Scaling

để chuẩn hóa dữ liệu

Sử dụng phương pháp SMOTE

để cân bằng dữ liệu

Bắt đầu Thu thập dữ liệu Tiền xử lý dữ liệu Phân loại Thống kê Kết thúc

Trang 30

đã được sử dụng trong nghiên cứu này để chuẩn hóa dữ liệu cho bài toán

Bài toán sử dụng SVM được chạy theo hai trường hợp: phân loại theo Biopsy

và Hinselmann Bảng dưới đây mô tả kết quả của quá trình chạy mô hình trên dữ liệu test

Bảng 1.1 Kết quả chạy mô hình phân loại [27]

Phân loại Biopsy Phân loại Hinselmann

Độ nhạy 89% => mô hình nhận ra các

trường hợp ung thư

50% => mô hình chỉ có thể phát hiện các trường hợp ung thư trung bình

dữ liệu không cân bằng

96% => điều này không thể chấp nhận được đối với tập

dữ liệu không cân bằng

“Evaluation of machine learning based optimized feature selection

approaches and classifcation methods for cervical cancer prediction” [28]

B Nithya1 và V Ilango thuộc Viện Công Nghệ CMR, Ấn Độ đã công bố bài nghiên cứu “Evaluation of machine learning based optimized feature selection approaches and classifcation methods for cervical cancer prediction” Bài báo này nhằm mục đích tìm hiểu sâu hơn bằng cách áp dụng machine learning techniques

Trang 31

15

trong R để phân tích các yếu tố nguy cơ của bệnh ung thư cổ tử cung Ngoài ra bài báo này nhằm xây dựng một vài mô hình phân loại sử dụng các phương pháp C5.0, Random forest, rpast, KNN and SVM

Dữ liệu ung thư cổ tử cung [13] được xử lý bằng cách xem xét tất cả các dòng trong tập dữ liệu thông qua việc thay thế các giá trị bị thiếu bằng giá trị trung bình của chúng, chỉ loại bỏ các cột có giá trị bị thiếu Do đó, sau quá trình làm sạch dữ liệu, tập dữ liệu có 858 hàng với 26 yếu tố dự đoán Các kỹ thuật Feature Selection (FS) cũng được sử dụng trong quá trình xử lý trước dữ liệu để tìm kiếm các mô hình dữ liệu chính xác

Các mô hình phân loại Machine Learning với các phương pháp C5.0, RF, RPART, SVM và KNN đã được xây dựng với kỹ thuật k-fold cross-validation với tất cả 26 tính năng Nhìn chung, C5.0 và các bộ phân loại đã hoạt động khá tốt với

độ chính xác 100% và có thể xác định ung thư cổ tử cung

“Cancer Disease Prediction Using Naive Bayes, K-Nearest Neighbor and J48 algorithm” [29]

Bài báo của Shanjida Khan Maliha và cộng sự [12] in năm 2019 đã sử dụng Naive Bayes, k-NN và J48 algorithm kết hợp với phương pháp 10-fold cross-validation để dự đoán bệnh ung thư Dữ liệu của bệnh nhân đang trải qua căn bệnh được sử dụng trong bài nghiên cứu đã được xác minh bởi các bác sĩ Tập dữ liệu này chứa 61 thuộc tính về các triệu chứng và một số phần kiểm tra của bệnh ung thư, còn lại là 1 thuộc tính đại diện cho các loại bệnh ung thư của 1059 bệnh nhân Công cụ Weka được sử dụng với mục đích đo lường độ chính xác của bộ dữ liệu bệnh ung thư, bao gồm 9 loại: ung thư não, ung thư máu, ung thư tuyến tuỵ, ung thư tuyến tiền liệt, ung thư buồng trứng, ung thư vú, ung thư thực quản, ung thư phổi và ung thư đại trực tràng Kết quả sau khi chạy mô hình cho thấy độ chính xác trong Naive Bayes, k-NN và J48 lần lượt là 98,2%, 98,8% và 98,5%

“Prediction of Cervical Cancer Using Machine Learning Techniques” [30]

Năm 2019, Jaswinder Singh và Sandeep Sharma đã đề xuất một mô hình dự đoán ung thư cổ tử cung như sau: bước đầu tiên bao gồm bắt đầu quét người bị nhiễm bằng cách sử dụng cảm biến Các cảm biến được áp dụng cho đầu ngón tay

và bàn chân của bệnh nhân để lấy huyết áp, chỉ số đường huyết và nhịp hô hấp Ngoài ra, quét bên dưới bụng cho đến đùi sẽ giúp hệ thống đề xuất quét ung thư cổ

Trang 32

16

tử cung Bước thứ hai yêu cầu quá trình hô hấp dữ liệu để thông tin ngữ cảnh được xác định trước được xác nhận dựa trên kết quả thu thập được từ bước đầu tiên Các kết quả thu thập được được lưu giữ trong một tập thử nghiệm, trong khi tập huấn luyện được xây dựng từ tập dữ liệu được xác định trước từ hô hấp Bước thứ ba sau đây huấn luyện các mô hình phân loại sử dụng tập huấn luyện, tiếp theo là dự đoán giai đoạn ung thư bằng tập thử nghiệm Các giá trị ngưỡng được dự đoán bởi bộ phân loại học máy xác thực tập hợp kiểm tra Các tiêu chuẩn về y tế được nhà cung cấp dịch vụ chăm sóc sức khỏe xác nhận chúng trước khi tạo báo cáo Vòng này cung cấp xác thực chéo gấp mười lần và sửa dự đoán giai đoạn sau khi tạo báo cáo mô-đun được hướng dẫn

“Machine Learning Techniques for Detecting and Predicting Breast

Cancer” [31]

Nghiên cứu này đề cập đến tầm quan trọng và việc sử dụng hiệu quả các kỹ thuật máy học để phân tích các loại ung thư vú khác nhau và giảm tỷ lệ tử vong Khả năng sử dụng của bộ phân loại học máy và tiện ích của nó trong dự đoán / tiên lượng ung thư có thể làm giảm tỷ lệ tử vong Phân tích đa dạng của các nghiên cứu tập trung vào việc phát triển các mô hình dự đoán đúng và hiệu quả bằng cách sử dụng các thuật toán phân loại dựa trên học máy có giám sát Ứng dụng các kỹ thuật phân loại Machine learning khác nhau như kỹ thuật ANN, NBC, DT, CNN, SVM

để lựa chọn tính năng và nghiên cứu dữ liệu sinh học đa chiều, tích hợp dữ liệu không đa chiều là một nguồn tài nguyên tốt cho sự hiểu biết của con người trong

dự đoán ung thư vú và tiên lượng các bệnh

“Development of predictive models for cervical cancer based on gene expression profiling data” [32]

Trong nghiên cứu này, các tác giả sử dụng tập dữ liệu được lấy từ Ngân hàng

Mô của Nhóm Ung thư Phụ khoa (PA, Hoa Kỳ) để phân loại ung thư cổ tử cung dựa trên dữ liệu biểu hiện gen Đầu tiên, tập dữ liệu sẽ trải qua quá trình trích xuất

dữ liệu để lấy và truy xuất dữ liệu hoặc thông tin có liên quan trong tập dữ liệu Việc xử lý trước dữ liệu sau đó được áp dụng trên tập dữ liệu để loại bỏ dữ liệu không liên quan và dư thừa có trong tập dữ liệu Để thực hiện phân loại dữ liệu hồ

sơ biểu hiện gen của tập dữ liệu microarray thành cụm của chúng, một cấu trúc giống cây được xây dựng bằng cách sử dụng phân cụm phân cấp Bằng các thuật

Trang 33

17

toán máy học được triển khai của Support Vector Machine (SVM) và Random Forset (RF) trên tập dữ liệu, có thể phát triển mô hình dự đoán ung thư cổ tử cung Trong mô hình SVM, thuật toán Principal Components Analysis (PCA) được sử dụng cho kỹ thuật lựa chọn đối tượng địa lý Kỹ thuật này rất hữu ích để giảm kích thước cao của tập dữ liệu để tạo điều kiện cho thuật toán tạo ra hiệu suất tốt Tập

dữ liệu mới được xây dựng sẽ được thực thi bằng cách sử dụng mô hình SVM để

có được độ chính xác của dự đoán Để so sánh, Random Forest cũng được áp dụng

để có được độ chính xác của mô hình dự đoán ung thư cổ tử cung

“Design and Implementation of a Fuzzy Expert System for Diagnosing Breast Cancer” [33]

Trong bài báo này, nhóm tác giả đã đề xuất một hệ thống chuyên gia mờ để chẩn đoán và khuyến nghị điều trị các vấn đề về ung thư vú, cung cấp cho bác sĩ và bệnh nhân thông tin về loại ung thư và khuyến nghị điều trị

Hình 1.8 Kiến trúc của hệ thống chẩn đoán ung thư vú được đề xuất [33]

“Machine Learning Applied to Cervical Cancer Data” [34]

Vào năm 2019, Dhwaani Parikh và Vineet Menon đã xây dựng mô hình Machine Learning để áp dụng vào bộ dữ liệu ung thư cổ tử cung Mô hình được xây dựng dựa trên 3 thuật toán Machine Learning: K-NN, Decision Tree, Random Forest Trong quá trình phân tích ban đầu, người ta thấy rằng tập dữ liệu bị sai lệch

do đó xác thực chéo k lần được thực hiện Đối với k-NN tập dữ liệu được chia

50-50 Feature Selection được thực hiện và các đặc tính đã chọn được sử dụng để dự

Trang 34

18

đoán Đối với thuật toán Decision Tree và Random Forest, dữ liệu được tách

25-75 Việc điều chỉnh tham số được thực hiện để có được dự đoán tốt nhất với điểm đánh giá tối ưu Các tác giả cũng sử dụng thuật toán Hill Climbing để chọn các đặc tính Thuật toán được sử dụng đã tối ưu hóa toán học và áp dụng tìm kiếm heuristic trong trí tuệ nhân tạo

“BOADICEA: a comprehensive breast cancer risk prediction model

incorporating genetic and nongenetic risk factors” [35]

Bài báo này đã sử dụng một mô hình Breast and Ovarian Analysis of Disease Incidence and Carrier Estimation Algorithm (BOADICEA) kết hợp với gen di truyền cùng với các yếu tố nguy cơ và tiền sử gia đình của bệnh nhân để dự báo nguy cơ ung thư vú một cách toàn diện

“Machine learning Technique for detection of Cervical Cancer using k-NN and Artificial Neural Network” [36]

Một mô hình học máy được đề xuất bởi hai nhà khoa học Priyanka K Malli và

Dr Suvarna Nandyal sử dụng thuật toán K-NN và Artificial Neural Network để phát hiện ung thư cổ tử cung Việc phát hiện ung thư cổ tử cung bằng xét nghiệm đốm tế bào vi mô (dịch lấy từ cổ tử cung) [36] [19] Do đó, kỹ thuật xử lý hình ảnh kỹ thuật

số mức độ cao được yêu cầu xác định các bất thường trong hệ thống phát hiện ung thư liên quan đến tế bào của con người Kỹ thuật được đề xuất cung cấp các đặc điểm về màu sắc và hình dạng của nhân và tế bào chất của tế bào cổ tử cung Nhân

và tế bào chất được tách ra khỏi tế bào sử dụng kỹ thuật dựa trên Fuzzy tiên tiến KNN và ANN được huấn luyện với các đặc điểm hình dạng và đặc điểm màu sắc của các đơn vị phân đoạn của tế bào và sau đó một mẫu tế bào cổ tử cung chưa biết được phân loại bằng kỹ thuật này Kết quả phân loại cho thấy độ chính xác là 88,04% đối với KNN và 54% đối với ANN Mô hình được đề xuất có thể được nâng cao hơn nữa bằng cách sử dụng các bộ phân loại khác

Những bài báo trên với mục đích tạo ra mô hình dự đoán bệnh ung thư như ung thư phổi, vú, cổ tử cung được thu thập trong những năm 2021-2019 đã áp dụng những phương pháp xử lý dữ liệu và các thuật toán học máy mới nhất cho bài toán của họ Với độ chính xác trên 95%, nhận thấy các bài báo trên rất phù hợp làm cơ

sở cho khóa luận này, đáng chú ý là phương pháp của các bài [25], [26], [27], [28],

[29]

Trang 35

19

1.6 Bố cục của khóa luận

Chương I: Tổng quan đề tài nghiên cứu

Chương II: Cơ sở lý thuyết

Chương III: Đề xuất phương pháp xử lý dữ liệu không cân bằng với mô

hình logit

Chương IV: Cài đặt và thử nghiệm

Chương V: Kết luận và hướng phát triển

1.7 Kết luận chương

Chương này trình bày tổng quan về thực trạng bệnh ung thư và cụ thể là ung thư cổ cung đang cướp đi mạng sống của hàng nghìn người mỗi năm Bên cạnh đó, trình bày về phương hướng xây dựng mô hình chẩn đoán bệnh ung thư cổ tử cung Chương này cũng đã lựa chọn kỹ thuật AI về dự báo, làm cơ sở đưa ra giải pháp cho các bài toán chẩn đoán tương ứng Song song đó, chương này cũng trình bày một số công trình nghiên cứu liên quan đã được công bố trong giai đoạn gần đây

Bài toán phân lớp theo mô hình logit trong Deep Learning

Trang 36

20

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Ung thư cổ tử cung và những vấn đề về ung thư cổ tử cung

2.1.1 Sơ lược về ung thư

Ung thư [37] là một thuật ngữ chung cho một nhóm lớn các bệnh có thể ảnh hưởng đến bất kỳ bộ phận nào của cơ thể Các thuật ngữ khác được sử dụng là khối

u ác tính và khối u Đặc điểm bệnh ung thư là sự tạo ra nhanh chóng của các tế bào bất thường phát triển vượt ra ngoài ranh giới thông thường của chúng, và sau đó có thể xâm lấn các bộ phận liền kề của cơ thể và lây lan sang các cơ quan khác – quá trình sau này được gọi là di căn Di căn là nguyên nhân chính gây tử vong do ung thư

2.1.2 Ung thư cổ tử cung

Cổ tử cung [38] là bộ phận nằm giữa tử cung và âm đạo, có độ dài khoảng 5cm là nơi ngăn chặn các bệnh lây truyền qua đường tình dục Đầu mở của cổ tử cung thông với âm đạo, được bao phủ bởi một lớp mô mỏng, lớp mô này được tạo thành từ các tế bào

Ung thư cổ tử cung [4] là một bệnh lý ác tính của tế bào gai hoặc biểu mô tuyến cổ tử cung, hình thành khi các tế bào ở cổ tử cung phát triển bất thường, tạo

ra khối u trong cổ tử cung, nhân lên vô kiểm soát và xâm lấn khu vực xung quanh, thậm chí di căn đến các bộ phận khác trong cơ thể Độ tuổi thường hay mắc phải ung thư cổ tử cung là từ 30-59, đỉnh điểm là 48-52 tuổi

Hình 2.1 Cổ tử cung trước và sau khi bị ung thư

Trang 37

21

2.1.3 Nguyên nhân gây ung thư cổ tử cung

Nguyên nhân chủ yếu gây ra ung thư cổ tử cung [4] là do virus Human Papillomavirus (HPV) Gần 99% bệnh nhân ung thư cổ tử cung bị nhiễm virus HPV Trong đó virus HPV tuýp 16 và 18 chiếm đến 70% nguyên nhân gây ung thư

cổ tử cung

Virus HPV có thể lây truyền khi tiếp xúc trực tiếp qua da, qua quan hệ tình dục, bao gồm cả âm đạo, hậu môn, miệng và tay

2.1.4 Các yếu tố nguy cơ

Đã có rất nhiều nghiên cứu về nguy cơ mắc ung thư cổ tử cung, dưới đây là một số yếu tố làm tăng nguy cơ mắc bệnh [4]:

• Quan hệ tình dục sớm hoặc quan hệ tình dục với nhiều người

• Mang thai sớm hoặc mang thai nhiều lần

• Hút thuốc lá

• Suy giảm miễn dịch, yếu tố nội tiết

• Mắc bệnh lây lan qua đường tình dục

• Lạm dụng thuốc tránh thai trong thời gian dài

• Vệ sinh cá nhân kém

2.1.5 Dấu hiệu của bệnh

Tương tự các loại ung thư khác, ung thư cổ tử cung ở giai đoạn đầu hầu như không có triệu chứng điển hình Khi có dấu hiệu rõ ràng, ung thư đã phát triển và lan rộng Dưới đây là những dấu hiệu nhận biết của ung thư cổ tử cung [39]:

Trang 38

22

Hình 2.2 Một số dấu hiệu nhận biết của ung thư cổ tử cung [39]

2.1.6 Các giai đoạn phát triển của bệnh [39], [40]

Hình 2.3 Các giai đoạn ung thư cổ tử cung [40]

2.1.7 Phòng ngừa ung thư cổ tử cung [4]

Để phòng tránh nguy cơ mắc bệnh, nữ giới nên tránh các yếu tố nguy cơ, không quan hệ tình dục sớm, hạn chế số lượng bạn tình, thực hiện quan hệ tình dục

an toàn bằng cách sử dụng bao cao su và dụng cụ bảo vệ răng miệng, tránh quan hệ tình dục với những người có nhiều bạn tình cũng như những người bị mắc bệnh tình dục và không hút thuốc lá

Trang 39

23

Ngoài ra, nguyên nhân chủ yếu gây ra ung thư cổ tử cung là do lây nhiễm virus HPV Vì thế, cách phòng ngừa ung thư cổ tử cung đơn giản và hiệu quả là tiêm vắc xin phòng HPV Độ tuổi tiêm vắc xin HPV là từ 9-26 tuổi

2.2 Tổng quan về trí tuệ nhân tạo và mô hình logit

2.2.1 Trí tuệ nhân tạo

Như đã trình bày ở phần mở đầu của luận văn, trí tuệ nhân tạo [1] là trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành

vi thông minh như con người Trí tuệ nhân tạo khác với việc lập trình logic trong các ngôn ngữ lập trình là ở việc ứng dụng các hệ thống học máy để mô phỏng trí tuệ của con người trong các xử lý mà con người làm tốt hơn máy tính

Hình 2.4 Trí tuệ nhân tạo – AI [1]

Cùng với sự phát triển xã hội hiện đại như ngày nay, AI đã không còn là một

từ ngữ xa lạ Công nghệ ngày càng lớn mạnh, AI càng đi sâu vào nhiều lĩnh vực của đời sống con người chẳng hạn như sức khỏe, kinh doanh, giáo dục, sản xuất, Amazon Go là một minh chứng rõ ràng nhất của AI, khi khách hàng không cần phải xếp hàng mà chỉ cần đăng nhập vào tài khoản Amazon Go, lấy các sản phẩm cần thiết và rời đi Các thao tác thanh toán, gửi hóa đơn được thực hiện một cách chính xác, tự động và không cần phải nhờ đến sự trợ giúp của con người Với tốc độ phát triển cao như vậy thì trong tương lai AI chắc chắn sẽ đạt được nhiều thành tựu hơn nữa

Trang 40

24

2.2.2 Machine Learning

Học máy (Machine Learning) [41] là một tập hợp con của AI cung cấp cho máy tính khả năng tự động học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể Do đó, học máy là một phương pháp giúp máy móc giải quyết vấn đề bằng cách đạt được khả năng suy nghĩ

Hình 2.5 Các lĩnh vực ứng dụng của Machine Learning [42]

Machine Learning thường được phân thành hai nhóm chính là dựa trên phương thức học và dựa trên chức năng của mỗi thuật toán [43] Nhóm thứ nhất – dựa trên phương thức học lại được chia làm bốn nhóm rất phổ biến:

• Supervised Learning (Học có giám sát)

• Unsupervised Learning (Học không giám sát)

• Semi-Supervised Learning (Học bán giám sát)

• Reinforcement Learning (Học Củng Cố)

Nhóm thứ hai dựa trên chức năng của các thuật toán như:

• Regression Algorithms

• Classification Algorithms

Tiêu đề	Xây Dựng Bài Toán Chẩn Đoán Ung Thư Cổ Tử Cung Sử Dụng Mô Hình Logit Trong Deep Learning
Tác giả	Võ Phạm Huyền Khanh
Người hướng dẫn	TS. Lê Xuân Trường, ThS. Lê Ngọc Hiếu
Trường học	Trường Đại Học Mở Thành Phố Hồ Chí Minh
Chuyên ngành	Khoa Học Máy Tính
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	106
Dung lượng	3,48 MB