1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng thuật toán XGBoost vào dự đoán tế bào bất thường ở cổ tử cung

75 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 2,19 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC QUY NHƠN NGỤY VŨ PHƯƠNG MAI ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Bình Định – Năm 2022... M

Trang 1

TRƯỜNG ĐẠI HỌC QUY NHƠN

NGỤY VŨ PHƯƠNG MAI

ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG

LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG

Bình Định – Năm 2022

Trang 2

NGỤY VŨ PHƯƠNG MAI

ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG

Ngành : Khoa học dữ liệu ứng dụng

Mã số : 8904648

Người hướng dẫn: GS NGUYỄN THANH THỦY

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu và thực hiện luận văn thực sự

của riêng tôi, dưới sự hướng dẫn của GS Nguyễn Thanh Thủy Mọi tham

khảo từ các nguồn tài liệu, công trình nghiên cứu liên quan trong nước và quốc

tế đều được trích dẫn một cách rõ ràng trong luận văn Mọi sao chép không hợp

lệ hay vi phạm quy chế tôi xin hoàn toàn chịu trách nhiệm và chịu mọi kỷ luật của trường Đại học Quy Nhơn

Bình Định, ngày tháng năm 2022

Học viên

Ngụy Vũ Phương Mai

Trang 4

LỜI CẢM ƠN

Trong quá trình thực hiện và hoàn thiện luận văn này, tôi xin gửi lời cảm

ơn chân thành nhất đến các thầy cô trong Khoa Toán và Khoa Công nghệ Thông tin Trường Đại học Quy Nhơn cũng như các thầy thính giảng ở các trường, các viện ở Thành phố Hồ Chính Minh đã cung cấp cho tôi những kiến thức quý báu trong suốt 2 năm học vừa qua

Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc nhất tới GS Nguyễn Thanh Thủy đã dành nhiều thời gian vô cùng quý báu để định hướng và hướng dẫn

tôi tận tình cũng như tạo điều kiện thuận lợi để tôi có thể hoàn thành tốt nhất luận văn của mình

Tôi xin chân thành cảm ơn!

Học viên thực hiện

Ngụy Vũ Phương Mai

Trang 5

MỤC LỤC TRANG PHỤ BÌA

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC BẢNG BIỂU

DANH MỤC HÌNH VẼ, ĐỒ THỊ

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 3

1.1 Đặt vấn đề 3

1.2 Một số kết quả nghiên cứu trong và ngoài nước 4

1.2.1 Kết quả nghiên cứu trên thế giới 4

1.2.2 Kết quả nghiên cứu trong nước 5

1.3 Mục tiêu luận văn 5

1.4 Đối tượng và phương pháp nghiên cứu 5

1.5 Ý nghĩa của đề tài 5

1.5.1 Ý nghĩa khoa học 5

1.5.2 Ý nghĩa thực tiễn 6

1.6 Bố cục luận văn 6

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 8

2.1 Tổng quan về phân tích dữ liệu 8

2.1.1 Phân tích dữ liệu là gì? 8

2.1.2 Tại sao phải phân tích dữ liệu? 8

2.1.3 Quy trình phân tích dữ liệu 9

2.1.4 Các loại hình phân tích 11

2.2 Ứng dụng học máy trong phân tích dữ liệu 14

2.2.1 Khái niệm học máy (Machine Learning) 14

Trang 6

2.2.2 Các loại thuật toán học máy 14

2.2.3 Ứng dụng 15

2.3 Phân tích dữ liệu trong y khoa 15

2.3.1 Phân tích hình ảnh trong y khoa 15

2.3.2 Nghiên cứu di truyền học 16

2.3.3 Điều chế thuốc 16

2.3.4 Phân tích và chẩn đoán bệnh 16

2.3.5 Trợ lý sức khỏe và ứng dụng chăm sóc sức khỏe 17

2.4 Thuật toán XGBoost 17

2.4.1 Cơ sở hình thành 17

2.4.2 Ưu điểm của thuật toán 19

2.4.3 Ứng dụng của thuật toán trong các lĩnh vực 20

2.5 Đánh giá mô hình 20

2.5.1 Độ đo dùng trong phân loại 20

2.5.2 ROC (Receiver Operating Characteristic) và AUC (Area Under The Curve) 22

2.5.3 Đánh giá mô hình bằng kiểm tra chéo 23

2.6 Cơ sở dữ liệu y khoa 25

2.6.1 Mối liên quan giữa tế bào bất thường và bệnh ung thư cổ tử cung 25

2.6.2 Đặc điểm lâm sàng và cận lâm sàng cổ tử cung 25

CHƯƠNG 3: MÔ HÌNH DỰ BÁO TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG 27

3.1 Phát biểu bài toán 27

3.2 Ứng dụng học máy phân tích dữ liệu bài toán tế bào bất thường 28

3.2.1 Hiểu bài toán 28

3.2.2 Hiểu dữ liệu 29

Trang 7

3.2.3 Chuẩn bị dữ liệu 37

3.2.4 Mô hình hóa 42

3.2.5 Đánh giá mô hình 43

3.3 Thực nghiệm mô hình 50

3.3.1 Tập dữ liệu toàn bộ 50

3.3.2 Tập thử nghiệm với bộ dữ liệu mới hoàn toàn 52

KẾT LUẬN VÀ KIẾN NGHỊ 57

DANH MỤC TÀI LIỆU THAM KHẢO 59 PHỤ LỤC

QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO)

Trang 8

DANH MỤC BẢNG BIỂU

Bảng 3.1 Kiểu dữ liệu của các thuộc tính………39

Trang 9

DANH MỤC HÌNH VẼ, ĐỒ THỊ

Hình 2.1 Mô tả quy trình phân tích dữ liệu 11

Hình 2.2 Ví dụ về phân tích mô tả 12

Hình 2.3 Ví dụ về phân tích dự đoán 13

Hình 2.4 Ví dụ về phân tích đề xuất 14

Hình 2.5 Tổng quan về XGBoost 17

Hình 2.6 Các tính năng của XGBoost 18

Hình 2.7 Mô hình dự đoán sử dụng Gradient Boosting 19

Hình 2.8 Bảng mô tả ma trận nhầm lẫn 21

Hình 2.9 Ví dụ về đường cong ROC và AUC 23

Hình 3.1 Mô hình xây dựng giải pháp hỗ trợ chẩn đoán bệnh 28

Hình 3.2 Tập dữ liệu thu thập được 29

Hình 3.3 Đặc điểm nơi cư trú 30

Hình 3.4 Dân tộc 30

Hình 3.5 Trình độ học vấn 31

Hình 3.6 Kinh tế gia đình 31

Hình 3.7 Triệu chứng cơ năng 32

Hình 3.8 Triệu chứng thực thể 32

Hình 3.9 Tình trạng kinh nguyệt 33

Hình 3.10 Tuổi giao hợp lần đầu 34

Hình 3.11 Tiền sử bệnh viêm nhiễm phụ khoa 35

Hình 3.12 Phân tích mối tương quan trong tập dữ liệu 36

Hình 3.13 Tập dữ liệu đủ tiêu chuẩn cuối cùng 39

Hình 3.14 Mức độ quan trọng của các thuộc tính ảnh hưởng đến kết quả 44

Hình 3.15 Biểu đồ mất mát đường cong học tập XGBoost 46

Hình 3.16 Biểu đồ lỗi phân loại đường cong học tập XGBoost 46

Trang 10

Hình 3.17 Ma trận nhầm lẫn 47

Hình 3.18 Đường cong Precision – Recall 48

Hình 3.19 Biểu đồ ROC-AUC của mô hình 49

Hình 3.20 Ma trận nhầm lẫn trên tập dữ liệu toàn bộ 50

Hình 3.21 Biểu đồ đường cong Precision – Recall trên tập dữ liệu toàn bộ 51

Hình 3.22 Đường cong ROC trên tập dữ liệu toàn bộ 52

Hình 3.23 Ma trận nhầm lẫn trên tập thử nghiệm mới hoàn toàn 53

Hình 3.24 Biểu đồ đường cong Precision – Recall trên tập dữ liệu thực nghiệm mới hoàn toàn 54

Hình 3.25 Đường cong ROC trên tập dữ liệu thực nghiệm mới hoàn toàn 55

Trang 11

MỞ ĐẦU

Những năm gần đây, việc ứng dụng công nghệ thông tin trong hầu hết các lĩnh vực đều được quan tâm và đầu tư, mang lại hiệu quả rõ rệt Trong số đó, lĩnh vực y tế đã có nhiều chuyển biến tích cực trong công tác điều hành, quản

lý, đặc biệt là chẩn đoán Nhờ vào ứng dụng công nghệ thông tin, trình độ chuyên môn của bác sĩ, y tá được nâng cao; các phương tiện để chẩn đoán và điều trị cũng được tự động hóa đem lại sự thoải mái cho bệnh nhân Đây cũng chính là tiền đề để ứng dụng các thành tựu của công nghệ thông tin hiệu quả và mạnh mẽ hơn nữa

Lĩnh vực y tế trên thế giới đã đạt được những thành tựu đột phá nhờ ứng dụng công nghệ thông tin, đặc biệt là ứng dụng trí tuệ nhân tạo, học máy trong chẩn đoán và điều trị bệnh Một ví dụ điển hình như sử dụng dữ liệu từ bệnh nhân kết hợp thuật toán học máy để tạo ra ứng dụng chẩn đoán sớm bệnh Alzheimer trước khi các triệu chứng bắt đầu can thiệp vào cuộc sống hàng ngày của bệnh nhân Vì vậy, việc phát triển ứng dụng trí tuệ nhân tạo trong y tế là điều vô cùng cần thiết và cấp thiết

Hiện nay, ung thư đang là căn bệnh nguy hiểm với tỉ lệ tử vong là không nhỏ Điều đáng lo ngại là căn bệnh này thường khó nhận ra khi ở giai đoạn sớm

và chưa có thuốc đặc trị hay phòng bệnh hoàn toàn Ngoài ra, những khu vực vùng sâu vùng xa, những nơi chăm sóc sức khỏe còn thiếu về năng lực lẫn máy móc thiết bị càng hạn chế việc bệnh nhân có đủ cơ hội thăm khám thường xuyên sức khỏe của mình

Trong bối cảnh đó, đề tài nghiên cứu và đưa ra một công cụ giúp bệnh nhân phát hiện ra sớm những bất thường trong cơ thể để kịp thời có hướng xử

lý Cụ thể hơn là nghiên cứu về tế bào bất thường ở cổ tử cung – nguyên nhân

Trang 12

gây ra bệnh lý ung thư cổ tử cung ở phụ nữ, khá phổ biến ở nữ giới cùng với ung thư vú

Nghiên cứu tiến hành theo các bước chính: Tìm hiểu nghiệp vụ y tế liên quan đến tế bào bất thường ở cổ tử cung; Thu thập và xử lý dữ liệu; Tìm hiểu

và áp dụng thuật toán XGBOOST vào bài toán; Xây dựng mô hình học máy dự đoán; Thực nghiệm và đánh giá mô hình

Trang 13

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI

1.1 Đặt vấn đề

Khoa học dữ liệu là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, có cấu trúc hay phi cấu trúc [2] Khoa học dữ liệu sử dụng các kỹ thuật để khai phá dữ liệu tạo ra các tri thức hữu ích, giúp có thêm thông tin mới, hỗ trợ ra quyết định Trên thực tế, Khoa học dữ liệu là sự tiếp nối của phân tích dữ liệu dựa trên khoa học thống kê, khai phá dữ liệu khám phá tri thức trong các cơ sở dữ liệu

Theo Tổ chức Y tế Thế giới (WHO), ung thư cổ tử cung là nguyên nhân hàng đầu gây tử vong ở phụ nữ, chiếm 12% trong các ung thư ở nữ giới và 85% trường hợp xảy ra ở nước đang phát triển Năm 2012, có 528.000 trường hợp ung thư mới được chẩn đoán và 266.000 phụ nữ tử vong , cứ mỗi phút có 2 phụ

nữ tử vong vì ung thư cổ tử cung Việt Nam cũng có 5.664 phụ nữ mắc bệnh

và tỷ lệ mắc mới là 13,6/100.000 dân Tại Cần Thơ và Đồng bằng sông Cửu Long có tỷ lệ mắc mới là 17,1/100.000 dân Bệnh đang có xu hướng gia tăng nhưng thường phát hiện ở giai đoạn muộn nên biện pháp can thiệp sẽ kém hiệu quả và tỷ lệ tử vong tăng Nhiều nơi trên thế giới không có chương trình sàng lọc tế bào cổ tử cung – âm đạo Chỉ có dưới 5% phụ nữ ở các nước đang phát triển đã từng được làm phết tế bào cổ tử cung Ngược lại, theo một báo cáo, tới 89% phụ nữ ở Mỹ từng được làm phết tế bào cổ tử cung ít nhất một lần trong vòng 3 năm trở lại đây [2] [24] [25]

Mặc dù bệnh rất nguy hiểm nhưng hầu hết ung thư cổ tử cung có thể phòng tránh được Một trong những cách phòng tránh hiệu quả căn bệnh này là phát hiện và điều trị sớm các tổn thương tiền ung thư trước khi chúng trở thành ung thư bằng các xét nghiệm sàng lọc [3] [20] - xét nghiệm PAP Xét nghiệm PAP ( Phết tế bào cổ tử cung) là xét nghiệm tế bào học để tìm những tế bào bất thường trong lớp biểu mô cổ tử cung Mục đích của việc này là để phát hiện ung

Trang 14

thư cổ tử cung – một bệnh lý ác tính rất thường gặp ở phụ nữ, nhất là ở các nước đang phát triển Đây là một xét nghiệm đơn giản, thường được thực hiện giúp sàng lọc phát hiện sớm tổn thương tiền ung thư hoặc ung thư cổ tử cung giai đoạn sớm ở phụ nữ trước khi chúng có thể chuyển thành ung thư xâm lấn,

để có thể điều trị khỏi hoàn toàn Do đó, giảm số bệnh nhân chết vì ung thư cổ

tử cung, có thể tiến hành điều trị và ngăn chặn trước khi nó bắt đầu ung thư [10] [19]

Phần trăm rủi ro mắc bệnh ung thư cổ tử cung khi có tế bào bất thường

ở cổ tử cung được cho là đáng báo động Vậy giải pháp nào cho bệnh nhân có kinh tế thấp khi chi phí xét nghiệm PAP hàng năm khá lớn và cho những bệnh nhân ở nơi không có chương trình sàng lọc này?

Vậy, cùng với tính ứng dụng của khoa học dữ liệu vào thực tiễn, luận văn này có mục tiêu nghiên cứu, thử nghiệm ứng dụng thuật toán XGBOOST xây dựng mô hình học máy vào việc dự đoán tế bào bất thường ở cổ tử cung để thông báo cũng như cảnh báo tình trạng sức khỏe của bệnh nhân để bệnh nhân kịp thời kiểm tra và phát hiện sớm để điều trị

1.2 Một số kết quả nghiên cứu trong và ngoài nước

1.2.1 Kết quả nghiên cứu trên thế giới

Nhiều ứng dụng trên thế giới được cho ra đời để hỗ trợ chẩn đoán nhanh

và điều trị bệnh tốt hơn như Hệ thống chuyên gia y tế DiagnosisPro [26]; Hệ thống chẩn đoán y tế Caduceus của Harry Pope [27]; PSG-Expert (2000) chẩn đoán bệnh mất ngủ [9]; Naser xây dựng một hệ thống chẩn đoán bệnh về da (2008) [22]; BI-RADS (2007) chẩn đoán ung thư vú [17]; PUFF (1982) dùng

để phân tích kết quả xét nghiệm chức năng phổi [23]; MYCIN (1973) hỗ trợ chẩn đoán bệnh nhiễm trùng máu [15];…

Trang 15

1.2.2 Kết quả nghiên cứu trong nước

Việc ứng dụng công nghệ thông tin trong y tế những năm gần đây ở Việt Nam đang dần được phát triển Cụ thể một số nghiên cứu như: hệ thống hỗ trợ kiểm tra đơn thuốc [5], hỗ trợ ra quyết định trong việc chẩn đoán lâm sàng [4],

hỗ trợ xác định gen ảnh hưởng ung thư vú [7]

1.3 Mục tiêu luận văn

Đề tài tập trung vào nghiên cứu tổng quan về thuật toán học máy XGBOOST, các kỹ thuật chính liên quan tới thuật toán XGBOOST cũng như tiềm năng của ứng dụng trong thực tiễn Ngoài ra, tìm hiểu database (cơ sở dữ liệu) y khoa về

tế bào bất thường ở cổ tử cung, bệnh ung thư cổ tử cung và phân tích các yếu

tố liên quan tế bào bất thường cổ tử cung cũng như thu thập dữ liệu bệnh nhân Trên cơ sở đó, đề xuất giải pháp dùng thuật toán XGBOOST xây dựng mô hình

dự đoán tế bào bất thường ở cổ tử cung dựa trên dữ liệu đã có Việc xây dựng

hệ thống thử nghiệm, đánh giá chất lượng, độ hiệu quả của hỗ trợ dự đoán cũng

là mục tiêu chính của đề tài

1.4 Đối tượng và phương pháp nghiên cứu

Đề tài tập trung phân tích dữ liệu, nghiên cứu thuật toán Xgboost nhằm

để áp dụng vào việc xây dựng mô hình dự đoán bệnh trong y khoa Luận văn cũng thu thập dữ liệu bệnh nhân đã từng đến khám và điều trị tại Bệnh viện Phong – Da liễu Trung ương Quy Hòa

Bên cạnh đó, sử dụng phương pháp thu thập số liệu, phương pháp phân tích và tổng hợp, phương pháp thực nghiệm cùng với sự hỗ trợ chuyên môn của các bác sĩ chuyên môn

1.5 Ý nghĩa của đề tài

1.5.1 Ý nghĩa khoa học

Đề tài góp phần hỗ trợ cho các y bác sĩ chẩn đoán cũng như phát hiện sớm những bất thường trong cơ thể cho bệnh nhân Ngoài ra cũng mong muốn

Trang 16

rằng những người đang công tác trong lĩnh vực Y học và Khoa học dữ liệu cùng nhau phối hợp tìm ra những giải pháp tốt hơn nữa trong vấn đề chẩn đoán và điều trị bệnh bằng cách kết hợp hai lĩnh vực với nhau

1.5.2 Ý nghĩa thực tiễn

Trong y học, chẩn đoán và phát hiện ra bệnh là cả một quá trình và các bác sĩ không những phải nắm vững chuyên môn mà còn cần phải có đầy đủ trang thiết bị y tế mới chẩn đoán chính xác bệnh Việc chẩn đoán sai dẫn đến việc điều trị sai hoặc không tìm ra bệnh, gây ra những tổn thất lớn về mặt vật chất lẫn tinh thần của bệnh nhân và gia đình họ Việc phát hiện ra bệnh sớm và chính xác thì tỉ lệ chữa khỏi sẽ tăng lên đồng thời cũng giúp cho bệnh nhân và gia đình họ đưa ra những quyết định điều trị thích hợp

Vì vậy, chẩn đoán và phát hiện sớm bệnh sẽ phần nào giúp các y bác sĩ đưa ra các hướng điều trị phù hợp, hiệu quả Đồng thời cảnh báo và tư vấn giúp bệnh nhân tránh khỏi những biến chứng nguy hiểm cũng như giảm được gánh nặng về mặt kinh tế cho bệnh nhân và xã hội

1.6 Bố cục luận văn

Luận văn bao gồm các phần sau:

MỞ ĐẦU

Chương 1: Tổng quan đề tài

Giới thiệu về những vấn đề liên quan đến phân tích dữ liệu (Data Analytics), cơ sở hình thành đề tài, mục tiêu, đối tượng nghiên cứu, phương pháp nghiên cứu, ý nghĩa thực tiễn và bố cục luận văn

Chương 2: Cơ sở lý thuyết

- Tổng quan về phân tích dữ liệu

- Ứng dụng học máy trong phân tích dữ liệu

- Phân tích dữ liệu trong Y khoa

Trang 17

- Thuật toán XGBOOST và ứng dụng của nó trong các lĩnh vực khác nhau

Chương 3 Mô hình dự báo tế bào bất thường ở cổ tử cung

Trong chương này, luận văn trình bày về bài toán dự đoán nguy cơ có tế bào bât thường ở cổ tử cung và các kỹ thuật chính sử dụng thuật toán

XGBOOST:

- Hiểu nghiệp vụ, xác định mục tiêu và yêu cầu của bài toán;

- Hiểu dữ liệu : thu thập và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất lượng của dữ liệu

- Chuẩn bị dữ liệu: xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy mô hình và phân tích

- Mô hình hoá: Lựa chọn và áp dụng các kỹ thuật cùng phương pháp phù hợp, sau đó xây dựng mô hình phân tích dữ liệu, …

- Đánh giá mô hình để đánh giá kết quả thu được từ mô hình, đánh giá mô hình đã đáp ứng được mục tiêu đã đề ra hay chưa, phân tích các chỉ số đạt được của mô hình và đưa quyết định về việc sử dụng kết quả phân tích vào thực tế

KẾT LUẬN VÀ KIẾN NGHỊ

Trang 18

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về phân tích dữ liệu

2.1.1 Phân tích dữ liệu là gì?

Phân tích dữ liệu (Data Analytics) là hoạt động biến dữ liệu thô, lộn xộn thành thông tin chi tiết hữu ích bằng cách dọn dẹp dữ liệu, chuyển đổi và kiểm tra dữ liệu Sau đó, thông tin chi tiết thu thập từ dữ liệu được trình bày trực quan dưới dạng biểu đồ, đồ thị hoặc trang tổng quan với mục tiêu giúp hỗ trợ

sự phát triển và hỗ trợ việc đưa ra quyết định của một công ty hoặc tổ chức

Phân tích dữ liệu có nhiều khía cạnh và nhiều cách tiếp cận, bao gồm các

kỹ thuật đa dạng dưới nhiều tên gọi khác nhau và được sử dụng trong các lĩnh vực kinh doanh khoa học va khoa học xã hội khác nhau Tất cả các phương pháp phân tích dữ liệu khác nhau này đều dựa trên hai lĩnh vực cốt lõi: phương pháp định lượng và định tính trong nghiên cứu

Về cốt lõi, phân tích dữ liệu là xác định và dự đoán các xu hướng, tìm ra các mẫu, mối tương quan và mối quan hệ trong dữ liệu có sẵn, đồng thời tìm ra giải pháp cho các vấn đề phức tạp

2.1.2 Tại sao phải phân tích dữ liệu?

Phân tích dữ liệu được ứng dụng vào tất cả các ngành nghề trong hiện tại Việc này rất quan trọng và mang lại tiềm năng lớn cho doanh nghiệp hoặc

tổ chức Cụ thể:

a Ra quyết định có cơ sở : Từ góc độ quản lý, chúng ta có thể hưởng lợi

từ việc phân tích dữ liệu của mình vì nó giúp đưa ra quyết định dựa trên thực

tế chứ không phải trực giác đơn thuần Ví dụ: Ta có thể hiểu nơi đầu tư vốn của mình, phát hiện các cơ hội tăng trưởng, dự đoán thu nhập của mình hoặc giải quyết các tình huống rủi ro trước khi chúng trở thành sự thật

b Giảm chi phí và tiết kiệm thời gian: Một lợi ích lớn khác là giảm chi

phí Điển hình là khi nhờ sự trợ giúp của các công nghệ tiên tiến như phân tích

Trang 19

dự đoán, các doanh nghiệp hay tổ chức có thể phát hiện ra các cơ hội, xu hướng

và mô hình cải tiến trong dữ liệu của mình; từ đó lập kế hoạch chiến lược cho phù hợp mà không tốn nhiều thời gian Điều này sẽ giúp chúng ta tiết kiệm tiền bạc và nguồn lực để thực hiện các chiến lược Không chỉ vậy, trong các tình huống khác nhau như số lượng hàng bán ra và nhu cầu mua vào, bạn cũng có thể dự đoán sản lượng và nguồn cung

c Nhắm mục tiêu khách hàng tốt hơn: Khách hàng được cho là yếu tố

quan trọng nhất trong bất kỳ doanh nghiệp nào Bằng cách sử dụng phân tích

để có được tầm nhìn tổng quát về tất cả các khía cạnh liên quan đến khách hàng của mình, chúng ta có thể hiểu họ sử dụng kênh nào để giao tiếp với ta, sở thích, thói quen, hành vi mua hàng của họ v.v Về lâu dài, nó sẽ thúc đẩy thành công cho các chiến lược tiếp thị của chúng ta, hỗ trợ ta xác định khách hàng tiềm năng mới và tránh lãng phí nguồn lực vào việc nhắm mục tiêu sai người hoặc gửi sai thông điệp Ngoài ra còn có thể theo dõi mức độ hài lòng của khách hàng bằng cách phân tích đánh giá của khách hàng v.v

2.1.3 Quy trình phân tích dữ liệu

Phân tích dữ liệu bao gồm các giai đoạn sau:

a Giai đoạn 1: Hiểu nghiệp vụ (Business Understanding)

Trước hết, cần tìm ra mục đích của việc thực hiện phân tích dữ liệu và quyết định loại phân tích dữ liệu nào mà ta muốn thực hiện Trong giai đoạn này, ta cần quyết định những gì cần phân tích và làm thế nào để đo lường nó, phải hiểu lý do tại sao ta đang điều tra và những biện pháp ta phải sử dụng để thực hiện phân tích này

b Giai đoạn 2: Hiểu dữ liệu (Data Understanding)

Thu thập và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất lượng của dữ liệu và một vài insights sơ bộ Việc thu thập dữ liệu có thể ở nhiều

Trang 20

dạng khác nhau như nguồn nội bộ hoặc bên ngoài, khảo sát, phỏng vấn, bảng câu hỏi,…

c Giai đoạn 3: Chuẩn bị dữ liệu (Data Preparation)

Mặc dù đã có được các dữ liệu cần thiết, nhưng không phải bất kì dữ liệu nào được thu thập cũng hữu ích và liên quan đến mục đích phân tích của chúng

ta Do đó, cần xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy

mô hình và phân tích Việc chuẩn bị có thể bao gồm các thao tác như làm sạch, tổng hợp hoặc định dạng lại dữ liệu,… Giai đoạn này cần phải được thực hiện trước khi phân tích vì dựa trên việc làm sạch dữ liệu, kết quả phân tích của chúng ta sẽ gần hơn với kết quả mong đợi Có thể xử lý dữ liệu bằng các công

cụ như Excel, Google Sheets,…

d Giai đoạn 4: Mô hình hóa (Modeling)

Lựa chọn và áp dụng các kỹ thuật cùng phương pháp phù hợp, sau đó xây dựng mô hình phân tích dữ liệu Việc điều chỉnh các tham số để tối ưu hóa

mô hình cũng được thực hiện trong bước này

e Giai đoạn 5: Đánh giá (Evaluation)

Giai đoạn này sẽ đánh giá kết quả thu được từ mô hình, xem liệu mô hình

đã đáp ứng được mục tiêu đã đề ra ở giai đoạn đầu tiên hay chưa Xem xét lại

cả quá trình phân tích để biết đạt và chưa đạt ở chỗ nào và đưa ra quyết định về việc sử dụng kết quả phân tích và thực tế

f Giai đoạn 6: Triển khai giải pháp (Deployment)

Sau các bước trên, cuối cùng là cần biến kết quả cũng như các kiến thức của việc phân tích thành các quyết định hoặc những thông tin dễ hiểu cho người xem Tùy vào yêu cầu của bài toán, công việc của giai đoạn này rất đa dạng

Có thể chỉ đơn giản là một báo cáo nghiệp vụ hoặc phức tạp hơn là một công

cụ hay phần mềm chạy mô hình ra quyết định hàng ngày cho đối tượng sử dụng

Trang 21

Hình 2.1 Mô tả quy trình phân tích dữ liệu

2.1.4 Các loại hình phân tích

a Phân tích mô tả

Phân tích này là việc tập trung vào dữ liệu lịch sử để làm rõ hơn những thay đổi xảy ra trong một doanh nghiệp hay một tổ chức Phân tích mô tả hướng tới việc tóm tắt tình hình hoạt động, ví dụ như sự thay đổi của nguồn cầu theo năm, tỷ trọng doanh số hàng quý, số lượng người dùng hoặc tổng doanh thu trên mỗi khách hàng Những phép đo này đề mô tả những sự kiện đã xảy ra trong một doanh nghiệp trong một khoảng thời gian nhất định

Phân tích mô tả sử dụng chủ yếu các kỹ thuật trong Thống kê cơ bản và Trực quan hóa dữ liệu Sự đa dạng trong kĩ thuật cũng như trong cách thể hiện của phân tích mô tả đòi hỏi chúng ta phải biết vận dụng chúng một cách linh

Trang 22

hoạt, tùy thuộc vào bản chất của dữ liệu và quan trọng nhất là mục đích của việc phân tích

Hình 2.2 Ví dụ về phân tích mô tả

b Phân tích dự đoán

Phân tích dự đoán, một cách tổng quan, là việc dựa vào dữ liệu quá khứ

để xác định khả năng xảy ra của một hay nhiều sự kiện hoặc kết quả trong tương lại Vai trò của phân tích dự đoán rất lớn và nó gắn liền với một khái niệm rất hot trong những năm gần đây: Machine Learning (Học máy)

Ví dụ với câu hỏi về doanh số: Do phụ thuộc vào dữ liệu lịch sử, câu hỏi chính xác hơn mà phân tích dự đoán có thể trả lời được nên là “Doanh số năm tới sẽ là bao nhiêu với tình hình biến động doanh số như những năm vừa qua” hay đúng hơn nữa là “Doanh số năm tới sẽ như thế nào dự theo biến động những năm trước và tình hình hiện tại về nguồn lực mà công ty đang sở hữu”,…

Trang 23

Thực ra việc đề xuất giảm giá ở trên, trong nhiều tình huống, xuất phát

từ kinh nghiệm và trực giác của con người chứ không phải là kết quả của bất kì một công cụ tính toán nào Phân tích đề xuất khác với phân tích dự đoán ở điểm này, khi mà quyết định được đưa ra bởi các thuật toán

Trang 24

Phân tích đề xuất được định nghĩa là việc dựa và dữ liệu và các kĩ thuật nhằm tạo ra chuỗi các hành động tối ưu cho doanh nghiệp

Hình 2.4 Ví dụ về phân tích đề xuất

2.2 Ứng dụng học máy trong phân tích dữ liệu

2.2.1 Khái niệm học máy (Machine Learning)

Học máy là một công nghệ phát triển từ lĩnh vực trí tuệ nhân tạo Các thuật toán học máy là các chương trình trong đó máy tính có khả năng học hỏi

về cách hoàn thành các nhiệm vụ và cách cải thiện hiệu suất theo thời gian

Học máy vẫn đòi hỏi sự đánh giá của con người trong việc tìm hiểu dữ liệu cơ sở và lựa chọn các kĩ thuật phù hợp để phân tích dữ liệu Đồng thời, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch và không có dữ liệu giả

2.2.2 Các loại thuật toán học máy

Có hai loại thuật toán học máy chính bao gồm học có giám sát (supervised learning) và học không giám sát (unsupervised learning)

Trang 25

Ngoài ra, các thuật toán nhận dạng hình ảnh còn sử dụng để phân tích dữ liệu từ các hệ thống chụp ảnh vệ tinh để cung cấp thông tin về số lượng khách hàng, hoạt động vận chuyển,.v.v

2.3 Phân tích dữ liệu trong y khoa

Phân tích dữ liệu là một ngành có tính ứng dụng cao và có sức ảnh hưởng sâu rộng nhất hiện tại Ứng dụng của nó đóng vai trò đặc biệt quan trọng trong nhiều lĩnh vực, trong đó có lĩnh vực chăm sóc sức khỏe Một số các ứng dụng

có thể kể đến như:

2.3.1 Phân tích hình ảnh trong y khoa

Phân tích dữ liệu đã tạo nên một vùng ảnh hưởng sâu rộng đến với cách phân tích hình ảnh y khoa như MRI, CT-Scans, X-ray,….Trước đây, các bác sĩ nói chung và các bác sĩ chuẩn đoán hình ảnh nói riêng đã phải tự tìm kiếm những dấu hiệu bệnh bằng khả năng phán đoán của mình Trong khi đó, ngày nay, với sự phát triển của phân tích dữ liệu cùng với công nghệ máy tính, họ có

Trang 26

thể sử dụng nhiều máy móc có khả năng tự động nhận biết dấu hiệu bệnh hay bất thường từ hình ảnh

2.3.2 Nghiên cứu di truyền học

Ứng dụng những kỹ thuật phân tích thống kê để đưa ra kể quả về gen, cho phép các nhà nghiên cứu tin sinh học và di truyền học hiểu về ảnh hưởng của cấu trúc gen

Bên cạnh đó có thể giúp các nhà khoa học phân loại được những loại bệnh do gen bẩm sinh; cách mà các gen phản ứng với những loại thuốc Nguồn

dữ liệu dồi dào của ngành y học là môi trường để khoa học dữ liệu phát triển, sản sinh ra những ứng dụng tuyệt vời

2.3.3 Điều chế thuốc

Khâu quan trọng nhất nhì trong lĩnh vực y khoa là điều chế thuốc Chính

vì thế, sự góp mặt của phân tích dữ liệu vào công cuộc điều chế ra những dược liệu, loại thuốc mới là điều vô cùng cần thiết vì đây là lĩnh vực cực kì nhạy cảm

và phức tạp Chúng ta có thể phân tích những tổ hợp phức tạp hơn của thuốc hay tác dụng của thuốc lên gen để dự đoán kết quả phản ứng trong thực tế áp dụng

Phân tích dữ liệu còn có thể giúp con người đơn giản hóa quy trình điều chế và cung cấp được nguồn tư liệu về dược học Từ đó mang đến tỉ lệ thành công cao hơn cho quy trình điều chế thuốc mới

2.3.4 Phân tích và chẩn đoán bệnh

Khi ngành y tế - chăm sóc sức khỏe kết hợp với phân tích dữ liệu để có thể dự đoán chiều hướng bệnh trạng phát triển dựa trên tư liệu của bệnh nhân thì các bác sĩ, đội ngũ y tế có thể xâu chuỗi chúng với nhau tạo thành một vòng hữu ích và giá trị cho công tác khám chữa bệnh

Hiện nay cũng đã có nhiều phần mềm và ứng dụng trợ lý sức khỏe được xây dựng vào đời sống Các bác sĩ có thể nhờ đến một số công cụ để tính toán

Trang 27

phác đồ điều trị phù hợp cho bệnh nhân Công tác chẩn đoán bệnh cũng trở nên khoa học và chính xác hơn khi ứng dụng phân tích dữ liệu vào máy móc y khoa

2.3.5 Trợ lý sức khỏe và ứng dụng chăm sóc sức khỏe

Đây là ứng dụng của phân tích dữ liệu bằng việc dựa trên thông tin kết cấu đã được phân tích, chúng ta có thể tạo ra những cơ chế thông minh, trả lời lại những yêu cầu của người dùng Chúng ta có thể tạo ra những cỗ máy trả lời

bệnh nhân tự động hay chẩn đoán sơ bộ với điều khiển đặc biệt

2.4 Thuật toán XGBoost

2.4.1 Cơ sở hình thành

XGBoost là một thuật toán học máy mới, được thiết kế với tốc độ và hiệu suất cao XGBoost là viết tắt của eXtreme Gradient Boosting, nó đơn giản là giải thuật Decision trees, được cải thiện và phát triển bởi Tianqi Chen và Tong

He [11] dựa trên thuật toán GBM (Gradient Boosting Machines) của Jerome H Friedman [13][14][21]

Hình 2.5 Tổng quan về XGBoost

XGBoost có thể xây dựng các cây tăng cường một cách hiệu quả, hoạt động song song với nhau và có khả năng giải quyết các vấn đề hồi quy cũng

Trang 28

như phân loại Vấn đề cốt lõi của thuật toán này là tối ưu hóa giá trị của hàm mục tiêu Nó thực hiện các thuật toán học máy theo khung tăng cường độ dốc XGBoost có thể xử lý nhiều vấn đề khoa học dữ liệu với tốc độ huấn luyện nhanh và cho độ chính xác khá cao với các cây tăng cường song song

Bên cạnh đó, nếu Deep learning chỉ nhận đầu vào là raw data dạng numerical và ta thường xuyên phải đổi nó sang dạng n-vector trong không gian

số thực thì XGBoost nhận đầu vào là bảng dữ liệu (tabular datasets) với kích thước tùy ý bao gồm cả dữ liệu mô tả

Hình 2.6 Các tính năng của XGBoost

Hàm mục tiêu của XGBoost thường bao gồm 2 phần (hàm mất mát trong quá trình huấn luyện và bộ quy tắc) được thể hiện như sau:

Obj (Θ) = L (Θ) + Ω (Θ)

Trong đó, L là hàm mất mát trong quá trình huấn luyện;

Ω là bộ quy tắc của cây quyết định

Hàm mất mát hay còn gọi là tỉ lệ lỗi được sử dụng để đo hiệu suất của mô hình trong quá trình huấn luyện hay còn gọi là xây dựng mô hình Bộ quy tắc

Trang 29

được sử dụng để kiểm soát mức độ phức tạp của mô hình cũng như tránh hiện

tượng thừa hoặc thiếu thông tin trong dữ liệu

Có rất nhiều phương pháp khác nhau mà ta có thể thực hiện để xác định mức

độ phức tạp của mô hình Tuy nhiên, mức độ phức tạp của mỗi cây quyết định

thường được xác định theo công thức dưới đây [21]:

Ω(f) = γT + 1

2λ∑𝑇𝑗=1𝜔𝑗2Trong đó, T là số lượng lá trên cây quyết định

ω là vecto của các điểm số trên các lá của cây

Điểm mấu chốt của của thuật toán là hàm mục tiêu, được xác định theo công

thức sau [24]:

Obj = ∑𝑇𝑗=1[𝐺𝑗𝜔𝑗 + 1

2(𝐻𝑗 + λ) 𝜔𝑗2] + γT Trong đó 𝜔𝑗 là các biến độc lập với nhau và mục tiêu của thuật toán XGBoost

là tối thiểu hóa hàm Obj để tỉ lệ lỗi xảy ra nhỏ nhất

Hình 2.7 Mô hình dự đoán sử dụng Gradient Boosting

2.4.2 Ưu điểm của thuật toán

- Tốc độ nhanh do tính toán song song

- Tránh được hiện tượng quá khớp bằng Regularization

Trang 30

- Linh hoạt trong sử dụng hàm tối ưu

- Tự động xử lý dữ liệu bị khuyết

- Tự động cắt tỉa cây (auto pruning) Tự động bỏ qua những lá, các nút trong không mang giá trị tích cực trong quá trình mở rộng cây

2.4.3 Ứng dụng của thuật toán trong các lĩnh vực

XGBoost là một thuật toán quan trọng trong các lĩnh vực là phát triển nhanh chóng thường dùng để xây dựng mô hình dữ liệu dự đoán và đang được áp dụng trong nhiều ngành kỹ thuật và khoa học như sinh học, tâm lý học, y học, tiếp thị, thị giác máy tính và viễn thám Điều này sẽ mang lại lợi ích to lớn cho những người trong cộng đồng khoa học, những người thu thập

dữ liệu và tìm kiếm các công cụ để phân tích và giải thích dữ liệu Nó sẽ là kho tàng tài liệu tham khảo có giá trị cho các nhà khoa học trong nhiều lĩnh vực khác nhau và có thể dùng làm tài liệu tham khảo cho việc nhận dạng mẫu,

xử lý ảnh và viễn thám

2.5 Đánh giá mô hình

Để đánh giá mô hình có hiệu quả hay không, ta cần các tiêu chí hay các

độ đo sự hiệu quả này Có nhiều mức độ khác nhau có thể sử dụng tùy thuộc vào ứng dụng cụ thể của thuật toán hồi quy hoặc phân loại trong từng trường hợp Phần này sẽ giới thiệu một số độ đo thông dụng và cũng được sử dụng với bài toán của luận văn

2.5.1 Độ đo dùng trong phân loại

Khi xây dựng một mô hình học máy, chúng ta cần một phép đánh giá

để xem mô hình ta dùng có thực sự hiệu quả và để so sánh với các mô hình khác Trước tiên, xét trường hợp phân loại hai lớp, trong đó mỗi ví dụ có thể nhận nhãn “Có bệnh” hoặc “Không bệnh” Với mỗi trường hợp mô hình dự đoán dán nhãn, ta có bốn khả năng xảy ra như bảng dưới đây Trong đó nhãn thật là nhãn của dữ liệu và nhãn dự đoán mà kết quả do mô hình tính toán

Trang 31

Hình 2.8 Bảng mô tả ma trận nhầm lẫn

Nếu ví dụ loại “Có bệnh” được mô hình dự đoán là “Có bệnh” thì được gọi là có bệnh đúng (TP: True possitive) Nếu được dự đoán là “Không bệnh” thì gọi là không bệnh sai (FN: False negative) Một ví dụ loại “Không bệnh” nếu được mô hình dự đoán là “Có bệnh” thì gọi là có bệnh sai (FP: False

possitive), nếu được dự đoán là “Không bệnh” thì gọi là không bệnh đúng (TN: True negative) Sử dụng các khái niệm này, có thể định nghĩa một số độ

đo hiệu quả phân loại như sau (Lưu ý: Sử dụng TP, TN, FP, FN để kí hiệu số

ví dụ “Có bệnh” đúng, “Có bệnh” sai, “Không bệnh” đúng, “Không bệnh” sai

N là tổng số mẫu):

+ N = TP + FP + FN + TN + Tỉ lệ lỗi: error = 𝐹𝑃+𝐹𝑁

𝑁+ Độ chính xác: accuracy = 𝑇𝑃+𝑇𝑁

𝑁 = 1 – error + Độ chính xác precision: precision = 𝑇𝑃

𝑇𝑃+𝐹𝑃

Trang 32

+ Độ thu hồi: recall = 𝑇𝑃

𝑇𝑃+𝐹𝑁+ Độ đo F: F- measure = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙

2+ Tỉ lệ có bệnh đúng: tpr = 𝑇𝑃

𝑇𝑃+𝐹𝑁+ Tỉ lệ có bệnh sai: fpr = 𝐹𝑃

𝑇𝑃+𝐹𝑁Một số độ đo nói trên đều nằm trong khoảng [0,1] Trong các độ đo nói trên, độ đo accuracy, recall và precision là thường được dùng nhất Độ đó recall và precision được dùng khi ta quan tâm tới hiệu suất phân loại cho một lớp cụ thể Cần chú ý rằng khi precision tăng thì recall thường giảm và ngược lại Còn Accuracy thường được dùng khi ta chỉ quan tâm đến độ chính xác nói chung

Trong trường hợp phân loại có nhiều lớp, các độ đo precision recall cho mỗi lớp sẽ được tính bằng cách coi đó là lớp “Có” và tất cả các lớp còn lại gộp chung thành lớp “Không”

2.5.2 ROC (Receiver Operating Characteristic) và AUC ( Area Under The Curve)

Đường cong ROC và AUC được sử dụng để ước lượng và tính toán hiệu năng của mô hình phân loại Dùng để đo lường khả năng phân biệt của

mô hình Nói một cách dễ hiểu, nó kiểm tra khả năng phân biệt các sự kiện trong mô hình sử dụng

Đường cong ROC biểu diễn tỉ lệ Có bệnh đúng so với tỉ lệ Có bệnh sai AUC thể hiện thước đo tổng hợp về hiệu suất trên tất cả các ngưỡng phân loại

có thể có Trong nhiều mô hình học máy, AUC thường được sử dụng để làm thước đo chính đánh giá mô hình AUC được tính là diện tích ở phía dưới đường cong ROC

Trang 33

Hình 2.9 Ví dụ về đường cong ROC và AUC

2.5.3 Đánh giá mô hình bằng kiểm tra chéo

Việc đánh giá mô hình đặc biệt là mô hình phân loại và hồi quy là việc

vô cùng cần thiết vì hai lý do Thứ nhất, trước khi sử dụng mô hình bài toán, cần biết mô hình có đáp ứng yêu cầu bài toán đặt ra không và mô hình được xây dựng, huấn luyện có độ chính xác như thế nào Thứ hai, nếu xây dựng được nhiều mô hình thì cần lựa chọn ra một mô hình tốt nhất trong số đó cho bài toán cần giải quyết

Một trong những cách đánh giá mô hình là huấn luyện mô hình với tập

dữ liệu toàn bộ Sau đó lại dùng chính bộ dữ liệu đó để thử nghiệm Tức là dùng chính tập dữ liệu vừa huấn luyện cho mô hình và bắt nó dự đoán kết quả Sau đó so sánh kết quả mô hình dự đoán với kết quả thực Tuy nhiên

Trang 34

cách này rất dễ dẫn đến trường hợp mô hình quá vừa dữ liệu, mô hình chỉ cho kết quả chính xác cao đối với tập dữ liệu đã được huấn luyện, còn trên tập dữ liệu hoàn toàn mới thì cho kết quả dự đoán kém

Cách đánh giá khách quan hơn là kiểm tra chéo (Cross – vadidation) Cách này có hai phương pháp phổ biến thường được sử dụng

a Tách riêng tập kiểm tra và kiểm tra chéo (hold – out cross

validation)

Đây là phương pháp kiểm tra chéo đơn giản nhất, thực hiện như sau:

+ Tập dữ liệu ban đầu sẽ được chia thành hai tập con Một phần

sẽ dùng cho việc huấn luyện mô hình (Tập huấn luyện), một tập dùng để kiểm tra mô hình (Tập kiểm tra) Thông thường sẽ dùng 70% tập dữ liệu ban đầu cho việc huấn luyện và 30% còn lại cho việc kiểm tra

+ Huấn luyện mô hình cần đánh giá trên tập huấn luyện

+ Đánh giá độ chính xác mô hình trên tập kiểm tra

+ Chọn mô hình có độ chính xác cao trên tập kiểm tra Tuy nhiên, phương pháp này có nhược điểm là phần dữ liệu dùng huấn luyện chỉ còn khoảng 70% của tập ban đầu, dữ liệu bị bỏ phí quá nhiều chỉ để kiểm tra Do đó, người ta thường dùng phương pháp kiểm tra chéo khác cải tiến hơn, rút ít lại dữ liệu kiểm tra hơn mà vẫn đảm bảo độ chính xác cao cho

mô hình Phương pháp được trình bày dưới đây

b Kiểm tra chéo k-fold

Các bước thực hiện như sau:

+ Chia ngẫu nhiên dữ liệu ban đầu S thành k tập dữ liệu có kích thước bằng nhau S1, S2, …., Sk

+ Lặp lại thủ tục sau k lần với i = 1,….,k:

- Dùng tập Si làm tập kiểm tra, (k-1) tập còn lại thành tập huấn luyện

Trang 35

- Huấn luyện mô hình bằng tập huấn luyện

- Đánh giá độ chính xác mô hình trên tập kiểm tra

+ Độ chính xác mô hình được tính bằng trung bình cộng độ chính xác của k lần kiểm tra ở bước trên

Ưu điểm chính của kiểm tra chéo k-fold là dữ liệu sử dụng cho việc huấn luyện được nhiều hơn Trong khi mỗi ví dụ chỉ được sử dụng để kiểm tra đúng

1 lần, thì trong tập huấn luyện được sử dụng (k-1) lần [25] Nhược điểm của phương pháp là khi cho k quá lớn, thời gian huấn luyện và đánh giá mô hình sẽ càng lâu

2.6 Cơ sở dữ liệu y khoa

2.6.1 Mối liên quan giữa tế bào bất thường và bệnh ung thư cổ tử cung

Ung thư cổ tử cung là bệnh khá phổ biến ở nữ giới đã quan hệ tình dục Mặc dù rất nguy hiểm và chưa có thuốc đặc trị nhưng hầu hết ung thư cổ tử cung có thể phòng tránh được bằng cách phát hiện và điều trị sớm các tổn thương tiền ung thư trước khi chúng trở thành ung thư bằng các xét nghiệm sàng lọc Và xét nghiệm phết tế bào cổ tử cung là phương pháp chuẩn để sàng lọc ung thư cổ tử cung trong nhiều năm gần đây Những tế bào bất thường này

có thể là tổn thương tiền ung thư hoặc ung thư cổ tử cung Vì vậy, phát hiện sớm tế bào bất thường ở cổ tử cung là vô cùng quan trọng trước khi nó bắt đầu ung thư hoặc điều trị bệnh, giảm các biến chứng của bệnh, tăng tỉ lệ chữa khỏi hoàn toàn cho bệnh nhân Hầu hết các trường hợp ung thư cổ tử cung xâm lấn xảy ra ở những phụ nữ không xét nghiệm tầm soát phết tế bào cổ tử cung thường xuyên [24], [6], [16], [12]

2.6.2 Đặc điểm lâm sàng và cận lâm sàng cổ tử cung

Để chẩn đoán và kết luận một người có tế bào bất thường ở cổ tử cung không, các bác sĩ sẽ dựa trên các triệu chứng lâm sàng và cận lâm sàng cổ tử cung như sau:

Trang 36

a Đặc điểm lâm sàng

+ Triệu chứng cơ năng: Ra khí hư liên tục, ra máu bất thường và phối hợp

cả hai triệu chứng theo lời khai của phụ nữ

+ Triệu chứng thực thể: Được quan sát bằng mắt thường và ghi nhận dấu hiệu của CTC Kết quả được ghi nhận: Bình thường (CTC trơn láng); tổn

thương lành tính; tổn thương nghi ngờ, tổn thương UTCTC

b Đặc điểm cận lâm sàng (Xét nghiệm tế bào cổ tử cung )

Kết quả của Phết tế bào âm đạo: Đọc theo hệ thống Bethesda [2] [8] gồm:

Tế bào biểu mô bình thường:

- Không có tổn thương biểu mô hoặc ác tính

- Tế bào biểu mô biến đổi do viêm nhiễm:

Tế bào biểu mô bất thường:

- ASC–US (Atypical Squamous Cells of Undetermined Significance): Tế bào ý nghĩa chưa xác định

- ASC–H (Atypical Squamous Cells cannot exclude a High-grade squamous intraepithelial abnormality): Tế bào vảy không bình thường, chưa loại trừ HSIL

- LSIL (Low-grade Squamous Intraepithelial Lesion): Tổn thương nội biểu

mô vảy độ thấp: tổn thương nhẹ, thường được coi là tổn thương do HPV

- HSIL (High-grade Squamous Intraepithelial Lesion): Tổn thương trong biểu môvảy độ cao Tổn thương nặng, có thể diễn tiến thành ung thư

- Ung thư biểu mô vảy

- AGC (Atypical Glandular Cells): Tế bào tuyến không điển hình (cổ trong, nội mạc, Tế bào tuyến khác)

- AIS (endocervical Adenocarcinoma In Situ): Ung thư biểu mô tuyến cổ trong tại chỗ

- Ung thư biểu mô tuyến [1]

Trang 37

CHƯƠNG 3 MÔ HÌNH DỰ BÁO TẾ BÀO BẤT THƯỜNG

Ở CỔ TỬ CUNG

3.1 Phát biểu bài toán

Để hỗ trợ các cơ sở y tế và các y bác sĩ ở những nơi thiếu máy móc thiết

bị và hỗ trợ những bệnh nhân không đủ điện kiện đến khám chữa bệnh thường xuyên Bài toán đặt ra là xây dựng một mô hình học máy có giám sát với dữ liệu đầu được thu thập từ phiếu điều ra được nêu ở phần phụ lục Phiếu điều tra này dựa theo nghiên cứu đề tài đã được công nhận “Xác định tỉ lệ phiến phết tế bào cổ tử cung bất thường và các yếu tố liên quan ở phụ nữ từ 18 – 60 tuổi đến khám tại bệnh viện Phong – Da liễu trung ương Quy Hòa năm 2019” của bác

sĩ Bùi Thị Thúy Mô hình nhằm dự đoán người đó có tế bào bất thường ở cổ tử cung hay không, khả năng bị bệnh là bao nhiêu phần trăm

Bộ dữ liệu có kích thước nhỏ phù hợp với kỹ thuật Grid Search và kiểm tra chéo K-fold Cùng những ưu điểm như tốc độ xử lí nhanh với khả năng tính toán song song, tự động cắt tỉa cây, tránh hiện tượng overfitting, phù hợp với bài toán phân lớp, bên cạnh đó còn cho ra kết quả xếp hạng các thuộc tính ảnh hưởng đến kết quả Với những ưu điểm đó của thuật toán XGBOOST, luận văn

sử dụng thuật toán này để xây dựng mô hình Thuật toán đã giành chiến thắng trong nhiều cuộc thi Kaggle với hiệu quả cao

Ngày đăng: 31/10/2022, 21:42

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Trần Hoàng Anh (2010), Nghiên đặc điểm lâm sàng và cận lâm sàng các tổn thương cổ tử cung trên bệnh nhân soi cổ tử cung tại bệnh viện phụ sản trung ương, luận văn thạc sĩ y học, tr. 1-71 Sách, tạp chí
Tiêu đề: Nghiên đặc điểm lâm sàng và cận lâm sàng các tổn thương cổ tử cung trên bệnh nhân soi cổ tử cung tại bệnh viện phụ sản trung ương
Tác giả: Trần Hoàng Anh
Năm: 2010
2. Bệnh Viện Bạch Mai (2013), Chẩn đoán tế bào bệnh học cơ bản, Tế bào học cổ tử cung-âm đạo, Nhà xuất bản Y Hà Nội, 71-153 Sách, tạp chí
Tiêu đề: Chẩn đoán tế bào bệnh học cơ bản, Tế bào học cổ tử cung-âm đạo
Tác giả: Bệnh Viện Bạch Mai
Nhà XB: Nhà xuất bản Y Hà Nội
Năm: 2013
3. Huỳnh Xuân Nghiêm (2017), "Vai trò phết tế bào âm đạo trong tầm soát ung thư cổ tử cung", http://tytphuong3qtb.medinet.gov.vn Sách, tạp chí
Tiêu đề: Vai trò phết tế bào âm đạo trong tầm soát ung thư cổ tử cung
Tác giả: Huỳnh Xuân Nghiêm
Năm: 2017
4. Đỗ Văn Thành, Một cách tiếp cận ra quyết định trong chẩn đoán lâm sàng, Tạp chí Tin học và điều khiển, Viện công nghệ thông tin, 16(1),(2000), 52-58 Sách, tạp chí
Tiêu đề: Một cách tiếp cận ra quyết định trong chẩn đoán lâm sàng
Tác giả: Đỗ Văn Thành
Nhà XB: Tạp chí Tin học và điều khiển
Năm: 2000
5. Nguyễn Thanh Thủy, Hệ thống trợ giúp và kiểm tra đơn thuốc chữa bệnh tăng huyết áp ES-TENSION, Tạp chí tin học và điều khiển tin học, Viện công nghệ thông tin, 12(3), (1996), 10-18 Sách, tạp chí
Tiêu đề: Hệ thống trợ giúp và kiểm tra đơn thuốc chữa bệnh tăng huyết áp ES-TENSION
Tác giả: Nguyễn Thanh Thủy
Nhà XB: Tạp chí tin học và điều khiển tin học
Năm: 1996
7. Nông Quỳnh Vân - Trần Đình Hùng, Hồi quy lasso và ứng dụng trong phân tích dữ liệu ung thư vú, Tạp chí khoa học và công nghệ Đại học Thái Nguyên, T. 227, S. 08 (2022) Sách, tạp chí
Tiêu đề: Hồi quy lasso và ứng dụng trong phân tích dữ liệu ung thư vú
Tác giả: Nông Quỳnh Vân, Trần Đình Hùng
Nhà XB: Tạp chí khoa học và công nghệ Đại học Thái Nguyên
Năm: 2022
8. Bộ y tế (2016), Quy trình kỹ thuật chuyên ngành giải phẫu bệnh, tế bào học Kỹ thuật lấy bệnh phẩm làm phiến đồ cổ tử cung - âm đạo , Nhà xuất bản y học, tr. 401-403 Sách, tạp chí
Tiêu đề: Quy trình kỹ thuật chuyên ngành giải phẫu bệnh, tế bào học Kỹ thuật lấy bệnh phẩm làm phiến đồ cổ tử cung - âm đạo
Tác giả: Bộ y tế
Nhà XB: Nhà xuất bản y học
Năm: 2016
9. Fred A., Filipe J., Partinen M., Paiva T. (2000), “PSG-Expert: An Expert System for the Diagnosis of Sleepc Disorders”, IOS Press 78, pp. 127- 147 Sách, tạp chí
Tiêu đề: PSG-Expert: An Expert System for the Diagnosis of Sleepc Disorders
Tác giả: Fred A., Filipe J., Partinen M., Paiva T
Nhà XB: IOS Press
Năm: 2000
11. Tianqi Chen, Carlos Guestrin, “XGBoost : A scalable tree boosting system”, March 9, 2016, arXiv:1603.02754 [cs.LG] Sách, tạp chí
Tiêu đề: XGBoost: A scalable tree boosting system
Tác giả: Tianqi Chen, Carlos Guestrin
Nhà XB: arXiv
Năm: 2016
12. Brenda E, Sirovich and Gilbert Welch (2004), "The Frequency of Pap Smear Screening in the United States", JGIM. 19, p. 243-250 Sách, tạp chí
Tiêu đề: The Frequency of Pap Smear Screening in the United States
Tác giả: Brenda E. Sirovich, Gilbert Welch
Nhà XB: Journal of General Internal Medicine
Năm: 2004
13. Jerome H Friedman (2001), “Greedy function approximation: a gradient boosting machin”", Annals of statistics, Pages 1189-1232 Sách, tạp chí
Tiêu đề: Greedy function approximation: A gradient-boosting machine
Tác giả: Jerome H Friedman
Nhà XB: Annals of Statistics
Năm: 2001
14. Jerome H Friedman (2002), “Stochastic gradient boosting”, Computational Statistics & Data Analysis. Volume 38(4), Pages 367- 378 Sách, tạp chí
Tiêu đề: Stochastic gradient boosting
Tác giả: Jerome H Friedman
Nhà XB: Computational Statistics & Data Analysis
Năm: 2002
15. Buchanan B.G. (1984), Shortliffe E.H, Rule Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, Addison-Wesley, pp. 209-232 Sách, tạp chí
Tiêu đề: Rule Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project
Tác giả: Buchanan B.G., Shortliffe E.H
Nhà XB: Addison-Wesley
Năm: 1984
16. Balaha M H and et al. (2011), "Cytological pattern of cervical Papanicolaou smear in eastern region of Saudi Arabia", J Cytol. 28(4), p.173-7 Sách, tạp chí
Tiêu đề: Cytological pattern of cervical Papanicolaou smear in eastern region of Saudi Arabia
Tác giả: Balaha M H
Nhà XB: J Cytol
Năm: 2011
17. Ngah U. K., Aziz S. A. (2007), “A BI-RADS Based Expert Systems for the Diagnoses of Breast Diseases”, American Journal of. Applied Sciences 4 (11), pp. 867-875. 33 Sách, tạp chí
Tiêu đề: A BI-RADS Based Expert Systems for the Diagnoses of Breast Diseases
Tác giả: Ngah U. K., Aziz S. A
Nhà XB: American Journal of Applied Sciences
Năm: 2007
19. Mandakini M P, Amrish N P và Jigna M (2011), "Cervical pap smear study and its utility in cancer screening, to specify the strategy for cervical cancer control ", National journal of community medicine. 2(1), tr. 49-51 Sách, tạp chí
Tiêu đề: Cervical pap smear study and its utility in cancer screening, to specify the strategy for cervical cancer control
Tác giả: Mandakini M P, Amrish N P, Jigna M
Nhà XB: National Journal of Community Medicine
Năm: 2011
21. Hoang Nguyen et al. (2019), “Developing an XGBoost model to predict blast-induced peak particle velocity in an open-pit mine: a case study”, Acta Gepphysica. Volume 67(2), Pages 477-490 Sách, tạp chí
Tiêu đề: Developing an XGBoost model to predict blast-induced peak particle velocity in an open-pit mine: a case study
Tác giả: Hoang Nguyen et al
Năm: 2019
22. Naser S.S.S, Akkila A.N. (2008), “A Proposed Expert System for Skin Diseases Diagnosis”, Journal of Appied Sciences Research 4(12): pp.1682-1693 Sách, tạp chí
Tiêu đề: A Proposed Expert System for Skin Diseases Diagnosis
Tác giả: Naser S.S.S, Akkila A.N
Nhà XB: Journal of Appied Sciences Research
Năm: 2008
23. Aikins J. S., Kunz J. C., Shortliffc E. H., and Fallat K. J. (1983), “PUFF: An Expert System for Interpretation of Pulmonary Function Data”, Comput Biomed 16, pp. 199-208 Sách, tạp chí
Tiêu đề: PUFF: An Expert System for Interpretation of Pulmonary Function Data
Tác giả: Aikins J. S., Kunz J. C., Shortliffc E. H., Fallat K. J
Nhà XB: Comput Biomed
Năm: 1983
24. TOP (2016), Cervical cancer screening , Clinical Practice Guideline Sách, tạp chí
Tiêu đề: Cervical cancer screening
Tác giả: TOP
Năm: 2016

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w