1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hướng dẫn sử dụng các thuật toán trong khai phá dữ liệu để chẩn đoán bệnh, áp dụng dựa trên cơ sở dữ liệu bệnh nhân, đặc tả cho bệnh viện đa khoa Hoàn Mỹ

16 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hướng dẫn sử dụng các thuật toán trong khai phá dữ liệu để chẩn đoán bệnh, áp dụng dựa trên cơ sở dữ liệu bệnh nhân, đặc tả cho bệnh viện đa khoa Hoàn Mỹ
Tác giả Phan Trường Giang
Trường học Bệnh Viện Đa Khoa Hoàn Mỹ
Chuyên ngành Khai phá dữ liệu y học
Thể loại Báo cáo
Năm xuất bản 2019
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 16
Dung lượng 2,29 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để tìm ra các quy tắc phân biệt hai bệnh này, các phương pháp khai thác và thống kê dữ liệu được sử dụng và phối hợp cùng nhau để hiện kết quả phân loại và hỗ trợ chẩn đoán.. Các thuật t

Trang 1

Hướng dẫn sử dụng các thuật toán trong khai phá dữ liệu để chẩn đoán bệnh, áp dụng dựa trên cơ sở dữ liệu bệnh nhân, đặc tả cho bệnh

viện đa khoa Hoàn Mỹ

Báo cáo bởi Phan Trường Giang

Thành phố Hồ Chí Minh Tháng 01,2019

Trang 2

Mục lục

Lời mở đầu 3

Nội dung bài trình bày 4

1.1 Giới thiệu 4

1.2 Những giả định 4

2 Những phương pháp luận và kỹ thuật được trình bày và áp dụng trong đề tài: 6

2.1 Classification - Phân loại 6

2.2 Decision tree- Cây quyết định 6

2.3 Support Vector Machine (SVM) : 8

2.4 Đánh giá các kết quả phân tích 9

2.5 Các giá trị xác định: 10

3 Kết quả phân tích: 14

4 Kết quả: 17

5 Nhận xét từ người đọc 18

5.1 Những điểm tích cực và Kết quả đạt được 18

5.2 Những điểm cần phát triển 18

Phụ lục1: Nội dung bài nghiên cứu 19

1

Trang 3

Lời mở đầu

Bài viết trình bày về cách áp dụng thuật toán cho hệ thống tin y tế trong việc chẩn đoán các bệnh về ruột Trong bài viết này, CMC SISG chủ yếu áp dụng để chẩn đoán bệnh về ruột già - loại bệnh dễ dẫn đến ung thư trực tràng và bệnh Crohn (các bệnh về viêm nhiễm trùng ruột) Để tìm ra các quy tắc phân biệt hai bệnh này, các phương pháp khai thác và thống kê dữ liệu được sử dụng và phối hợp cùng nhau để hiện kết quả phân loại và hỗ trợ chẩn đoán

Mục đích của đề tài: áp dụng thuật toán máy học được sử dụng để giải quyết các loại vấn đề phân loại trong y học Trong đó, giới hạn của đề tài là các vấn đề về ruột, cụ thể

là viêm loét đại tràng Bệnh viêm loét đại tràng ảnh hưởng đến đại tràng hoặc trực tràng và phá hủy phần trong cùng của niêm mạc Viêm loét đại tràng gây viêm và loét

ở ruột già, có thể gây ra cảm giác muốn đi cầu thường xuyên, gây xuất huyết khi đi ngoài, và có khả năng dẫn đến tử vong Có khoảng 11,2 triệu người nhiễm bệnh vào năm 2015 (theo GBD 2015 Căn bệnh và tỷ lệ mắc bệnh công bố ngày 8 tháng 10 năm

2016 trong tạp chí “Global, regional, and national incidence, prevalence, and years lived with disability for 310 diseases and injuries, 1990-2015: a systematic analysis for

the Global Burden of Disease Study 2015.”) Theo thống kê của Bộ Y tế, số lượng

người Việt Nam mắc bệnh đại tràng mãn tính đã lên tới 4 triệu người, cao gấp 4 lần tỷ

lệ mắc bệnh trung bình trên toàn cầu, lớn hơn tổng lượng người mắc bệnh của toàn châu Âu (VTV- 02/04/2018) Vì vậy, đề tài này mang tính thiết thực đối với ngành y học của Việt Nam nói riêng

Trang 4

Nội dung bài trình bày

1 Giới thiệu và những giả định được đặt ra

2.1 Giới thiệu.

Các thuật toán Machine Learning đã được sử dụng rộng rãi để giải quyết các loại vấn đề phân loại dữ liệu khác nhau trong y học Viêm loét đại tràng là một căn bệnh gây viêm đại tràng lâu dài, tạo ra kích ứng hoặc loét dẫn đến xuất huyết Điều này có thể dẫn đến suy nhược cơ thể, đau bụng và các biến chứng có khả năng đe dọa tính mạng Nó ảnh hưởng đến đại tràng hoặc trực tràng và phá hủy phần trong cùng của niêm mạc ruột Viêm loét đại tràng gây viêm và loét ở ruột già, có thể gây ra cảm giác thường xuyên cần phải đi tiêu Nguyên nhân chính xác của bệnh không được biết đến, do đó tìm kiếm nguồn gốc bệnh, phát hiện sớm là vô cùng quan trọng

2.2 Những giả định.

Nhóm tác giả làm việc trên dữ liệu được trình bày dưới dạng bảng quyết

S = (X ; A; V) trong đó:

• X là tập hợp các đối tượng không trống, hữu hạn,

• A là tập hợp các thuộc tính không trống, hữu hạn,

• V (Va: a thuộc A) A là tập hợp tất cả các giá trị thuộc tính

Ngoài ra, a: X-> Va: Va là một hàm cho bất kỳ a thuộc A, giá trị thuộc tính của một đối tượng đã cho Các thuộc tính được chia thành các loại khác nhau: bộ thuộc tính ổn định ASt (ví dụ: ngày sinh, nơi sinh, màu da), bộ thuộc tính linh hoạt AFl (huyết áp, cân nặng, mức đường) và bộ thuộc tính quyết định D (ví dụ: phương pháp điều trị, loại bệnh) sao cho A:

Trong bài báo này, chúng tôi phân tích các hệ thống thông tin chỉ với một thuộc tính quyết định D Ví dụ về hệ thống thông tin được trình bày dưới dạng Bảng 1

3

Trang 5

Hệ thống thông tin được đại diện bởi tám đối tượng, một thuộc tính ổn định a (giá trị của nó không thể thay đổi), hai thuộc tính linh hoạt b; c (giá trị của chúng có thể thay đổi trong một số điều kiện) và một thuộc tính quyết định

Trang 6

2 Những phương pháp luận và kỹ thuật được trình bày và áp dụng.

2.1 Classification - Phân loại.

Trình phân loại là một thuật toán thực hiện phân loại, đặc biệt là trong việc triển khai Có nhiều cách phân loại khác nhau và nhiều loại kết quả phân loại khác nhau Đặc biệt là làm việc với dữ liệu y tế, để quyết định thuật toán phân loại nào là hiệu quả nhất cho tập hợp dữ liệu đã cho Việc hiểu biết rộng về dữ liệu y tế và quyết định chọn cách phân loại phù hợp, sẽ cho một kết quả tốt hơn

Có hai lựa chọn: Đầu tiên, tin vào ý kiến chuyên gia Hai là, chạy thử các cách phân loai trên tập dữ liệu dataset, cân nhắc các kết quả và chọn phương pháp phân loại phỳ hợp trong bài nghiên cứu, nhóm những nhà nghiên cứu đã sử dụng phương pháp phân loại, trong đó bao gồm kỹ thuật khai thác dữ liệu và phương pháp thống kê nhằm chia các đối tượng thành các tập dữ liệu khác nhau

Trong bước đầu tiên, nhóm nghiên cứu mô tả một tập hợp dữ liệu được xác định trước trên cơ sở hồi quy Mỗi tập hập được giả định là thuộc về một nhóm được xác định trước theo thuộc tính phân loại Tập hợp dữ liệu được sử dụng để xây dựng

mô hình, được gọi là training sets Mô hình có thể được biểu diễn theo các quy tắc phân loại, cây quyết định hoặc các công thức toán học Mô hình được sử dụng để dự đoán các xu hướng dữ liệu trong tương lai, hoặc phân loại lại các đối tượng Mô hình ước tính độ chính xác của căn cứ trên các training sets Test sets luôn độc lập với các training sets

2.3 Decision tree- Cây quyết định.

Trong số các phương pháp phân loại, một trong những phương pháp phổ biến nhất là cây quyết định Nó đặc biệt vì cách thức biểu diễn tri thức được hiểu theo con người So với các phương pháp phân loại khác, cây quyết định có thể được xây dựng tương đối nhanh chóng

Ưu điểm chính của họ là thể hiện rõ ràng kiến thức, khả năng sử dụng dữ liệu

đa chiều và khả năng mở rộng với việc sử dụng các tập dữ liệu lớn Ngoài ra, còn phải

kể đến độ chính xác của phương pháp này

5

Trang 7

Tuy nhiên, nhược điểm chính của phương pháp này là độ nhạy cảmvới các giá trị thiếu của các thuộc tính Những nhược điểm khác như không có khả năng nắm bắt được mối tương quan giữa các thuộc tính Do đó, nhóm nghiên cứu sử dụng thuật toán ERID trước tiên, giúp giảm một số giá trị bị thiếu trong tập dữ liệu với độ chính xác cao

Thuật toán tạo cây quyết định có thể được viết như sau:

 Đối với một tập hợp các đối tượng đã cho, sử dụng thuật toán ERID, nhóm nghiên cứu tìm thấy tất cả các giá trị thiếu của thuộc tính, biểu diễn mối quan

hệ và

hoàn thiện hế thống

 Kiểm tra các thuộc tính tương ứng với các đối tượng Nhóm nghiên cứu kiểm tra xem chúng có thuộc cùng một nhóm hay không (nếu chúng thuộc về một nhóm- kết thúc quá trình, nếu chúng không thuộc về nhau - xem xét các thuộc tính để chia thành các tập hợp con đồng nhất)

 Đánh giá chất lượng của từng tập dữ liệu con theo tiêu chí được chấp nhận trước đó

 Chia các đối tượng theo nhóm các thuộc tính

 Lặp lại các bước trên cho mỗi tập con

Theo cách hiểu của cá nhân, phần này được nhóm nghiên cứu thực hiện như sau:

 Bước 1: t là chọn ra một feature (đặc trưng) nào đó từ Feature Vector để phân chia dữ liệu vào các nhánh Với feature được chọn, dữ liệu sẽ được chia thành các tập con Tập con #1 sẽ đi vào nhánh #1, tập con #2 sẽ đi vào nhánh #2

 Bước 2: Nếu toàn bộ dữ liệu của một tập con cùng thuộc một category (có độ vẩn đục là 0) thì coi như quá trình phân loại đã kết thúc và quyết định sẽ được đưa ra

 Bước 3: Ngược lại, chúng ta sẽ cần chọn ra một feature khác để tiếp tục phân loại dữ liệu thành các tập con nhỏ hơn Quá trình này sẽ lặp lại cho đến khi có thể phân loại tất cả dữ liệu một cách chính xác

Trang 8

2.4 Support Vector Machine (SVM).

Support Vector Machine - Thuật toán SVM ban đầu được tìm ra bởi Vladimir

N Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995 SVM là một thuật toán phân loại nhị phân Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể

Support vector machine (SVM) xây dựng (learn) một siêu phẳng (hyperplane)

để phân lớp (classify) tập dữ liệu thành 2 lớp riêng biệt (Một siêu phẳng là một hàm tương tự như phương trình đường thẳng, y = ax + b ) Về ý tưởng thì SVM sử dụng thủ thuật để ánh xạ tập dữ liệu ban đầu vào không gian nhiều chiều hơn Khi đã ánh xạ sang không gian nhiều chiều, SVM sẽ xem xét và chọn ra siêu phẳng phù hợp nhất để phân lớp tập dữ liệu đó

Trong tài liệu này, thuật toán SVM có lợi thế là nó không ảnh hưởng đến cực tiểu tối thiểu Chúng tôi đã sửa đổi phương pháp này và các ràng buộc Do đó, các siêu mặt phẳng được xây dựng độc lập hơn Quy trình chính bắt đầu với việc phân vùng tất

cả các đối tượng thành các cụm dày đặc Bước tương tự được lặp lại cho tất cả các đối tượng tích cực cũng chia chúng thành các cụm dày đặc Lấy dữ liệu y tế với 152 trường hợp bị ảnh hưởng bởi viêm loét đại tràng, ví dụ, chúng tôi cho thấy rằng sự hỗ trợ và tin cậy chung của các quy tắc, được trích xuất từ cơ sở dữ liệu đó

TRANG 7

Trang 9

Trong không gian hai chiều, hai nhóm có thể được phân tách bằng một dòng, sử dụng phương trình ax+by < c cho nhóm thứ nhất và ax+by >c cho nhóm thứ hai

Ưu điểm của SVM, là SVM có tính năng cho phép bỏ qua các ngoại lệ và tìm ra hyper-plane có biên giới tối đa Do đó chúng chúng ta có thể nói, SVM có khả năng mạnh trong việc chấp nhận ngoại lệ

Để chọn siêu phẳng(hyper -plane) tốt nhất có thể và giảm thiểu rủi ro của việc nhiễu, điều rất quan trọng là tìm một biên độ tối đa giữa hai lớp Đây là một vấn đề tối

ưu hóa điển hình có thể được giải quyết bằng công thức Lagrangian Sau khi tìm thấy siêu phẳng tối ưu, chỉ các điểm dữ liệu gần nhất với siêu phẳng sẽ có trọng số dương, trong khi các điểm khác sẽ bằng không

2.5 Đánh giá các kết quả phân tích.

Mỗi cách phân loại nên được đánh giá về chất lượng Đối với mục đích này, hai

bộ dữ liệu là cần thiết Bộ training set, được gọi là dành cho việc phân loại Validation test được sử dụng để kiểm tra các phân loại

Trong cả hai bộ, cần phải biết các mẫu thuộc về các lớp nào Trong nhiều trường hợp, việc phân chia dữ liệu thành một bộ giảng dạy và kiểm tra không được đưa ra Sau đó, một phân chia ngẫu nhiên thành hai bộ tách rời có thể được thực hiện lặp đi lặp lại, thường là chọn theo cách bộ training test sẽ có số lượng dữ liệu nhỏ hơn bộ validation test Trong trường hợp như vậy, chúng tôi có một cách đơn giản Một kiểu xác nhận khác là xác thực k-Fold được gọi là kiểm tra chéo k-Fold (hay còn được gọi là xác thực chéo k-Fold Toàn bộ dữ liệu được chia thành K tập con Quá trình học của máy

có K lần Trong mỗi lần, một tập con được dùng để kiểm tra và K-1 tập còn lại dùng

để dạy

2.6 Các giá trị xác định.

Các số liệu khác nhau được sử dụng để đánh giá bộ phân loại Để trình bày các

số liệu được sử dụng trong bài báo cáo, các chỉ định về trình bày số liệu như trong Bảng 1 Trong lĩnh vực machine learning, cụ thể là vấn đề phân loại thống kê, ma trận nhầm lẫn (Bảng 2), còn được gọi là ma trận lỗi, là cách bố trí bảng cụ thể của việc học được giám sát- supervised learning Đây là một phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét cả những chỉ số về độ chính xác và độ bao

Trang 10

quát của các dự đoán cho từng lớp Một confusion matrix gồm 4 chỉ số sau đối với mỗi lớp phân loại:

Để đơn giản hóa, ta sẽ sử dụng lại bài toán về chẩn đoán bệnh ung thư trực tràng để giải thích 4 chỉ số này Trong bài toán chuẩn đoán ung thư trực tràng ta có 2 lớp: lớp bị ung thư được chuẩn đoán Positive và lớp không bị ung thư được chuẩn đoán là Negative:

TP (True Positive): Số lượng dự đoán chính xác Là khi mô hình dự đoán đúng

một người bị ung thư trực tràng

TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp Là khi

mô hình dự đoán đúng một người không bị ung thư trực tràng, tức là việc không chọn trường hợp bị ung thư trực tràng là chính xác

FP (False Positive - Type 1 Error): Số lượng các dự đoán sai lệch Là khi mô

hình dự đoán một người bị ung thư trực tràng và người đó hoàn toàn khỏe mạnh

FN (False Negative - Type 2 Error): Số lượng các dự đoán sai lệch một cách

gián tiếp Là khi mô hình dự đoán một người không bị ung thư trực tràng nhưng người đó bị ung thư trực tràng, tức là việc không chọn trường hợp bị ung thư trực tràng là sai

TRANG 9

Trang 11

Sensitivity – (TPR): là tỷ lệ xét nghiệm dương tính trên tổng cộng người có

bệnh Xác suất phân loại sẽ chính xác, với điều kiện là trường hợp dương tính Đối với lĩnh vực y tế, nó có thể là xác suất mà kết quả xét nghiệm được thực hiện bởi một bệnh

nhân bị bệnh, sau khi thực hiện, anh ta mắc bệnh đúng như dự đoán Chỉ số này được

tính theo công thức:

Specificity – (TNR): là tỷ lệ xét nghiệm âm tính trên tổng cộng người không

bệnh. Tỉ lệ loại trừ đúng trên tổng số các trường hợp Negative hay còn gọi là Specificity (độ đặc hiệu) trong y học lâm sàng Xác suất phân loại sẽ chính xác, với điều kiện trường hợp bệnh nhân âm tính Một ví dụ là xác suất một người khỏe mạnh sẽ không được chẩn đoán bằng xét nghiệm, anh ta sẽ được dự đoán theo tỷ lệ loại trừ đúng Độ đặc hiệu được xác định theo công thức sau:

False positive rate – (FPR): là tỷ lệ xét nghiệm dưong tính trên tổng cộng người không bệnh ệ số của các trường hợp được phân loại dương tính giả là một nhóm khác, mà chúng tôi viết với công thức sau:

False discovery rate – (FDR) : FDR nhằm mục đích kiểm soát tỷ lệ phát hiện

không chính xác của các xét nghiệm:

Trang 12

Positive predictive value – (PPV, precision) : Trong tất cả các dự đoán

Positive được đưa ra, bao nhiêu dự đoán là chính xác? Chỉ số này được tính theo công thức

Negative predictive value – (NPV): Chỉ số này trả lời câu hỏi ví dụ: Nếu kết quả xét nghiệm dương tính, xác suất bệnh nhân mắc bệnh là bao nhiêu? Chúng ta có thể biểu thị số đo bằng công thức sau:

Negative predictive value – (NPV) : chỉ số trả lời câu hỏi: Nếu kết quả xét

nghiệm là âm tính, xác suất bệnh nhân khỏe mạnh là bao nhiêu?

F1-score – t: được dùng khi ta quan tâm đồng đều vai trò của cả PPV và TPR,

nói cách khác ta muốn Mô hình (quy luật chẩn đoán) vừa Nhạy, vừa chính xác Đây là biện pháp đánh giá mối quan hệ giữa độ nhạy và độ chính xác Tuy nhiên, nó không bao gồm kết quả âm tính thực sự Việc lựa chọn giữa các kết quả Âm tính và dương tính (PPV) tùy thuộc vào mục tiêu ứng dụng của mô hình: người bác sĩ muốn Tầm soát bệnh hay muốn Xác định bệnh ?

TRANG 11

Trang 13

3 Kết quả phân tích.

Số liệu của chúng tôi chứa dữ liệu lâm sàng của 152 bệnh nhân bị ảnh hưởng bởi viêm loét đại tràng Bệnh nhân được đặc trưng bởi 117 thuộc tính và phân thành hai nhóm: bệnh nhân viêm loét đại tràng (UC) và bệnh nhân bị bệnh Crohn (CD) Mục tiêu của chúng tôi là tìm các quy tắc phân loại bệnh

Nhóm đối tượng được nghiên cứu bao gồm bệnh nhân bị bệnh viêm ruột

Ở nhóm thứ nhất, viêm loét đại tràng được chẩn đoán (N = 86, phụ nữ N = 32, nam N

= 54) và nhóm thứ hai là bệnh nhân bị bệnh Crohn (N = 66, phụ nữ N = 32, nam N = 34)

Quá nhiều biến có thể tác động tiêu cực đến hiệu suất của mô hình Kết quả là, các giai đoạn đầu tiên của nghiên cứu, trong đó bao gồm việc xử lý dữ liệu ban đầu, rất quan trọng Dữ liệu có thể được lựa chọn, chuyển đổi hoặc xóa các biến không cần thiết

Sau khi hoàn thành chọc lọc và xử lý dữ liệu ban đầu bằng ERID và loại bỏ các biến trong đó tỷ lệ phần trăm dữ liệu bị thiếu vượt quá 60%, số lượng thuộc tính còn lại là 73 thuộc tính Sau đó, tất cả các thuộc tính liên quan đến điều trị đã bị loại khỏi phân tích, vì các vị từ mô tả phương pháp điều trị không thể xác định diễn biến của bệnh Sau đó, các thuộc tính đã được chọn Cuối cùng, một tập hợp các thuộc tính đã thu được có sự khác biệt đáng kể trong hai nhóm được dùng để phân tích Các giai đoạn tiếp theo của phân tích được thực hiện bằng phương pháp khai thác dữ liệu Các thuật toán phân loại như J48, SVM và Random Forest đã được sử dụng Cuối cùng, thuật toán tốt nhất đã được chọn bằng cách phân tích chất lượng của các biện pháp phân loại

Sau khi sử dụng mô hình hồi quy logic được kết nối với thuật toán ERID, các giá trị như highest values of sensitivity và high specificity được sử dụng bằng thuật toán random forest Đối với phân loại đã nói ở trên, sensitivity bằng 100%, điều này chứng tỏ khả năng lý tưởng để phát hiện bệnh nhân bị CD High specificity xác định

Ngày đăng: 11/12/2022, 21:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w