1. Trang chủ
  2. » Tất cả

A decision support system for primary headache developed through machine learning

32 14 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề A Decision Support System for Primary Headache Developed Through Machine Learning
Tác giả Nhóm Sinh Viên Thực Hiện
Người hướng dẫn ThS Nguyễn Hồ Duy Trí
Trường học Trường Đại học Công Nghệ Thông Tin - Đại học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Hệ Thống Thông Tin và Khoa Học Máy Tính
Thể loại Đề tài tốt nghiệp
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 32
Dung lượng 449,41 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

UNIVERSITY OF INFORMATION TECHNOLOGY INFORMATION SYSTEM

Trang 1

UNIVERSITY OF INFORMATION TECHNOLOGY

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin cảm ơn các thầy cô trường Đại học Công nghệ

Thông tin Đại học Quốc gia Thành phố Hồ Chí Minh đã tạo điều kiện tốt nhất và

cung cấp những kiến thức cần thiết để hoàn thành môn đồ án hệ hỗ trợ quyết

định

Chúng em cũng xin gửi lời cảm ơn sâu sắc đến ThS Nguyễn Hồ Duy Trí,

người đã hỗ trợ, hướng dẫn nhóm và tạo điều kiện tốt nhất để nhóm hoàn thành

đề tài nghiên cứu này Với sự hỗ trợ nhiệt tình của cô, cuối cùng nhóm chúng em

cũng đã hoàn thiện những kiến thức cần thiết thông qua việc nghiên cứu và học

hỏi những kiến thức mới Chúng em rất vui vì đã nhận được những ý kiến đóng

góp của cô về đề tài của nhóm, chúng em sẽ cố gắng ngày càng hoàn thiện mình

hơn trong tương lai và tiếp tục học tập chăm chỉ để đạt được kết quả tốt nhất

Cuối cùng, xin kính chúc các thầy cô giảng luôn có sức khỏe dồi dào, cuộc

sống hạnh phúc, tiếp tục hoàn thành sứ mệnh cao cả là truyền thụ tri thức cho thế

hệ mai sau

Xin chân thành cảm ơn quý thầy cô!

Thành phố Hồ Chí Minh, tháng 5 năm 2022

Nhóm sinh viên thực hiện

Trương Công Hưng Trần Minh Quân Phạm Thảo Nhi Trịnh Linh Chi

Trang 3

NHẬN XÉT CỦA GVHD

Trang 4

Mục lục

2.2 Quy trình ra quyết định, mô tả hệ thống hỗ trợ quyết định 82.2.1 Thiết lập mô hình phân loại (Discriminant Model Establishment) 82.2.2 Lựa chọn thuộc tính (Feature Selection) 10

3.1 Đặc điểm cơ bản của bệnh nhân(Patient baseline characteristics) 12

5.1 Phân tích dữ liệu và các phương pháp tiền xử lý 21

Trang 5

CHAPTER 1: TỔNG QUAN ĐỀ TÀI 1.1 Giới thiệu

Đau đầu là một trong những triệu chứng thường gặp ở các phòng khám chuyênkhoa thần kinh Số liệu cho thấy mỗi năm hơn 90% dân số nói chung bị đau đầu ỞTrung Quốc, tỷ lệ đau đầu nguyên phát trong 1 năm được báo cáo là 23,8% Tỷ lệ đaunửa đầu là 9,3% và đau đầu do căng thẳng là 10,3% Do dân số đông, bệnh nhân chi672,7 tỷ nhân dân tệ mỗi năm vì đau đầu nguyên phát, chiếm 2,24% GDP của TrungQuốc Bệnh đau đầu tuy không đe dọa nghiêm trọng đến tính mạng người bệnh nhưnglại ảnh hưởng nặng nề đến công việc và chất lượng cuộc sống, khiến họ phải rút luikhỏi xã hội, đặt gánh nặng lên tâm, sinh lý của người bệnh và gia đình người bệnhcũng như nền kinh tế quốc gia

Đau đầu được chia thành đau đầu nguyên phát và đau đầu thứ phát Có nhiềunguyên nhân gây đau đầu Do sự giống nhau của các triệu chứng, các bác sĩ đa khoarất dễ bỏ sót hoặc chẩn đoán nhầm loại đau đầu Hơn nữa, Hiệp hội Đau đầu Quốc tế(IHS) đã đưa ra bảng phân loại đau đầu mới nhất vào tháng 1 năm 2018, đó là Phânloại Quốc tế về Rối loạn Đau đầu (ICHD-III) (Ủy ban Phân loại Đau đầu của Hiệp hộiNhức đầu Quốc tế, 2018), trong đó liệt kê hơn 200 biến thể của cơn đau đầu Sự phânloại phức tạp này tạo ra một nhiệm vụ rất khó khăn cho các bác sĩ lâm sàng ViệcKhông có tiêu chuẩn vàng góp phần gây khó khăn cho việc chẩn đoán và phân loạiđau đầu Ngoài ra, do lâu nay giới y khoa nhìn chung chưa quan tâm đúng mức đếnchứng đau đầu trong thực hành lâm sàng, trình độ thành thạo của các bác sĩ lâm sàng

về phân loại đau đầu không đồng đều Ví dụ, “đau đầu mạch máu” và “đau đầu thầnkinh” vẫn được sử dụng để chẩn đoán đau đầu nguyên phát

Do đó, vẫn còn nhiều cải tiến cần được thực hiện đối với việc tiêu chuẩn hóa vàcải thiện độ chính xác của chẩn đoán lâm sàng về đau đầu

Theo các báo cáo, đau đầu nguyên phát xảy ra thường xuyên hơn so với đauđầu thứ phát và tỷ lệ mắc chứng đau nửa đầu và đau đầu do căng thẳng đứng đầutrong số các loại đau đầu nguyên phát Chứng đau nửa đầu bao gồm chứng đau nửađầu có tiền triệu chứng và chứng đau nửa đầu không có tiền triệu chứng Chứng đaunửa đầu không có tiền triệu chứng thường là đau đầu một bên, theo nhịp đập và từtrung bình đến nặng; hoạt động thể chất hàng ngày có thể làm trầm trọng thêm những

Trang 6

cơn đau đầu này và chúng thường đi kèm với buồn nôn/nôn và/hoặc chứng sợ ánhsáng/sợ âm thanh Tiền triệu chứng là sự xuất hiện dần dần của các triệu chứng thịgiác, cảm giác hoặc hệ thống thần kinh trung ương khác trước hoặc trong cơn đau đầu.Nhức đầu do căng thẳng là loại đau đầu nguyên phát phổ biến nhất; các cơn đau đầukiểu này không thường xuyên và thường kéo dài vài phút đến vài ngày Những cơnđau đầu này thường được đặc trưng bởi cảm giác chèn ép hai bên từ nhẹ đến trungbình; chúng không trầm trọng hơn do hoạt động thể chất hàng ngày và thường không

đi kèm với buồn nôn/nôn, hoặc chứng sợ ánh sáng/sợ âm thanh Mặc dù có sự khácbiệt lớn giữa chứng đau nửa đầu điển hình và chứng đau đầu do căng thẳng, nhưngcác triệu chứng của hầu hết bệnh nhân không điển hình, đặc biệt là trong trường hợpđau đầu do căng thẳng và chứng đau nửa đầu không có tiền triệu chứng Vì vậy,thường rất khó để phân loại giữa chúng Do có nhiều sự khác biệt trong việc điều trịhai chứng rối loạn, việc chẩn đoán sai và bỏ sót chẩn đoán chắc chắn sẽ làm chậm quátrình điều trị thích hợp cho bệnh nhân (Porter et al., 2019)

Phần mềm máy tính chất lượng cao có thể rất hữu ích để nhận biết chính xáccơn đau đầu Ngay từ năm 2013, Krawczyk et al (2013) đã đề xuất chẩn đoán tự độngchứng đau đầu nguyên phát thông qua học máy

So sánh hiệu suất chẩn đoán giữa công nghệ máy học tiên tiến và bác sĩ lâmsàng cho thấy hệ thống hỗ trợ quyết định bằng máy tính đạt được độ chính xác chẩnđoán cao hơn Gần đây hơn, Vandewiele et al (2018) đã đề xuất một hệ thống hỗ trợquyết định từ đầu đến cuối để cải thiện hiệu quả chẩn đoán và theo dõi trong điều trịđau đầu nguyên phát Hệ thống hỗ trợ quyết định bao gồm ba thành phần lớn và mộtchương trình phụ trợ được chia sẻ: ứng dụng di động dành cho bệnh nhân, ứng dụngweb dành cho bác sĩ để trực quan hóa dữ liệu đã thu thập và mô-đun chẩn đoán tựđộng Trong mô-đun chẩn đoán tự động, cây quyết định được sử dụng để lập mô hình(Vandewiele et al., 2018) Xiangyong (2019) đã đề xuất một hệ thống ra quyết địnhđau đầu chính dựa trên các tiêu chuẩn chẩn đoán đau đầu quốc tế và tiến hành đánhgiá lâm sàng trong 4 tháng tại Trung tâm Đau đầu Quốc tế của một bệnh viện đại học

ở Bắc Kinh Kết quả tốt về độ nhạy và độ đặc hiệu của hệ thống này để chẩn đoánchứng đau đầu đã được ghi nhận (Xiangyong, 2019) Xem xét các quy tắc ngôn ngữkhông hoàn chỉnh khi các chuyên gia chia sẻ kiến thức của họ, Khayamnia et al

Trang 7

(2019) đã cải tiến thuật toán và sử dụng thuật toán Learning-From-Examples (LEF) đểhuấn luyện hệ mờ chẩn đoán và tỷ lệ nhận dạng đúng đạt 85% Họ tiếp tục đề xuất các

hệ thống hỗ trợ quyết định dựa trên SVM - và perceptron đa lớp (MLP), đạt tỷ lệchính xác lần lượt là 90% và 88% (Khayamnia et al., 2019) Simi'c et al (2021) tạo ramột hệ thống thông minh kết hợp để chẩn đoán chứng rối loạn đau đầu nguyên phát,

áp dụng các kỹ thuật toán học, thống kê và trí tuệ nhân tạo khác nhau

Mặc dù các loại hình nghiên cứu khác nhau đã được dành cho các hệ thống hỗtrợ ra quyết định bằng máy tính, nhưng vẫn còn những trở ngại lớn đối với việc sửdụng rộng rãi chúng trong thực hành lâm sàng Học máy áp dụng cho hồ sơ y tế có thể

là một công cụ hiệu quả để dự đoán bệnh tật Ở Trung Quốc, các phương pháp họcmáy để chẩn đoán chứng đau đầu nguyên phát vẫn còn nhiều thiếu sót

Vì vậy, để đạt được độ chính xác chẩn đoán đau đầu cao hơn, nhóm tác giả đãthu thập thông tin từ các bệnh nhân đau đầu nguyên phát tại các phòng khám thầnkinh thông qua bảng câu hỏi và sau đó nhập dữ liệu vào hệ thống Nhóm tác giả đã sosánh các thuật toán học máy khác nhau để xác định mô hình tốt nhất Hơn nữa, thôngqua lựa chọn đặc điểm, nhóm tác giả đã xác định được các yếu tố quan trọng nhất đểphân loại chứng đau nửa đầu với chứng đau đầu do căng thẳng, tạo cơ sở cho các bác

sĩ lâm sàng chẩn đoán nhanh chứng đau đầu

1.2 Mô tả bài toán

Chẩn đoán chính xác loại đau đầu là một thử thách lớn và thường không chínhxác, các phương pháp chẩn đoán đau đầu vẫn là trọng tâm của các nghiên cứu chuyênsâu Do đó, các tác giả giới thiệu vấn đề về chẩn đoán đau đầu nguyên phát và trìnhbày cách phân loại hiện tại của nó Vấn đề được xem xét được triển khai thành một hệthống sử dụng máy học để hỗ trợ ra quyết định lâm sàng cho chứng đau đầu nguyênphát Các thí nghiệm, được thực hiện trên tập dữ liệu do các tác giả thu thập, đã xácnhận rằng các hệ thống hỗ trợ quyết định bằng máy tính có thể đạt được độ chính xácnhận dạng cao và do đó là một công cụ hữu ích trong thực hành hàng ngày của bác sĩ.Đây là điểm khởi đầu cho nghiên cứu trong tương lai về tự động hóa chẩn đoán đauđầu nguyên phát

Trang 8

⮚ Dữ liệu nhân khẩu học và đặc điểm đau đầu của 173 bệnh nhân được thuthập bằng bảng câu hỏi

⮚ Decision Tree, Random Forest, Logistic Regression, SVM và GradientBoosting được sử dụng để xây dựng mô hình phân loại

⮚ Ma trận nhầm lẫn (confusion matrix) được sử dụng để tính toán các chỉ

số đánh giá của mô hình

⮚ Thực hiện lựa chọn tính năng thông qua phân tích thống kê đơn biến vàhọc máy

Trang 9

CHAPTER 2: PHƯƠNG PHÁP NGHIÊN CỨU

Đây là một nghiên cứu cắt ngang được thiết kế để có được một mô hình phânloại chẩn đoán cho chứng đau nửa đầu và đau đầu kiểu căng thẳng và để sàng lọc cácyếu tố quan trọng nhất để phân loại hai loại này

Nghiên cứu đã được phê duyệt bởi Ủy ban Đạo đức của Bệnh viện Nhân dân số

9 trực thuộc Đại học Y khoa Giao thông Thượng Hải (phê duyệt số 1) và đáp ứng các yêu cầu của Tuyên bố Helsinki

SH9H-2021-T72-Những bệnh nhân đủ điều kiện là những bệnh nhân được chẩn đoán mắc chứngđau đầu trong khoảng thời gian từ tháng 10 năm 2019 đến tháng 9 năm 2020 tại KhoaThần kinh, Bệnh viện Nhân dân số 9 Thượng Hải Tất cả các bệnh nhân đều là cư dâncủa Trung Quốc Trước khi nghiên cứu, nhóm tác giả đã nhận được sự đồng ý có chữ

ký của các bệnh nhân tham gia Hai tuần sau khi bảng câu hỏi của bệnh nhân được thuthập, các tác giả đã theo dõi sự cải thiện tình trạng đau đầu của bệnh nhân để xác minhthêm chẩn đoán

Cuối cùng, nhóm tác giả đưa 173 bệnh nhân được chẩn đoán xác định là đauđầu nguyên phát (84 bệnh nhân đau nửa đầu và 89 bệnh nhân đau đầu kiểu căngthẳng) để nghiên cứu

2.1 Thu thập dữ liệu

Đầu tiên, nhóm tác giả thiết kế một bảng câu hỏi để bệnh nhân ngoại trú hoànthành Bảng câu hỏi bao gồm tổng cộng 19 câu hỏi để thu thập dữ liệu nhân khẩu học(tuổi, giới tính, nghề nghiệp, chiều cao và cân nặng) của bệnh nhân và đặc điểm đauđầu của họ (tiến trình, thời gian, tính chất, vị trí, cường độ nghiêm trọng, triệu chứngkèm theo, yếu tố khởi phát, cách giảm nhẹ, và liệu hoạt động có làm nặng thêm cơnđau đầu hay không) Sau khi phân tích và sửa đổi bảng câu hỏi bởi ba nhà thần kinhhọc có kinh nghiệm, bảng câu hỏi được coi là hiệu quả để thu thập thông tin liên quanđến bệnh nhân và dữ liệu thu được là đáng tin cậy ở một mức độ nhất định

Hơn nữa, thông tin về các kiểm tra liên quan và MRI được sử dụng để loại trừcác yếu tố phụ của bệnh nhân Ba nhà thần kinh học đã được mời để chẩn đoán chotừng bệnh nhân dựa trên thông tin bảng câu hỏi mà nhóm tác giả thu thập được Dựatrên cả kết quả chẩn đoán và theo dõi, từng bệnh nhân được chẩn đoán chính xác Do

Trang 10

tỷ lệ thấp của đau đầu nguyên phát như đau dây thần kinh và đau đầu cụm thấp trong

số các quan sát được thu thập, nhóm tác giả đã loại trừ những loại đau đầu hiếm gặpnày để giảm các vấn đề do mất cân bằng mẫu

Cuối cùng, 173 bệnh nhân (84 bệnh nhân bị chứng đau nửa đầu và 89 bệnh

nhân bị đau đầu do căng thẳng) đã được đưa vào nghiên cứu (Hình 1) Mỗi cơn đau

đầu của bệnh nhân có thể có nhiều tính chất hoặc kèm theo nhiều triệu chứng Do đó,nhóm tác giả đã thực hiện phân loại nhị phân dữ liệu đã thu thập và thu được tổngcộng 48 biến Xem xét rằng tỷ lệ xảy ra của nhiều biến là cực kỳ thấp, trước tiên nhómtác giả đã xác định được 10 biến có sự khác biệt đáng kể về mặt thống kê giữa chứngđau nửa đầu và đau đầu do căng thẳng Sau khi chuyển đổi dữ liệu và giảm dữ liệu,bảng dữ liệu được sử dụng để thu thập dữ liệu trong quá trình phỏng vấn lâm sàngđược trình bày trong Bảng 1

Hình 1: Lưu đồ nghiên cứu

Trang 12

Thay đổi sau khi hoạt động/ n(%)

Bảng 1: Đặc điểm cơ bản của bệnh nhân.

2.2 Quy trình ra quyết định, mô tả hệ thống hỗ trợ quyết định

2.2.1 Thiết lập mô hình phân loại (Discriminant Model

Establishment)

Sử dụng 10 thuộc tính đã được sàng lọc thông qua kiểm định Chi-square (baogồm: Sex, Course, Throbbing, Occiput, Severe intensity, Nausea/vomiting, Spark,Change after activities, Photophobia/phonophobia, Alleviative methods), nhóm tácgiả chia ngẫu nhiên toàn bộ tập dữ liệu thành tập huấn luyện (training set) và tậpthử nghiệm (test set) theo các tỷ lệ (60:40, 70:30, 80:20) và sử dụng các phươngpháp như holdout (dữ liệu được phân chia ngẫu nhiên thành 2 phần là tập huấnluyện và tập thử nghiệm) và xác thực chéo (cross-validation) để xây dựng các môhình phân loại đau đầu thứ nguyên

Trang 13

Các mô hình học máy

Nhóm tác giả đã sử dụng các mô hình học máy như: Decision Tree, RandomForest, Logistic Regression, SVM và Gradient Boosting để xây dựng các mô hìnhphân loại đau nửa đầu hay đau đầu kiểu căng thẳng

Decision tree

Decision Tree (Cây quyết định) là một trong những thuật toán học máy có giámsát Mục tiêu là tạo ra một mô hình dự đoán giá trị của một biến mục tiêu bằng cáchtìm hiểu các quy tắc quyết định đơn giản được suy ra từ các biến thuộc tính đầuvào Cây quyết định là một cấu trúc cây mà trong đó mỗi nút bên trong đại diện chomột phép thử trên một thuộc tính, mỗi nhánh đại diện cho kết quả của phép thử vàmỗi nút lá biểu thị một nhãn lớp, các đường đi từ gốc đến lá đại diện cho các quytắc phân loại

Random forest

Random Forest (Rừng ngẫu nhiên) là một thuật toán tích hợp (integratedalgorithm), nằm trong họ thuật toán cây quyết định (Decision Tree) Random Forest

là một bộ phân loại chứa nhiều cây quyết định trên các tập con khác nhau của tập

dữ liệu đã cho và lấy giá trị trung bình để cải thiện độ chính xác dự đoán của tập dữliệu đó Thay vì dựa vào một cây quyết định, Random Forest lấy dự đoán từ mỗicây và dựa trên đa số phiếu dự đoán để dự đoán kết quả cuối cùng

SVM

Support Vector Machine (SVM) là một thuật toán thuộc nhóm học có giám sátdùng để phân chia dữ liệu thành các nhóm riêng biệt (bài toán phân lớp) Mục tiêucủa SVM là tìm ra một siêu phẳng trong không gian N chiều (ứng với N đặc trưng)chia dữ liệu thành hai phần tương ứng với lớp của chúng Để phân chia hai lớp dữliệu, rõ ràng là có rất nhiều siêu phẳng có thể làm được điều này Mặc dù vậy, mụctiêu của chúng ta là tìm ra siêu phẳng có lề rộng nhất tức là có khoảng cách tới cácđiểm của hai lớp là lớn nhất

Gradient boosting

Gradient Boosting là một loại kỹ thuật tăng cường học máy Nó xây dựng một

mô hình tốt hơn bằng cách hợp nhất các mô hình trước đó cho đến khi mô hình tốtnhất giảm tổng lỗi dự đoán Còn được gọi là mô hình dự báo thống kê, ý tưởng

Trang 14

chính của việc tăng cường độ dốc là đạt được một mô hình loại bỏ các lỗi của các

mô hình trước đó

Logistic regression

Logistic Regression là một thuật toán đơn giản nhưng lại rất hiệu quả trong cácbài toán phân loại (Classification), được sử dụng để dự đoán giá trị dữ liệu dựa trêncác quan sát trước đó của tập dữ liệu Mục tiêu của Logistic Regression là ước tínhxác suất của các sự kiện bằng cách phân tích mối quan hệ giữa tất cả các biến độclập hiện có từ đó đự đoán xác suất của một biến dữ liệu phụ thuộc

Để đánh giá hiệu suất của các mô hình nêu trên, nhóm tác giả đã kết hợp độchính xác (accuracy) và F1-score làm chỉ số đánh giá mô hình thông qua ma trậnnhầm lẫn (confusion matrix), sau đó đo lường kết quả dự đoán được thông qua độ

đo AUC-ROC, trong đó:

ROC là đường cong biểu diễn khả năng phân loại của một mô hình phân loại tạicác ngưỡng threshold Đường cong này dựa trên hai chỉ số :

⮚ TPR (true positive rate): Hay còn gọi là recall hoặc sensitivity Là tỷ lệcác trường hợp phân loại đúng positive trên tổng số các trường hợp thực

tế là positive Chỉ số này sẽ đánh giá mức độ dự báo chính xác của môhình trên positive

⮚ FPR (false positive rate): Tỷ lệ dự báo sai các trường hợp thực tế lànegative thành positive trên tổng số các trường hợp thực tế là negative AUC là chỉ số được tính toán dựa trên đường cong ROC (receiving operatingcurve) nhằm đánh giá khả năng phân loại của mô hình tốt như thế nào? Phần diệntích gạch chéo nằm dưới đường cong ROC và trên trục hoành là AUC (area undercurve) có giá trị nằm trong khoảng [0, 1] Khi diện tích này càng lớn thì đườngcong ROC có xu hướng tiệm cận đường thẳng y=1 và khả năng phân loại của môhình càng tốt

2.2.2 Lựa chọn thuộc tính (Feature Selection)

Mười thuộc tính đã nêu ở trên là dư thừa để các bác sĩ lâm sàng có thể nhanhchóng phân loại được chứng đau nửa đầu hay đau đầu kiểu căng thẳng Do đó,

Trang 15

nhóm tác giả đã xác định hai thuộc tính có ý nghĩa nhất để chẩn đoán chứng đaunửa đầu và đau đầu kiểu căng thẳng thông qua xếp hạng tính năng

Đầu tiên, nhóm tác giả sẽ áp dụng phân tích sinh trắc học đơn biến truyềnthống và sau đó thực hiện phân tích học máy Đối với thử nghiệm đơn biến, sửdụng hệ số tương quan Pearson (Pearson correlation coefficient - PCC) và kiểmđịnh Chi-square để so sánh từng thuộc tính giữa hai nhóm

PCC đại diện cho mối tương quan tuyến tính giữa các thuộc tính Nếu cácthuộc tính tương quan tuyến tính, giá trị tuyệt đối của PCC sẽ tạo ra giá trị cao gầnbằng 1; ngược lại, nó sẽ gần bằng 0

Kiểm định Chi-square được áp dụng cho hai thuộc tính để quan sát xác suấtphân phối xảy ra một cách ngẫu nhiên Mỗi thuộc tính được thử nghiệm sẽ tạo ramột giá trị p Mặc dù giá trị P không đại diện cho độ mạnh của mối quan hệ giữahai biến, nhưng nó cung cấp một dấu hiệu: giá trị p càng thấp thì càng chắc chắnrằng hai biến có liên quan với nhau

Hơn nữa, nhóm tác giả đã xếp hạng tầm quan trọng của thuộc tính bằngphương pháp Random Forest Mô hình Random Forest là một mô hình kết hợp câyquyết định phi tuyến, nó rất dễ thực hiện và có hiệu quả vượt trội Nó từng được gọi

là “phương pháp đại diện cho trình độ của công nghệ học tập tích hợp” Ý tưởngchính của Random Forest là đánh giá mức độ đóng góp của từng thuộc tính đối vớimỗi cây trong Random Forest và sau đó lấy giá trị trung bình và đánh giá đóng gópcủa từng thuộc tính riêng biệt So với PCC, Random Forest có nhiều khả năng khaithác được mối tương quan sâu sắc của các thuộc tính hơn

Trang 16

CHAPTER 3: KẾT QUẢ NGHIÊN CỨU 3.1 Đặc điểm cơ bản của bệnh nhân(Patient baseline characteristics)

Trong nghiên cứu, thu nhận 300 bệnh nhân bị đau đầu nguyên phát Tổng số

103 bệnh nhân được loại trừ theo các tiêu chuẩn loại trừ Ngoài ra, 24 bệnh nhânkhông được theo dõi trong vòng 2 tuần (Hình 1)

Cuối cùng, nghiên cứu bao gồm 173 bệnh nhân (84 bệnh nhân đau nửa đầu và

89 bệnh nhân đau đầu kiểu căng thẳng) Dữ liệu được chia ngẫu nhiên từ 173 bệnhnhân này thành tập huấn luyện và tập thử nghiệm theo nhiều tỷ lệ khác nhau (60:40,70:30, 80:20) Bảng câu hỏi đã thu thập thông tin về 48 đặc điểm của bệnh nhân thôngqua 19 câu hỏi Sử dụng kiểm định chi-square để xác định 10 đặc điểm thông tin vàđưa chúng vào nghiên cứu (Bảng 1)

3.2 Model building

Đối với 10 biến đặc trưng đã nêu ở trên, Nhóm tác giả đã sử dụng decision tree,random forest, gradient boosting, logistic regression, and SVM algorithms để xâydựng các mô hình phân loại

Sau khi xác nhận chéo, độ chính xác trung bình, điểm F1 được tính toán thôngqua confusion matrix (Bảng 2), đường cong kết quả phân loại (đường cong ROC)được xây dựng và diện tích dưới đường cong ROC(AUROC) được đo Độ chính xáctrung bình của Decision tree là 0,72, thấp hơn đáng kể so với thuật toán học tích hợp

và SVM models Random forest, gradient boosting algorithm and SVM models có tácdụng phân loại tương tự; điểm chính xác trung bình của chúng lần lượt là 0,80, 0,79

và 0,82 và các khu vực trung bình dưới đường cong ROC lần lượt là 0,85, 0,82 và0,82 và điểm F1 trung bình lần lượt là 0,79, 0,79 và 0,81

Logistic regression có hiệu quả phân loại tốt nhất, với độ chính xác trung bìnhđạt 0,84 và diện tích trung bình dưới đường cong ROC cũng lớn nhất trong số cácphương pháp là 0,90 Hiệu ứng phân loại đạt được bằng thuật toán tích hợp tốt hơn sovới phương pháp của một người học đơn lẻ (a single learner method) và trong số các

mô hình, logistic regression đạt được hiệu quả phân loại tốt nhất

Ngày đăng: 05/02/2023, 14:55

TỪ KHÓA LIÊN QUAN