1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đồ Án Ứng dụng khoa học dữ liệu trong chẩn Đoán rối loạn trầm cảm chủ yếu application of data science in the major depressive disorder diagnosis

26 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Khoa Học Dữ Liệu Trong Chẩn Đoán Rối Loạn Trầm Cảm Chủ Yếu
Tác giả Nguyễn Thanh Nhi, Nguyễn Ngọc Đan Thanh
Người hướng dẫn ThS. Nguyễn Văn Kiệt
Trường học Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành Khoa Học Dữ Liệu
Thể loại Đồ Án
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 26
Dung lượng 465,95 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN 21521232 – NGUYỄN THANH NHI – KHDL2021 21520107 – NGUYỄN NGỌC ĐAN THANH – KHDL2021 ĐỒ ÁN ỨNG DỤNG KHO

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

21521232 – NGUYỄN THANH NHI – KHDL2021

21520107 – NGUYỄN NGỌC ĐAN THANH – KHDL2021

ĐỒ ÁN ỨNG DỤNG KHOA HỌC DỮ LIỆU TRONG CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU

Application of Data Science

in the Major Depressive Disorder Diagnosis

MÔN DS005.M11

GIẢNG VIÊN HƯỚNG DẪN ThS NGUYỄN VĂN KIỆT

Trang 2

MỤC LỤC

MỞ ĐẦU 1

1 Lí do chọn đề tài 1

2 Mục tiêu 2

3 Đối tượng nghiên cứu 2

TỔNG QUAN 3

NGHIÊN CỨU LÝ THUYẾT 4

Chương 1 VAI TRÒ CỦA KHOA HỌC DỮ LIỆU TRONG CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU 4

1.1.Vai trò của dữ liệu 4

1.2.Vai trò của mô hình học máy 4

Chương 2 XÂY DỰNG MÔ HÌNH CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU 5

2.1.Quy trình CRISP-DM 5

2.2.Ứng dụng các công nghệ của Khoa học dữ liệu trong xây dựng mô hình chẩn đoán Rối loạn trầm cảm chủ yếu (MDD) 7

2.2.1 Giai đoạn Data Understanding 7

2.2.1.1 Thu thập dữ liệu 7

2.2.1.2 Chọn thuộc tính 7

2.2.2 Giai đoạn Data Preparation 8

2.2.3 Giai đoạn Modeling 9

2.2.3.1 Thuật toán Logistic Regression 9

2.2.3.2 Thuật toán Support Vector Machine 10

2.2.3.3 Thuật toán Random Forest 11

2.2.3.4 Một số thuật toán khác được ứng dụng trong lĩnh vực y học 12

Trang 3

2.2.4 Giai đoạn Evaluation 12

2.2.4.1 Accuracy 12

2.2.4.2 Confusion Matrix 13

2.2.4.3 Precision và Recall 13

BÀN LUẬN 15

KẾT LUẬN 16

HƯỚNG PHÁT TRIỂN 17

TÀI LIỆU THAM KHẢO 18

Trang 4

DANH MỤC HÌNH

Hình 2.1: CRISP-DM 5

Hình 2.2: Support Vector Machine 10

Hình 2.3: Random Forest 11

Hình 2.4: Confusion Matrix 13

Trang 5

DANH MỤC BẢNG

Bảng 2.1: Tập các thuộc tính 8

Trang 6

DANH MỤC TỪ VIẾT TẮT

1 MDD Major Depressive Disorder Rối loạn Trầm cảm Chủ yếu

2 SVM Support Vector Machines Máy Véc-tơ Hỗ trợ

3 LR Logistic Regression Hồi quy Logistic

4 CRISP-DM Cross-Industry Standard

Process for Data Mining

Quy trình Tiêu chuẩn Đa ngành cho Khai phá Dữ liệu

5 ETL Extract, Transform

and Load Trích xuất, Chuyển đổi và Tải

6 RF Random Forest Rừng Ngẫu nhiên

7 kNN k-Nearest Neighbor k Láng giềng Gần nhất

8 NB Nạve Bayes

Trang 7

MỞ ĐẦU

1 Lí do chọn đề tài

Trầm cảm là một căn bệnh phổ biến trên toàn thế giới, ước tính có khoảng 3,8% dân

số bị trầm cảm, bao gồm 5,0% ở người trưởng thành và 5,7% ở người già [1] Trên thế giới có khoảng 280 triệu người mắc bệnh trầm cảm [1] Trầm cảm khác với những thay đổi thông thường trong tâm trạng hay những phản ứng cảm xúc ngắn ngủi trước những thách thức trong cuộc sống hàng ngày Đặc biệt, khi tái phát với cường độ trung bình hoặc nặng, trầm cảm có thể trở thành căn bệnh nghiêm trọng Ở mức độ tồi tệ nhất, trầm cảm có thể dẫn đến tự tử Hơn 700,000 người chết do tự sát mỗi năm [2] Tự tử là nguyên nhân đứng thứ tư gây tử vong ở độ tuổi 15-29 [2]

Mặc dù hiện tại đã có những phương pháp điều trị rối loạn tâm lý hiệu quả, hơn 75% người dân ở các nước có thu nhập thấp và trung bình không nhận được bất kỳ sự điều trị nào [3] Các rào cản đối với việc chăm sóc bệnh nhân tâm lý hiệu quả bao gồm thiếu nguồn lực, thiếu đội ngũ y tế có chuyên môn cao và sự kỳ thị của xã hội đối với các rối loạn tâm lý Không kể đến thu nhập, ở tất cả các quốc gia, bệnh nhân trầm cảm thường không được chẩn đoán chính xác, và những người không mắc chứng rối loạn này lại thường bị chẩn đoán sai và kê đơn thuốc chống trầm cảm

Khoa học dữ liệu và trí tuệ nhân tạo đang là xu thế tất yếu trong y học hiện đại Các

mô hình học máy được xem là một trợ lý cá nhân đặc biệt giúp bác sĩ chẩn đoán bệnh nhanh hơn và chính xác hơn nhờ vào tốc độ xử lý lượng dữ liệu khổng lồ một cách nhanh chóng Mặc dù các mô hình này không thể thay thế được hoàn toàn vai trò của bác sĩ, chúng có khả năng tiếp tục học hỏi và tinh chỉnh để cải thiện độ chính xác theo thời gian Đặc biệt là, khả năng bao quát và phân tích nhiều bộ dữ liệu cùng lúc của các mô hình học máy dễ dàng phát hiện ra bất kỳ sự bất thường nào trong một hồ sơ bệnh án Điều này vượt quá khả năng của một bác sĩ và là một bước tiến lớn trong nỗ lực nâng cao chất lượng chăm sóc sức khỏe cho người dân

Mặc dù các phương pháp học máy đã được áp dụng thành công để phát triển các phương án dự đoán rủi ro trong các lĩnh vực y học khác, các ứng dụng cho bệnh trầm

Trang 8

2

cảm cho đến nay vẫn dựa trên các mẫu nhỏ và các tập dự đoán nghèo nàn, không phát huy được hết tiềm năng của các phương pháp này Do đó, nhóm nghiên cứu quyết định chọn bệnh trầm cảm để nghiên cứu về ứng dụng và triển vọng của ngành khoa học dữ liệu đối với lĩnh vực sức khỏe tinh thần

2 Mục tiêu

- Nắm rõ quy trình triển khai một mô hình chẩn đoán bệnh

- Tìm hiểu các công nghệ trong Khoa học dữ liệu được áp dụng trong chẩn đoán

bệnh nói chung và chẩn đoán rối loạn trầm cảm chủ yếu nói riêng

- Đánh giá tính hiệu quả của các phương pháp giải quyết bài toán

- Nhận định những hạn chế còn tồn tại và đề ra hướng phát triển trong tương lai

3 Đối tượng nghiên cứu

- Các lĩnh vực: Khoa học dữ liệu, Trí tuệ nhân tạo, Học máy,…

- Lĩnh vực Y học, Khoa học thần kinh và Tâm lý học

- Một số kiến thức Toán học

Trang 9

TỔNG QUAN

Các rối loạn trầm cảm (depressive disorders) bao gồm một nhóm bệnh không đồng nhất được đặc trưng bởi các mức độ khác nhau của tâm trạng u uất và các thay đổi liên quan đến nhận thức, thần kinh thực vật và tâm thần vận động [4] Chúng được chia thành rối loạn trầm cảm chủ yếu (major depressive disorder), rối loạn mất điều chỉnh tâm trạng muốn gây rối (disruptive mood dysregulation disorder, đối với trẻ em dưới 18 tuổi), rối loạn trầm cảm dai dẳng (dysthymia), rối loạn phiền muộn tiền kinh nguyệt (premenstrual dysphoric disorder), rối loạn trầm cảm do chất (substance-induced depressive disorder), rối loạn trầm cảm do chứng bệnh khác, cũng như các dạng rối loạn trầm cảm khác và không xác định đối với các trường hợp có triệu chứng phụ không đáp ứng đủ các tiêu chí của rối loạn trầm cảm chủ yếu hoặc rối loạn trầm cảm dai dẳng [4]

Trong đề tài này, nhóm nghiên cứu chọn rối loạn trầm cảm chủ yếu (major depressive disorder; MDD) vì đây là loại rối loạn trầm cảm phổ biến nhất

Hiện nay, các mô hình học máy đã được nghiên cứu để ứng dụng trong chẩn đoán và

dự báo các bệnh mãn tính nói chung Trong đó, thuật toán support vector machines (SVM), logistic regression (LR) và phân cụm (clustering) được sử dụng phổ biến nhất [5] Các thuật toán này có tính ứng dụng cao trong phân loại, chẩn đoán bệnh và được

dự đoán sẽ trở nên quan trọng hơn trong việc khám, chữa bệnh trong tương lai gần

Trang 10

4

NGHIÊN CỨU LÝ THUYẾT Chương 1 VAI TRÒ CỦA KHOA HỌC DỮ LIỆU TRONG CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU

1.1 Vai trò của dữ liệu

- Trong xây dựng một mô hình học máy chẩn đoán bệnh, vai trò của việc thu thập dữ liệu và chuẩn bị dữ liệu là yếu tố quan trọng quyết định mức độ hiệu quả của mô hình

- Một tập dữ liệu (dataset) lớn bao gồm nhiều thuộc tính (attributes) khác nhau của từng bệnh nhân, tạo sự bao quát khi phân tích các triệu chứng để chẩn đoán bệnh

- Định kiến (stereotype) là một trong những nguyên nhân dẫn đến chẩn đoán sai bệnh tâm lý Tại Việt Nam, sự thiếu hụt chuyên gia tham vấn và trị liệu tâm lý đã dẫn đến thực trạng rằng bệnh nhân thường phải tìm đến các bác sĩ thuộc chuyên khoa nội thần kinh Mặc dù có kiến thức chuyên môn về tâm lý học, so với một nhà tham vấn và trị liệu chuyên nghiệp, các bác sĩ nội thần kinh có lúc không tránh khỏi việc áp đặt cảm xúc và định kiến cá nhân lên bệnh nhân mà mình đang điều trị Điều này vô tình dẫn đến việc bệnh nhân không được chẩn đoán đúng bệnh và phương pháp điều trị không đạt hiệu quả cao Nếu tập dữ liệu được sử dụng và thuộc tính được chọn để huấn luyện (training) mô hình học máy đảm báo được tính công bằng (fairness), mô hình

sẽ hạn chế được sự thiên vị (bias) khi đưa ra kết quả chẩn đoán

1.2 Vai trò của mô hình học máy

- Mô hình chẩn đoán bệnh hiệu quả sẽ là một trợ lý đắc lực cho các bác sĩ, giúp họ giảm bớt gánh nặng và dành sự tập trung tối đa vào những công việc chuyên môn không thể thay thế bởi máy móc

- Mô hình học máy có khả năng cải tiến và tinh chỉnh theo thời gian Do đó, khi một

mô hình chẩn đoán thường xuyên được nâng cấp và cải thiện hiệu năng, nó sẽ đóng vai trò ngày càng quan trọng trong quy trình khám, chữa bệnh

Trang 11

Chương 2 XÂY DỰNG MÔ HÌNH CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU

2.1 Quy trình CRISP-DM

CRISP-DM (Cross-Industry Standard Process for Data Mining; Quy trình Tiêu chuẩn

Đa ngành cho Khai phá Dữ liệu) là một phương pháp luận mô tả về các giai đoạn điển hình của một dự án khoa học dữ liệu, nhiệm vụ của từng giai đoạn và giải thích mối quan hệ giữa các nhiệm vụ này CRISP-DM cung cấp cái nhìn tổng quan về vòng tuần hoàn khai phá dữ liệu

CRISP-DM bao gồm 6 giai đoạn được minh họa bằng biểu đồ bên dưới:

Hình 2.1: CRISP-DM

1 Business Understanding (hiểu mục tiêu): Đây là giai đoạn vạch ra mục tiêu

của dự án Mục tiêu không được thống nhất rõ ràng và đầy đủ giữa các bên liên quan sẽ dẫn đến lãng phí nguồn lực

Trang 12

6

2 Data Understanding (hiểu dữ liệu): Giai đoạn này phụ thuộc vào giai đoạn

Business Understanding trước đó Dữ liệu sẽ được thu thập ở giai đoạn này

Từ mục tiêu đã đề ra, các nhà khoa học dữ liệu sẽ xác định dữ liệu nào được thu thập, từ những nguồn nào và bằng những phương pháp nào

3 Data Preparation (chuẩn bị dữ liệu): Khi dữ liệu đã được thu thập, chúng

phải được chuyển đổi thành một tập con có thể sử dụng được, trừ khi được xác định rằng cần bổ sung thêm dữ liệu Sau khi tập dữ liệu được chọn, tập dữ liệu

đó phải được kiểm tra liệu xem có những trường hợp đáng ngờ, thiếu hoặc mơ

hồ nào hay không

4 Modeling (mô hình hóa): dữ liệu đã được chuẩn bị phải được thể hiện thông

qua mô hình thích hợp, cung cấp thông tin có ý nghĩa (insight) và có thể là tri thức mới Đây chính là mục đích của khai phá dữ liệu: tạo ra thông tin tri thức

có ý nghĩa và có ích Mô hình thể hiện các khuôn mẫu (patterns) và cấu trúc bên trong dữ liệu Các mô hình được chọn dựa trên một phần dữ liệu và các

điều chỉnh sẽ được thực hiện nếu cần thiết

5 Evaluation (đánh giá): Mô hình được chọn sẽ phải được thử nghiệm Sau khi

được huấn luyện bằng tập dữ liệu huấn luyện (training set; gồm input và output), mô hình sẽ được đánh giá bằng tập dữ liệu kiểm tra (testing set; chỉ

có input) Kết quả từ bài kiểm tra sẽ được sử dụng để xác định độ hiệu quả của

mô hình và báo hiệu vai trò của nó trong giai đoạn tiếp theo

6 Deployment (triển khai): Trong giai đoạn triển khai, dữ liệu mới bên ngoài

phạm vi của tập dữ liệu sẽ được sử dụng trong mô hình Giai đoạn này có thể làm xuất hiện các biến và nhu cầu mới đối với tập dữ liệu và mô hình Những thách thức mới này có thể dẫn đến việc xem xét, điều chỉnh các hành động cần thiết hoặc mô hình và dữ liệu, hoặc cả hai

Vòng tuần hoàn trong CRISP-DM bao gồm sáu giai đoạn với các mũi tên chỉ sự phụ thuộc giữa các giai đoạn Trình tự thực hiện các giai đoạn trong CRISP-DM là không khắt khe Trên thực tế, các dự án khoa học dữ liệu đều chuyển đổi linh hoạt giữa các giai đoạn khi cần thiết

Trang 13

Mô hình CRISP-DM có tính linh hoạt và tùy biến Ví dụ: Bài toán phát hiện các triệu chứng bất thường thường sàng lọc một lượng lớn dữ liệu mà không có mục tiêu mô hình hóa cụ thể Phương án giải quyết nó là tập trung vào việc khai thác và trực quan hóa dữ liệu để phát hiện ra chiều hướng đáng ngờ trong dữ liệu thay vì tập trung vào việc mô hình hóa CRISP-DM cho phép tạo mô hình khai phá dữ liệu phù hợp với từng nhu cầu cụ thể Trong các trường hợp trên, các giai đoạn mô hình hóa, đánh giá

và triển khai có thể không quan trọng bằng các giai đoạn chuẩn bị và hiểu dữ liệu Tuy nhiên, điều quan trọng vẫn là xem xét một số câu hỏi được đặt ra trong các giai đoạn sau cho kế hoạch dài hạn và các mục tiêu khai phá dữ liệu trong tương lai

2.2 Ứng dụng các công nghệ của Khoa học dữ liệu trong xây dựng mô hình chẩn đoán Rối loạn trầm cảm chủ yếu (MDD)

2.2.1 Giai đoạn Data Understanding

Nghiên cứu của Kevin Daim và Shadi Banitaan [6] đã chọn ra 30 triệu chứng MDD để xây dựng mô hình khai phá dữ liệu:

Trang 14

8

Thuộc tính Giá trị Buồn rầu Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Nản lòng Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thiếu tự trọng Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Cảm giác thua kém Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Tội lỗi Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thiếu quyết đoán Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Nóng nảy và thất vọng Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Mất hứng thú với cuộc sống Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Mất động lực Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Nhận thức bản thân kém Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Trí nhớ kém Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Mất ham muốn Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Suy nhược cơ thể Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thôi thúc tự sát Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3

Uể oải Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Khóc vô lí do Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thiếu sự bộc lộ cảm xúc Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Không tự lực được Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3

Bi quan Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3

Lo âu Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thất bại trong quá khứ Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Giảm khả năng chịu đau đớn Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Muốn được hỗ trợ từ xã hội Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Tâm thần không ổn định Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Hỗn loạn Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Đãng trí Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3

Sa sút nhận thức Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Mất cảm giác ấm áp với

2.2.2 Giai đoạn Data Preparation

Có 3 dạng dữ liệu: dạng có cấu trúc (structured), phi cấu trúc (unstructured) hoặc bán cấu trúc (semi-structured) Đối với MDD, các triệu chứng của bệnh nhân thường được ghi nhận ở dạng phi cấu trúc (ghi chú của bác sĩ) Dữ liệu này cần được trích xuất và chuyển đổi thành dạng có cấu trúc, sau đó được loại bỏ những

dữ kiện thừa, trùng lặp và cân nhắc bổ sung những dữ kiện còn thiếu

Trang 15

Một số công cụ ETL (Extract, Transform and Load; Trích xuất, Chuyển đổi và Tải) phổ biến hiện nay: Apache Airflow, pandas, AWS Data Pipeline, Google Dataflow, Azure Data Factory, Spark,…

2.2.3 Giai đoạn Modeling

Như đã đề cập, logistic regression (LR) và support vector machines (SVM) là 2 loại thuật toán học máy được sử dụng phổ biến trong các mô hình chẩn đoán bệnh mạn tính nói chung Ngoài ra, trong chẩn đoán bệnh tâm lý, thuật toán random forest (RF) cũng thường được sử dụng

2.2.3.1 Thuật toán Logistic Regression

Logistic regression (hồi quy logistic) là một thuật toán học có giám sát (supervised learning) thường được sử dụng trong mô hình phân loại để dự đoán khả năng (xác suất) xảy ra một sự kiện Với phương pháp phân tích này, biến phụ thuộc là định lượng (finite) hoặc định tính (categorical): A hoặc B (hồi quy nhị phân; binary regression) hoặc biến phụ thuộc là biến định tính có nhiều hơn

2 trạng thái: A, B, C hoặc D,… (hồi quy đa thức; multinomial regression)

LR được ứng dụng trong thống kê để xác định mối quan hệ giữa biến phụ thuộc

và một hoặc nhiều biến độc lập bằng cách sử dụng phương trình hồi quy logistic

Một số ưu điểm của LR:

- Là một thuật toán phân loại đơn giản nhưng hiệu quả cao

- Đưa ra xác suất thay vì một lớp dự đoán

Ngày đăng: 21/01/2025, 21:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Institute for Health Metrics and Evaluation, "Global Health Data Exchange (GHDx)," [Online]. Available: http://ghdx.healthdata.org/gbd-results-tool?params=gbd-api-2019-permalink/d780dffbe8a381b25e1416884959e88b.[Accessed 1 May 2021] Sách, tạp chí
Tiêu đề: Global Health Data Exchange (GHDx)
[2] World Health Organization, "Depression," [Online]. Available: https://www.who.int/news-room/fact-sheets/detail/depression. [Accessed 6 December 2021] Sách, tạp chí
Tiêu đề: Depression
[3] S. Evans-Lacko et al., "Socio-economic variations in the mental health treatment gap for people with anxiety, mood, and substance use disorders:results from the WHO World Mental Health (WMH) surveys," Psychol Med, vol. 48, no. 9, pp. 1560-1571, 2018 Sách, tạp chí
Tiêu đề: Socio-economic variations in the mental health treatment gap for people with anxiety, mood, and substance use disorders: results from the WHO World Mental Health (WMH) surveys
[5] G. Battineni, G. G. Sagaro, N. Chinatalapudi and F. Amenta, "Applications of Machine Learning Predictive Models in the Chronic Disease Diagnosis,"Journal of Personalized Medicine, vol. 10, no. 21, 2020 Sách, tạp chí
Tiêu đề: Applications of Machine Learning Predictive Models in the Chronic Disease Diagnosis
[6] S. B. Kevin Daimi, "Using Data Mining to Predict Possible Future Depression Cases," International Journal of Public Health Science (IJPHS) , vol. 3, no. 4, pp. 231 - 240 , 2014 Sách, tạp chí
Tiêu đề: Using Data Mining to Predict Possible Future Depression Cases
[7] W. Yu, T. Liu, R. Valdez, M. Gwinn and M. J. Khoury, "Application of support vector machine modeling for prediction of common diseases: the case of diabetes and pre-diabetes," BMC Medical Informatics and DecisionMaking, vol. 10, no. 16, 2010 Sách, tạp chí
Tiêu đề: Application of support vector machine modeling for prediction of common diseases: the case of diabetes and pre-diabetes
[8] IBM Corporation, "CRISP-DM Help Overview," [Online]. Available: https://www.ibm.com/docs/en/spss-modeler/SaaS?topic=dm-crisp-help-overview. [Accessed 14 December 2021] Sách, tạp chí
Tiêu đề: CRISP-DM Help Overview
[9] M. J. Denney, D. M. Long, M. G. Armistead, J. L. Anderson and B. N. Conway, "Validating the Extract, Transform, Load Process Used to Populate a Large Clinical Research Database," International Journal of MedicalInformatics, vol. 94, pp. 271-274, 2016 Sách, tạp chí
Tiêu đề: Validating the Extract, Transform, Load Process Used to Populate a Large Clinical Research Database
[10] Azure Architecture Center, "Extract, transform, and load (ETL)," 23 November 2021. [Online]. Available: https://docs.microsoft.com/en-us/azure/architecture/data-guide/relational-data/etl. [Accessed 17 December 2021] Sách, tạp chí
Tiêu đề: Extract, transform, and load (ETL)
[11] IBM Corporation, "Logistic regression," [Online]. Available: https://www.ibm.com/topics/logistic-regression. [Accessed 18 December 2021] Sách, tạp chí
Tiêu đề: Logistic regression
[12] scikit-learn, "1.4. Support Vector Machines," [Online]. Available: https://scikit-learn.org/stable/modules/svm.html#support-vector-machines.[Accessed 9 December 2021] Sách, tạp chí
Tiêu đề: 1.4. Support Vector Machines
[13] TIBCO Software Inc., "What is a Random Forest?," [Online]. Available: https://www.tibco.com/reference-center/what-is-a-random-forest. [Accessed 16 December 2021] Sách, tạp chí
Tiêu đề: What is a Random Forest
[14] R. Caruana and A. Niculescu-Mizil, "An Empirical Comparison of Supervised Learning Algorithms," in Proceedings of the 23rd international conference on Machine learning, New York, 2006 Sách, tạp chí
Tiêu đề: An Empirical Comparison of Supervised Learning Algorithms
[15] A. Lê, "Khai thác dữ liệu y tế an toàn, hiệu quả: Bằng cách nào?," VietTimes, 30 December 2020. [Online]. Available: https://viettimes.vn/khai-thac-du-lieu-y-te-an-toan-hieu-qua-bang-cach-nao-post141612.html. [Accessed 4 December 2021] Sách, tạp chí
Tiêu đề: Khai thác dữ liệu y tế an toàn, hiệu quả: Bằng cách nào
[16] Y. Viên, "Xây dựng dữ liệu số y tế: Phải đảm bảo quyền tự do của chính chủ thể dữ liệu," Bộ Thông tin và Truyền thông, 22 November 2020. [Online].Available: https://ictvietnam.vn/xay-dung-du-lieu-so-y-te-phai-dam-bao- Sách, tạp chí
Tiêu đề: Xây dựng dữ liệu số y tế: Phải đảm bảo quyền tự do của chính chủ thể dữ liệu
[17] scikit-learn, "Confusion matrix," [Online]. Available: https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html.[Accessed 29 December 2021] Sách, tạp chí
Tiêu đề: Confusion matrix
[18] J. Jordan, "Evaluating a machine learning model.," [Online]. Available: https://www.jeremyjordan.me/evaluating-a-machine-learning-model/.[Accessed 29 December 2021] Sách, tạp chí
Tiêu đề: Evaluating a machine learning model
[19] Google Developers, "Classification: Precision and Recall," [Online]. Available: https://developers.google.com/machine-learning/crash-course/classification/precision-and-recall. [Accessed 29 December 2021] Sách, tạp chí
Tiêu đề: Classification: Precision and Recall

HÌNH ẢNH LIÊN QUAN

Hình 2.1: CRISP-DM - Đồ Án Ứng dụng khoa học dữ liệu trong chẩn Đoán rối loạn trầm cảm chủ yếu application of data science in the major depressive disorder diagnosis
Hình 2.1 CRISP-DM (Trang 11)
Bảng 2.1: Tập các thuộc tính - Đồ Án Ứng dụng khoa học dữ liệu trong chẩn Đoán rối loạn trầm cảm chủ yếu application of data science in the major depressive disorder diagnosis
Bảng 2.1 Tập các thuộc tính (Trang 14)
Hình 2.2: Support Vector Machine - Đồ Án Ứng dụng khoa học dữ liệu trong chẩn Đoán rối loạn trầm cảm chủ yếu application of data science in the major depressive disorder diagnosis
Hình 2.2 Support Vector Machine (Trang 16)
Hình 2.3: Random Forest - Đồ Án Ứng dụng khoa học dữ liệu trong chẩn Đoán rối loạn trầm cảm chủ yếu application of data science in the major depressive disorder diagnosis
Hình 2.3 Random Forest (Trang 17)
Hình 2.4: Confusion Matrix - Đồ Án Ứng dụng khoa học dữ liệu trong chẩn Đoán rối loạn trầm cảm chủ yếu application of data science in the major depressive disorder diagnosis
Hình 2.4 Confusion Matrix (Trang 19)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w