HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN 21521232 – NGUYỄN THANH NHI – KHDL2021 21520107 – NGUYỄN NGỌC ĐAN THANH – KHDL2021 ĐỒ ÁN ỨNG DỤNG KHO
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
21521232 – NGUYỄN THANH NHI – KHDL2021
21520107 – NGUYỄN NGỌC ĐAN THANH – KHDL2021
ĐỒ ÁN ỨNG DỤNG KHOA HỌC DỮ LIỆU TRONG CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU
Application of Data Science
in the Major Depressive Disorder Diagnosis
MÔN DS005.M11
GIẢNG VIÊN HƯỚNG DẪN ThS NGUYỄN VĂN KIỆT
Trang 2MỤC LỤC
MỞ ĐẦU 1
1 Lí do chọn đề tài 1
2 Mục tiêu 2
3 Đối tượng nghiên cứu 2
TỔNG QUAN 3
NGHIÊN CỨU LÝ THUYẾT 4
Chương 1 VAI TRÒ CỦA KHOA HỌC DỮ LIỆU TRONG CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU 4
1.1.Vai trò của dữ liệu 4
1.2.Vai trò của mô hình học máy 4
Chương 2 XÂY DỰNG MÔ HÌNH CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU 5
2.1.Quy trình CRISP-DM 5
2.2.Ứng dụng các công nghệ của Khoa học dữ liệu trong xây dựng mô hình chẩn đoán Rối loạn trầm cảm chủ yếu (MDD) 7
2.2.1 Giai đoạn Data Understanding 7
2.2.1.1 Thu thập dữ liệu 7
2.2.1.2 Chọn thuộc tính 7
2.2.2 Giai đoạn Data Preparation 8
2.2.3 Giai đoạn Modeling 9
2.2.3.1 Thuật toán Logistic Regression 9
2.2.3.2 Thuật toán Support Vector Machine 10
2.2.3.3 Thuật toán Random Forest 11
2.2.3.4 Một số thuật toán khác được ứng dụng trong lĩnh vực y học 12
Trang 32.2.4 Giai đoạn Evaluation 12
2.2.4.1 Accuracy 12
2.2.4.2 Confusion Matrix 13
2.2.4.3 Precision và Recall 13
BÀN LUẬN 15
KẾT LUẬN 16
HƯỚNG PHÁT TRIỂN 17
TÀI LIỆU THAM KHẢO 18
Trang 4DANH MỤC HÌNH
Hình 2.1: CRISP-DM 5
Hình 2.2: Support Vector Machine 10
Hình 2.3: Random Forest 11
Hình 2.4: Confusion Matrix 13
Trang 5DANH MỤC BẢNG
Bảng 2.1: Tập các thuộc tính 8
Trang 6DANH MỤC TỪ VIẾT TẮT
1 MDD Major Depressive Disorder Rối loạn Trầm cảm Chủ yếu
2 SVM Support Vector Machines Máy Véc-tơ Hỗ trợ
3 LR Logistic Regression Hồi quy Logistic
4 CRISP-DM Cross-Industry Standard
Process for Data Mining
Quy trình Tiêu chuẩn Đa ngành cho Khai phá Dữ liệu
5 ETL Extract, Transform
and Load Trích xuất, Chuyển đổi và Tải
6 RF Random Forest Rừng Ngẫu nhiên
7 kNN k-Nearest Neighbor k Láng giềng Gần nhất
8 NB Nạve Bayes
Trang 7MỞ ĐẦU
1 Lí do chọn đề tài
Trầm cảm là một căn bệnh phổ biến trên toàn thế giới, ước tính có khoảng 3,8% dân
số bị trầm cảm, bao gồm 5,0% ở người trưởng thành và 5,7% ở người già [1] Trên thế giới có khoảng 280 triệu người mắc bệnh trầm cảm [1] Trầm cảm khác với những thay đổi thông thường trong tâm trạng hay những phản ứng cảm xúc ngắn ngủi trước những thách thức trong cuộc sống hàng ngày Đặc biệt, khi tái phát với cường độ trung bình hoặc nặng, trầm cảm có thể trở thành căn bệnh nghiêm trọng Ở mức độ tồi tệ nhất, trầm cảm có thể dẫn đến tự tử Hơn 700,000 người chết do tự sát mỗi năm [2] Tự tử là nguyên nhân đứng thứ tư gây tử vong ở độ tuổi 15-29 [2]
Mặc dù hiện tại đã có những phương pháp điều trị rối loạn tâm lý hiệu quả, hơn 75% người dân ở các nước có thu nhập thấp và trung bình không nhận được bất kỳ sự điều trị nào [3] Các rào cản đối với việc chăm sóc bệnh nhân tâm lý hiệu quả bao gồm thiếu nguồn lực, thiếu đội ngũ y tế có chuyên môn cao và sự kỳ thị của xã hội đối với các rối loạn tâm lý Không kể đến thu nhập, ở tất cả các quốc gia, bệnh nhân trầm cảm thường không được chẩn đoán chính xác, và những người không mắc chứng rối loạn này lại thường bị chẩn đoán sai và kê đơn thuốc chống trầm cảm
Khoa học dữ liệu và trí tuệ nhân tạo đang là xu thế tất yếu trong y học hiện đại Các
mô hình học máy được xem là một trợ lý cá nhân đặc biệt giúp bác sĩ chẩn đoán bệnh nhanh hơn và chính xác hơn nhờ vào tốc độ xử lý lượng dữ liệu khổng lồ một cách nhanh chóng Mặc dù các mô hình này không thể thay thế được hoàn toàn vai trò của bác sĩ, chúng có khả năng tiếp tục học hỏi và tinh chỉnh để cải thiện độ chính xác theo thời gian Đặc biệt là, khả năng bao quát và phân tích nhiều bộ dữ liệu cùng lúc của các mô hình học máy dễ dàng phát hiện ra bất kỳ sự bất thường nào trong một hồ sơ bệnh án Điều này vượt quá khả năng của một bác sĩ và là một bước tiến lớn trong nỗ lực nâng cao chất lượng chăm sóc sức khỏe cho người dân
Mặc dù các phương pháp học máy đã được áp dụng thành công để phát triển các phương án dự đoán rủi ro trong các lĩnh vực y học khác, các ứng dụng cho bệnh trầm
Trang 82
cảm cho đến nay vẫn dựa trên các mẫu nhỏ và các tập dự đoán nghèo nàn, không phát huy được hết tiềm năng của các phương pháp này Do đó, nhóm nghiên cứu quyết định chọn bệnh trầm cảm để nghiên cứu về ứng dụng và triển vọng của ngành khoa học dữ liệu đối với lĩnh vực sức khỏe tinh thần
2 Mục tiêu
- Nắm rõ quy trình triển khai một mô hình chẩn đoán bệnh
- Tìm hiểu các công nghệ trong Khoa học dữ liệu được áp dụng trong chẩn đoán
bệnh nói chung và chẩn đoán rối loạn trầm cảm chủ yếu nói riêng
- Đánh giá tính hiệu quả của các phương pháp giải quyết bài toán
- Nhận định những hạn chế còn tồn tại và đề ra hướng phát triển trong tương lai
3 Đối tượng nghiên cứu
- Các lĩnh vực: Khoa học dữ liệu, Trí tuệ nhân tạo, Học máy,…
- Lĩnh vực Y học, Khoa học thần kinh và Tâm lý học
- Một số kiến thức Toán học
Trang 9TỔNG QUAN
Các rối loạn trầm cảm (depressive disorders) bao gồm một nhóm bệnh không đồng nhất được đặc trưng bởi các mức độ khác nhau của tâm trạng u uất và các thay đổi liên quan đến nhận thức, thần kinh thực vật và tâm thần vận động [4] Chúng được chia thành rối loạn trầm cảm chủ yếu (major depressive disorder), rối loạn mất điều chỉnh tâm trạng muốn gây rối (disruptive mood dysregulation disorder, đối với trẻ em dưới 18 tuổi), rối loạn trầm cảm dai dẳng (dysthymia), rối loạn phiền muộn tiền kinh nguyệt (premenstrual dysphoric disorder), rối loạn trầm cảm do chất (substance-induced depressive disorder), rối loạn trầm cảm do chứng bệnh khác, cũng như các dạng rối loạn trầm cảm khác và không xác định đối với các trường hợp có triệu chứng phụ không đáp ứng đủ các tiêu chí của rối loạn trầm cảm chủ yếu hoặc rối loạn trầm cảm dai dẳng [4]
Trong đề tài này, nhóm nghiên cứu chọn rối loạn trầm cảm chủ yếu (major depressive disorder; MDD) vì đây là loại rối loạn trầm cảm phổ biến nhất
Hiện nay, các mô hình học máy đã được nghiên cứu để ứng dụng trong chẩn đoán và
dự báo các bệnh mãn tính nói chung Trong đó, thuật toán support vector machines (SVM), logistic regression (LR) và phân cụm (clustering) được sử dụng phổ biến nhất [5] Các thuật toán này có tính ứng dụng cao trong phân loại, chẩn đoán bệnh và được
dự đoán sẽ trở nên quan trọng hơn trong việc khám, chữa bệnh trong tương lai gần
Trang 104
NGHIÊN CỨU LÝ THUYẾT Chương 1 VAI TRÒ CỦA KHOA HỌC DỮ LIỆU TRONG CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU
1.1 Vai trò của dữ liệu
- Trong xây dựng một mô hình học máy chẩn đoán bệnh, vai trò của việc thu thập dữ liệu và chuẩn bị dữ liệu là yếu tố quan trọng quyết định mức độ hiệu quả của mô hình
- Một tập dữ liệu (dataset) lớn bao gồm nhiều thuộc tính (attributes) khác nhau của từng bệnh nhân, tạo sự bao quát khi phân tích các triệu chứng để chẩn đoán bệnh
- Định kiến (stereotype) là một trong những nguyên nhân dẫn đến chẩn đoán sai bệnh tâm lý Tại Việt Nam, sự thiếu hụt chuyên gia tham vấn và trị liệu tâm lý đã dẫn đến thực trạng rằng bệnh nhân thường phải tìm đến các bác sĩ thuộc chuyên khoa nội thần kinh Mặc dù có kiến thức chuyên môn về tâm lý học, so với một nhà tham vấn và trị liệu chuyên nghiệp, các bác sĩ nội thần kinh có lúc không tránh khỏi việc áp đặt cảm xúc và định kiến cá nhân lên bệnh nhân mà mình đang điều trị Điều này vô tình dẫn đến việc bệnh nhân không được chẩn đoán đúng bệnh và phương pháp điều trị không đạt hiệu quả cao Nếu tập dữ liệu được sử dụng và thuộc tính được chọn để huấn luyện (training) mô hình học máy đảm báo được tính công bằng (fairness), mô hình
sẽ hạn chế được sự thiên vị (bias) khi đưa ra kết quả chẩn đoán
1.2 Vai trò của mô hình học máy
- Mô hình chẩn đoán bệnh hiệu quả sẽ là một trợ lý đắc lực cho các bác sĩ, giúp họ giảm bớt gánh nặng và dành sự tập trung tối đa vào những công việc chuyên môn không thể thay thế bởi máy móc
- Mô hình học máy có khả năng cải tiến và tinh chỉnh theo thời gian Do đó, khi một
mô hình chẩn đoán thường xuyên được nâng cấp và cải thiện hiệu năng, nó sẽ đóng vai trò ngày càng quan trọng trong quy trình khám, chữa bệnh
Trang 11Chương 2 XÂY DỰNG MÔ HÌNH CHẨN ĐOÁN RỐI LOẠN TRẦM CẢM CHỦ YẾU
2.1 Quy trình CRISP-DM
CRISP-DM (Cross-Industry Standard Process for Data Mining; Quy trình Tiêu chuẩn
Đa ngành cho Khai phá Dữ liệu) là một phương pháp luận mô tả về các giai đoạn điển hình của một dự án khoa học dữ liệu, nhiệm vụ của từng giai đoạn và giải thích mối quan hệ giữa các nhiệm vụ này CRISP-DM cung cấp cái nhìn tổng quan về vòng tuần hoàn khai phá dữ liệu
CRISP-DM bao gồm 6 giai đoạn được minh họa bằng biểu đồ bên dưới:
Hình 2.1: CRISP-DM
1 Business Understanding (hiểu mục tiêu): Đây là giai đoạn vạch ra mục tiêu
của dự án Mục tiêu không được thống nhất rõ ràng và đầy đủ giữa các bên liên quan sẽ dẫn đến lãng phí nguồn lực
Trang 126
2 Data Understanding (hiểu dữ liệu): Giai đoạn này phụ thuộc vào giai đoạn
Business Understanding trước đó Dữ liệu sẽ được thu thập ở giai đoạn này
Từ mục tiêu đã đề ra, các nhà khoa học dữ liệu sẽ xác định dữ liệu nào được thu thập, từ những nguồn nào và bằng những phương pháp nào
3 Data Preparation (chuẩn bị dữ liệu): Khi dữ liệu đã được thu thập, chúng
phải được chuyển đổi thành một tập con có thể sử dụng được, trừ khi được xác định rằng cần bổ sung thêm dữ liệu Sau khi tập dữ liệu được chọn, tập dữ liệu
đó phải được kiểm tra liệu xem có những trường hợp đáng ngờ, thiếu hoặc mơ
hồ nào hay không
4 Modeling (mô hình hóa): dữ liệu đã được chuẩn bị phải được thể hiện thông
qua mô hình thích hợp, cung cấp thông tin có ý nghĩa (insight) và có thể là tri thức mới Đây chính là mục đích của khai phá dữ liệu: tạo ra thông tin tri thức
có ý nghĩa và có ích Mô hình thể hiện các khuôn mẫu (patterns) và cấu trúc bên trong dữ liệu Các mô hình được chọn dựa trên một phần dữ liệu và các
điều chỉnh sẽ được thực hiện nếu cần thiết
5 Evaluation (đánh giá): Mô hình được chọn sẽ phải được thử nghiệm Sau khi
được huấn luyện bằng tập dữ liệu huấn luyện (training set; gồm input và output), mô hình sẽ được đánh giá bằng tập dữ liệu kiểm tra (testing set; chỉ
có input) Kết quả từ bài kiểm tra sẽ được sử dụng để xác định độ hiệu quả của
mô hình và báo hiệu vai trò của nó trong giai đoạn tiếp theo
6 Deployment (triển khai): Trong giai đoạn triển khai, dữ liệu mới bên ngoài
phạm vi của tập dữ liệu sẽ được sử dụng trong mô hình Giai đoạn này có thể làm xuất hiện các biến và nhu cầu mới đối với tập dữ liệu và mô hình Những thách thức mới này có thể dẫn đến việc xem xét, điều chỉnh các hành động cần thiết hoặc mô hình và dữ liệu, hoặc cả hai
Vòng tuần hoàn trong CRISP-DM bao gồm sáu giai đoạn với các mũi tên chỉ sự phụ thuộc giữa các giai đoạn Trình tự thực hiện các giai đoạn trong CRISP-DM là không khắt khe Trên thực tế, các dự án khoa học dữ liệu đều chuyển đổi linh hoạt giữa các giai đoạn khi cần thiết
Trang 13Mô hình CRISP-DM có tính linh hoạt và tùy biến Ví dụ: Bài toán phát hiện các triệu chứng bất thường thường sàng lọc một lượng lớn dữ liệu mà không có mục tiêu mô hình hóa cụ thể Phương án giải quyết nó là tập trung vào việc khai thác và trực quan hóa dữ liệu để phát hiện ra chiều hướng đáng ngờ trong dữ liệu thay vì tập trung vào việc mô hình hóa CRISP-DM cho phép tạo mô hình khai phá dữ liệu phù hợp với từng nhu cầu cụ thể Trong các trường hợp trên, các giai đoạn mô hình hóa, đánh giá
và triển khai có thể không quan trọng bằng các giai đoạn chuẩn bị và hiểu dữ liệu Tuy nhiên, điều quan trọng vẫn là xem xét một số câu hỏi được đặt ra trong các giai đoạn sau cho kế hoạch dài hạn và các mục tiêu khai phá dữ liệu trong tương lai
2.2 Ứng dụng các công nghệ của Khoa học dữ liệu trong xây dựng mô hình chẩn đoán Rối loạn trầm cảm chủ yếu (MDD)
2.2.1 Giai đoạn Data Understanding
Nghiên cứu của Kevin Daim và Shadi Banitaan [6] đã chọn ra 30 triệu chứng MDD để xây dựng mô hình khai phá dữ liệu:
Trang 148
Thuộc tính Giá trị Buồn rầu Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Nản lòng Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thiếu tự trọng Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Cảm giác thua kém Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Tội lỗi Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thiếu quyết đoán Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Nóng nảy và thất vọng Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Mất hứng thú với cuộc sống Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Mất động lực Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Nhận thức bản thân kém Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Trí nhớ kém Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Mất ham muốn Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Suy nhược cơ thể Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thôi thúc tự sát Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3
Uể oải Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Khóc vô lí do Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thiếu sự bộc lộ cảm xúc Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Không tự lực được Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3
Bi quan Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3
Lo âu Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Thất bại trong quá khứ Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Giảm khả năng chịu đau đớn Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Muốn được hỗ trợ từ xã hội Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Tâm thần không ổn định Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Hỗn loạn Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Đãng trí Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3
Sa sút nhận thức Không: 0, Nhẹ: 1, Trung bình: 2, Nặng: 3 Mất cảm giác ấm áp với
2.2.2 Giai đoạn Data Preparation
Có 3 dạng dữ liệu: dạng có cấu trúc (structured), phi cấu trúc (unstructured) hoặc bán cấu trúc (semi-structured) Đối với MDD, các triệu chứng của bệnh nhân thường được ghi nhận ở dạng phi cấu trúc (ghi chú của bác sĩ) Dữ liệu này cần được trích xuất và chuyển đổi thành dạng có cấu trúc, sau đó được loại bỏ những
dữ kiện thừa, trùng lặp và cân nhắc bổ sung những dữ kiện còn thiếu
Trang 15Một số công cụ ETL (Extract, Transform and Load; Trích xuất, Chuyển đổi và Tải) phổ biến hiện nay: Apache Airflow, pandas, AWS Data Pipeline, Google Dataflow, Azure Data Factory, Spark,…
2.2.3 Giai đoạn Modeling
Như đã đề cập, logistic regression (LR) và support vector machines (SVM) là 2 loại thuật toán học máy được sử dụng phổ biến trong các mô hình chẩn đoán bệnh mạn tính nói chung Ngoài ra, trong chẩn đoán bệnh tâm lý, thuật toán random forest (RF) cũng thường được sử dụng
2.2.3.1 Thuật toán Logistic Regression
Logistic regression (hồi quy logistic) là một thuật toán học có giám sát (supervised learning) thường được sử dụng trong mô hình phân loại để dự đoán khả năng (xác suất) xảy ra một sự kiện Với phương pháp phân tích này, biến phụ thuộc là định lượng (finite) hoặc định tính (categorical): A hoặc B (hồi quy nhị phân; binary regression) hoặc biến phụ thuộc là biến định tính có nhiều hơn
2 trạng thái: A, B, C hoặc D,… (hồi quy đa thức; multinomial regression)
LR được ứng dụng trong thống kê để xác định mối quan hệ giữa biến phụ thuộc
và một hoặc nhiều biến độc lập bằng cách sử dụng phương trình hồi quy logistic
Một số ưu điểm của LR:
- Là một thuật toán phân loại đơn giản nhưng hiệu quả cao
- Đưa ra xác suất thay vì một lớp dự đoán