Nhóm chúng em cũng áp dụng phương pháp trên để dự báo về các nguy cơ đột quỵ nguy hiểm cho sức khoẻ của một lượng lớn dữ liệu nhằm không bỏ sót một dữ liệu quan trọng nào của nhiều mẫu k
Giới thiệu
Lý do lựa chọn đề tài
Trong cuộc sống hiện đại, giới trẻ ngày càng chạy theo nhịp sống vội vã, tập trung vào nâng cao cuộc sống cá nhân mà quên mất việc chăm sóc và bảo vệ sức khỏe của chính mình Việc kiểm tra sức khỏe định kỳ thường bị bỏ qua, đến khi xảy ra các vấn đề nghiêm trọng mới phát hiện thì đã quá muộn, nhấn mạnh tầm quan trọng của nguyên tắc "phòng bệnh hơn chữa bệnh." Trong kỷ nguyên công nghệ phát triển như hiện nay, chúng ta cần nỗ lực làm việc hết mình nhưng cũng đừng quên yêu thương và quan tâm đến bản thân để duy trì sức khỏe tốt, vì có sức khỏe mới có thể tiếp tục lao động và hưởng thụ cuộc sống Nhóm chúng em đã chọn chủ đề "Dự báo nguy cơ bệnh đột quỵ" để nhấn mạnh tầm quan trọng của việc theo dõi các chỉ số sức khỏe dựa trên dữ liệu, nhằm dự đoán và phòng tránh bệnh đột quỵ - căn bệnh nguy hiểm thường đến unexpectedly, nhưng có thể phòng ngừa qua các dấu hiệu như cân nặng hay biểu hiện cơ thể Với sự phát triển của công nghệ và kỹ thuật trí tuệ nhân tạo, các ứng dụng dự báo sức khỏe đã và đang ngày càng phổ biến hơn trên thế giới, mặc dù còn mới mẻ tại Việt Nam, nhưng trong vài năm gần đây đã dần được áp dụng rộng rãi và nhóm chúng em cũng sử dụng phương pháp này để phân tích dữ liệu lớn nhằm phát hiện sớm các nguy cơ đột quỵ, góp phần bảo vệ sức khỏe cộng đồng.
Mục tiêu nghiên cứu
- Bài nghiên cứu tiến hành phân tích các lý thuyết của khai phá dữ liệu nhằm tập trung làm rõ những vấn đề của bài nghiên cứu
Nghiên cứu tập trung vào các phương pháp phân lớp dữ liệu, một kỹ thuật quan trọng trong lĩnh vực phân tích dữ liệu và trí tuệ nhân tạo Phương pháp phân loại dữ liệu giúp đưa ra các dự báo chính xác, phân loại và nhóm các đối tượng dựa trên đặc điểm riêng biệt của chúng Việc áp dụng các phương pháp phân lớp hiệu quả không chỉ nâng cao độ chính xác trong dự báo mà còn tối ưu hóa quá trình xử lý dữ liệu lớn, góp phần thúc đẩy các ứng dụng AI trong thực tế.
Trong quá trình phân tích dữ liệu, nghiên cứu các phương pháp phân lớp dữ liệu đóng vai trò quan trọng nhằm xác định giải pháp tối ưu phù hợp với từng loại dữ liệu Việc lựa chọn phương pháp phân lớp phù hợp giúp nâng cao độ chính xác của quá trình dự báo dữ liệu, từ đó đảm bảo kết quả dự báo chính xác và đáng tin cậy hơn Chọn ra phương pháp tối ưu nhất dựa trên các tiêu chí về hiệu suất và khả năng áp dụng là bước quan trọng để nâng cao hiệu quả của hệ thống dự báo dữ liệu.
Dự báo nguy cơ đột quỵ của con người sẽ dựa trên bộ dữ liệu đã được huấn luyện, giúp đưa ra các nhận xét chính xác về chỉ số BMI và các chỉ số liên quan khác, qua đó cảnh báo sớm về các dấu hiệu báo động của cơ thể Công nghệ này góp phần nâng cao khả năng dự phòng và chẩn đoán sớm các nguy cơ đột quỵ, giảm thiểu tác động tiêu cực đến sức khỏe người dùng Sử dụng phân tích dữ liệu và trí tuệ nhân tạo, hệ thống có thể theo dõi và cảnh báo các biến đổi bất thường nhằm đảm bảo sức khỏe tốt hơn.
Dựa trên kết quả dữ liệu huấn luyện và dự báo về nguy cơ đột quỵ của cơ thể, nhóm nghiên cứu đã đưa ra các kết luận chính xác, đồng thời thận trọng đề cập đến những hạn chế của bài nghiên cứu Dựa trên những phát hiện này, nhóm đề xuất giải pháp tối ưu nhằm giảm thiểu rủi ro đột quỵ và cải thiện hiệu quả dự báo trong các nghiên cứu tương lai.
- Tạo tiền đề cho các bài nghiên cứu sau này
Phương pháp thực hiện
- Phương pháp nghiên cứu của đề tài là kết hợp giữa phân tích định tính cùng với phân tích định tượng (dự báo)
Chúng tôi đã ứng dụng các phương pháp thống kê, phân tích dữ liệu và mô hình hồi quy kinh tế định lượng để dự báo nguy cơ đột quỵ dựa trên các chỉ số sức khỏe Phương pháp này được hỗ trợ bởi các công cụ chuyên dụng như chương trình Orange và Excel 2016, giúp nâng cao độ chính xác và hiệu quả trong phân tích dữ liệu y tế.
Đối tượng nghiên cứu
Nghiên cứu tập trung vào 2.000 người tham gia khảo sát, bao gồm nam và nữ thuộc mọi độ tuổi Các đối tượng đều đã kết hôn hoặc chưa kết hôn, sinh sống tại các khu vực đô thị và nông thôn Mục tiêu của đề tài là phân tích các đặc điểm và xu hướng hành vi của các đối tượng trong các môi trường khác nhau nhằm cung cấp dữ liệu hữu ích cho các chiến lược phát triển phù hợp Số lượng lớn người tham gia đảm bảo tính khách quan và đáng tin cậy của kết quả nghiên cứu.
Phạm vi nghiên cứu
- Thời gian: Mẫu dữ liệu được thu thập từ năm 2020
Nghiên cứu được thực hiện dựa trên 2000 mẫu khảo sát và dữ liệu từ 2000 người, bao gồm cả nam và nữ ở mọi độ tuổi, trạng thái hôn nhân và sống ở cả vùng đô thị và nông thôn, giúp đảm bảo tính đa dạng và toàn diện của dữ liệu Trong đó, 1400 mẫu thuộc bộ dữ liệu huấn luyện để xây dựng mô hình, còn 600 mẫu dùng để dự báo nhằm kiểm tra độ chính xác của các kết quả phân tích Phương pháp này giúp nâng cao khả năng dự đoán và ứng dụng trong các lĩnh vực liên quan đến không gian sống và hành vi người dùng.
Cơ sở lý luận
Khai phá dữ liệu
Khai phá dữ liệu là tập hợp các kỹ thuật tự động phân tích dữ liệu lớn và phức tạp nhằm tìm ra các mối quan hệ chặt chẽ, đồng thời xác định các mẫu tiềm ẩn trong tập dữ liệu Công nghệ này giúp khai thác thông tin giá trị từ dữ liệu khổng lồ để hỗ trợ ra quyết định chính xác và hiệu quả hơn.
2.1.2 Quy trình khai phá dữ liệu Quy trình khai phá dữ liệu bao gồm 7 bước dưới đây:
1 Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu và các dữ liệu không cần thiết
2 Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (datacleaning & preprocessing)
3 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data),.v.v
4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý
5 Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu
6 Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó
7 Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng Được trình bày dưới dạng sơ đồ hình vẽ như sau:
Nguồn: uet.vnu.edu.vn 2.1.3 Các phương pháp khai phá dữ liệu
Phân lớp (Classification) là phương pháp dự báo dữ liệu dựa trên bộ dữ liệu huấn luyện để phân loại đối tượng chính xác Phương pháp khai phá dữ liệu này giúp xác định các mẫu và đặc điểm quan trọng nhằm dự đoán kết quả một cách hiệu quả Áp dụng phân lớp trong phân tích dữ liệu, tôi sẽ dự báo số liệu dựa trên các mẫu dữ liệu đã được xác định rõ ràng, nâng cao độ chính xác của dự đoán.
Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để khám phá và ánh xạ dữ liệu
Phân cụm (Clustering) là phương pháp giúp mô tả dữ liệu một cách dễ dàng hơn bằng cách xác định các tập hợp hữu hạn các cụm dữ liệu liên kết với nhau Đây là kỹ thuật phân tích dữ liệu quan trọng trong lĩnh vực khai thác dữ liệu, giúp nhóm các dữ liệu có điểm chung để phân loại và hiểu rõ hơn về cấu trúc của dữ liệu Phân cụm hỗ trợ các doanh nghiệp và nhà nghiên cứu trong việc phát hiện xu hướng, phân khúc khách hàng và tối ưu hóa hoạt động dựa trên các nhóm dữ liệu đã được xác định rõ ràng.
Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một mô tả nhỏ gọn
Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mô hình cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hình ràng buộc
Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Mục đích của phương pháp này là để tìm ra những thay đổi quan trọng
2.1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu - Orange Phần mềm Orange được biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tương tác dễ dàng Với nhiều chức năng, phần mềm này có thể phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia
Các công cụ (widgets) cung cấp các chức năng quan trọng như đọc và xử lý dữ liệu, hiển thị dữ liệu dạng bảng để dễ dàng phân tích, chọn thuộc tính đặc điểm quan trọng của dữ liệu, huấn luyện mô hình để dự đoán chính xác, so sánh hiệu quả của các thuật toán máy học khác nhau, và trực quan hóa dữ liệu để nhìn nhận xu hướng và mẫu rõ ràng hơn, giúp người dùng dễ dàng thao tác và tối ưu hóa quá trình phân tích dữ liệu.
- Data: dùng để rút trích, biến đổi và nạp dữ liệu (ETL, process)
- Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn
- Model: gồm các hàm máy học (machine learning) phân lớp dữ liệu với Tree, Logistics Regression, SVM,…
- Evaluate: là các phương pháp đánh giá mô hình như: Test & Score, Prediction, Confusion,…
- Unsupervised: gồm các hàm máy học gom nhóm dữ liệu như: Distance, K-means,…
Add-ons của Orange giúp mở rộng chức năng nâng cao như xử lý dữ liệu lớn (big data) với Spark, xử lý ảnh bằng Deep Learning, phân tích văn bản và mạng xã hội, đây chính là điểm cộng nổi bật của Orange so với các phần mềm khai thác dữ liệu khác.
Phân lớp dữ liệu
Phân lớp là quá trình phân một đối tượng dữ liệu vào một hoặc nhiều lớp đã xác định sẵn thông qua một mô hình phân lớp Mô hình này được xây dựng dựa trên tập dữ liệu đã được gán nhãn từ trước, giúp hệ thống có khả năng xác định chính xác loại của dữ liệu mới Quá trình này đóng vai trò quan trọng trong các ứng dụng trí tuệ nhân tạo và phân tích dữ liệu, nâng cao hiệu quả phân loại và dự đoán.
(thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu
2.2.2 Quy trình phân lớp dữ liệu Quá trình phân lớp dữ liệu gồm 2 bước chính: ỉ Bước 1: Xõy dựng mụ hỡnh (hay cũn gọi là giai đoạn “học” hoặc “huấn luyện”)
- Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý
- Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật…
- Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)
Nguồn: slides bài giảng LMS ỉ Bước 2: Sử dụng mụ hỡnh chia thành 2 bước nhỏ
• Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Dữ liệu đầu vào là tập dữ liệu mẫu đã được gán nhãn và tiền xử lý kỹ lưỡng, đảm bảo chất lượng cho quá trình huấn luyện mô hình Tuy nhiên, khi đưa dữ liệu vào mô hình phân lớp, ta bỏ qua các thuộc tính đã được gán nhãn nhằm tập trung vào các đặc trưng cần thiết để nâng cao hiệu quả phân loại.
Tính đúng đắn của mô hình được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào với kết quả phân lớp của mô hình Điều này giúp đánh giá chính xác và độ tin cậy của mô hình trong quá trình phân tích dữ liệu Việc kiểm tra sự phù hợp này là bước quan trọng để đảm bảo mô hình hoạt động hiệu quả và đạt được các mục tiêu dự kiến.
Nguồn: slides bài giảng LMS
• Bước 2.2: Phân lớp dữ liệu mới
- Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
- Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1
Nguồn: slides bài giảng LMS 2.2.3 Các phương pháp phân lớp dữ liệu sử dụng trong bài nghiên cứu
★ Phương pháp cây ra quyết định Định nghĩa:
Trong lý thuyết quản trị, cây quyết định là công cụ đồ thị giúp trực quan hóa các quyết định và kết quả khả dĩ để hỗ trợ quá trình ra quyết định một cách hiệu quả Trong lĩnh vực khai thác dữ liệu, cây quyết định được sử dụng như một phương pháp mạnh mẽ để mô tả, phân loại và tổng quát hóa các tập dữ liệu lớn, giúp trích xuất thông tin có giá trị và nâng cao khả năng dự đoán của hệ thống.
Nguồn: slides bài giảng LMS
★ Phương pháp hồi quy logistics
Hồi quy logistic là một mô hình thống kê cơ bản sử dụng hàm logistic để dự đoán biến phụ thuộc nhị phân Đây là phương pháp ước lượng các tham số của mô hình logistic, một dạng của hồi quy nhị phân, giúp phân tích các biến dich vụ như đạt hoặc không đạt Về mặt toán học, mô hình này xử lý biến phụ thuộc có hai giá trị, ví dụ như thành công hoặc thất bại, được biểu thị bằng các nhãn "0" và "1".
Nguồn: slides bài giảng LMS
Mạng Neural nhân tạo, còn gọi là Neural Network, là một chuỗi thuật toán giúp xác định các mối quan hệ trong tập hợp dữ liệu bằng cách bắt chước hoạt động của bộ não con người Neural Network có khả năng thích nghi với mọi loại dữ liệu đầu vào, cho phép nó đưa ra các kết quả tối ưu mà không cần xây dựng các tiêu chí đầu ra cụ thể Đây là công nghệ trí tuệ nhân tạo có tiềm năng lớn trong việc phân tích dữ liệu và tự động hóa quy trình xử lý thông tin.
★ Phương pháp SVM Định nghĩa:
Support Vector Machine (SVM) là một thuật toán có giám sát, nhận dữ liệu làm đầu vào và xem chúng như những vector trong không gian nhiều chiều Thuật toán này phân loại dữ liệu vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian đó, đóng vai trò làm mặt phân cách các lớp dữ liệu SVM hoạt động hiệu quả trong việc xử lý các bài toán phân loại và có khả năng tối ưu hóa ranh giới giữa các lớp dữ liệu để đạt độ chính xác cao.
Các biến thể của SVM:
Hard Margin SVM Hai lớp cần phân lớp là có thể phân chia tuyến tính (linearly seperable)
Soft Margin SVM Hai lớp cần phân lớp là “gần” phân chia tuyến tính (almost linear separable)
Multi - class SVM Phân lớp đa lớp (biên giữa các lớp là tuyến tính)
Kernel SVM Dữ liệu là phi tuyến
2.2.4 Các phương pháp đánh giá mô hình phân lớp 2.2.4.1 Ma trận nhầm lẫn (Confusion matrix)
Ma trận nhầm lẫn (confusion matrix) là công cụ quan trọng trong việc đánh giá hiệu suất của mô hình phân loại, thể hiện rõ số điểm dữ liệu thực sự thuộc vào từng lớp và dự đoán của mô hình Ma trận này có kích thước k x k, trong đó k là số lượng lớp của dữ liệu, giúp xác định chính xác các dự đoán đúng và sai Việc phân tích ma trận nhầm lẫn giúp nâng cao độ chính xác của mô hình và tối ưu hóa các chiến lược xử lý dữ liệu.
Các thuật ngữ chính của ma trận nhầm lẫn gồm có Tớch cực thực sự (TP), phản ánh dự đoán đúng về lớp tớch cực; Tớch cực giả (FP), là dự đoán sai về lớp tớch cực nhưng thực sự không phải; Phủ định giả (FN), là dự đoán sai về lớp phủ định trong khi thực tế đó là tớch cực; và Phủ định thực (TN), thể hiện dự đoán đúng về lớp phủ định.
Nguồn: slides bài giảng LMS
2.2.4.2 ROC ( Receiver Operating Characteristic) và AUC (Area Under the Curve)
Đường cong ROC là một công cụ phổ biến trong việc đánh giá hiệu quả của các mô hình phân loại nhị phân, giúp xác định khả năng phân biệt của mô hình ROC được xây dựng bằng cách thể hiện TPR (tỷ lệ dự báo đúng tích cực) so với FPR (tỷ lệ dự báo sai tích cực) tại nhiều ngưỡng khác nhau, từ đó đo lường độ chính xác của mô hình Một mô hình phân loại hiệu quả thường có đường ROC hướng gần tới điểm (0,1), đồng nghĩa với việc có TPR cao và FPR thấp, thể hiện khả năng phân biệt tốt giữa các lớp Sử dụng đường cong ROC giúp các nhà phát triển mô hình lựa chọn ngưỡng tối ưu để cải thiện độ chính xác và hiệu suất của mô hình phân loại.
Nguồn: slides bài giảng LMS
AUC (Area Under the Curve) là diện tích nằm dưới đường cong ROC, thể hiện khả năng phân biệt của mô hình Giá trị AUC nằm trong khoảng từ 0 đến 1, trong đó giá trị càng gần 1 cho thấy mô hình càng chính xác và hiệu quả hơn Vì vậy, AUC là chỉ số quan trọng để đánh giá độ chính xác của các mô hình phân loại trong các ứng dụng dữ liệu lớn và trí tuệ nhân tạo.
Nguồn: slides bài giảng LMS
Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu acc=(a+d) Ún => Error rate=1 -acc là độ lỗi của mô hình
Độ chính xác cho biết tỷ lệ dữ liệu được phân loại đúng, phản ánh mức độ chính xác của mô hình Tuy nhiên, độ chính xác không cung cấp thông tin về cách phân loại của từng lớp, như lớp nào được phân loại đúng nhiều nhất hoặc lớp nào thường bị nhầm lẫn với lớp khác Mức độ chính xác càng cao chứng tỏ mô hình càng chính xác và đáng tin cậy trong quá trình dự đoán.
- Precision (độ chính xác) cho biết tỉ lệ số điểm true positive (TP) trong số những điểm được phân loại là positive (TP + FP)
Recall, also known as coverage or sensitivity (TPR - True Positive Rate), measures the proportion of actual positive points that are correctly identified by a model It is calculated as the ratio of true positives (TP) to the total actual positives, which includes both true positives and false negatives (TP + FN) High recall indicates that the model effectively captures most of the positive instances in the dataset.
- F1- score là giá trị trung bình điều hòa của hai độ đo Precision và Recall
F1 score is approximately equal to the lower value between Precision and Recall, serving as a balanced measure of a model’s performance A higher F1 score indicates that both Precision and Recall are high, reflecting greater model reliability and prediction accuracy Optimizing the F1 score helps ensure a more robust and trustworthy model in machine learning tasks.
2.2.4.5 Hold out với K-fold cross validation
Mô hình nghiên cứu đề xuất
Mô tả dữ liệu
Trong các cột dữ liệu, cột stroke là mục tiêu chính của bài nghiên cứu, phản ánh nguy cơ đột quỵ của người dùng Chúng tôi sử dụng 2000 phiếu khảo sát, trong đó 70% dữ liệu được dùng để huấn luyện mô hình và 30% còn lại để kiểm thử dự đoán Dữ liệu thu thập từ các yếu tố ảnh hưởng đến nguy cơ đột quỵ, bao gồm các tác nhân như độ tuổi, giới tính và nơi sinh sống, nhằm xây dựng mô hình dự đoán chính xác cho mọi đối tượng bất kể giới tính hay lứa tuổi.
Theo đánh giá của Tổ chức Y tế Thế giới (WHO), đột quỵ là nguyên nhân hàng đầu gây tử vong tại Việt Nam, chiếm tỷ lệ 21,7%, đồng thời là nguyên nhân chính gây khuyết tật nặng ở người lớn toàn cầu Tăng huyết áp đóng vai trò quyết định trong việc làm gia tăng nguy cơ đột quỵ và gây tử vong sớm, trong đó cứ 4 người nam hoặc 5 người nữ thì có 1 người mắc phải căn bệnh này.
Tăng huyết áp gây ra tổn thương các động mạch trên toàn cơ thể, làm tăng nguy cơ vỡ hoặc tắc nghẽn mạch máu Đặc biệt, các động mạch trong não bị ảnh hưởng bởi tăng huyết áp, khiến nguy cơ đột quỵ tăng cao, đe dọa tính mạng và sức khỏe người bệnh.
Chỉ số BMI được tính dựa trên tỷ lệ giữa cân nặng và chiều cao bình phương, giúp xác định xem một người đang thừa cân, thiếu cân hay có cân nặng hợp lý Đây là tiêu chuẩn quan trọng để đánh giá tình trạng sức khỏe và cân đối cơ thể BMI cung cấp nhiều thông tin hữu ích trong việc xây dựng các chiến lược chăm sóc sức khỏe phù hợp.
BMI = Cân nặng/ (Chiều cao) 2
Béo phì là một chỉ số quan trọng để đánh giá mức độ béo phì của cơ thể Người béo phì có nguy cơ cao mắc các bệnh nguy hiểm như tiểu đường, đột quỵ, một số loại ung thư và các bệnh tim mạch Việc kiểm tra chỉ số béo phì giúp phát hiện sớm các vấn đề sức khỏe, từ đó xây dựng các chiến lược phòng ngừa hiệu quả Do đó, việc theo dõi và duy trì cân nặng hợp lý đóng vai trò quan trọng trong việc bảo vệ sức khỏe toàn diện.
Chỉ số BMI càng cao thể hiện lượng mỡ trong cơ thể càng nhiều, tăng nguy cơ mắc các bệnh lý nguy hiểm như béo phì, đột quỵ, huyết áp cao, bệnh tim mạch và tiểu đường Ngược lại, chỉ số BMI thấp cũng có thể gây ra các vấn đề sức khỏe như thiếu máu, hệ miễn dịch yếu hoặc loãng xương Việc duy trì chỉ số BMI hợp lý là yếu tố quan trọng để bảo vệ sức khỏe toàn diện.
- Hút thuốc lá/ smoking_status
Hút thuốc lá từ lâu bị xem là một trong những yếu tố làm tăng đáng kể nguy cơ đột quỵ
Hút thuốc lá ít hơn 11 điếu mỗi ngày làm tăng khả năng bị đột quỵ lên đến 46% so với người không hút Trong khi đó, những người hút 2 bao/ngày có nguy cơ đột quỵ cao gấp 5 lần so với người không hút thuốc Việc giảm số lượng điếu thuốc hàng ngày có thể giúp giảm nguy cơ mắc các bệnh nguy hiểm về tim mạch Hút thuốc là yếu tố nguy cơ quan trọng gây đột quỵ, do đó, hạn chế hút thuốc là biện pháp phòng ngừa hiệu quả.
Hút thuốc làm tăng nguy cơ đột quỵ do thu hẹp các động mạch trong não và động mạch cảnh ở cổ, gây giảm lưu lượng máu đến não Ngoài ra, các mạch máu này có thể bị tắc nghẽn bởi máu đông hoặc tắc nghẽn, dẫn đến đột quỵ và tê liệt Khi các mạch máu đến một phần của não bị chặn hoàn toàn, phần đó sẽ bị chết, gây mất khả năng nói, đi lại hoặc di chuyển bình thường Tùy thuộc vào vùng não bị ảnh hưởng, đột quỵ có thể gây tử vong hoặc các di chứng lâu dài.
- Mức đường trung bình/ avg_glucose_level
Mức đường trung bình cao dễ gây ra bệnh đái tháo đường và làm tăng nguy cơ các biến chứng nguy hiểm Người mắc bệnh đái tháo đường có nguy cơ cao gặp phải đột quỵ do ảnh hưởng của lượng đường huyết cao trong máu Ngoài ra, tăng triglycerid còn làm cứng và tắc nghẽn mạch máu do các mảng lipid tích tụ, dẫn đến tình trạng xơ vữa động mạch Tình trạng xơ vữa này ảnh hưởng đến lưu lượng máu lên não, làm tăng khả năng xảy ra đột quỵ.
Người bị đái tháo đường có nguy cơ đột quỵ cao hơn từ 2 đến 4 lần so với người bình thường, do hiện tượng tăng đường huyết sau ăn thúc đẩy quá trình hình thành xơ vữa động mạch Khi các khối xơ vữa phát triển nhanh, chúng gây nghẽn hoặc tắc nghẽn mạch máu, làm tăng nguy cơ đột quỵ Glucose, hay còn gọi là đường, là nguồn năng lượng chính cung cấp cho cơ thể, được chuyển hóa từ thực phẩm hàng ngày Trong máu luôn duy trì một lượng glucose nhất định để đảm bảo hoạt động thường ngày của các hệ cơ quan.
90 - 130 mg/dl (tức 5 - 7,2 mmol/l) ở thời điểm trước bữa ăn
Dưới 180 mg/dl (tức 10 mmol/l) ở thời điểm sau ăn khoảng 1 - 2 tiếng
100 - 150 mg/l (tức 6 - 8,3 mmol/l) ở thời điểm trước khi đi ngủ
Suy tim là tình trạng gây giảm khả năng bơm máu của tim, dẫn đến các biến chứng nghiêm trọng Một trong những hậu quả đáng chú ý của suy tim chính là tăng nguy cơ đột quỵ Khi tim yếu, lưu lượng máu lên não bị ảnh hưởng, làm tăng khả năng hình thành các cục máu đông và gây đột quỵ Do đó, suy tim cần được chẩn đoán và điều trị kịp thời để giảm thiểu nguy cơ đột quỵ và các biến chứng nguy hiểm khác.
Các yếu tố nguy cơ chính dẫn đến suy tim bao gồm huyết áp cao, xơ vữa động mạch, hút thuốc lá, tiểu đường và sử dụng rượu bia quá mức Những yếu tố này có thể gây tổn thương cho hệ tim mạch, làm tăng khả năng mắc các bệnh lý nguy hiểm như đột quỵ Việc kiểm soát các yếu tố này đóng vai trò quan trọng trong phòng ngừa suy tim và các biến chứng liên quan.
Một số bệnh tim mạch như giãn cơ tim, bệnh van tim, viêm màng tim và các khuyết tật tim bẩm sinh đều góp phần làm tăng nguy cơ đột quỵ Việc understanding các bệnh này giúp người đọc nhận thức rõ hơn về các yếu tố nguy cơ liên quan đến đột quỵ và tầm quan trọng của việc phòng ngừa, kiểm soát bệnh tim mạch để giảm thiểu rủi ro.
This survey collects key demographic and health-related data, including gender (Female, Male), age, and residence type (Rural, Urban) It assesses health conditions such as hypertension and heart disease, indicated by binary variables (0,1) The survey also notes marital status (No, Yes) and current employment type (Private, Self-employed, Govt_job, children) Important health indicators like average glucose level and BMI are recorded to evaluate risks for diabetes and obesity Additionally, smoking status (formerly smoked, never smoked, smokes) is documented, along with the potential risk of stroke (0,1) This comprehensive data helps improve health assessments and tailored interventions.
3.1.2 Bộ dữ liệu huấn luyện
Trong nghiên cứu ứng dụng mô hình khai phá dữ liệu để dự báo chỉ số nguy cơ đột quỵ, chúng tôi sử dụng bộ dữ liệu gồm 1400 mẫu khảo sát đầu tiên để huấn luyện mô hình Các biến độc lập chính tập trung vào 5 yếu tố quan trọng: tăng huyết áp (hypertension), bệnh tim (heart_disease), mức độ đường huyết trung bình (avg_glucose_level), chỉ số BMI (bmi), và thói quen hút thuốc (smoking_status), được xác định là nguyên nhân chính dẫn đến đột quỵ Các biến không liên quan đến kết quả dự đoán đã được phân tích và chọn lọc kỹ lưỡng, đảm bảo chỉ những yếu tố có ảnh hưởng rõ ràng mới được đưa vào mô hình.
=> skip, còn stroke sẽ là biến Target
3.1.3 Bộ dữ liệu dự báo
Xử lý dữ liệu
Các thuộc tính như ID, ever_married và work_type không ảnh hưởng đến quá trình đánh giá, do đó sinh viên không cần sử dụng các đặc tính này trong quá trình phân tích dữ liệu hoặc xây dựng mô hình Việc loại bỏ các thuộc tính không mang tính quyết định giúp nâng cao độ chính xác và hiệu quả của quá trình dự đoán Tập trung vào các đặc tính có ảnh hưởng thực sự sẽ tối ưu hóa hiệu suất của mô hình và mang lại kết quả chính xác hơn trong quá trình phân tích dữ liệu.
Kết quả thực hiện
Phân tích kết quả dựa trên phần mềm
4.1.1 Kết quả của dữ liệu huấn luyện Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện
Hình 4.1: Khai báo thuộc tính các biến trong bộ dữ liệu huấn luyện
Dữ liệu được lấy từ phần mềm Orange, trong đó các biến độc lập như gender, age, hypertension, heart_disease, Residence_type, avg_glucose_level, BMI và smoking_status được xác định là “feature” để dự đoán nguy cơ đột quỵ Biến phụ thuộc “stroke” được khai báo với thuộc tính “target”, thể hiện kết quả dự báo về nguy cơ đột quỵ, phân thành hai trạng thái: “0 - không có nguy cơ” và “1 - có nguy cơ bị đột quỵ” Các biến như ID, ever_married, work_type không tham gia vào quá trình dự báo nên được khai báo thuộc tính “skip” để bỏ qua trong phân tích.
Sau khi khai báo các thuộc tính của dữ liệu cần chú ý, bài nghiên cứu lựa chọn phương pháp phân lớp phù hợp nhất dựa trên các chỉ số như AUC, CA, F1, Precision và Recall Các phương pháp phân lớp được sử dụng trong nghiên cứu bao gồm cây quyết định (Tree), hồi quy logistic (Logistic Regression), SVM và mạng neural (Neural Network) Bài nghiên cứu cũng đã trình bày sơ đồ quá trình huấn luyện và dự báo, thể hiện rõ trong Hình 4.2.
Hình 4.2 Tổng quan về quy trình huấn luyện và dự báo
Sau khi xây dựng sơ đồ theo Hình 4.2, bài nghiên cứu tiến hành phần Test and Score để tổng hợp các chỉ số và chọn mô hình phù hợp nhất Phương pháp K-fold cross validation với k=5 được sử dụng để đánh giá mô hình, nhờ vào khả năng huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau, giúp tăng độ chính xác của mô hình so với phương pháp Hold-out.
Hình 4.3 Kết quả đánh giá mô hình bằng phương pháp K-fold
Dựa trên kết quả từ chương trình Orange, Logistic Regression đạt các chỉ số đánh giá cao như AUC, CA, F1, Precision và Recall, trong đó AUC của mô hình là 0.821, cao hơn các phương pháp khác Chỉ số CA của Logistic Regression cũng khá ấn tượng, chỉ sau SVM nhưng không chênh lệch quá lớn Đặc biệt, độ phù hợp của thuật toán này còn được chứng minh qua ma trận nhầm lẫn trong Hình 4.4, cho thấy tính hiệu quả cao trong bài nghiên cứu.
Hình 4.4 Ma trận nhầm lẫn với Logistic Regression
Nguồn: Kết quả từ chương trình Orange
Từ ma trận nhầm lẫn, ta có thể thấy TP = 1238, FP = 14, TN = 141 và FN = 7 Ở ma trận nhầm lẫn này thể hiện trong 1400 mẫu của bộ huấn luyện như sau:
- Có 1252 người thuộc phân lớp "không có nguy cơ đột quỵ", trong đó lượng mẫu được phân lớp đúng lên đến 1238 người và có 14 mẫu bị phân nhầm lớp
Trong tổng số mẫu nghiên cứu, có 148 người thuộc phân lớp "có nguy cơ đột quỵ", trong đó đã phân lớp đúng cho 141 mẫu Tuy nhiên, vẫn còn 7 mẫu bị phân nhầm lớp, cho thấy cần cải thiện độ chính xác trong việc phân loại nguy cơ đột quỵ để nâng cao hiệu quả dự đoán và phòng ngừa bệnh.
Dựa trên kết quả phân tích, mô hình Logistic Regression chứng tỏ phù hợp và hiệu quả trong việc dự báo số trường hợp nguy cơ đột quỵ dựa trên bộ dữ liệu nghiên cứu này Mô hình này đặc biệt thích hợp để dự đoán các trường hợp có nguy cơ cao, giúp hỗ trợ quyết định y tế chính xác hơn Tiếp theo, bài nghiên cứu sẽ đánh giá khả năng dự báo của mô hình Logistic Regression thông qua việc phân tích kết quả trên dữ liệu huấn luyện Kết quả dự báo của mô hình được trình bày rõ ràng tại mục 4.1.2, góp phần minh họa hiệu quả của phương pháp này trong dự đoán nguy cơ đột quỵ.
4.1.2 Kết quả của dữ liệu dự báo Logistic Regression là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu, vì vậy sẽ sử dụng Logistic Regression dự báo "stroke" cho 600 lượng mẫu còn lại Nhóm sinh viên cũng tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa bộ dữ liệu dự báo vào chương trình Orange và chạy các thuộc tính cho các biến số ở bộ dữ liệu dữ báo giống như bộ dữ liệu huấn luyện
Hình 4.5: Khai báo thuộc tính các biến trong bộ dữ liệu dự báo
Kết quả từ chương trình Orange cho thấy các biến độc lập như giới tính, tuổi, cao huyết áp, bệnh tim, loại nơi cư trú, glucose trung bình, BMI, và trạng thái hút thuốc được khai báo là “feature”, trong khi biến “stroke” cũng thuộc loại này nhưng được xem là “target” chứ không phải “feature” Các biến ID, ever_married, work_type được xếp vào dạng “skip” để bỏ qua trong quá trình phân tích, còn biến BMI được phân loại là “meta” không ảnh hưởng đến quá trình phân loại dữ liệu Tiếp theo, chúng tôi sử dụng phương pháp Logistic Regression để dự báo kết quả và xem xét các dự đoán trên dữ liệu.
Kết quả dự báo trên 600 mẫu còn lại cho thấy 591 người không có nguy cơ đột quỵ, trong khi chỉ có 9 người có nguy cơ cao Phân lớp này phản ánh khả năng của mô hình Logistic Regression trong phân tích nguy cơ đột quỵ, như thể hiện rõ trong hình 4.6, giúp hiểu rõ hơn về hiệu quả của phương pháp trong dự đoán nguy cơ đột quỵ.
Hình 4.6 Kết quả của dự báo bằng Logistic Regression
Dựa trên hình 4.6 minh họa dự báo nguy cơ đột quỵ từ nguồn dữ liệu chương trình Orange, chúng ta có thể rút ra những kết luận quan trọng về các yếu tố ảnh hưởng đến nguy cơ đột quỵ Các phân tích này giúp xác định nhóm nguy cơ cao, từ đó đề xuất các biện pháp phòng ngừa hiệu quả hơn Việc hiểu rõ các dự báo nguy cơ đột quỵ là bước thiết yếu trong việc nâng cao nhận thức cộng đồng và phát triển các chiến lược y tế dự phòng phù hợp.
- Những người có chỉ số Logistic Regression thuộc phân lớp "0" từ 0.5 trở lên sẽ được phân loại là "Không có nguy cơ bị đột quỵ"
- Những người có chỉ số Logistic Regression thuộc phân lớp "1" từ 0.5 trở lên sẽ được phân loại là "Có nguy cơ bị đột quỵ"
Tương tự, thuật toán Logistic Regression cũng phân loại dựa trên chỉ số này đối với số người còn lại (kết quả sẽ được đính kèm ở phần phụ lục).
Đánh giá kết quả và mô hình
Trong nghiên cứu này, 2000 lượng mẫu được chia thành hai bộ dữ liệu: 1400 mẫu dùng để huấn luyện và 600 mẫu để dự báo, giúp phân tích các thuộc tính liên quan đến nguy cơ đột quỵ Logistic Regression được xác định là phương pháp phân lớp phù hợp nhất dựa trên các chỉ số như AUC, F1, CA, Precision, Recall, từ đó xây dựng mô hình dự báo chính xác Kết quả mô hình được kiểm tra qua ma trận nhầm lẫn, góp phần nâng cao độ chính xác trong dự báo nguy cơ đột quỵ Mặc dù kết quả còn mang tính tham khảo, nghiên cứu đã góp phần cung cấp kiến thức giúp mọi người hiểu rõ hơn về các yếu tố nguy cơ để đề xuất các giải pháp phòng tránh hiệu quả Phần mềm Orange được sử dụng để thực hiện các mô hình phân lớp, cung cấp mô hình dự báo dễ hiểu và chính xác dựa trên dữ liệu huấn luyện Đồng thời, nghiên cứu còn mang ý nghĩa về mặt sức khỏe, giúp người đọc thống kê các yếu tố nguy cơ cao dẫn đến đột quỵ và từ đó điều chỉnh chế độ sinh hoạt phù hợp để giảm thiểu rủi ro.