BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM CÔNG TRÌNH DỰ THI GIẢI THƯỞNG ĐỀ TÀI MÔN HỌC XUẤT SẮC UEH500 - NĂM 2021 TÊN CÔNG TRÌNH: Ứng dụng khai thác dữ liệu phân loại các t
CƠ SỞ LÝ THUYẾT
Khái niệm khai thác dữ liệu
Khai thác dữ liệu (Data Mining) là quá trình phân loại và sắp xếp các tập dữ liệu lớn nhằm nhận diện các mẫu và thiết lập các mối liên hệ để giải quyết các vấn đề thông qua phân tích dữ liệu Công cụ MCU (Multipoint Control Unit) khai phá dữ liệu giúp doanh nghiệp dự đoán xu hướng tương lai Quá trình khai thác dữ liệu là một chu trình phức tạp, đòi hỏi kho dữ liệu chuyên sâu cũng như các công nghệ tính toán Bên cạnh việc trích xuất dữ liệu, khai thác dữ liệu còn được dùng để chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu nhằm rút ra các kiến thức có giá trị.
Khai phá dữ liệu (Data Mining) là quá trình doanh nghiệp dùng để biến dữ liệu thô thành thông tin hữu ích, từ đó hiểu rõ hơn về khách hàng và xây dựng các chiến lược marketing hiệu quả Bằng việc dùng phần mềm phân tích và nhận diện mẫu trong tập dữ liệu, doanh nghiệp có thể khám phá xu hướng, hành vi và nhu cầu của khách hàng, giúp tăng doanh thu và giảm chi phí Quá trình này phụ thuộc vào việc thu thập dữ liệu một cách có hệ thống, lưu trữ dữ liệu hiệu quả và xử lý máy tính phù hợp để khai thác tối đa giá trị từ dữ liệu.
Ứng dụng khai thác dữ liệu
Khai thác dữ liệu ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống kinh tế - xã hội, từ phân tích dữ liệu tài chính, ngân hàng và thị trường chứng khoán đến dữ liệu sinh học, y tế và chăm sóc sức khỏe, phát hiện xâm nhập và các ngành công nghiệp viễn thông, bán lẻ, thương mại điện tử, nhằm tối ưu hóa việc thu thập và phân tích dữ liệu để tìm kiếm thông tin hỗ trợ dự báo và ra quyết định Trong đề tài này, tác giả tập trung ứng dụng khai thác dữ liệu thuộc lĩnh vực y học, cụ thể là dữ liệu phân loại về nguy cơ mắc bệnh tiểu đường giai đoạn đầu thông qua các triệu chứng lâm sàng, từ đó giúp người đọc dựa vào các triệu chứng để xác định tình trạng sức khỏe và nhận diện cơ hội can thiệp sớm cũng như tham khảo các quyết định chăm sóc y tế phù hợp.
2 bản thân, xác định được mình có nguy cơ mắc bệnh hay không để phòng bệnh hoặc phát hiện chữa trị kịp thời.
Các kỹ thuật khai thác dữ liệu
Thuật toán cây quyết định là một phương pháp thuộc lớp học có giám sát, xây dựng một mô hình dạng cây từ các quy tắc liên kết Mỗi nút của cây quyết định biểu diễn một đặc trưng (tính chất), mỗi nhánh biểu diễn một quy luật, và mỗi lá đại diện cho kết quả cuối cùng Cấu trúc cây quyết định dễ giải thích và được ứng dụng rộng rãi trong các bài toán phân loại và hồi quy dựa trên dữ liệu có giám sát.
Quy trình khai thác dữ liệu bằng cây quyết định bắt đầu bằng thu thập các biến được cho là liên quan đến quyết định đang được xem xét và phân tích khả năng dự đoán của các biến này đối với kết quả Cây quyết định giúp hình thành cái nhìn sâu về hành vi khách hàng và chỉ ra cách thức hoạt động tạo ra lợi nhuận dựa trên các kết quả dự đoán Thuật toán tự động xác định những biến quan trọng nhất và sắp xếp dữ liệu vào các nhánh tương ứng với các nhãn kết quả Phương pháp này có ưu điểm so với mạng thần kinh và thuật toán di truyền ở chỗ cung cấp tập các quy tắc có thể tái sử dụng, giúp giải thích các kết luận của mô hình một cách đơn giản, trực quan và dễ áp dụng vào thực tế Có nhiều ví dụ cho cây quyết định được ứng dụng trong khai thác dữ liệu kinh doanh, như phân loại người vay nợ, xác định khách hàng tiềm năng và cho điểm đánh giá hồ sơ xin việc Cây quyết định cung cấp phương pháp tiếp cận hệ thống dựa trên quy tắc Hệ thống ID3 chọn một thuộc tính làm gốc, các nhánh tương ứng với các giá trị của thuộc tính đó; mọi đối tượng trong tập dữ liệu được phân loại vào nhánh phù hợp Nếu một nhánh chứa tất cả các đối tượng thuộc cùng nhóm kết quả, một nút được gắn nhãn và nhánh này kết thúc; nếu có nhiều nhóm, một thuộc tính khác được chọn làm nút và từ nút này có các nhánh cho tất cả giá trị có thể của thuộc tính Với phương pháp entropy, các thuộc tính có thông tin cao được ưu tiên và cách xác định nhánh có thể khác nhau tùy thuộc công cụ khai thác dữ liệu.
Các mô hình của cây quyết định bao gồm: C-RT, QUEST, CHAID, C5.0
Cây phân loại và hồi quy (C-RT hay C&R) là một cây quyết định được dùng để phân loại và dự báo Phương pháp này áp dụng phân vùng đệ quy để chia dữ liệu đào tạo thành các nhóm có kết quả đầu ra giống nhau Quá trình bắt đầu bằng việc rà soát các biến đầu vào nhằm tìm ra các phân chia tối ưu, đồng thời giảm thiểu sai số ở từng bước Một nút được xem là tinh khiết khi 100% các trường hợp bên trong nút đó thuộc về một thể loại mục tiêu cụ thể Biến mục tiêu và biến dự đoán có thể là định lượng hoặc định tính, và mọi phân tách được thực hiện ở mức nhị phân, tức chỉ có hai nhánh phân tách.
QUEST là một phương pháp phân loại nhị phân để xây dựng cây quyết định, được thiết kế nhằm giảm thời gian xử lý so với các phương pháp C&R và đồng thời giảm xu hướng quá khớp ở các phương pháp phân loại cây, tập trung vào các dự báo cho phép chia tách nhiều nhị phân hơn Dữ liệu đầu vào có thể ở dạng số, nhưng các biến mục tiêu phải được phân loại thành nhãn rời Tất cả các nhánh phân chia trong QUEST đều là nhị phân.
CHAID là một phương pháp cây quyết định sử dụng kiểm định chi bình phương để xác định tối ưu chia tách tại từng nút Khác với các cây C&R và QUEST, CHAID cho phép các nút nonbinary, tức là một lần chia tách có thể tạo ra nhiều nhánh hơn hai Mục tiêu và biến dự báo có thể được phân loại hoặc dự đoán trên nhiều lớp, nhưng quá trình tính toán của CHAID thường phức tạp và mất nhiều thời gian.
- C5.0: Các nút C5.0 xây dựng hoặc là một cây quyết định, hoặc thiết lập một quy tắc
Mô hình này hoạt động bằng cách phân tách các mẫu dựa trên các lĩnh vực cung cấp thông tin tối đa ở mỗi cấp, nhằm tối ưu hóa việc khai thác dữ liệu và nâng cao hiệu quả phân tích Các lĩnh vực mục tiêu phải được phân loại rõ ràng để xác định và gắn nhãn đúng từng cấp thông tin, đảm bảo quá trình xử lý dữ liệu diễn ra trơn tru và mang lại kết quả có giá trị cho từng cấp độ phân tích.
Có thể chia thành nhiều hơn hai nhóm
Trong nghiên cứu này tác giả chỉ sử dụng ba mô hình là QUEST, CHAID, C5.0 do tính chất của bộ dữ liệu
Các mô hình mạng neural có thể áp dụng cho các tập dữ liệu có thể được phân tích bằng các mô hình khác Quá trình khai thác dữ liệu truyền thống thường là thử nghiệm luân phiên nhiều mô hình thay thế và đánh giá xem mô hình nào tối ưu cho một loại dữ liệu cụ thể theo thời gian Tuy nhiên, một số loại dữ liệu lại cho thấy mạng neural thể hiện hiệu quả tốt hơn do chứa các mối quan hệ phức tạp, đặc biệt là các liên hệ phi tuyến mạnh Vì vậy, chúng thường cho hiệu quả cao ở các lĩnh vực khó giải quyết và có mức độ dự đoán chưa chắc chắn cao.
Mạng thần kinh có thể được áp dụng cho dữ liệu ở dạng liên tục hoặc dạng phân loại, giúp linh hoạt khi khai thác dữ liệu Đây là phương pháp được sử dụng rộng rãi nhất trong khai thác dữ liệu, thường được bố trí với tối thiểu ba lớp (đầu vào, ẩn và đầu ra) có một cấu trúc xác định, phản ánh các mối quan hệ phi tuyến phức tạp và không mô phỏng lưu trữ của não người Mỗi biến đầu vào có một nút tương ứng ở lớp đầu vào, trong khi lớp đầu ra đại diện cho kết quả; đối với bài toán phân loại, lớp đầu ra có một nút cho mỗi danh mục Mạng thần kinh gần như luôn có ít nhất một lớp ẩn ở giữa để tạo sự phức tạp cho mô hình Các nút được kết nối với nhau bằng các liên kết có trọng số, nhân với giá trị của nút đầu vào và cộng lại để cho ra giá trị của nút ở lớp kế tiếp; các giá trị này được tính toán qua các lớp tiếp theo Quá trình học diễn ra qua các vòng lặp phản hồi: khởi tạo trọng số, tính kết quả, so sánh với mục tiêu và điều chỉnh trọng số trên các liên kết dựa trên sự khác biệt giữa kết quả đạt được và mục tiêu Quá trình này lặp đi lặp lại cho đến khi mạng có thể phân loại với độ chính xác mong muốn do người dùng xác định.
Có rất nhiều mô hình mạng thần kinh, và khoảng 95% ứng dụng trong kinh doanh được báo cáo là sử dụng mạng đầu vào đa lớp với nguyên tắc học cải tiến dần Mô hình này hỗ trợ dự đoán và phân loại khi đầu vào có sẵn kết quả đầu ra đã biết Cải tiến dần là kỹ thuật giám sát học tập, sử dụng một tập dữ liệu phân tích để học các mối quan hệ Mô hình này có một hoặc nhiều lớp ẩn nằm giữa đầu vào và đầu ra Mỗi neuron trong lớp được kết nối tới mọi neuron của lớp kế tiếp, và các trọng số kết nối được điều chỉnh cho tới khi độ chính xác đạt ngưỡng xác định Những lớp ẩn cho phép phản ánh các mối liên hệ phi tuyến một cách đáng kể so với mô hình hồi quy Các mô hình mạng thần kinh đòi hỏi khối lượng tính toán lớn.
Hồi quy Logistic là phương pháp hồi quy phổ biến được sử dụng khi biến mục tiêu không phải là biến định lượng liên tục Nếu biến mục tiêu là nhị phân, ta áp dụng hồi quy Binary Logistic (hồi quy logistic nhị phân) để ước lượng xác suất và từ đó đưa ra dự báo nhị phân cho các trường hợp có khả năng xảy ra.
Hồi quy Binary Logistic sử dụng biến phụ thuộc dạng nhị phân để ước lượng xác suất một sự kiện sẽ xảy ra với những thông tin của biến độc lập mà ta có được Khi dữ liệu dạng nhị phân, chúng ta mã hóa chúng bằng giá trị 0 và 1 để không bị xâm phạm các giả định
Phân tích hồi quy nhằm mô tả mối quan hệ giữa biến phụ thuộc Y và các biến độc lập X, từ đó đưa ra các kết quả dự báo hoặc phân loại trong tương lai Với hồi quy tuyến tính, kết quả của biến phụ thuộc Y là một giá trị số cho phép dự báo chính xác Ngược lại, hồi quy logistic cho kết quả ở dạng xác suất, giúp phân loại đối tượng nghiên cứu và xác định giá trị của biến Y trong danh mục các giá trị định tính để mang lại kết quả phân loại chính xác.
Với mô hình hồi quy nhị phân (Binary Logistic Regression), thông tin cần thu thập cho biến phụ thuộc là xem sự kiện đó có xảy ra hay không Biến phụ thuộc Y lúc này chỉ nhận hai giá trị 0 và 1, trong đó 1 biểu thị sự kiện xảy ra và 0 biểu thị sự kiện không xảy ra Mục tiêu của mô hình là ước lượng xác suất sự kiện xảy ra dựa trên các biến độc lập (ví dụ như X1, X2, …) Các hệ số hồi quy cho từng biến độc lập cho biết mức độ ảnh hưởng và hướng tác động của chúng đối với xác suất xảy ra sự kiện Mô hình Logistics dùng hàm logistic để chuyển đổi một tổng tuyến tính của các biến độc lập thành xác suất nằm trong khoảng từ 0 đến 1, từ đó cho phép dự báo và đánh giá rủi ro cho từng trường hợp dựa trên đặc điểm dữ liệu.
Trong phân tích dữ liệu, biến phụ thuộc nhị phân được mã hóa 0 cho sự kiện quan tâm không xảy ra và 1 cho sự kiện xảy ra, đồng thời dữ liệu cũng chứa thông tin về các biến độc lập X Từ biến phụ thuộc nhị phân này, một thủ tục dự đoán được áp dụng để ước lượng xác suất và nhận diện mối liên hệ giữa X và sự kiện quan tâm Phương pháp phổ biến cho mục đích này là mô hình hồi quy logistic, cho phép dự đoán xác suất xảy ra sự kiện dựa trên các biến độc lập X và đánh giá ảnh hưởng của từng biến để tối ưu hóa khả năng dự báo.
Trong quy tắc dự đoán xác suất cho một sự kiện, khi xác suất được dự đoán lớn hơn 0,5 thì kết quả dự đoán được cho là “Có” xảy ra sự kiện, ngược lại khi xác suất dự đoán không vượt quá 0,5 thì kết quả dự đoán sẽ là “Không”.
Mô hình hồi quy Binary Logistic được viết như sau: log e [ P i
Có thể mở rộng mô hình Binary Logistic cho hai hay nhiều biến độc lập Xk.
Đánh giá mô hình
4.1 Độ tin cậy Độ tin cậy là hiệu quả của quy tắc được đo lường dưới dạng độ tin cậy và mức hỗ trợ Nó là mức độ chính xác của quy tắc, mức hỗ trợ là mức độ mà các điều kiện trước đó xảy ra trong dữ liệu Mức hỗ trợ cho một quy tắc kết hợp chỉ ra tỉ lệ các hồ sơ quan sát được bao hàm bởi tập các thuộc tính trong quy tắc kết hợp đó Độ tin cậy tối thiểu là mức độ hỗ trợ có thể được xác định để giữ lại những quy tắc mà phương pháp cây quyết định (hoặc phương pháp liên kết khác) đã nhận diện
Tính chính xác là tỉ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu acc =a + d n × 100
=> 𝐸𝑟𝑟𝑜𝑟 𝑟𝑎𝑡𝑒 = 1 – 𝑎𝑐𝑐 là độ lỗi của mô hình
Trong thí nghiệm này, mục tiêu là kiểm tra và so sánh kết quả thực hiện của các mô hình phân loại Dữ liệu được chia thành hai bộ: bộ phân tích (huấn luyện) và bộ kiểm tra (đánh giá) Sai sót trong phân lớp thường xuất hiện trên ma trận trùng (Coincidence Matrix), hay còn gọi là ma trận nhầm – Confusion Matrix, cho thấy số trường hợp phân loại đúng và sai ở mỗi danh mục của dữ liệu Mặc dù một mô hình có thể đạt hiệu suất tốt trên một loại dữ liệu nhưng lại không tốt với các loại dữ liệu khác, việc phân tích ma trận trùng cho phép nhận diện những loại lỗi mắc phải Việc giảm một loại lỗi nhất định được ưu tiên sẽ cải thiện chất lượng phân loại và đánh giá tổng thể của mô hình.
TIẾN HÀNH PHÂN TÍCH
Tổng quan về bộ dữ liệu
Bộ dữ liệu về các triệu chứng lâm sàng của bệnh tiểu đường Type 2 giai đoạn đầu được thu thập bằng bảng câu hỏi trực tiếp từ bệnh nhân tại Bệnh viện Tiểu đường Sylhet ở Sylhet, Bangladesh và được bác sĩ phê duyệt Nó do nhóm nghiên cứu gồm MM Faniqul Islam, Rahatara Ferdousi, Sadikur Rahman, Humayra và Yasmin Bushra thực hiện Dữ liệu ghi nhận các triệu chứng mà bệnh nhân tiểu đường giai đoạn đầu có thể gặp như tiểu nhiều, khát nhiều, giảm cân đột ngột, suy nhược, ăn nhiều, nấm Candida, giảm thị lực, ngứa, cáu gắt, vết thương khó lành, tê bì chân tay, căng cơ và rụng tóc nhiều, được thống kê theo độ tuổi và giới tính của bệnh nhân Bộ dữ liệu gồm 604 quan sát tương ứng với 604 phiếu trả lời của bệnh nhân, bao gồm 17 biến định lượng và 16 biến định tính (gồm 1 biến mục tiêu).
17 biến thuộc tính được tóm tắt dưới bảng sau:
Bảng 1.1 Bảng tóm tắt thông tin các biến
STT Tên biến Giải thích Các giá trị của biến
1 Tuổi Là độ tuổi của bệnh nhân Các giá trị nằm trong khoảng [16,90]
2 Giới tính Là giới tính của bệnh nhân 0: Nam
3 Tiểu nhiều Triệu chứng tiểu nhiều (hay còn gọi là đa niệu), với số lần đi tiểu trong ngày lớn hơn 7 lần
4 Khát nhiều Triệu chứng khát nhiều (hay còn gọi là đa nang) làm cho cơ thể cảm thấy liên tục khát nước
Triệu chứng giảm cân đột ngột là tình trạng cân nặng bị giảm mạnh một cách không kiểm soát
6 Suy nhược Triệu chứng suy nhược cơ thể là tình trạng mệt mỏi kéo dài thường xuyên, làm cho cơ thể dần mất đi năng lượng
7 Ăn nhiều Triệu chứng ăn nhiều là tình trạng người bệnh luôn có cảm giác đói và thèm ăn, có xu hướng ăn nhiều hơn bình thường
Triệu chứng nhiễm nấm Candida là một bệnh nhiễm trùng nấm men do các nấm thuộc họ Candida gây ra, dẫn đến các tình trạng viêm nhiễm trên cơ thể và gây ngứa ngáy, kích ứng cho người bị nhiễm Nhiễm nấm Candida có thể xuất hiện ở nhiều vị trí khác nhau trên da và niêm mạc, với các dấu hiệu điển hình như ngứa rát, đỏ và khó chịu, tùy theo khu vực nhiễm khuẩn.
Triệu chứng suy giảm thị lực làm cho bệnh nhân có cảm giác nhìn mờ, nhìn đôi hoặc nhìn méo
10 Ngứa Triệu chứng ngứa làm cho bệnh nhân luôn cảm thấy ngứa ngáy khó chịu
Cáu gắt là triệu chứng phổ biến khiến bệnh nhân thường xuyên dễ bị kích động, dễ nóng giận và làm sức khỏe tâm lý không ổn định.
Triệu chứng vết thương khó lành làm cho các vết nhiễm trùng, chảy máu hay vết bầm tím ở bệnh nhân lâu lành hơn bình thường
Triệu chứng tê bì chân tay là tình trạng người bệnh thường bắt đầu với cảm giác tê ở đầu ngón chân, sau đó lan lên cánh tay và bàn tay, và dần mất khả năng nhận biết nhiệt độ nóng lạnh.
14 Căng cơ Triệu chứng căng cơ làm cho các cơ bắp bị kéo giãn hơn mức bình thường, gây ra cảm giác đau
Triệu chứng rụng tóc nhiều là tình trạng các nang tóc không nhận được đủ các dưỡng chất cần thiết,
11 dần bị suy yếu và gây ra rụng tóc nhiều
Béo phì là tình trạng cơ thể có trọng lượng cao hơn mức bình thường do tích tụ mỡ quá mức Triệu chứng của béo phì thể hiện qua tăng cân vượt mức, có thể kèm theo mệt mỏi, khó thở và đau khớp khi hoạt động Nguyên nhân chủ yếu là thặng dư năng lượng từ chế độ ăn nhiều calo và thiếu vận động, cùng yếu tố di truyền, nội tiết và môi trường sống không lành mạnh Việc nhận diện và kiểm soát béo phì đòi hỏi kết hợp chế độ ăn uống cân đối, thói quen tập luyện đều đặn và tư vấn y tế để đánh giá sức khỏe tổng thể và lên kế hoạch điều trị phù hợp.
17 Kết quả Kết luận nguy cơ mắc bệnh của bệnh nhân
Sau khi thu thập thông tin và xác định giá trị các biến, chúng ta bước vào tiền xử lý dữ liệu, tiếp đó chạy mô hình và đánh giá kết quả Toàn bộ quy trình được thực hiện bằng phần mềm Clementine 12.0, từ tiền xử lý dữ liệu đến xây dựng và đánh giá mô hình, nhằm tối ưu hóa quá trình phân tích dữ liệu và đảm bảo kết quả có tính tin cậy.
Hình 1.1 Sơ đồ tổng quát các bước chạy mô hình cây quyết định và mạng thần kinh
Hình 1.2 Sơ đồ tổng quát các bước chạy mô hình hồi quy Logistic
Xây dựng mô hình
Đầu tiên, chúng ta xem phân bổ của biến Ketqua
Hình 2.1 Biểu đồ thể hiện số lượng bệnh nhân có nguy cơ mắc bệnh và không có nguy cơ mắc bệnh
Kết quả cho thấy phân bổ dữ liệu không bị lệch đáng kể nên có thể tiếp tục sử dụng mà không cần cân bằng dữ liệu Dữ liệu được phân thành hai tập: tập huấn luyện (70%) và tập kiểm tra (30%) bằng Partition trong Clementine 12.0 Các kỹ thuật phân tích được áp dụng gồm cây quyết định, mạng thần kinh và hồi quy logistic; riêng cây quyết định sẽ sử dụng ba biến thể là C5.0, QUEST và CHAID Tất cả các biến được đưa vào mô hình và các thuật toán phân loại sẽ tự động sắp xếp theo mức độ quan trọng của biến từ cao đến thấp, nhằm nâng cao hiệu quả dự báo và khả năng tổng quát của mô hình.
Nhận xét và đánh giá kết quả
Phương pháp cây quyết định ứng dụng ba cây quyết định là C5.0, QUEST và CHAID
3.1.1 Mô hình cây quyết định C5.0
Hình 3.1 Đồ thị thể hiện mức độ quan trọng của các biến trong cây quyết định C5.0
Bảng Variable Importance cho thấy biến được dùng để phân loại đầu tiên trong cây quyết định của mô hình C5.0 là biến Tiểu nhiều, tiếp đến là biến Khát nhiều, rồi biến Tuổi, biến Giới tính, biến Giảm cân đột ngột và biến cuối cùng là biến Rụng tóc nhiều Các biến này thể hiện mức độ ảnh hưởng đến quyết định phân loại và giúp định hình cấu trúc cây, từ đó cải thiện hiệu suất dự báo của mô hình C5.0 Việc nhận diện đúng các biến quan trọng hỗ trợ tối ưu hóa quá trình xây dựng mô hình và làm rõ các yếu tố liên quan đến nhãn mục tiêu.
Hình 3.2 Mô hình cây quyết định C5.0
Sau khi chạy mô hình cây quyết định C5.0 thì biến được chọn phân loại đầu tiên là biến Khát nhiều với hai biểu hiện là:
Nếu ở trường hợp Có khát nhiều thì tiếp tục xét biến Tiểu nhiều:
Nếu Có tiểu nhiều thì kết luận Có nguy cơ (100%)
Quy trình đánh giá bắt đầu với biến tiểu nhiều Nếu không có tiểu nhiều, tiếp tục xét biến Cáu gắt; nếu xuất hiện Cáu gắt, kết luận có nguy cơ 100% Ngược lại, nếu không Cáu gắt, tiếp tục xét biến Giới tính để hoàn tất quá trình phân tích.
- Nếu giới tính Nữ thì kết luận Có nguy cơ (100%)
- Nếu giới tính Nam thì tiếp tục xét biến Rụng tóc nhiều
+ Nếu Có rụng tóc nhiều kết luận Có nguy cơ (75%)
+ Nếu Không rụng tóc nhiều kết luận Không có nguy cơ (100%)
Nếu ở trường hợp Không khát nhiều thì tiếp tục xét biến Tiểu nhiều:
Khi có tiểu nhiều, tiếp tục xét biến tuổi Nếu tuổi ≤ 63 tuổi thì kết luận có nguy cơ (94,118%) Nếu tuổi > 63 tuổi thì tiếp tục xét biến giảm cân đột ngột.
- Nếu Có giảm cân đột ngột thì kết luận Có nguy cơ (100%)
- Nếu Không giảm cân đột ngột thì kết luận Không có nguy cơ (100%)
Nếu Không tiểu nhiều thì tiếp tục xét biến Giới tính o Nếu giới tính Nữ thì tiếp tục xét biến Rụng tóc nhiều
- Nếu Có rụng tóc nhiều thì Không có nguy cơ (91,667%)
- Nếu Không rụng tóc nhiều thì tiếp tục xét biến Cáu gắt
+ Nếu Có cáu gắt nhiều kết luận Không có nguy cơ (100%) + Nếu Không cáu gắt thì xét tiếp biến Tuổi
Trong quy trình đánh giá, nếu tuổi ≤ 34 thì tiếp tục xét biến động thị lực Nếu có giảm thị lực, kết luận là có nguy cơ 100%; nếu không có giảm thị lực, kết luận là không có nguy cơ 100%.
Nếu Tuổi > 34 tuổi thì kết luận Có nguy cơ (100%) o Nếu giới tính Nam thì kết luận Không có nguy cơ (96,045%)
Bảng 3.1 Bảng tổng hợp các triệu chứng dựa trên cây quyết định C5.0
Biến kết hợp biến Có nguy cơ tiểu đường Không có nguy cơ
Có khát nhiều + Có tiểu nhiều (100%)
Có khát nhiều + Không tiểu nhiều + Có cáu gắt (100%)
Có khát nhiều + Không tiểu nhiều + Không cáu gắt + Giới tính Nữ (100%)
Có khát nhiều + Không tiểu nhiều + Không cáu gắt + Giới tính Nam + Có rụng tóc nhiều (75%)
Có khát nhiều + Không tiểu nhiều + Không cáu gắt + Giới tính Nam + Không rụng tóc nhiều (100%)
Không khát nhiều + Có tiểu nhiều + Tuổi ≤ 63 (94,118%)
Không khát nhiều + Có tiểu nhiều + Tuổi > 63 +
Có giảm cân đột ngột (100%)
Không khát nhiều + Có tiểu nhiều + Tuổi > 63 + Có giảm cân đột ngột (100%)
Không khát nhiều + Không tiểu nhiều + Giới tính Nam (96,045%)
Không khát nhiều + Không tiểu nhiều + Giới tính Nữ +
Không khát nhiều + Không tiểu nhiều + Giới tính Nữ + Không rụng tóc nhiều + Có cáu gắt (70,370%)
Không khát nhiều + Không tiểu nhiều + Giới tính Nữ + Không rụng tóc nhiều + Có cáu gắt (100%)
Không khát nhiều + Không tiểu nhiều + Giới tính Nữ + Không rụng tóc nhiều + Có cáu gắt + Tuổi
Không khát nhiều + Không tiểu nhiều + Giới tính Nữ + Không rụng tóc nhiều + Không cáu gắt + Tuổi ≤ 34 + Có giảm thị lực (100%)
Không khát nhiều + Không tiểu nhiều + Giới tính Nữ + Không rụng tóc nhiều + Không cáu gắt + Tuổi ≤ 34 + Không giảm thị lực (100 %)
Hình 3.3 Ma trận trùng của cây quyết định C5.0
Bảng sơ đồ kết quả cho trường Ketqua cho thấy tỉ lệ đúng của mô hình cây quyết định C5.0 trên các mẫu thử và các mẫu được dùng để chạy kết quả trong mô hình Trong số 424 mẫu được sử dụng để chạy, 413 mẫu cho kết quả đúng, tương đương 97,41% Đồng thời, trên 180 mẫu thử, tỉ lệ đúng cũng cao, đạt 93,33%.
Như vậy, độ chính xác phù hợp của mô hình này có thể được tính toán dựa vào ma trận nhầm lẫn cho kết quả C-Ketqua (hàng cho giá trị thực tế) và mẫu Testing; từ ma trận này ta có thể xác định số dự đoán đúng so với thực tế và tổng số mẫu, từ đó đánh giá mức độ khớp giữa dự đoán và thực tế và tính các chỉ số hiệu suất liên quan.
3.1.2 Mô hình cây quyết định QUEST
Hình 3.4 Đồ thị thể hiện mức độ quan trọng của các biến trong cây quyết định QUEST
Trong bảng Variable Importance cho cây quyết định được xây dựng theo phương pháp QUEST, biến được dùng để phân loại đầu tiên là Tiểu nhiều, biến thứ hai là Khát nhiều, biến thứ ba là Giới tính, biến thứ tư là Tuổi, biến thứ năm là Rụng tóc nhiều; các biến tiếp theo gồm Tê bì chân tay, suy nhược, ngứa, giảm cân đột ngột, giảm thị lực, ăn nhiều, căng cơ, nấm Candida và vết thương khó lành.
Hình 3.5 Mô hình cây quyết định QUEST
Sau khi chạy mô hình cây quyết định QUEST thì biến được chọn phân loại đầu tiên là biến Tiểu nhiều với hai biểu hiện là:
Nếu ở trường hợp Có Tiểu nhiều thì tiếp tục xét biến Khát nhiều:
Nếu Có khát nhiều thì kết luận Có nguy cơ (100%)
Trong quá trình đánh giá, ta xem xét biến Vết thương khó lành: nếu trường hợp Vết thương không khó lành thì kết luận có nguy cơ (100%), còn nếu trường hợp Vết thương có khó lành thì tiếp tục xét biến Rụng tóc nhiều.
- Nếu Có rụng tóc nhiều thì kết luận Không có nguy cơ (76,471%)
- Nếu Không rụng tóc nhiều thì kết luận Có nguy cơ (100%)
Nếu ở trường hợp Không tiểu nhiều thì tiếp tục xét biến Khát nhiều:
Nếu Có khát nhiều thì kết luận Có nguy cơ
Nếu Không khát nhiều thì tiếp tục xét biến Giới tính o Nếu giới tính Nữ thì tiếp tục xét biến Rụng tóc nhiều
- Nếu giới tính Nam thì kết luận Không có nguy cơ (96,045%)
- Nếu giới tính Nữ thì tiếp tục xét biến Rụng tóc nhiều
+ Nếu Có rụng tóc nhiều kết luận Không có nguy cơ (91,667%) + Nếu Không rụng tóc nhiều thì xét tiếp biến Tuổi
Nếu Tuổi ≤ 36,665 thì kết luận Không có nguy cơ (62,5%)
Nếu Tuổi > 36,665 tuổi thì kết luận Có nguy cơ (100%)
Bảng 3.2 Bảng tổng hợp các triệu chứng dựa trên cây quyết định QUEST
Biến kết hợp biến Có nguy cơ Không có nguy cơ
Có tiểu nhiều + Có khát nhiều (100%)
Không tiểu nhiều + Có khát nhiều (76,923%)
Có tiểu nhiều + Không khát nhiều + Vết thương không khó lành (100%)
Có tiểu nhiều + Không khát nhiều + Vết thương có khó lành + Không rụng tóc nhiều (100%)
Có tiểu nhiều + Không khát nhiều + Vết thương có khó lành + Có rụng tóc nhiều (76,471%)
Không tiểu nhiều + Không khát nhiều + Giới tính Nam (96,045%)
Không tiểu nhiều + Không khát nhiều + Giới tính Nữ +
Không tiểu nhiều + Không khát nhiều + Giới tính Nữ + Không rụng tóc nhiều + Tuổi > 36,665 (100%)
Không tiểu nhiều + Không khát nhiều + Giới tính Nữ + Không rụng tóc nhiều + Tuổi ≤ 36,665 (62,5%)
Hình 3.6 Ma trận trùng của cây quyết định QUEST
Bảng kết quả cho trường Ketqua cho thấy tỷ lệ đúng của việc chạy mô hình cây quyết định QUEST trên hai tập mẫu: 424 mẫu được dùng để chạy có 400 mẫu cho kết quả đúng, chiếm 94,34%; đồng thời ở 180 mẫu thử, tỷ lệ đúng đạt 89,44%.
Độ chính xác phù hợp của mô hình có thể được tính toán dựa trên ma trận Coincidence Matrix cho R-Ketqua, trong đó các hàng biểu thị thực tế (actuals) và mẫu Testing được dùng để đánh giá Từ ma trận này, ta có thể xác định số dự đoán đúng và sai, từ đó tính độ chính xác theo công thức Accuracy = đúng chia cho tổng mẫu Việc phân tích Coincidence Matrix cho R-Ketqua giúp đánh giá hiệu suất của mô hình trên dữ liệu kiểm tra, nhận diện các nhãn dễ bị nhầm lẫn và từ đó hướng đến tối ưu hóa mô hình Đây là nền tảng để so sánh với các mô hình khác và nâng cao hiệu quả dự báo trong các bài toán phân loại.
3.1.3 Mô hình cây quyết định CHAID
Hình 3.7 Đồ thị thể hiện mức độ quan trọng của các biến trong cây quyết định CHAID
Bảng Variable Importance cho ta biết thứ tự các biến được dùng để phân loại đầu tiên trong cây quyết định CHAID Theo bảng này, biến Tiểu nhiều được sử dụng đầu tiên cho phân loại, biến Khát nhiều đứng ở vị trí thứ hai, tiếp đến là biến Giới tính, rồi biến Tuổi, sau đó là biến Rụng tóc nhiều, tiếp theo là biến Suy nhược và cuối cùng là biến Cáu gắt Thông tin này cho thấy mức độ ảnh hưởng của từng biến đối với quá trình phân loại và giúp tối ưu hóa việc xây dựng mô hình CHAID dựa trên thứ tự quan trọng của các biến.
Hình 3.8 Mô hình cây quyết định CHAID
Sau khi chạy mô hình cây quyết định CHAID thì biến được chọn phân loại đầu tiên là biến Tiểu nhiều với hai biểu hiện là:
Nếu ở trường hợp Không tiểu nhiều thì tiếp tục xét biến Khát nhiều:
Nếu Không khát nhiều thì tiếp tục xét biến Giới tính
- Nếu Giới tính nam thì kết luận Không có nguy cơ (96,045%)
- Nếu Giới tính nữ thì xét biến Rụng tóc nhiều
+ Nếu Có rụng tóc nhiều thì kết luận Không có nguy cơ (91,667%)
+ Nếu Không rụng tóc nhiều thì tiếp tục xét biến Tuổi
Nếu Tuổi ≤ 36 thì kết luận Không có nguy cơ (62,5%)
Nếu Tuổi > 36 thì kết luận Có nguy cơ (100%)
Nếu Có khát nhiều thì tiếp tục xét biến Cáu gắt
- Nếu Có cáu gắt thì kết luận Có nguy cơ (100%)
- Nếu Không cáu gắt thì chưa kết luận được
Nếu ở trường hợp Có tiểu nhiều thì tiếp tục xét biến Khát nhiều:
Nếu Có khát nhiều thì kết luận Có nguy cơ (100%)
Nếu Không khát nhiều thì tiếp tục xét biến Tuổi o Nếu giới tính Nữ thì tiếp tục xét biến Rụng tóc nhiều
- Nếu Tuổi 64 thì kết luận Không có nguy cơ (78,571%)
Bảng 3.3 Bảng tổng hợp các triệu chứng dựa trên cây quyết định CHAID
Biến kết hợp biến Có nguy cơ Không có nguy cơ
Không tiểu nhiều + Có khát nhiều + Có cáu gắt (100%)
Không tiểu nhiều + Không khát nhiều + Giới tính Nam (96,045%)
Không tiểu nhiều + Không khát nhiều + Giới tính Nữ + Có rụng tóc nhiều (91,667%)
Không tiểu nhiều + Không khát nhiều + Giới tính Nữ + Không rụng tóc nhiều + Tuổi > 36 (100%)
Không tiểu nhiều + Không khát nhiều + Giới tính Nữ + Không rụng tóc nhiều + Tuổi ≤ 36 (62,5%)
Có tiểu nhiều + Có khát nhiều (100%)
Có tiểu nhiều + Không khát nhiều + Tuổi (78,571%)
Hình 3.9 Ma trận trùng của cây quyết định CHAID
Bảng sơ đồ Results for output field Ketqua cho thấy tỉ lệ đúng khi chạy mô hình cây quyết định CHAID trên các mẫu thử và các mẫu được dùng để cho ra kết quả của mô hình Trong tổng số 424 mẫu được chạy, có 399 mẫu cho kết quả đúng, chiếm 94,1% Đồng thời, trong 180 mẫu thử, tỉ lệ đúng đạt 89,44%.
Như vậy, độ chính xác phù hợp của mô hình này có thể được tính toán dựa vào bảng Coincidence Matrix for R-Ketqua (rows show actuals) và mẫu Testing Bảng nhầm lẫn cho phép so sánh dự đoán với thực tế để tính các chỉ số đánh giá như độ chính xác tổng thể, độ nhạy và độ đặc hiệu cho từng lớp, từ đó đánh giá hiệu suất mô hình trên tập kiểm tra Phân tích từng hàng Actual trong ma trận giúp nhận diện những nhãn mà mô hình dự đoán đúng và những nhãn bị nhầm lẫn, cung cấp cơ sở để tối ưu hóa ngưỡng phân loại hoặc cân bằng dữ liệu nhằm cải thiện kết quả trên dữ liệu thực tế.
3.1.4 So sánh ba loại cây quyết định
Sau khi phân tích từng loại cây quyết định C5.0, QUEST và CHAID, tác giả đã lập bảng so sánh các kết quả phân tích dựa trên độ chính xác phù hợp với từng mô hình Bảng này làm nổi bật hiệu suất, ưu nhược điểm và phạm vi ứng dụng của từng phương pháp, giúp người đọc dễ dàng chọn mô hình phù hợp cho bài toán phân loại.
Bảng 3.4 Bảng so sánh độ chính xác giữa ba phương pháp cây quyết định
Cây quyết định C5.0 QUEST CHAID Độ chính xác phù hợp 93,33% 89,44% 89,44%
Trong phương pháp cây quyết định, mô hình C5.0 có độ dự đoán chính xác cao hơn hai mô hình còn lại, nên được xem là tối ưu nhất Vì thế, mô hình C5.0 được lựa chọn làm đại diện cho mô hình cây quyết định.
3.2 Mô hình mạng thần kinh
Hình 3.10 Đồ thị thể hiện mức độ quan trọng giữa các biến trong mạng thần kinh