TỔNG QUAN
Lý do chọn đề tài
Rối loạn phổ tự kỷ (ASD) là khuyết tật phát triển suốt đời, thường xuất hiện trong ba năm đầu đời, do rối loạn thần kinh ảnh hưởng đến chức năng não ASD không phân biệt giới tính, chủng tộc hay điều kiện kinh tế - xã hội, với đặc điểm chính là khiếm khuyết trong tương tác xã hội và giao tiếp, cùng với hành vi lặp đi lặp lại Tại Việt Nam, ước tính có khoảng 200.000 người mắc ASD, nhưng theo Tổ chức WHO, con số này có thể lên tới 500.000 Số trẻ được chẩn đoán và điều trị ASD đang gia tăng nhanh chóng từ năm 2000, với số liệu cho thấy tăng gấp 50 lần từ năm 2000 đến 2007 và tỷ lệ mắc tăng từ 122% đến 268% trong giai đoạn 2004 - 2007 Trên thế giới, tỷ lệ trẻ em được phát hiện mắc ASD cũng tăng đáng kể, như ở Mỹ, tỷ lệ này đã từ 1/1.000 tăng lên 1/68 từ năm 2012.
Chẩn đoán Rối loạn phổ tự kỷ (ASD) chủ yếu dựa vào các biểu hiện lâm sàng qua quan sát trực tiếp hoặc phỏng vấn người chăm sóc Quy trình này thường phức tạp, chủ quan và gặp nhiều thách thức Theo tiêu chuẩn của Tổ chức Y tế Thế giới (WHO), việc chẩn đoán các rối loạn phát triển ở trẻ cần sự tham gia của năm chuyên gia.
Mỹ là sáu chuyên gia, cùng theo dõi trẻ trong tối thiểu một tháng ở ba môi trường khác nhau (phòng khám hoặc trung tâm, gia đình, cộng đồng) [2, 5]
Để nâng cao độ chính xác và tiết kiệm thời gian trong chẩn đoán ASD, các nhà khoa học đang phát triển một quy trình chẩn đoán mới, do thực tế việc chẩn đoán hiện tại thường mất nhiều thời gian và phụ thuộc vào trình độ của các chuyên gia lâm sàng.
1 Theo chuyên trang tự kỷ của Liên hợp quốc (https://www.un.org/en/events/autismday/)
Quá trình chẩn đoán rối loạn phổ tự kỷ (ASD) thường liên quan đến việc xây dựng mô hình phân loại tự động bằng cách sử dụng học máy (ML) để xác định xem một trường hợp có phải là ASD hay không Mô hình này được phát triển từ dữ liệu đầu vào, bao gồm các trường hợp trước đây đã được chẩn đoán mắc hoặc không mắc ASD, và sau đó được kiểm tra trên các trường hợp thử nghiệm độc lập để đánh giá độ chính xác trong việc dự đoán ASD Tóm lại, chẩn đoán ASD chủ yếu là một nhiệm vụ phân loại.
Nhiều thuật toán học máy đã được áp dụng trên các bộ dữ liệu khác nhau, mang lại kết quả nghiên cứu khả quan Tuy nhiên, phần lớn các bộ dữ liệu thử nghiệm không được công khai, gây khó khăn trong việc so sánh và đánh giá kết quả Hiện tại, bộ dữ liệu sàng lọc ASD cho trẻ em, trẻ vị thành niên và người lớn là một trong số ít bộ dữ liệu được công bố bởi giáo sư Fadi Fayez Thabtab từ Đại học Auckland, New Zealand trên kho dữ liệu UCI vào tháng 12 năm 2017.
Bộ dữ liệu được thu nhận thông qua ứng dụng di động ASD Tests
Dr Kanad Basu's research on the Adult Autism Screening Data Set has explored various machine learning algorithms, including Decision Trees, Random Forest, Support Vector Machines (SVM), k-Nearest Neighbors (kNN), Naive Bayes Classification, Logistic Regression, Linear Discriminant Analysis (LDA), and Multi-Layer Perception (MLP), to address the classification of Autism Spectrum Disorder (ASD) in adults His findings indicate that SVM and Random Forest are the most effective algorithms for ASD classification Additionally, a study by Brian McNamara and colleagues supports these results, highlighting the effectiveness of the Random Forest algorithm in classifying ASD.
Dựa trên kết quả nghiên cứu khả quan của các thuật toán học máy như SVM và Random Forest, cùng với bộ dữ liệu sàng lọc rối loạn phổ tự kỷ (ASD) trẻ em từ UCI và dữ liệu trẻ mắc ASD tại Trung tâm Tư vấn và Hỗ trợ Giáo dục đặc biệt, Trường Cao đẳng Sư phạm Trung ương – Nha Trang, tôi đã chọn đề tài “Đánh giá bộ cơ sở dữ liệu trong phân loại rối loạn phổ tự kỷ sử dụng thuật toán SVM, Random Forest” cho luận văn tốt nghiệp Thạc sĩ của mình.
Các câu hỏi nghiên cứu chính mà luận văn này sẽ trả lời là:
1 Từ tập dữ liệu sàng lọc rối loạn phổ tự kỷ trẻ em, cần rút trích các đặc trưng cần thiết nào cho việc phân loại rối loạn phổ tự kỷ?
2 Các thuật toán SVM, Random Forest, … có hiệu quả trong phân loại rối loạn phổ tự kỷ hay không?
Mục tiêu nghiên cứu của đề tài luận văn
- Khảo sát các công trình liên quan đến sử dụng học máy trong sàng lọc ASD;
- Tìm hiểu bộ cở sở dữ liệu về sàng lọc ASD trẻ em;
- Tìm hiểu phương pháp trích chọn đặc trưng Chi Square (CHI-SQ), từ đó chọn ra các đặc trưng tốt nhất để xây dựng mô hình dự đoán;
Trong nghiên cứu này, chúng tôi đã thử nghiệm thuật toán SVM và Random Forest, cùng với một số thuật toán khác, nhằm so sánh và đánh giá hiệu quả của việc phân loại rối loạn phổ tự kỷ (ASD) trên bộ dữ liệu trẻ em Kết quả cho thấy sự khác biệt rõ rệt trong hiệu suất phân loại giữa các thuật toán, cung cấp cái nhìn sâu sắc về khả năng áp dụng của từng phương pháp trong việc nhận diện ASD.
Đối tượng nghiên cứu
- Bộ dữ liệu sàng lọc ASD trẻ em (Autistic Spectrum Disorder Screening Data for Children trên UCI;
- Phương pháp trích chọn đặc trưng Chi Square (CHI-SQ);
- Thuật toán SVM và Random forest và một số thuật toán học máy khác như Decision Trees, Logistic Regression, K-Nearest Neighbors, Naive Bayes Classification, Multi Layer Perception;
- Gói thư viện scikit-learn hỗ trợ các giải thuật học máy trên Python.
Phạm vi nghiên cứu
- Bộ dữ liệu: Bộ dữ liệu sàng lọc ASD trẻ em (Autistic Spectrum Disorder Screening Data for Children);
- Các thuật toán học máy: SVM, Random forest và một số thuật toán học máy khác như Decision Trees, Logistic Regression, K-Nearest Neighbors, Naive Bayes Classification, Multi Layer Perception.
Phương pháp nghiên cứu
Để thực hiện đề tài này, tôi sử dụng các phương pháp nghiên cứu sau:
- Phương pháp tổng hợp: tìm kiếm, tổng hợp các tài liệu có liên quan đến vấn đề nghiên cứu;
- Phương pháp phân tích: cài đặt các thuật toán, phân tích các kết quả nghiên cứu để đưa ra những đánh giá.
Kết cấu luận văn
Kết cấu luận văn gồm 4 chương:
Chương này tập trung vào việc xác định vấn đề nghiên cứu, mục tiêu và câu hỏi nghiên cứu, đồng thời nêu rõ đối tượng và phạm vi nghiên cứu Ngoài ra, chương cũng trình bày ý nghĩa của nghiên cứu và cấu trúc tổng thể của luận văn.
Chương 2: Cơ sở lý luận và thực tiễn
Nội dung chương này tổng hợp các nội dung và các nghiên cứu trong và ngoài nước liên quan đến vấn đề nghiên cứu
Chương 3: Đánh giá bộ cơ sở dữ liệu trong phân loại ASD sử dụng thuật toán SVM, Random Forest
Chương này sẽ thực hiện các thử nghiệm nhằm đánh giá hiệu quả của bộ dữ liệu trong việc phân loại Rối loạn phổ tự kỷ (ASD) bằng cách sử dụng các thuật toán như SVM, Random Forest và một số thuật toán khác.
Chương 4: Kết luận và khuyến nghị
Trên cơ sở những kết quả đạt được của chương 3, nội dung chương này sẽ đưa ra những kết luận và khuyến nghị cho vấn đề nghiên cứu.
CỞ SỞ LÝ LUẬN VÀ THỰC TIỄN
ASD và các phương pháp sàng lọc ASD
Rối loạn phổ tự kỷ (ASD) là một tình trạng phát triển lan tỏa, ảnh hưởng đến kỹ năng xã hội và giao tiếp, với các triệu chứng dễ nhận biết hơn ở trẻ từ hai đến ba tuổi Theo nghiên cứu, cứ 68 trẻ thì có một trẻ mắc ASD, điều này đã thúc đẩy các chuyên gia y tế phát triển nhiều phương pháp sàng lọc nhằm xác định sớm các đặc điểm của rối loạn này Việc phát hiện sớm giúp cung cấp các can thiệp cần thiết để hỗ trợ trẻ em mắc ASD.
Chẩn đoán Rối loạn phổ tự kỷ (ASD) thường được thực hiện bởi các bác sĩ chuyên khoa trong môi trường lâm sàng, dựa vào quy trình chẩn đoán lâm sàng và các chỉ số hành vi có thể quan sát và đo lường Hiện nay, các mô hình chẩn đoán thường cho rằng số lượng chỉ số đánh giá càng nhiều thì độ chính xác trong phân loại càng cao Tuy nhiên, các phương pháp sàng lọc ASD thường phức tạp và tốn thời gian do yêu cầu nhiều tiêu chí Do đó, cần thiết phải phát triển một phương pháp mới để cải thiện quy trình chẩn đoán này.
Các công cụ sàng lọc rối loạn phổ tự kỷ (ASD) thường dựa trên các quy tắc được xây dựng bởi các chuyên gia tâm thần và hành vi Chất lượng của kết quả phân loại phụ thuộc nhiều vào sự đóng góp chủ quan của các chuyên gia và khả năng diễn giải của nhân viên lâm sàng trong quá trình đánh giá Do đó, việc chẩn đoán ASD có thể bị ảnh hưởng bởi những yếu tố này.
Machine Learning (ML) là công nghệ cho phép ra quyết định tự động thông qua các thuật toán thông minh, giúp loại bỏ ảnh hưởng của con người trong quá trình phân loại Mặc dù các mô hình ML không thể thay thế bác sĩ lâm sàng, chúng đóng vai trò quan trọng như công cụ hỗ trợ, nâng cao chất lượng quyết định trong chẩn đoán.
2.1.2 Các phương pháp sàng lọc ASD
Quy trình chẩn đoán Rối loạn Khuynh hướng Tự kỷ (ASD) rất đa dạng và phụ thuộc vào từng phương pháp tiếp cận Thông thường, chẩn đoán ASD được thực hiện sau bước sàng lọc, nhằm xác định nguy cơ mắc bệnh Quy trình chẩn đoán chuyên sâu bao gồm các bước: mô tả lý do và mục đích chẩn đoán, phân tích tiền sử phát triển, nghiên cứu chẩn đoán tâm lý bằng các công cụ chẩn đoán, và cuối cùng là kết luận cùng lời khuyên Hiện nay, có nhiều công cụ sàng lọc và chẩn đoán phổ biến được sử dụng trong quá trình này.
CHAT, được phát triển bởi Baron Cohen và cộng sự vào năm 1992, là công cụ sàng lọc trẻ em mắc chứng tự kỷ (ASD) từ 18 tháng tuổi Việc thực hiện và chấm điểm CHAT chỉ mất từ 5 đến 10 phút, bao gồm 9 câu hỏi "có/không" do cha mẹ trả lời và 5 câu hỏi cho người quan sát Mặc dù bộ câu hỏi này được đánh giá có độ tin cậy cao, nhưng độ nhạy lại thấp, dẫn đến khả năng trẻ mắc ASD nhẹ hoặc có dấu hiệu không điển hình có thể bị bỏ sót trong quá trình sàng lọc.
- M - CHAT 23: Năm 2001, để sửa đổi bộ câu hỏi CHAT, tác giả Robin, Fein,
Baron & Green đã bổ sung 14 câu hỏi mới về rối loạn vận động, quan hệ xã hội, bắt chước và định hướng vào bộ câu hỏi sàng lọc trẻ ASD từ 18 đến 30 tháng tuổi Phiên bản sửa đổi “M-CHAT 23” bao gồm 23 câu hỏi đơn giản, chỉ mất từ 5 đến 10 phút để phỏng vấn cha mẹ và đã được áp dụng rộng rãi trên toàn cầu Công cụ này không chỉ được đánh giá cao về độ tin cậy mà còn có độ nhạy cao hơn so với CHAT.
CARS là một công cụ chẩn đoán ASD được thiết kế dưới dạng bảng hỏi và quan sát, áp dụng cho trẻ từ 24 tháng tuổi Công cụ này kiểm tra 15 lĩnh vực khác nhau để xác định mức độ của ASD, phục vụ nhiều mục đích như xây dựng chương trình can thiệp sớm, theo dõi định kỳ và đánh giá hiệu quả can thiệp CARS kết hợp giữa báo cáo của cha mẹ và quan sát trực tiếp của các chuyên gia trong khoảng thời gian từ 30 đến 45 phút.
ADI - R là công cụ chẩn đoán rối loạn phổ tự kỷ (ASD) bằng cách phân tích các vấn đề liên quan đến giao tiếp, ngôn ngữ, kỹ năng xã hội, chơi và hành vi, dựa trên thông tin từ cha mẹ Công cụ này được xây dựng dựa trên các tiêu chí của ICD-10 và DSM-IV.
ADOS là công cụ đánh giá được thiết kế với các hoạt động nhằm kiểm tra các vấn đề về giao tiếp, kỹ năng chơi, tương tác xã hội, hành vi rập khuôn và sở thích Công cụ này dựa trên các tiêu chí của ICD-10 và DSM-IV Ban đầu, ADOS chỉ được sử dụng để chẩn đoán cho trẻ em trên 3 tuổi, nhưng sau đó đã phát triển thêm phiên bản PL-ADOS dành cho trẻ nhỏ hơn.
Diagnostic Observation Schedule/Bảng quan sát chẩn đoán ASD dành cho trẻ chưa có ngôn ngữ nói)
GARS, hay Thang đánh giá tự kỷ, được Jame E Gilliam công bố vào năm 1995, dựa trên nghiên cứu 1.107 trẻ tự kỷ tại 48 bang Mỹ và tuân theo tiêu chí của DSM-IV Thang đánh giá này bao gồm 56 câu hỏi trắc nghiệm ngắn gọn, dành cho đối tượng từ 3 đến 22 tuổi mắc chứng rối loạn phổ tự kỷ (ASD) GARS tập trung vào bốn mục đánh giá chính: hành vi định hình, giao tiếp, tương tác xã hội và các rối loạn phát triển khác.
AQ là bộ công cụ sàng lọc rối loạn phổ tự kỷ (ASD) được phát triển bởi tiến sĩ Baron-Cohen và các nhà khoa học tại Trung tâm nghiên cứu ASD, Đại học Cambridge vào năm 2001 Bộ câu hỏi AQ bao gồm 50 câu hỏi liên quan đến kỹ năng xã hội, khả năng chuyển đổi chú ý, trí tưởng tượng và chú ý đến chi tiết, với bốn lựa chọn trả lời: Chắc chắn đồng ý, Hơi đồng ý, Hơi không đồng ý và Chắc chắn không đồng ý Điểm số từ 0 đến 50 cho thấy mức độ mắc ASD, với điểm cao hơn tương ứng với nguy cơ cao hơn Để tiết kiệm thời gian sàng lọc, Allion và các cộng sự đã phát triển phiên bản AQ-10, chỉ gồm 10 câu hỏi, phù hợp cho trẻ em (4-11 tuổi), vị thành niên (12-16 tuổi) và người lớn.
(17 tuổi trở lên) Mặc dù AQ-10 ngắn hơn phiên bản gốc nhưng nó có sức mạnh dự đoán tương tự phiên bản gốc.
Ứng dụng học máy trong phân loại ASD
Machine Learning (ML) là lĩnh vực nghiên cứu kết hợp toán học, trí tuệ nhân tạo và các ngành khoa học khác nhằm rút ra mô hình dự đoán chính xác từ dữ liệu Các kỹ thuật ML giúp khám phá các mẫu ẩn trong dữ liệu, hỗ trợ quyết định Chẳng hạn, các nhà quản lý siêu thị phân tích dữ liệu mua hàng để cải thiện sắp xếp mặt hàng và phát triển chiến lược khuyến mãi, trong khi bác sĩ sử dụng ML để xác định mối liên hệ giữa triệu chứng và bệnh, từ đó hỗ trợ chẩn đoán.
Các bài toán ML phổ biến được liệt kê bởi Witten & Frank [16] là:
Khai phá luật kết hợp (Association Rule Mining) là phương pháp giúp khám phá các quy tắc hữu ích dựa trên tần suất xuất hiện của các mục trong bộ dữ liệu giao dịch Những quy tắc này cung cấp thông tin quý giá cho các nhà quản lý, giúp họ hiểu rõ hơn về hành vi của khách hàng và từ đó phát triển các chiến lược tiếp thị hiệu quả.
Phân cụm (Clustering) là quá trình nhóm các trường hợp dữ liệu thành các nhóm dựa trên những tiêu chí tương đồng nhất định Ví dụ, một ứng dụng phổ biến của phân cụm là phân chia khách hàng theo các biến nhân khẩu học cụ thể.
Phân loại là quá trình dự đoán một biến mục tiêu dựa trên các biến độc lập khác Mô hình phân loại được xây dựng từ dữ liệu huấn luyện, cho phép nó dự báo chính xác biến mục tiêu trên bộ dữ liệu thử nghiệm.
Hồi quy là một phương pháp phân tích nhằm xây dựng mô hình thể hiện mối quan hệ giữa các biến độc lập và biến phụ thuộc, thường là các biến liên tục Hồi quy cũng có thể được xem như một trường hợp đặc biệt của bài toán phân loại.
Các thuật toán Machine Learning (ML) được chia thành hai nhóm chính dựa trên tính chất của các tập dữ liệu: học không giám sát (unsupervised learning) và học có giám sát (supervised learning).
Học có giám sát là một phương pháp trong machine learning (ML) nhằm dự đoán đầu ra cho dữ liệu mới, dựa trên các cặp dữ liệu đầu vào và đầu ra đã biết trước Đây là nhóm thuật toán phổ biến nhất trong lĩnh vực học máy.
Học có giám sát là một phương pháp trong học máy, trong đó chúng ta có một tập hợp biến đầu vào 𝑋 = {𝑥₁, 𝑥₂, …, 𝑥ₙ} và một tập hợp đầu ra tương ứng 𝑌 = {𝑦₁, 𝑦₂, …, 𝑦ₙ} Mỗi cặp dữ liệu (𝑥𝑖, 𝑦𝑖) là các vector, và các cặp dữ liệu đã biết này thuộc tập hợp 𝑋 x 𝑌, tạo thành tập huấn luyện cho mô hình.
Từ khóa quan trọng trong quá trình tập huấn luyện là việc xây dựng một hàm số để ánh xạ mỗi phần tử từ tập 𝑋 sang phần tử xấp xỉ tương ứng trong tập 𝑌.
𝑦 𝑖 ≈ 𝑓(𝑥 𝑖 ), ∀𝑖 = 1,2, … , 𝑁 Mục đích là xấp xỉ hàm số 𝑓 thật tốt để khi có một dữ liệu 𝑥 mới, chúng ta có thể tính được nhãn tương ứng của nó 𝑦 = 𝑓(𝑥)
Học không giám sát là thuật toán mà chúng ta chỉ biết các vector đặc trưng của dữ liệu đầu vào mà không biết kết quả đầu ra Các thuật toán này dựa vào cấu trúc của dữ liệu để thực hiện các nhiệm vụ như phân nhóm hoặc giảm số chiều của dữ liệu (dimentionality reduction) Về mặt toán học, học không giám sát xảy ra khi chỉ có dữ liệu đầu vào 𝑋 mà không có đầu ra 𝑌 tương ứng Khác với học có giám sát, trong học không giám sát, chúng ta không biết câu trả lời chính xác cho từng dữ liệu đầu vào, giống như việc học mà chỉ được cung cấp một chữ cái mà không biết đó là chữ A hay chữ B Từ "không giám sát" được đặt tên theo nghĩa này.
Ranh giới giữa học có giám sát và học không giám sát thường không rõ ràng Các bài toán phân loại và hồi quy thường được xem là học có giám sát, trong khi đó, phân cụm và ước lượng phân phối lại thuộc về học không giám sát.
Các mô hình học máy (ML) thường được minh họa qua hai pha chính: pha huấn luyện và pha kiểm tra Trong pha huấn luyện, mô hình được xây dựng dựa trên dữ liệu huấn luyện, trong khi dữ liệu kiểm tra được sử dụng để đánh giá hiệu quả của mô hình.
Hình 2.1 Mô hình chung trong các bài toán ML
Pha huấn luyện: có hai khối cần được thiết kế là trích chọn đặc trưng và các thuật toán huấn luyện
Khối trích chọn đặc trưng đóng vai trò quan trọng trong việc tạo ra vector đặc trưng cho từng điểm dữ liệu đầu vào Vector này thường có kích thước đồng nhất, bất kể kích thước của dữ liệu đầu vào Các yếu tố đầu vào cho khối trích chọn đặc trưng có thể đa dạng và ảnh hưởng đến quá trình trích xuất.
Dữ liệu huấn luyện đầu vào thường ở dạng thô, bao gồm tất cả thông tin liên quan đến dữ liệu Chẳng hạn, dữ liệu thô của một bức ảnh là giá trị từng điểm ảnh, của văn bản là từng từ và câu, còn của file âm thanh là đoạn tín hiệu Trong bài toán dự báo thời tiết, dữ liệu thô bao gồm thông tin về hướng gió, nhiệt độ và độ ẩm Dữ liệu này thường không có dạng vector, không đồng nhất về số chiều hoặc có thể bị thiếu thông tin Ngoài ra, một số dữ liệu có thể có số chiều lớn, như một bức ảnh màu 1000×1000 với 3×10^615 điểm ảnh, gây khó khăn trong việc lưu trữ và tính toán.
Dữ liệu huấn luyện đầu ra có thể được sử dụng hoặc không, tùy thuộc vào loại thuật toán học Trong học không giám sát, đầu ra không được biết, do đó không có giá trị Ngược lại, trong học có giám sát, dữ liệu đầu ra đôi khi cũng không cần thiết, như trong việc giảm chiều dữ liệu Nếu đầu vào là các vector cùng chiều, ta có thể nhân chúng với một ma trận chiếu ngẫu nhiên có số hàng ít hơn số cột để giảm chiều mà không cần thông tin đầu ra Mặc dù điều này có thể làm mất thông tin, nhưng trong nhiều trường hợp, nó vẫn hiệu quả vì giảm lượng tính toán Đôi khi, ma trận chiếu có thể được học từ dữ liệu thô Việc giữ lại thông tin hữu ích quan trọng hơn việc giữ lại toàn bộ thông tin Ví dụ, trong bài toán phân loại đa giác, ta chỉ quan tâm đến số cạnh, không cần màu sắc Ngược lại, trong phân loại màu, màu sắc là yếu tố chính, không quan tâm đến số cạnh.
ĐÁNH GIÁ BỘ CƠ SỞ DỮ LIỆU TRONG PHÂN LOẠI RỐI LOẠN PHỔ TỰ KỶ SỬ DỤNG THUẬT TOÁN SVM, RANDOM FOREST
Giới thiệu bộ dữ liệu ASD
Hiện tại, số lượng bộ dữ liệu liên quan đến hành vi để sàng lọc Rối loạn phổ tự kỷ (ASD) rất hạn chế Hầu hết các bộ dữ liệu hiện có chủ yếu tập trung vào khía cạnh di truyền của ASD, điển hình như bộ dữ liệu AGRE và Cơ sở dữ liệu quốc gia Hoa Kỳ về nghiên cứu ASD NDAR.
[28] và AC [29] Các bộ dữ liệu này đều không được công khai nên khó tiếp cận trong quá trình nghiên cứu
Bộ dữ liệu hành vi duy nhất về chứng ASD của trẻ em, thanh thiếu niên và người lớn được công bố bởi giáo sư Fadi Fayez Thabtab từ đại học Auckland, New Zealand trên kho dữ liệu UCI vào tháng 12 năm 2017 Dữ liệu này được thu thập qua ứng dụng di động ASD Tests hay ASD Quiz, được phát triển dựa trên các phương pháp sàng lọc AQ và Q-CHAT Bộ sàng lọc ASD gồm bốn phiên bản: Q-CHAT-10 cho trẻ từ 12 – 36 tháng, AQ-10 Child cho trẻ em từ 4 – 11 tuổi, AQ-10-Adolescent cho thanh thiếu niên từ 12 – 16 tuổi, và AQ-10-Adult cho người lớn từ 17 tuổi trở lên, mỗi bộ gồm 10 câu hỏi Ứng dụng ASD Test miễn phí trên Android và IOS, hiện đã có 4.6 triệu lượt tải trên CH Play.
Hình 3.1 Giao diện ứng dụng ASD Tests
Sơ đồ điều hướng sử dụng ứng dụng ASD Test được thể hiện trên hình 3.2
Hình 3.2 Sơ đồ điều hướng sử dụng ứng dụng ASD Tests
Trong hình 3.3 thể hiện bộ câu hỏi AQ-10 dùng để thu thập dữ liệu hành vi ASD ở trẻ em
Hình 3.3 Bộ câu hỏi AQ-10 dùng cho sàng lọc ASD trẻ em
Bộ dữ liệu ASD
3.2.1 Bộ dữ liệu huấn luyện
Trong bài viết này, chúng tôi sử dụng bộ dữ liệu sàng lọc chứng rối loạn phổ tự kỷ (ASD) cho trẻ em, được công bố trên kho dữ liệu UCI Bộ dữ liệu này phục vụ cho các nghiên cứu liên quan đến sàng lọc, phân loại và dự đoán chứng ASD ở trẻ Chúng tôi chọn bộ dữ liệu này để đảm bảo tính tương thích với bộ dữ liệu ASD trẻ mà chúng tôi đã xây dựng để kiểm nghiệm.
Thông tin về bộ dữ liệu Autistic Spectrum Disorder Screening Data for Children Data Set được thể hiện trong bảng 3.1
Bảng 3.1 Thông tin về bộ dữ liệu Autistic Spectrum Disorder Screening Data for
1 Đặc điểm tập dữ liệu: Đa biến
2 Số lượng mục dữ liệu 292
4 Đặc điểm thuộc tính Interger
9 Số lượt truy cập web 28642
Các thuộc tính của bộ dữ liệu Autistic Spectrum Disorder Screening Data for Children Data Set được thể hiện trong bảng 3.2
Bảng 3.2 Mô tả các thuộc tính bộ dữ liệu
Thuộc tính Kiểu dữ liệu Mô tả
Age Number Tuổi của trẻ (Theo năm)
Gender String Giới tính: M là nữ, F là nam
Khi sinh ra có bị bệnh vàng da hay không
Family member with PDD Boolean
Có thành viên nào trong gia đình đã bị PDD( rối loạn lan tỏa)
Who is completing the test
String Ai là người thực hiện bài kiểm tra: Bố mẹ, tự làm, nhân viên chăm sóc, bác sĩ, etc
Country of residence String Quốc gia
Used the screening app before
Boolean (yes or no) Đã sử dụng ứng dụng ASDTest trước đó hay chưa?
Loại ứng dụng: (0=trẻ nhỏ, 1=trẻ em, 2= trẻ thành niên, 3= người lớn)
Question 1 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 2 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 3 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 4 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 5 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 6 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 7 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 8 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 9 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Question 10 Answer Binary (0, 1) Câu trả lời dựa trên phương pháp sàng lọc và được mã hóa nhị phân
Screening Score Integer Tổng điểm của tất cả các câu hỏi
Hai mươi mẫu đầu tiên của bộ dữ liệu được thể hiện trong hình 3.4
Hình 3.4 Hình ảnh 20 mẫu đầu tiên của bộ dữ liệu Autistic Spectrum Disorder
Screening Data for Children Data Set 3.2.2 Bộ dữ liệu kiểm định
Bộ dữ liệu này được phát triển với sự hỗ trợ từ các chuyên gia Giáo dục Đặc biệt tại khoa Giáo dục Mầm non, trường Cao đẳng Sư phạm Trung ương – Nha Nó bao gồm các trường hợp trẻ em đã được chẩn đoán mắc chứng tự kỷ (ASD) và hiện đang nhận can thiệp tại Trung tâm Tư vấn và Hỗ trợ giáo dục đặc biệt của trường.
Cách thức và quy trình thập dữ liệu như sau:
Bước đầu tiên trong quá trình sàng lọc trẻ em mắc chứng tự kỷ là sử dụng bộ sàng lọc AQ-10 Child trên ứng dụng ASD Test Các chuyên gia sẽ quan sát và đánh giá trẻ thông qua 10 câu hỏi, với dữ liệu được lưu trữ trong hệ thống quản lý của ứng dụng Để đơn giản hóa quy trình, chúng tôi đã dịch bộ câu hỏi sang tiếng Việt, lược bỏ những câu hỏi không cần thiết như về tôn giáo và dân tộc Bộ câu hỏi này được gửi đến các chuyên gia Giáo dục Đặc biệt tại trường Cao đẳng Sư phạm Trung ương - Nha Trang, nhằm phục vụ cho việc đánh giá các trường hợp trẻ mắc chứng ASD đang được can thiệp tại trung tâm Tư vấn và Hỗ trợ giáo dục đặc biệt của Nhà trường.
Bảng 3.3 Bộ câu hỏi sàng lọc AQ-10 Child trên ASD Test
STT Câu hỏi Trả lời
A1 She/he often notices small sounds when others do not
Trẻ thường chú ý đến các âm thanh nhỏ trong khi người khác thì không
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A2 S/he usually concentrates more on the whole picture rather than the small details
Trẻ thường tập trung hơn vào toàn bộ bức tranh hơn là những chi tiết nhỏ
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A3 In a social group, s/he can easily keep track of several different people’s conversations
Trong một nhóm xã hội, trẻ có thể dễ dàng theo dõi các cuộc hội thoại của một số người khác
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A4 S/he finds it easy to go back and forth between different activities
Trẻ dễ dàng chuyển đổi giữa các hoạt động khác nhau
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A5 S/he doesn’t know how to keep a conversation going with his/her peers
Trẻ không biết cách duy trì cuộc trò chuyện với bạn bè của mình
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A6 S/he is good at social chit- chat
Trẻ có khả năng giao tiếp tốt
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A7 When s/he is read a story, s/he finds it difficult to work out the character’s intentions or feelings
Khi trẻ đọc một câu chuyện, trẻ cảm thấy khó khăn trong việc tìm ra ý định hay cảm xúc của nhân vật
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A8 When s/he was in preschool, s/he used to enjoy playing pretending games with other children
Khi còn ở trường mầm non, trẻ thường thích chơi trò đóng vai với những đứa trẻ khác
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A9 S/he finds it easy to work out what someone is thinking or feeling just by looking at their face
Khi nhìn vào khuôn mặt người khác, trẻ dễ dàng nhận ra suy nghĩ và cảm xúc của họ
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
A10 S/he finds it hard to make new friends
Trẻ thấy khó khăn trong việc kết bạn mới
Definitely Agree(Hoàn toàn đồng ý)
Slightly Disagree(Hơi phản đối)
Definitely Disagree (Chắc chắn không đồng ý)
12 Gender ( Giới tính) Male(Nam) Female(Nữ
13 Was your child born with jaundice?
Có phải trẻ khi sinh ra bị vàng da?
14 Has anyone in the immediate family been diagnosed with autism?
Có ai trong gia đình đã được chẩn đoán ASD chưa?
15 Who is completing this test? Parent(Bố mẹ)
Ai là người thực hiện bài kiểm tra này?
Health care professional (chuyên gia chăm sóc sức khỏe)
16 Tình trạng hiện tại của trẻ
(đã được chẩn đoán của các chuyên gia lâm sàng )
Mắc Rối loạn phổ tự kỷ
Không mắc Rối loạn phổ tự kỷ Khác:
Bộ dữ liệu nghiên cứu bao gồm 10 trường hợp được chẩn đoán lâm sàng mắc chứng rối loạn phổ tự kỷ (ASD) Thông tin thu thập từ các chuyên gia được trình bày chi tiết trong Bảng 3.4.
Bảng 3.4 Dữ liệu đánh giá của các chuyên gia
STT A1 Trẻ thường chú ý đến các âm thanh nhỏ trong khi người khác thì không?
A2 Trẻ thường tập trung hơn vào toàn bộ bức tranh hơn là những chi tiết nhỏ?
A3 Trong một nhóm xã hội, trẻ có thể dễ dàng theo dõi các cuộc hội thoại của một số người khác
A4 Trẻ dễ dàng chuyển đổi giữa các hoạt động khác nhau
A5 Trẻ không biết cách duy trì cuộc trò chuyện với bạn bè của mình
A6.Trẻ có khả năng giao tiếp tốt
A7 Khi trẻ đọc một câu chuyện, trẻ cảm thấy khó khăn trong việc tìm ra ý định hay cảm xúc của nhân vật
A8 Khi còn ở trường mầm non, trẻ thường thích chơi trò đóng vai với những đứa trẻ khác
A9 Khi nhìn vào khuôn mặt người khác, trẻ dễ dàng nhận ra suy nghĩ và cảm xúc của họ
A10 Trẻ thấy khó khăn trong việc kết bạn mới
Khi trẻ mới sinh có bị bệnh vàng da không?
Có ai trong gia đình đã được chẩn đoán ASD chưa?
Ai là người thực hiện bài kiểm tra này?
Tình trạng hiện tại của trẻ (đã được chẩn đoán của các chuyên gia lâm sàng)
5 Nam Không Không Cán bộ chăm sóc ASD
5 Nam Không Không Cán bộ chăm sóc ASD
4 Nam Không Không Cán bộ chăm sóc ASD
5 Nam Không Không Cán bộ chăm sóc ASD
8 Nam Không Có Cán bộ chăm sóc ASD
5 Nam Không Không Cán bộ chăm sóc ASD
5 Nam Không Không Cán bộ chăm sóc ASD
5 Nữ Không Không Cán bộ chăm sóc ASD
4 Nam Không Không Cán bộ chăm sóc ASD
4 Nam Không Không Cán bộ chăm sóc ASD
- Bước 2: Chuyển đổi và xử lý dữ liệu
Các giá trị từ các câu hỏi A1 đến A10 sẽ được chuyển đổi thành 0 và 1 dựa trên phản hồi của người dùng Cụ thể, trong bộ sàng lọc AQ10 – Child, nếu câu trả lời cho các câu hỏi 1, 5, 7 và 10 chứa từ "Definitely" hoặc "Slightly Agree", giá trị ánh xạ sẽ là 1; ngược lại, các trường hợp khác sẽ có giá trị ánh xạ là 0 Các câu hỏi còn lại sẽ có giá trị ánh xạ khác.
1 nếu câu trả lời chứa “Definitely” hoặc là “Slightly Disagree” còn các trường hợp khác là 0 [31]
Kết quả xử lý dữ liệu được thể hiện trên hình 3.5
Hình 3.5 Kết quả xử lý dữ liệu thực tế trẻ mắc chứng ASD của các chuyên gia 3.2.3 Làm sạch dữ liệu
Chúng tôi tiến hành làm sạch bộ dữ liệu thử nghiệm gồm các công việc cụ thể như sau:
- Rút ngắn một số tên biến cụ thể:
+ contry_of_res thành Country
Trong quá trình xử lý dữ liệu, chúng tôi đã loại bỏ các trường hợp có dữ liệu bị thiếu Trong tổng số 292 trường hợp của bộ dữ liệu, có 44 trường hợp gặp vấn đề với dữ liệu thiếu (NA) ở các thuộc tính như tôn giáo (ethnicity) và người thực hiện kiểm tra (relation) Các giá trị thiếu này chủ yếu thuộc kiểu dữ liệu phân loại, điều này khiến việc tạo ra các giá trị thay thế trở nên khó khăn, vì không thể áp dụng các phép tính trung bình cho các biến không phải số Sau khi loại bỏ những trường hợp này, tập dữ liệu còn lại chỉ còn 248 trường hợp.
- Xóa một số thuộc tính không cần thiết Có một số biến có trong tập dữ liệu không mang lại lợi ích cho quá trình phân tích, cụ thể:
Biến "Used App Before" cho biết liệu một cá nhân đã từng sử dụng ứng dụng ASD Test sàng lọc ASD hay chưa, nhưng không đóng vai trò quan trọng trong việc xác định biến mục tiêu.
Biến "Age_desc" phân loại độ tuổi của cá nhân trong dữ liệu, với tất cả các trường hợp đều thuộc nhóm từ 4 đến 11 tuổi Do đó, biến này chỉ có một cấp độ, và điều này không ảnh hưởng đến kết quả phân tích.
Giá trị của biến này từ 7 trở lên sẽ được phân loại là Class_ASD = CÓ, dẫn đến việc các thuật toán học máy sẽ có kết quả chính xác cho biến mục tiêu nếu dữ liệu bao gồm biến này.
Sau khi loại bỏ các biến không cần thiết, các biến còn lại của bộ dữ liệu là: A1, A2, A3, A4, A5, A6, A7, A8, A9, A10, Age, Gender, Ethnicity, Jundice, Austim, Country, Relation, Class
- Chuẩn hóa dữ liệu: Chúng ta cần chuẩn hóa dữ liệu của thuộc tính Age, Gender, Ethnicity, Jundice, Austim, Country, Relation, Class
Để chuẩn hóa dữ liệu thuộc tính Age, chúng tôi áp dụng phương pháp Min-Max, vì tuổi là một biến rời rạc, nhằm co giãn biến này về phạm vi [0,1].
We standardized categorical attributes such as Gender, Ethnicity, Jundice, Family_ASD, Country, and Relation To achieve this, we employed the One-hot encoding technique to convert the categorical data into a binary format.
Bảng 3.5 Kỹ thuật one-hot encode
Sau khi chuẩn hóa, số lượng thuộc tính của bộ dữ liệu ASD là 78
['A1','A2','A3','A4','A5','A6','A7','A8','A9','A10', 'age','gender_f','gender_m','ethnicity_Asian',
'ethnicity_Latino','ethnicity_Middle Eastern ',
'ethnicity_South Asian','ethnicity_Turkish',
'ethnicity_White-European','jundice_no','jundice_yes', 'austim_no','austim_yes','country_Afghanistan',
'country_Bhutan','country_Brazil','country_Bulgaria', 'country_Canada','country_Costa Rica','country_Egypt', 'country_Europe','country_Georgia','country_Germany', 'country_Ghana','country_India','country_Iraq',
'country_Ireland','country_Isle of Man',
'country_Italy','country_Japan','country_Jordan',
'country_Libya','country_Malaysia','country_Malta', 'country_Mexico','country_Nepal','country_Netherlands', 'country_New Zealand','country_Nigeria','country_Oman', 'country_Pakistan','country_Philippines',
'country_Romania','country_Saudi Arabia',
'country_South Africa','country_South Korea',
'country_Sweden',country_Syria','country_Turkey',
'country_U.S.Outlying Islands','country_United Arab Emirates','country_United Kingdom','country_United
States','relation_Health care professional',
Trích chọn đặc trưng
Mục đích của việc trích chọn đặc trưng là giảm kích thước dữ liệu bằng cách giảm số lượng đặc trưng trong tập huấn luyện, đồng thời vẫn đảm bảo hiệu quả và chất lượng của các mô hình dự đoán.
Hai phương pháp Chi Square (CHI-SQ) và Information Gain (IG) được sử dụng trong nghiên cứu phân loại để đánh giá mức độ liên quan của các đặc trưng với kết quả phân loại Giá trị của biến được đo lường thông qua thống kê, bằng cách tính toán mối tương quan giữa từng biến và biến mục tiêu, tức là biến phân loại Trong quá trình sàng lọc ASD, các biến đại diện cho các đặc trưng của ASD, trong khi biến mục tiêu cho biết một cá nhân có mắc ASD hay không.
Công thức CHI-SQ (công thức 3.1) [31, 32] được sử dụng để tính toán mối tương quan giữa các biến thuộc tính (variable -v) và biến mục tiêu (class-l) bằng cách so sánh xác suất mong đợi với kết quả quan sát trong tập dữ liệu huấn luyện (𝑇).
𝐴 là tần số cặp (𝑣, 𝑙) trong 𝑇
𝐵 là tần số của biến 𝑣 không có lớp 𝑙 trong 𝑇
𝐶 là tần số của lớp 𝑙 không có biến 𝑣 trong 𝑇
𝐷 là tần số của các trường hợp không có cả (𝑣, 𝑙) trong 𝑇
CHI-SQ được hỗ trợ sẵn trong lớp SelectKbest trong gói thư viện scitkit-learn
We employed the CHI-SQ method for feature selection from the ASD dataset Utilizing the `SelectKBest` function from the `sklearn.feature_selection` module, we applied the chi-squared statistical test to evaluate the features By setting the precision to seven decimal places with `set_printoptions`, we fitted the model using the final features and ASD classes, and subsequently printed the scores of the features.
Kết quả trọng số của 78 thuộc tính được thể hiện như sau:
Chúng tôi đã xác định rằng 10 thuộc tính đầu tiên A1-A10 có mối tương quan chặt chẽ nhất với biến phân loại Vì vậy, các đặc trưng được lựa chọn là A1-A10, tương ứng với 10 câu hỏi trong bộ câu hỏi AQ-10.
Xây dựng mô hình
Chúng tôi phát triển mô hình dự đoán sử dụng các thuật toán học máy như SVM và Random Forest Để xác định mô hình tối ưu, chúng tôi cũng khảo sát thêm các thuật toán khác như Decision Trees, Logistic Regression, K-Nearest-Neighbors, Naive Bayes Classification và mạng neuron Multi Layer Perceptron Tất cả các thuật toán này được triển khai bằng ngôn ngữ Python trong môi trường lập trình PyScripter.
3.4.1 Các thuật toán học máy
Cây quyết định (Decision Tree)
Cây quyết định là một mô hình ra quyết định dựa trên các câu hỏi, giúp xác định thứ tự các câu hỏi từ dữ liệu huấn luyện Nó có khả năng làm việc với các đặc trưng phân loại, thường là rời rạc và không có thứ tự, như mưa, nắng hay màu sắc Ngoài ra, cây quyết định cũng hỗ trợ dữ liệu có vector đặc trưng, bao gồm cả thuộc tính phân loại và liên tục Một ưu điểm nổi bật của cây quyết định là ít yêu cầu về việc chuẩn hóa dữ liệu.
Cây quyết định là một thuật toán thuộc nhóm học có giám sát có thể được áp dụng vào cả hai bài toán phân loại và hồi quy
Hình 3.6 Ví dụ về việc ra quyết định dựa trên các câu hỏi Rừng ngẫu nhiên (Random Forests)
Rừng ngẫu nhiên là một thuật toán học có giám sát, bao gồm một tập hợp các cây quyết định được chọn theo cách ngẫu nhiên Thuật toán này hoạt động bằng cách đánh giá nhiều cây quyết định và chọn ra kết quả tốt nhất từ những kết quả trả về Rừng ngẫu nhiên có khả năng áp dụng cho cả bài toán phân loại và hồi quy, mang lại hiệu quả cao trong việc phân tích dữ liệu.
Mã giả của Rừng ngẫu nhiên
Bước 1: Chọn ngẫu nhiên “k” features từ tập “m” features
Bước 2: Từ tập “k” features, tính toán ra node “d” là tốt nhất cho Node phân loại
Bước 3: Chia các node con theo node tốt nhất vừa tìm được
Bước 4: Lặp lại bước 1-3 cho đến khi đạt đến k node
Bước 5: Lặp lại bước 1-4 để tạo ra “n” cây Để biểu diễn dự đoán sử dụng rừng ngẫu nhiên đã huấn luyện, ta sử dụng các bước sau:
Bước 1: Lấy các test features và sử dụng các Cây quyết định đã tạo ra để dự đoán kết quả, lưu nó vào một danh sách
Bước 2: TÍnh toán số lượng vote trên toàn bộ Forest cho từng kết quả
Bước 3: Lấy kết quả có số lượng vote lớn nhất làm kết quả cuối cho mô hình
Máy vectơ hỗ trợ (Support Vector Machine hay SVM)
SVM là một thuật toán thuộc nhóm học có giám sát dùng để phân loại dữ liệu thành các nhóm riêng biệt
Khoảng cách giữa siêu phẳng và điểm dữ liệu huấn luyện gần nhất từ hai tập được gọi là lề (margin) Thuật toán SVM được tối ưu hóa để xác định siêu phẳng với lề lớn nhất.
K lân cận (K-Nearest Neighbors hay KNN)
KNN, một trong những thuật toán học có giám sát đơn giản nhất trong machine learning, hoạt động dựa trên nguyên tắc tìm kiếm kết quả của dữ liệu bằng cách sử dụng thông tin từ các dữ liệu huấn luyện gần nhất Thuật toán này có thể được áp dụng cho cả hai loại bài toán là phân loại và hồi quy.
Phân loại Naive Bayes (Naive Bayes Classification hay NBC)
NBC, hay Naive Bayes Classifier, là một thuật toán dựa trên định lý Bayes trong lý thuyết xác suất, dùng để phân loại và đưa ra phán đoán dựa trên dữ liệu quan sát và thống kê Thuật toán này được ứng dụng rộng rãi trong các lĩnh vực máy học (ML) nhờ vào khả năng dự đoán chính xác từ tập dữ liệu đã thu thập, đồng thời dễ hiểu và có độ chính xác cao NBC thuộc nhóm thuật toán học có giám sát, giúp cải thiện hiệu quả trong việc phân loại dữ liệu.
Logistic Regression (Hồi quy logic)
Hồi quy logic là một thuật toán dựa trên xác suất thống kê, dùng để xác định khả năng phân loại dữ liệu thành hai nhóm [0,1] Thuật toán này được biểu diễn thông qua hàm Logistic Function, hay còn gọi là hàm sigmoid của logarit tự nhiên.
MLP (Multi-Layer Perceptron) là một loại mạng neuron nhân tạo bao gồm tối thiểu ba lớp nút, trong đó các nút không phải là đầu vào hoạt động như các neuron với hàm kích hoạt phi tuyến Kỹ thuật học có giám sát được sử dụng trong MLP là backpropagation, giúp huấn luyện mạng hiệu quả Sự kết hợp giữa nhiều lớp và hàm kích hoạt phi tuyến là yếu tố chính phân biệt MLP với các mô hình tuyến tính.
Nó có thể phân biệt dữ liệu không thể phân tách tuyến tính
Các thuật toán học máy đều được hỗ trợ trong các gói thư viện sklearn và keras trên Python, chi tiết xem được trình bày trong bảng 3.6
Bảng 3.6 Các lớp cài đặt thuật toán ML trên gói thư viện Python
STT Tên thuật toán Gói thư viện Lớp
6 Naive Bayes Classification sklearn MultinomialNB
7 Multi Layer Perception keras Sequential Để lưu và nạp mô hình đã được huấn luyện, chúng tôi sử dụng thư viện pickle
Quy trình cài đặt và đánh giá thử nghiệm được thực hiện theo hướng dẫn của Jason Brownlee Trong luận văn này, quy trình xây dựng và đánh giá bộ cơ sở dữ liệu ASD trẻ em được minh họa trong hình 3.9.
Hình 3.9 Quy trình xây dựng, đánh giá bộ cơ sở dữ liệu ASD
3.4.2 Kết quả xây dựng mô hình
Chúng tôi đã thực hiện khảo sát trên bộ dữ liệu sàng lọc ASD ở trẻ em, bao gồm đầy đủ các đặc trưng, và lựa chọn bộ dữ liệu với 10 đặc trưng (A1-A10) để phân tích.
Bộ dữ liệu sẽ được chia làm 2 phần: 80 % (198 trường hợp) dùng để huấn luyện mô hình và 20 % (50 trường hợp) dùng để xác thực, kiểm thử
Kết quả các mô hình được thể hiện thông qua các chỉ số được thể hiện trong bảng 3.7 và 3.8
Bảng 3.7 Kết quả thử nghiệm trên các giải thuật ML với bộ dữ liệu đầy đủ đặc trưng
Accuracy Sensitivity (Recall) Specificity Precision F-1 cross_val_score
Bảng 3.8 Kết quả thử nghiệm trên các giải thuật ML với bộ dữ liệu 10 đặc trưng
Accuracy Sensitivity (Recall) Specificity Precision F-1 cross_val_score
Perceptron 0.96 0.96 0.95 0.96 0.96 1.0 Đồ thị so sánh độ chính xác phân loại của các thuật toán được thể hiện trong hình 3.10 và 3.11
Hình 3.10 Đồ thị so sánh độ chính xác của 7 thuật toán trên bộ dữ liệu với đầy đủ đặc trưng
Hình 3.11 Đồ thị so sánh độ chính xác của 7 thuật toán trên bộ dữ liệu với 10 đặc trưng
Kết quả thử nghiệm từ bảng 3.7 và 3.8 cho thấy các giải thuật SVM, Logistic Regression, Multi Layer Perceptron, K-Nearest Neighbors và Random Forest đạt được độ chính xác cao trong việc phân loại ASD Những kết quả này phù hợp với các nghiên cứu trước đó được nêu trong bảng 2.1 Trong số tất cả các tiêu chí đánh giá, giải thuật SVM cho kết quả tốt nhất, vì vậy chúng tôi đã chọn mô hình SVM làm mô hình dự đoán.
Kết quả đánh giá mô hình cho thấy rằng việc sử dụng bộ dữ liệu với 10 đặc trưng mang lại hiệu quả cao hơn so với bộ dữ liệu đầy đủ Điều này chứng minh rằng các đặc trưng khác không có ảnh hưởng đáng kể đến kết quả của mô hình phân loại.
Sử dụng mô hình SVM phân loại ASD trên bộ dữ liệu thực tế
Chương trình dự đoán sử dụng mô hình của thuật toán SVM đã được huấn luyện trên bộ dữ liệu sàng lọc ASD trẻ em
Kết quả phân loại trên dữ liệu thực tế mà chúng tôi xây dựng với mô hình của thuật toán SVM được thể hiện trong hình 3.12
Hình 3.12 Kết quả phân loại dữ liệu mới với mô hình đã được huấn luyện với thuật toán SVM
Kết quả phân loại từ mô hình được huấn luyện bằng thuật toán SVM trên 10 trường hợp thực tế mắc chứng ASD đạt 100%, cho thấy tính đáng tin cậy của mô hình này.
Chương trình sàng lọc ASD
Chúng tôi đã thiết kế một chương trình sàng lọc ASD cho trẻ em dựa trên mô hình thuật toán SVM Để thực hiện sàng lọc cho các trường hợp mới, người dùng sẽ trả lời 10 câu hỏi trong bộ sàng lọc AQ-10 Dữ liệu thu thập được sẽ được mã hóa và đưa vào mô hình SVM để phân loại Kết quả trả về sẽ cho biết (1) “Trẻ không có dấu hiệu mắc chứng ASD” hoặc (2) “Trẻ có dấu hiệu mắc chứng ASD, cần đưa trẻ đến bác sĩ chuyên khoa để được chẩn đoán lâm sàng.”
Chương trình này giúp cha mẹ và chuyên gia chăm sóc dễ dàng và nhanh chóng sàng lọc các trường hợp trẻ mắc chứng ASD.
Hình 3.13 hiển thị kết quả sàng lọc của 1 trường hợp trẻ không mắc chứng ASD
Hình 3.13 Giao diện hiển thị kết quả sàng lọc một trường hợp trẻ không mắc chứng ASD
Hình 3.14 hiển thị kết quả sàng lọc của 1 trường hợp trẻ mắc chứng ASD
Hình 3.14 Giao diện hiển thị kết quả sàng lọc một trường hợp trẻ trẻ mắc chứng ASD