Dựa trêncác triệu chứng lâm sàng và cận lâm sàng có thể phân lớp bệnh của bệnhnhân nhằm giúp các bác sĩ chuẩn đoán và điều trị tốt hơn cho bệnh nhân.Ngiên cứu tiến hành theo 4 bước chính
Trang 1TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
Chuyên ngành : HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ
Hà Nội, tháng 03 năm 2021
Trang 2DANH SÁCH CÁC BẢNG 3
DANH SÁCH CÁC HÌNH 4
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 6
1.1 Đặt vấn đề 6
1.2 Cơ sở hình thành đề tài 7
1.3 Một số kết quả thực nghiệm trong và ngoài nước 7
1.3.1 Kết quả thực nghiệm thế giới 7
1.3.2 Kết quả thực nghiệm trong nước 8
1.4 Mục tiêu đề tài 8
1.5 Đối tượng và phương pháp nghiên cứu 8
1.6 Ý nghĩa đề tài 9
1.6.1 Ý nghĩa khoa học 9
1.6.2 Ý nghĩa thực tiễn 9
1.7 Bố cục đề tài 9
CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 10
2.1 Tổng quan về kỹ thuật Khai phá dữu liệu(Data mining) 10
2.1.1 Khái niệm về khai phá dữ liệu 10
2.1.2 Quy trình khai phá dữ liệu 11
2.1.3 Ứng dụng của khai phá dữ liệu 14
2.2 Tổng quan về hệ hỗ trợ ra quyết định 14
2.3 Bài toán phân lớp trong khai phá dữ liệu 15
2.3.1 Khái niệm về phân lớp 15
2.3.2 Quá trình phân lớp dữ liệu 16
2.4 Cơ sở dữ liệu Y khoa 20
Trang 32.4.1 Sơ lược bệnh Tiểu đường 20
2.4.2 Diễn biến lâm sàng bệnh Tiểu đường 20
2.4.3 Chuẩn đoán 22
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỮ LIỆU SỬ DỤNG NAIVE BAYES 26
3.1 Cơ sở dữ liệu xây dựng mô hình 26
3.2 Phương pháp Bayes sử dụng trong khai phá dữ liệu 26
3.2.1 Giới thiệu về phương pháp Bayes trong khai phá dữ liệu 26
3.2.2 Thuật toán Bayes 30
3.2.2.1 Phân loại một phần tử mới 30
3.2.2.2 Sai số Bayes 30
3.3 Thuật toán Naive Bayes trong giải quyết bài toán chuẩn đoán bệnh tiểu đường 31
3.3.1 Thuật toán Bayes 31
3.3.2 Tập dữ liệu tiểu đường 32
3.3.3 Phân phối Gaussian 35
Trang 4LỜI CẢM ƠN
Qua bài tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoacông nghệ thông tin, đặc biệt là thầy Vũ Văn Định rất cảm ơn cô đã chochúng em có cơ hội được tìm hiểu một góc kiến thức mới, hay và bổ íchcùng với đó là sự tận tâm dạy dỗ chúng em, giúp chúng em có thể hoànthiện đề tài này Trong quá trình tìm hiểu và hoàn thiện, đề tài sẽ khôngthể tránh khỏi những sai sót, khuyết điểm Vì vậy, nhóm thực hiện chúng
em hy vọng nhận được sự đánh giá và đóng góp nhiệt tình từ phía thầy vàcác bạn để bài của nhóm chúng em được hoàn thiện hơn
Qua bài tập lớn này, chúng em xin cảm ơn các bạn bè lớpD13HTTMDT1 đã giúp đỡ chúng em trong quá trình học tập và làm bàitập lớn, đã chia sẻ kinh nghiệm kiến thức của các bạn đã tạo nên nền tảngkiến thức cho chúng em
Cuối cùng, chúng em xin gửi lời cảm ơn gia đình đặc biệt là cha
mẹ đã tạo điều kiện tốt nhất cho con có đủ khả năng thực hiện bài tập lớnnày, trang trải học phí, động viên tinh thần cho em để học tập trong môitrường đại học tuyệt vời này
Chúng em xin chân thành cảm ơn!
Nhóm sinh viên thực hiệnĐặng Thị Ngọc LinhĐặng Khánh LinhNguyễn Thị Huyền
Trang 5TÓM TẮT
Ngành y tế và giáo dục luôn là vấn đề sống còn của bất kỳ quốcgia nào trên thế giới Trong những năm gần đây, chính phủ Việt nam đặcbiệt đầu tư cho hai ngành mũi nhọn này thông qua các chính sách ,nguồn vốn dành cho trang thiết bị hạ tầng và nghiên cứu khoa học Tronglĩnh vực kho học, càng ngày càng có nhiều công trình khoa học trong y
tế Tuy nhiên các nghiên cứu khoa học về ứng dụng công nghệ thông tin
để giải quyết bài toán về y tế là không nhiều Do tình hình sức khỏe vàcách sinh hoạt của người dân Việt Nam rất bất ổn nên đã tạo ra nhiều cănbệnh, đặc biệt là bệnh tiểu đường, vì vậy đề tài nghiên cứu chuẩn đoánbệnh tiểu đường tại Việt Nam bằng kỹ thuật kai phá dữu liệu Dựa trêncác triệu chứng lâm sàng và cận lâm sàng có thể phân lớp bệnh của bệnhnhân nhằm giúp các bác sĩ chuẩn đoán và điều trị tốt hơn cho bệnh nhân.Ngiên cứu tiến hành theo 4 bước chính:
(1)Tìm hiểu nghiệp vụ y tế liên quan đến bệnh tiểu đường.(2) Thu nhập và tiền xử lý dữ liệu
(3) Tìm hiểu bài toán phân lớp trong khai phá dữ liệu, lựa chọnthuật toán phù hợp với yêu cầu bài toán đặt ra và dữ liệu thunhập được
(4) Hiện thực chương trình máy tính và đánh giá ý nghĩa thực tiễn
Trang 6DANH SÁCH CÁC BẢNG
Bảng 4 1: Bảng xác thực chéo thuộc tính insulin huyết thanh 2 giờBảng 4 2: Bảng xác thực chéo thuộc tính nồng độ glucoso
Bảng 4 3: Bảng xác thực chéo thuộc tính huyết áp tâm trường
Bảng 4 4: Bảng xác thực chéo thuộc tính triceeps độ dày nếp gấp daBảng 4 5: Bảng xác thực chéo thuộc tính chỉ số khối cơ thể
Bảng 4 6: Bảng xác thực chéo thuộc tính chức năng phả hệ bệnh tiểuđường
Bảng 4 7: Bảng xác thực chéo thuộc tính tuổi
Trang 7DANH SÁCH CÁC HÌNH
Hình 2.1: Knowledge Discovery in Databases
Hình 2.2: Sơ đồ hệ hỗ trợ quyết định
Hình 2.3: Kết quả quá trình phân lớp
Hình 2.4 : Xây dựng mơ hình phân lớp
Hình 2.5: Bước phân lớp
Hình 3.1: Mơ hình xây dựng giải pháp hỗ trợ chuẩn đốn bệnh
Hình 3.2: Bảng dữ liệu dataset bệnh tiểu đường
Hình 4.1: Nhập dữ liệu vào weka
Hình 4.2: Dữ liệu đưa vào được phân đoạn – tiền xử lý
Hình 4.3: Các thuộc tính bộ dữ liệu bệnh tiểu đường
Hình 4.10: Đầu ra phân lớp bằng nạve bayes thuộc tính huyết áp tâmtrường
Hình 4.11: Đầu ra phân lớp bằng cây quyết định thuộc tính triceeps độdày nếp gấp da
Hình 4.12: Đầu ra phân lớp bằng nạve bayes thuộc tính triceeps độ dàynếp gấp da
Hình 4.13: Đầu ra phân lớp bằng cây quyết định thuộc tính chỉ số khối cơthể
Hình 4.14: Đầu ra phân lớp bằng nạve bayes thuộc tính chỉ số khối cơthể
Hình 4.15: Đầu ra phân lớp bằng cây quyết định thuộc tính chức năngphả hệ tiểu đường
Trang 8Hình 4.16: Đầu ra phân lớp bằng nạve bayes thuộc tính chức năng phả
hệ tiểu đường
Hình 4.17: Đầu ra phân lớp bằng cây quyết định thuộc tính tuổi
Hình 4.18: Đầu ra phân lớp bằng nạve bayes thuộc tính tuổi
Hình 4.19: Đầu ra phân cụm bằn EM(1)
Hình 4.20: Đầu ra phân cụm bằn EM(2)
Hình 4.21 Chương trình ứng dụng chuẩn đốn bệnh tiểu đường
Trang 9CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI
1.1 Đặt vấn đề
Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tinngày nay đưuọc áp dụng hầu hết trong lĩnh vực, điều này đã tạo ra mộtlượng lớn dữ liệu đưuọc lưu trữ với kích thước tăng lên không ngừng.Đay chính là điều kiện tốt cho việc khai thác kho dữ liệu để đemlại trithức có ích với các công cụ truy vấn, lập việc khai thác kho dữ liệu đểđem lại tri thức có ích với các công cụ truy vấn, lập bẳng biểu và khaiphá dữ liệu
Khai phá dữ liệu là một kỹ thuật dựa trên nền tảng của nhiều lýthuyết như xác xuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm
ẩn trong các kho dữ liệu có kích thước lớn mà người dùng khó có thểnhận biết bằng những kỹ thuật thông thường Nguồn dữ liệu y khoa rấtlớn, nếu áp dụng khai phá dữ liệu trong lĩnh vực này sẽ mang lại nhiều ýnghĩa cho ngành y tế Nó sẽ cung cấp nững thông tin quý giá nhằm hỗ trợtrong việc chuẩn đoán và điều trị sớm giúp bệnh nhân thoát đưuọc nhiềucăn bệnh hiểm nghèo
Trong lĩnh vực y khoa Việt Nam, hiện nay các tuyến y tế phường,
xã, vùng sâu, vùng xa còn thiếu nhân lực y tế có trình độ chuyên môn vàthiếu các trang thiết bị cần thiết trong chuẩn đoán bệnh Vì vậy xây dựng
hệ thống chuẩn đoán rất cần thiết cho ngành y tế hiện nay ở Việt Nam
Hệ hỗ trợ sẽ kết hợp với cán bộ y tế giúp chuẩn đoán sớm một số bệnhphát hiện sớm được những bệnh nguy hiểm và giảm gánh nặng kinh tếcho gia đình bệnh nhân và xã hội Để minh chứng cho những lợi ích màviệc chuẩn đoán mang lại, đề tài chọn bộ dữ liệu bệnh tiểu đường để thửnghiệm và đánh giá
Trang 10Ứng dụng kỹ thuật phân lớp dữu liệu trong khai phá dữ liệu nhằmxây dựng hệ thống chuẩn đoán là một trong những hướng nghiên cứuchính của đề tài Sau khi phân tích một số thuật toán cũng như đặc điểmcủa dữu liệu thu nhập đưuọc về bệnh tiểu đưuòng, đề tài đề xuất ứngdụng mô hình phân lớp bằng cây quyết định với thuật toán Naive bayes
để tìm ra qui luật tìm ẩn trong dữ liệu
1.2 Cơ sở hình thành đề tài
Theo thống kê năm 2019 từ tổ chức Y tế Thế giới(WHO), bệnh đáitháo đưuòng(tiểu đường) đang ảnh hưởng đến 732 triệu người trên toàncầu Nếu không có sự tăng cường nhận thức và can thiệp kịp thời, đáitháo đưuòng sẽ trở thành một trong bảy nguyên nhân hàng đầu gây chếtngười vào năm 2030
Tỷ lệ mắc bệnh gấp 4 lần so với năm 1980, mỗi năm có 3.7 triệungười chết mỗi năm, taị Việt Nam có 50% dân số chưa được chuẩn đoán
Bộ Y tế Việt Nam luôn quan tâm đến những nhiệm vụ trọng tâm củachương trình quốc gia phòng trống bệnh tiểu đường Vì vậy xây dựng hệthống chuẩn đoán tiểu đường để góp phần chuẩn đoán và phát hiện sớmnhững nguy cơ dịch bệnh là vấn đề quan tâm nhất của gia đình và xã hội
Đề tài áp dụng công nghệ thông tin xây dựng chuẩn đoán bệnh với bộ dữliệu thu nhập được từ bệnh tiểu đường
1.3 Một số kết quả thực nghiệm trong và ngoài nước
1.3.1 Kết quả thực nghiệm thế giới
Trên thế giới dã cho ra nhiều ứng dụng từ hệ hỗ trợ chuẩn đoánnhanh và điều trị bệnh tốt hơn như hệ thống chuẩn đoán y tế Caduceuscủa Harry Pope; hệ thống chuyên gia y tế Diagnosipro; MYCIN hệ hỗ trợchuẩn đoán bệnh mất ngủ; BI-RADS(2007) chuẩn đoán ung thu vú; PSG-Expert(2000) chuẩn đoán bệnh mất ngủ; Naser xây dựng hệ thống chuẩn
Trang 11đoán bệnh về da, Comete quản lý bệnh nhân tăng huyết áp, bệnh mãntính,…
1.3.2 Kết quả thực nghiệm trong nước
Ở Việt Nam tình hình ứng dụng công nghệ thông tin bắt đầu pháttriển, nhiều ứng dụng công nghệ thông tin đã được áp dụng vào y khoa,vào năm cuối 1980 những nghiên cứu hệ hỗ trợ bác sĩ chuẩn đoán bệnhnội khoa, châm cứu và chuẩn đoán đông y, hệ hỗ trợ ra quyết định trongviệc chuẩn đoán lâm sàng… tuy vậy nhũng nghiên cứu chuẩn đoán ykhoa nhằm xây dựng các hệ hỗ trợ quyết định vẫn còn hạn chế
1.5 Đối tượng và phương pháp nghiên cứu
Đề tài tập chung vào nghiên cứu kỹ thuật phân lớp trong khai phádữu liệu(cụ thể là nghiên cứu thuật toán Naive bayes) để áp dụng vàoviệc phân tích cơ sở dữ liệu bệnh tiểu đường Luận văn thu nhập dữ liệubệnh tiểu đường của tất cả bệnh nhân(không phân biệt tuổi, giới tính) đếnkhám vào điều trị tại bệnh viện Bạch Mai và Bệnh viện Nội tiết Trungương Sử dụng phương pháp và nghiên cứu hồi cứu với sự hỗ trợ chuyênmôn của các bác sĩ chuyên khoa, đề tài tiến hành nghiên cứu trên cơ sởthuật toán phân lớp trong khai phá dữ liệu
Trang 121.6 Ý nghĩa đề tài
1.6.1 Ý nghĩa khoa học
Với sự trợ giúp của máy tính, đề tài đóng góp một biện pháp thựchiện hỗ trợ các cán bộ y tế chuẩn đoán bệnh cho bệnh nhân Kết quả,Kinh nghiệm thu đưuọc khi thực hiện đề tài này sẽ giúp các cán bộ y tếphát hiện sớm bệnh cho bệnh nhân, đồng thời mong muốn những ngườiđang công tác trong lĩnh vực y khoa và Khoa học máy tính ngồi lại vớinhau để tìm ra những giải pháp tốt hơn trong vấn đề chuẩn đoán và điềutrị bệnh bằng cách kết hợp giữa 2 lịnh vực y học và khoa học máy tính
1.7 Bố cục đề tài
Đề tài được chia thành các phần:
Chương 1: Tổng quan đề tài
Chương 2: Khai phá dữ liệu
Chương 3: Xây dựng mô hình dữu liệu sử dụng Naive bayesChương 4: Thực nghiệm và đánh giá
Trang 13CHƯƠNG 2: KHAI PHÁ DỮ LIỆU
2.1 Tổng quan về kỹ thuật Khai phá dữu liệu(Data mining) 2.1.1 Khái niệm về khai phá dữ liệu
Khai phá dữ liệu (data mining) Là quá trình tính toán để tìm ra cácmẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giaođiểm của máy học, thống kê và các hệ thống cơ sở dữ liệu Đây là mộtlĩnh vực liên ngành của khoa học máy tính Mục tiêu tổng thể của quátrình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển
nó thành một cấu trúc dễ hiểu để sử dụng tiếp.Ngoài bước phân tích thô,
nó còn liên quan tới cơ sở dữ liệu và các khía cạnh quản lý dữ liệu, xử lý
dữ liệu trước, suy xét mô hình và suy luận thống kê, các thước đo thú vị,các cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hiệnhình hóa và cập nhật trực tuyến Khai thác dữ liệu là bước phân tích củaquá trình "khám phá kiến thức trong cơ sở dữ liệu" hoặc KDD
Khai phá dữ liệu là một bước của quá trình khai thác tri
thức (Knowledge Discovery Process), bao gồm:
Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề
(Problem understanding and data understanding).
Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình
làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu ( data selection), biến đổi dữ liệu
(data transformation).
Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu Kết quảcho ta một nguồn tri thức thô
Đánh giá (Evaluation): dựa trên một số tiêu chí tiếnhành kiểm tra và lọc nguồn tri thức thu được
Triển khai (Deployment).
Trang 14Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từbước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trởlại các bước đã qua.
2.1.2 Quy trình khai phá dữ liệu
2.1.2.1 Nghiên cứu lĩnh vực
Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác địnhđược những tri thức ta cần chất lọc, từ đó định hướng để tránh tốn thờigian cho những tri thức không cần thiết
2.1.2.2 Tạo tập tin dữ liễu đầu vào
Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính cóthể lưu trữ và xử lý
2.1.2.3 Tiền xử lý, làm sạch, mã hóa
Ở bước này ta tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý
2.1.2.5 Chọn tác vụ khai thác dữ liệu
Để đạt được mục đích ta cần, ta chọn được tác vụ khai thác dữ liệusao cho phù hợp.Thông thường có các tác vụ sau:
Đặc trưng(feature)
Trang 152.1.2.6 Chọn các thuật giải khai thác dữ liệu
2.1.2.7 Khai thác dữ liệu: Tìm kiếm tri thức
Sau khi tiến hành các bước trên thì đây là bước chính của cả quátrình , ta sẽ tiến hành khai thác và tìm kiếm tri thức
2.1.2.8 Đánh giá mẫu tìm được
Ta cần đánh giá lại trong các tri thức tìm được , ta sẽ sử dụng đượcnhững tri thức nào , những tri thức nào dư thừa,không cần biết
2.1.2.9 Biểu diễn tri thức
Ta biểu diễn tri thức vừa thu nhập được dưới dạng ngôn ngữ tựnhiên và hình thức sao cho người dùng có thể hiểu được những tri thức
đó
2.1.2.10 Sử dụng các tri thức vừa khám phá
Ta có thể tham khảo tiến trình KDD( Knowledge Discovery in Databases) để hiểu rõ hơn về khai phá dữu liệu:
Trang 16Hình 2.1: Knowledge Discovery in Databases
Chuẩn bị dữ liệu (data preparation), bao gồm các quá trình làmsạch dữ liệu (data cleaning), tích hợp dữu liệu ( data integration), chọn dữliệu (data selection), biến đổi dữ liệu (data transformation)
Khai thác dữu liệu (data mining): xác định nhiệm vụ khai thác dữliệu và lựa chọn kỹ thuật khai thác dữu liệu Kết quả cho ta một nguồn trithức thô
Đánh giá (evaluation): dựa trên một tiêu chí tiến hành kiểm tra vàlọc nguồn tri thức thu được
Triển khai (deployment)
Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từbước đầu tiên đên bước cuối cùng mà là một quá trình lặp và có quay trởlại các bước đã qua
Trang 172.1.3 Ứng dụng của khai phá dữ liệu
Kinh tế - ứng dụng trong kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm, thương mại, ngân hàng, Đưa ra các bản báo cáo giàu thông tin, phân tích rửi ro trước khi đưa ra các chiến lược kinh doanh, sản xuất, phân loại khách hàng từ đó phân định ra thi trường, thị phân:…
Khoa học: Thiên văn học - dự đoán đường đi các thiên thể, hành tinh, ; Công nghệ sinh học – tìm ra các gen mới, cây con giống mới,…Web: các công cụ tìm kiếm
2.2 Tổng quan về hệ hỗ trợ ra quyết định
Hệ hỗ trợ ra quyết định là một hệ thống thuộc hệ thống thông tin,
có nhiệm vụ cung cấp các thông tin hỗ trợ cho việc ra quyết định để thamkhảo và giải quyết vấn đề Hệ hỗ trợ ra quyết định có thể dùng cho cánhân hay tổ chức và có thể hỗ trợ gián tiếp hoặc trực tiếp
Trong lĩnh vực y tế, hệ hỗ trợ ra quyết định dựa vào tri thức đã học
sẽ cung cấp thông tin chuẩn đoán bệnh cho nhân viên y tế Thông tin nàyđưuọc trích lọc để cung cấp một cách thông minh có giá trị cho quá trìnhchuẩn đoán, theo dõi và điều trị bệnh hiệu quả hơn, từ đó ta thấy một sốlợi ích của hệ hỗ trợ ra quyết định trong y tế như sau:
Tăng cường chất lượng chuẩn đoán, chăm sóc bệnh nhân
Giảm nguy cơ sai sót để tránh các tình huống nguy hiểm chobệnh nhân
Tăng cường hiệu quả ứng dụng công nghệ thông tin vào lĩnhvực y tế để giảm bớt những thủ tục giấy tờ không cần thiết
Trang 18Hình 2.2: Sơ đồ hệ hỗ trợ quyết định
2.3 Bài toán phân lớp trong khai phá dữ liệu
2.3.1 Khái niệm về phân lớp
Phân lớp là một hình thức phân tích dữ liệu nhằm rút ra những môhình mô tả những lớp trong dữ liệu Những mô hình này gọi là mô hìnhphân lớp (classifier hoặc classsification) được dùng để dự đoán nhữngnhãn lớp có tính phân loại (categorical), rời rạc và không có thứ tự chonhững đối tượng dữ liệu mới
Trang 192.3.2 Quá trình phân lớp dữ liệu
Một quá trình phân lớp dữ liệu gồm 2 bước:
Bước thứ nhất: Học/Huấn luyện:
Quá trình học nhằm xây dựng một mô hình phân lớp(Classifier) bao gồm các lớp dữ liệu đã đưuọc khái niệmtrước từ tập dữ liệu đầu vào Bước học ( hay giai đoạnh huấnluyện) dùng một giải thuật phân lớp (ClassificationAlgorithms) để phân lớp các bản ghi của dữ liệu huấn luyện.Trong đó tập huấn luyện là một tập dữ liệu có cấu trúc vớicác thuốc tính và bộ dữ liệu tương ứng với các thuộc tính
- Bước thứ hai: Phân lớp (Classification)
Ở bước thứ hai (Hình 2.3), mô hình tìm được ở bức thứ nhất
sẽ được dùng cho việc phân loại những dữ liệu mới Ta dùngmột tập kiểm tra, bao gồm các bản ghi kiểm tra và nhãn lớp liên kết với chúng để so sánh kết quả đầu ra của bộ phân lớp.Các bản ghi kiểm tra này chưa đưuọc dùng để xây dựng mô hình phân lớp Các bản ghi kiểm tra này chưa đưuọc dụng đểxây dựng mô hình phân lớp ở bước 1 Kết quả mô hình phân lớp như sơ đồ sau:
Trang 20Hình 2.3: Kết quả quá trình phân lớp
IF a = y and b = y then class x
IF a = n and c = y and d = y then class x
Ví dụ minh họa bài toán phân lớp:
Bước 1: Xây dựng mô hình:
Mục đích: Phân lớp bệnh nhân vào 2 lớp: “ Dương tính ” và “ Âmtính ” trong bộ phận lớp có nhãn “KẾT QUẢ CHUẨN ĐOÁN” Mỗibệnh nhân có các thuộc tính dùng để phân lớp như sau: HCL, PLT, NS1.Sau khi huấn luyện, ta được mô hình phân lớp
Trang 21Hình 2.4 : Xây dựng mô hình phân lớp
Bước 2: Phân lớp
Hình 2.5: Bước phân lớpĐánh giá kết quả mô hình ở bước 1, ta dùng tập dữ liệu kiểmtra Với một mẫu mới, dùng bộ phân lớp để phân lớp mẫu nay vào một trong các lớp đưuọc rút ra từ mô hình ở bước 1 Trong dữu liệu kiểm tra của hình 2.5, bệnh nhân khai thác có các giá trị: HCT