Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng hỗ trợ chẩn đoán bệnh tại bệnh viện Đa khoa Y học cổ truyền Tuệ Tĩnh (LV thạc sĩ)
Trang 1MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC TỪ VIẾT TẮT iii
DANH MỤC HÌNH VẼ iiv
DANH MỤC BẢNG BIỂU v
1 Sự cần thiết của đề tài 1
2 Tính thực tiễn của đề tài 2
3 Mục đích nghiên cứu 3
4 Đối tượng và phạm vi nghiên cứu 3
5 Phương pháp nghiên cứu 4
6 Kết cấu luận văn 4
CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 5
TRONG Y KHOA 5
1.1 Giới thiệu về khai phá dữ liệu 5
1.1.1 Sự cần thiết phải khai phá dữ liệu (datamining) 5
1.1.2 Khai phá dữ liệu là gì 5
1.1.3 Các bài toán chính của khai phá dữ liệu 7
1.1.4 Ứng dụng của khai phá dữ liệu 8
1.2 Các nghiên cứu liên quan 9
1.2.1 Các dạng dữ liệu đã và đang được khai phá 9
1.2.2 Các phương pháp đã khai phá dữ liệu trong y học trước đây 10
1.2.3 Khai phá dữ liệu y học tại Việt Nam 11
CHƯƠNG II: KHAI PHÁ DỮ LIỆU BỆNH ÁN 13
2.1 Khai phá dữ liệu y khoa 13
2.1.1 Giới thiệu về khai phá dữ liệu y khoa: 13
2.1.2 Dữ liệu y khoa tại bệnh viện YHCT Tuệ Tĩnh 16
2.2.Khai phá dữ liệu bằng cây quyết định 19
2.2.1.Cây quyết định 19
Trang 22.2.2.Khai phá dữ liệu bằng cây quyết định 24
2.3 Khai phá dữ liệu y học bằng thuật toán cây quyết đinh C4.5 34
CHƯƠNG III: THỬ NGHIỆM VÀ ĐÁNH GIÁ 36
3.1 Quy trình xây dựng hệ thống 36
3.1.1 Tìm hiểu nghiệp vụ bài toán 36
3.1.2 Tập dữ liệu 36
3.1.3 Xây dựng hệ thống 39
3.1.4 Kết quả và đánh giá 41
3.2 Kết luận 45
KẾT LUẬN 47
TÀI LIỆU THAM KHẢO 49
Trang 3ICD10 Danh mục bệnh quốc tế
KDD Knowledge Discovery in Databaes
Trang 4DANH MỤC HÌNH VẼ
Hình 1.1: Các bước trong Data Mining & KĐ [3] 7
Hình 2.1: Biểu diễn cây quyết định cơ bản 40
Hình 3.1: Giao diện chính của hệ thống chương trình 40
Hình 3.2: Lấy dữ liệu đã được xử lý 40
Hình 3.3: Hiển thị dữ liệu chạy chương trình 41
Hình 3.4: Kết quả thử nghiệm với các bệnh án huyết áp cao 45
Trang 5DANH MỤC BẢNG BIỂU
Bảng 1: Phân độ THA theo Hội THA Việt Nam (2008) [8] 16
Bảng 2: Phân tầng nguy cơ tăng huyết áp 34
Bảng 3: Tệp dữ liệu đầu vào 39
Bảng 4: Kết quả chẩn đoán huyết áp cao 44
Trang 6LỜI MỞ ĐẦU
1 Sự cần thiết của đề tài
Tăng huyết áp ngày nay vẫn đang là vấn đề thời sự vì sự gia tăng nhanh chóng trong cộng đồng Tỷ lệ tăng huyết áp rất khác nhau Ở những nghiên cứu trên những bệnh nhân cao tuổi thì tỷ lề tăng huyết áp cao hơn rất nhiều so với những nhóm khác Theo ước tính của các nhà khoa học Mỹ tỷ lệ tăng huyết áp trên thế giới năm
2000 là 26,4% (tương đương 972 triệu người, riêng các nước đang phát triển chiếm
639 triệu) và sẽ tăng lên 29,2% vào năm 2025 với tổng số người mắc bệnh tăng huyết áp trên toàn thế giới khoảng 1,56 tỷ người mà 3/4 trong số đó là người thuộc nước đang phát triển [10]
Các số liệu điều tra thống kê tăng huyết áp Việt Nam cho thấy tỷ lệ tăng huyết áp năm 1960 chiếm 1,6% dân số, 1982 là 1,9%, năm 1992 tăng lên 11,79% dân số, 2002 ở Miền Bắc là 16,3%, riêng thành phố Hà Nội có tỷ lệ 23,2%, còn năm
2004 Thành phố Hồ Chí Minh là 20,5% [1] và năm 2007 tại Thừa thiên -Huế là 22,77% [2]
Tăng huyết áp và các yếu tố nguy cơ (nhất là các yếu tố lối sống, vốn có thể thay đổi được) đã trở thành vấn đề cần giải quyết không những chỉ bằng thuốc điều trị kiểm soát huyết áp mà cần hàng loạt các biện pháp giáo dục truyền thông sức khỏe nhằm vào các yếu tố nguy cơ về lối sống có khả năng thay đổi theo chiều hướng tích cực có lợi cho bệnh nhân tăng huyết áp
Tăng huyết áp là một tình trạng phổ biến, trong đó áp lực của máu đối với thành động mạch chủ cao, và cuối cùng có thể gây ra vấn đề sức khỏe, chằng hạn như bệnh tim Huyết áp được xác định bằng số lượng máu tim bơm và số lượng đề kháng lực với dòng chảy của máu trong động mạch Tim bơm nhiều máu hơn và động mạch hẹp, huyết áp sẽ cao hơn Có thể bị tăng huyết áp trong nhiều năm mà không hề có bất kỳ triệu chứng Không kiểm soát được huyết áp cao sẽ tăng nguy
cơ các vấn đề sức khỏe nghiêm trọng, bao gồm cơn đau tim và đột quỵ Tăng huyết
Trang 7áp thường phát triển trong nhiều năm, và cuối cùng ảnh hưởng đến gần như tất cả mọi cơ quan
Công việc chẩn đoán bệnh tăng huyết áp tương đối dễ dàng dựa vào trị số đo được sau khi đo huyết áp đúng quy trình Ngưỡng chẩn đoán tăng huyết áp thay đổi tùy theo từng cách đo huyết áp và phác đồ điều trị bệnh tăng huyết áp của Bộ Y tế Việt Nam nhưng để dự đoán một bệnh nhân tăng huyết áp thì còn nhiều khó khăn trong thực tế lâm sàng Do vậy vẫn còn bệnh nhân tử vong cao, cũng như chi phí điều trị cao cho những bệnh nhân vào sốc, đây là bài toán nan giải cho Y tế cộng đồng nói chung và tại bệnh viện Tuệ Tĩnh nói riêng
2 Tính thực tiễn của đề tài
Y học là một lĩnh vực khoa học ứng dụng liên quan đến nghệ thuật chữa bệnh, bao gồm nhiều phương pháp chăm sóc sức khỏe nhằm duy trì, hồi phục cơ thể
từ việc phòng ngừa và chữa bệnh Y học hiện đại ứng dụng các kiến thức khoa học sức khỏe, nghiên cứu về y sinh học và công nghệ y học để chẩn đoán và chữa trị bệnh tật thông qua thuốc men, phẫu thuật hoặc bằng nhiều phương pháp trị liệu phong phú khác Là môn khoa học không ngừng phát triển, nhằm tiếp cận và cập nhật hóa thông tin y học chứng cớ và y học thực chứng từ những cơ sở dữ liệu, để nâng cao chất lượng chăm sóc sức khỏe cho nhân dân là điều không thể là điều không thể thiếu trong thực hành lâm sàng
Ngày nay, với sự phát triển vượt bậc của công nghệ thông tin, các ứng dụng công nghệ thông tin đã góp phần thay đổi cuộc sống của con người, hỗ trợ chúng ta trong hầu như tất cả các lĩnh vực: kinh tế, xã hội, giáo dục, y tế, khoa học, … nó đã trở thành một phần không thể thiếu được trong cuộc sống hàng ngày của con người Tuy nhiên, song hành cùng sự phát triển này là sự gai tăng bùng nổ của dữ liệu Khai phá dữ liệu là một trong những lĩnh vực đang phát triển nhanh chóng và đã được ứng dụng trong nhiều lĩnh vực khác nhau Những lĩnh vực ứng dụng tiêu biểu của khai phá dữ liệu là trong kinh doanh thương mại, khoa học kĩ thuật Trong những lĩnh vực ứng dụng đó, y học là một trong những lĩnh vực mà khai phá dữ liệu
Trang 8đã có những đóng góp đáng kể và trở thành một trong những giải pháp cho nhiều vấn đề y học Nhiều hệ thống phát hiện tri thức y học đã được phát triển và thu được rất nhiều lợi ích Khai phá dữ liệu giúp tìm ra manh mối liên hệ giữa các triệu chứng lâm sàng, chẩn đoán bệnh Tuy nhiên khai phá dữ liệu trong lĩnh vực y khoa ở nước
ta còn rất ít, gặp nhiều khó khăn, do hiện nay nhiều bệnh viện trên cả nước chưa có bệnh án điện tử Việc khai phá trong lĩnh vực này thực sự mang lại nhiều ý nghĩa cho y học chứng cớ và y học thực chứng để hỗ trợ cho các bác sĩ, chẩn đoán bệnh sớm và điều trị bệnh có hiệu quả, giảm bớt tử vong cũng như chi phí điều trị, đây là một nhu cầu thiết thực trong các bệnh viện
Từ những lý do trên và xu hướng tất yếu luận văn chọn đề tài “Khai phá dữ liệu hồ sơ bệnh nhân ứng dụng tại bệnh viện YHCT Tuệ Tĩnh” để nghiên cứu cho luận văn thạc sĩ của mình
4 Đối tượng và phạm vi nghiên cứu
Các hồ sơ bệnh nhân: Tăng huyết áp, rối loạn chức năng tiền đình tại bệnh viện YHCT Tuệ Tĩnh Phân cụm các đối tượng nghiên cứu dựa theo các giai đoạn của bệnh nhân Chia nhóm các bệnh nhân thành các nhóm dựa theo giai đoạn phát triển của bệnh: bệnh nhân đủ tiêu chuẩn chẩn đoán xác định, bệnh nhân hướng tới chẩn đoán xác định
Trang 95 Phương pháp nghiên cứu
- Tìm hiểu nghiệp vụ y tế liên quan đến một số bệnh cụ thể phân chia theo độ
tuổi, giới tính, …
- Thu thập và tiền xử lý dữ liệu tại bệnh viện YHCT Tuệ Tĩnh
- Tìm hiểu bài toán phân lớp trong khai phá dữ liệu, lựa chọn thuật toán phù hợp (cây quyết định và thuật toán C4.5)
- Phân tích và đánh giá
6 Kết cấu luận văn
Luận văn gồm 3 chương: ngoài phần mở đầu, tham khảo, phụ lục
- Chương I: Tổng quan về khai phá dữ liệu trong y khoa
- Chương II: Khai phá dữ liệu bệnh án
- Chương III: Thử nghiệm và đánh giá
Trang 10CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
TRONG Y KHOA
1.1 Giới thiệu về khai phá dữ liệu
1.1.1 Sự cần thiết phải khai phá dữ liệu (datamining)
Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri thức Câu hỏi đặt ra là liệu chúng ta có thể khai thác được gì từ những “núi” dữ liệu tưởng chừng như “bỏ đi” ấy không ?
“Necessity is the mother of invention” - Data Mining ra đời như một hướng
giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên Khá nhiều định nghĩa về Data Mining và sẽ được đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining
như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho
dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào
đó
1.1.2 Khai phá dữ liệu là gì
Khai phá dữ liệu (data mining) được định nghĩa như là một quá trình chắt
lọc hay khai phá tri thức từ một lượng lớn dữ liệu Một ví dụ hay được sử dụng là
là việc khai thác vàng từ đá và cát, Data mining được ví như công việc "đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước Thuật ngữ Data mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Data mining như
Trang 11Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/pattern analysis (phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), data dredging(nạo vét dữ liệu), [11]
Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để
tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập
dữ liệu đó
Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (Knowleadge Discovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:
1 Làm sạch dữ liệu (data cleaning & preprocessing): loại bỏ nhiễu và các
dữ liệu không cần thiết
2 Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouse & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing)
3 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm các việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy
6 Ước lượng mẫu (knowledge evaluation): quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó
Trang 127 Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng
Hình 1.1: Các bước trong Data Mining & KĐ [3]
1.1.3 Các bài toán chính của khai phá dữ liệu
Data Mining được chia nhỏ thành một số hướng chính như sau:
Trang 13- Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản
- Luật kết hợp (association rules): là dạng luật biểu diễn tri thức ở dạng khá đơn giản Ví dụ: 60% nam giới vào siêu thị nếu mua bia thì có tới 80% trong số
họ sẽ mua thêm thịt bò khô Được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tài chính,… [12]
- Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cận này thường sử dụng một số kĩ thuật của học máy (machine learning) như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v [13]
- Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước) [14]
- Khai phá chuỗi (sequential/ temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao [15]
1.1.4 Ứng dụng của khai phá dữ liệu
Data Mining thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình: phân tích dữ liệu và hỗ trợ ra quyết định (data analysis
& decision support); điều trị y học (medical treatment): giúp tìm ra mối liên hệ giữa các triệu chứng lâm sàng, chẩn đoán bệnh; text mining & Web mining; tin-sinh (bio-infomatics): tìm kiếm, so sánh các hệ Gen và thông tin di truyền, tìm mối liên hệ giữa các hệ Gen và chẩn đoán một số bệnh di truyền; tài chính và thị trường chứng khoán (finance & stock market): để phân tích tình hình tài chính, phân tích
Trang 14đầu tư, phân tích cổ phiếu; bảo hiểm (insurance); nhận dạng (patten recognition); thông tin kỹ thuật: phân tích các sai hỏng, điều khiển và lập lịch trình; thông tin thương mại: phân tích dữ liệu người dùng, phân tích dữ liệu marketing, phân tích đầu tư, phát hiện gian lận
1.2 Các nghiên cứu liên quan
1.2.1 Các dạng dữ liệu đã và đang được khai phá
Phân tích dữ liệu tài chính (financial data analysis): Dữ liệu tài chính trong ngân hàng và trong ngành tài chính nói chung thường đáng tin cậy và có chất lượng cao, tạo điều kiện cho khai phá dữ liệu (dự đoán khả năng vay và thanh toán của khách hàng, phân tích hành vi khách hàng, phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính, phát hiện các hoạt động rửa tiền và tội phạm tài chính khác) [16]; công nghiệp bán lẻ (Retail Industry): nhằm xây dựng mô hình giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng và giữ chân khách hàng tốt (khai phá dữ liệu trên kho dữ liệu khách hàng, phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, phân tích hiệu quả của các chiến dịch bán hàng, quản trị mối quan hệ khách hàng, giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng) [17]; công nghiệp viễn thông (telecommunication industry): giúp xác định các mô hình viễn thông, phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông: phân tích dữ liệu đa chiều viễn thông, xây dựng các mô hình phát hiện gian lận, phát hiện bất thường trong giao dịch viễn thông, phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng, sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông [18]; phân tích dữ liệu sinh học (Biological Data Analysis): lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen; xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein; xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền [19]; phát hiện xâm nhập bất hợp pháp (Intrusion Detection): phát triển các thuật toán khai phá dữ liệu để
Trang 15phát hiện xâm nhập; phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập; phân tích dòng dữ liệu (Analysis of Stream data) để phát hiện bất thường (abnormal detection) [20]
1.2.2 Các phương pháp đã khai phá dữ liệu trong y học trước đây
a Nghiên cứu trong nước
Tác giả Đinh Thị Thu Hương nghiên cứu trên 123 người Việt Nam khỏe mạnh trung niên với tuổi 51,2 ± 13,9 bằng phương pháp không xâm nhập Complior thấy vận tốc sóng mạch cảnh đùi là 10,2 ± 1,6 m/s và tương quan thuận với tuổi r= 0,56 p<0,01 [4]
Kết quả nghiên cứu tình hình tăng huyết áp của 605 đối tượng tuổi từ 40-69 tuổi tại phường Hương Xuân, thị xã Hương Trà năm 2013 cho thấy tỷ lệ mắc tăng huyết áp chung trong độ tuổi từ 40-69 tuổi là 33,9% Tỷ lệ tăng huyết áp theo phân
độ I là 21,1%, độ II là 7,6%, độ III là 5,1% [5]
b Nghiên cứu nước ngoài
Hansen T.W nghiên cứu ngẫu nhiên trên 1678 dân Đan Mạch tuổi từ 40 đến
70 tuổi nhận thấy rằng vận tốc sóng mạch động mạch chủ (AoPWV), một đo lường của CĐM chủ, cung cấp thông tin dự báo vượt trội so với các yếu tố nguy cơ truyền thống bao gồm tuổi tác, giới tính, HA, cholesterol, bệnh ĐTĐ, hút thuốc lá và HATB 24 giờ [21]
Boutouyrie P từ năm 2002 đã tiến hành nghiên cứu cắt dọc trên 1045 cá thể tăng huyết áp, khẳng định cứng động mạch đo bằng vận tốc sóng mạch cảnh đùi là yếu tố dự báo độc lập cho biến cố bệnh động mạch vành nguyên phát trên người tăng huyết áp [22]
Park Jin-Shik nghiên cứu đánh giá mối quan hệ cứng động mạch chủ bằng đo vận tốc sóng mạch động mạch chủ xâm nhập với bệnh động mạch vành từ Hàn
Trang 16Quốc trên bệnh nhân tuổi 61.9±9.43 cho thấy tổn thương 1,2,3 nhánh động mạch vành với tốc độ sóng mạch lần lượt là 9,57; 10,11 và 11,89 (m/s) [23]
Rhee M nghiên cứu trên bệnh động mạch vành tuổi trung bình 59±7 nhận thấy tương quan vận tốc sóng mạch tim - động mạch đùi không xâm nhập với điểm Gensini
là r = 0,324, p < 0,001 [24]
Hope S.A nghiên cứu trên bệnh nhân bệnh ĐMV tuổi 59±14 tại Úc cho thấy vận tốc sóng mạch cảnh - quay xâm nhập tương quan với điểm tổn thương động mạch vành Gensini bổ sung r= 0,55, p< 0,001[25]
Nghiên cứu của Ahmed Yahya Alarhabi và cs tiến hành đánh giá cứng động mạch bằng vận tốc sóng mạch không xâm nhập cảnh đùi trên bệnh nhân B.ĐMV cũng cho thấy có sự khác biệt giữa bệnh và chứng 11,13 ± 0,91 vs 8,14 ± 1,25 m⁄s, P< 0,001 [26]
Marcin C đánh giá không xâm nhập AoPWV cũng cho kết quả giữa bệnh và không bệnh động mạch vành là 13,0 so với 10,5 m/s, p < 0,01 với nhóm bệnh tuổi trung bình 63,5 ± 19,7 [27]
1.2.3 Khai phá dữ liệu y học tại Việt Nam
Ứng dụng công nghệ thông tin trong y tế là nhu cầu cấp thiết và được Bộ Y
tế quan tâm để phát triển Tuy nhiên đến thời điểm này, hệ thống hỗ trợ y khoa không nhiều và chưa phát huy được hiệu quả Nguyên nhân không phải do các y, bác sĩ thiếu trình độ về ứng dụng hay máy móc kém mà do chưa có một hệ thống phù hợp Bên cạnh đó việc ứng dụng khai phá dữ liệu trong phân lớp bệnh nhân điều trị ngoại trú bảo hiểm y tế tại bệnh viện Tiền Giang: ứng dụng kỹ thuật phân lớp để xây dựng cây quyết định và các tập luật dự đoán các trường hợp sẽ được bảo hiểm y tế thanh toán hay giám định lại và đánh giá kết quả (luận văn ThS Nguyễn Thanh Sang, Đại học Huế [6]) Ngoài ra khai phá dữ liệu phát hiện gian lận trong bảo hiểm y tế: sử dụng kỹ thuật khai phá dữ liệu để phát hiện các hành vi
Trang 17gian lận một cách tự động dựa trên dấu hiệu bất thường so với dữ liệu trong quá khứ (luận văn ThS Lã Thúy Hà, Học viện Công nghệ bưu chính viễn thông [7] )
Trang 18CHƯƠNG II: KHAI PHÁ DỮ LIỆU BỆNH ÁN
2.1 Khai phá dữ liệu y khoa
2.1.1 Giới thiệu về khai phá dữ liệu y khoa:
Triệu chứng lâm sàng và xét nghiệm là đa dạng Do đó việc chọn thuộc tính khai phá không đúng hoặc thiếu hoặc dư thừa dẫn đến các luật dư thừa vô nghĩa, sinh ra các mô hình chẩn đoán sai Do đó để chọn thuộc tính khai phá chính xác có liên quan, việc sử dụng tri thức chuyên gia bác sĩ, điều dưỡng là mục tiêu chính của canh tác dữ liệu y khoa Tri thức sử dụng của diều dưỡng, bác sĩ là:
Kiến thức chuyên môn: Các điều dưỡng và bác sĩ đã được đào tạo chuyên
sâu về lĩnh vực chuyên môn chẩn đoán và điều trị bệnh cho bệnh nhân, do đó những triệu chứng lâm sàng và xét nghiệm đã theo tiêu chẩn nhất định nào đó Trong y khoa gọi là xét nghiệm thường quy, triệu chứng lâm sàng điển hình, phát
đồ điều trị cơ bản
Kinh nghiệm: Ngoài kiến thức chuyên môn đã được đào tạo Với thời gian
lâu năm điều trị bệnh, giúp cho các bác sĩ, điều dưỡng có kinh nghiệm Do đó các xét nghiệm, các triệu chứng lâm sàng sẽ được thu hẹp lại
Y học chứng cứ và y học thực chứng: Nghiên cứu chẩn đoán bệnh là một
trong những đề tài khoa học đã được các y bác sĩ chứng minh qua thực tế lâm sàng chữa bệnh Tất cả triệu chứng lâm sàng và xét nghiệm có giá trị chẩn đoán điều được chứng minh qua những điều trị cho bệnh nhân cụ thể, những bệnh lý cụ thể
Các tri thức trên giúp cho chuyên viên khai phá dữ liệu chọn lựa thuộc tính đúng, chính xác,(giảm thuộc tính khai phá cây quyết định đơn giản) giúp cho các thuật toán thực thi nhanh và hiệu quả Giúp cho việc xây dựng hệ thống đáp ứng được mục tiêu đề ra (chẩn đoán bệnh có độ chính xác cao)
Tập dữ liệu y khoa
Trang 19Cho một tập dữ liệu y khoa gồm A ={ T1,T2,T3…,Tn} là một tập thuộc tính điều kiện (conditional) , và một thuộc tính chẩn đoán D (diagnosis) Trong đó các thuộc tính có thể chuyển đổi, số hóa D có các giá trị chẩn đoán
Từ tập dữ liệu trên, cần tri thức trong tập dữ liệu này để chẩn đoán cho bệnh nhân mới Nếu dùng phương pháp khai phá dữ liệu (KPDL) cổ điển thì tập dữ liệu này sẽ cho ra các luật Theo thời gian, dữ liệu có thay đổi, khai phá cũng cho ra các luật Luật này không tận dụng được tri thức kinh nghiệm của chuyên gia và sau một thời gian ứng dụng, luật đó sẽ không giúp cho chẩn đoán chính xác hơn
Do đó, một phương pháp mới là kết hợp CTDL với KPDL nhằm cải thiện những
khuyết điểm đó “dữ liệu“ trong khai phá tập dữ liệu y khoa, cần giải quyết các
bài toán sau:
Bài toán 1: Phân loại bệnh nhân dựa trên chuẩn đoán lâm sàng của chuyên
gia lâm sàng Mỗi chuyên bác sĩ có thể có những tệp đặc tính khác nhau Vì vậy để không bỏ sót chẩn đoán bệnh nên kết hợp kinh nghiệm của nhiều chuyên gia càng tốt
Bài toán 2: Kết hợp với bài toán 1 cùng với việc dựa vào các kết quả cận
lâm sàng tiến hành thực nghiệm chẩn đoán bệnh nhân mới nhằm chuẩn hóa các tập thuộc tính có chẩn đoán chính xác cao để các chuyên gia bác sĩ đưa ra kết luận về trạng thái bệnh lý
Bài toán 3: Sử dụng các kỹ thuật khai phá dữ liệu tạo ra các mô hình để
chẩn đoán bệnh Xây dựng công cụ chuẩn đoán cận lâm sàng tự động gồm 2 bước
cơ bản:
Bước 1: Huấn luyện (tập dữ liệu sẽ được dùng để huấn luyện mô hình học máy như mô hình Markov ẩn, mô hình mạng Baysian, mô hình cây quyết định (trong luận văn này tác giả đã sử dụng kỹ thuật khai phai dữ liệu bằng cây quyết định)
Trang 20Bước 2: Sau khi được huấn luyện, thì mô hình học máy này sẽ được sử dụng để chẩn đoán bệnh nhân mới Kết quả chẩn đoán bệnh nhân mới này được dùng để kiểm chứng mô hình cũng như tập con thuộc tính đã được lựa chọn trong bài toán 1
Các lời giải cho các bài toán khai phá tập dữ liệu y khoa:
Lời giải cho bài toán 1
Để chọn ra các tập con các thuộc tính người ta thường chọn theo kinh nghiệm của chuyên gia
Tham khảo ý kiến chuyên gia bác sĩ tại Bệnh viện Tuệ Tĩnh và các nghiên cứu khoa học (y học chứng cớ và y học thực chứng tại bệnh viện ) chọn ra các thuộc tính có đặc tính liên quan chẩn đoán:
Chọn thuộc tính tuôi (khoangtuoi) còn thông tin hành chính Họ và tên bệnh nhân, địa chỉ thường trú, giới tính, tình trạng gia đình, tiền sử bệnh không có giá trị trong chẩn đoán bệnh tăng huyết áp
Triệu chứng lâm sàng: chọn thuộc tính huyết áp, nhức đầu, ù tai, mờ mắt, giảm trí nhớ [theo kinh nghiệm của lâm sàng của chuyên gia bác sĩ tại bệnh viện Tuệ Tĩnh]
Tình trạng đến khám hoặc nhập viện
Thuộc tính nhập viện được chọn: bệnh nhân tăng huyết áp nhập viện càng muộn tỉ lệ bệnh mắc phải càng cao theo các cấp độ
Đặc điểm kết quả của bài toán này: mang tính ngẫu nhiên
Lời giải cho bài toán 2
Kết hợp với dữ liệu được mô tả ở bài toán 1 cùng với dữ liệu được mô tả ở bài toàn 2 để các chuyên gia bác sĩ đưa ra kết luận trạng thái bệnh lý cụ thể như sau:
Trang 21Cận lâm sàng
Xét nghiệm
- Chọn Hct, tiểu cầu còn xét nghiệm khác (bạch cầu, công thưc máu, …) không có giá trị trong chẩn đoán bệnh nhân tăng huyết áp [theo kinh nghiệm của lâm sàng của chuyên gia bác sĩ tại bệnh viện Tuệ Tĩnh]
Tình trạng đến khám hoặc nhập viện
Thuộc tính nhập viện được chọn: bệnh nhân tăng huyết áp nhập viện càng muộn tỉ lệ bệnh mắc phải càng cao theo các cấp độ
Bảng 1: Phân độ THA theo Hội THA Việt Nam (2008) [8].
Phân độ HATT (mmHg) HATTr (mmHg)
Lời giải cho bài toán 3
Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5 để tạo ra các luật và tiến hành chẩn đoán bệnh nhân mới
2.1.2 Dữ liệu y khoa tại bệnh viện YHCT Tuệ Tĩnh
Trong luận văn này, học viên sử dụng tập dữ liệu y khoa bệnh tăng huyết áp tại bệnh viện Tuệ Tĩnh [9]
a Sơ lược bệnh tăng huyết áp
Trang 22Tăng huyết áp được định nghĩa khi huyết áp tâm thu và huyết áp tâm trương nằm ở hai mức độ khác nhau, chọn mức độ cao hơn đã phân loại Huyết áp tâm thu đơn độc cũng được đánh giá theo mức độ 1, 2, 3 theo giá trị của huyết áp tâm thu nếu huyết áp tâm trương < 90 mmHg
Áp lực mạch đập (hiệu số huyết áp tâm thu và huyết áp tâm trương ): tối ưu
là 40 mmHg, nếu trên 61 mmHg có thể xem là một yếu tố tiên lượng nặng cho bệnh nhân
Các thuộc tính được lưu trữ trong bệnh án bao gồm:
Tập thuộc tính ban đầu: Khi bệnh nhân đến khám bệnh hoặc nhập viện
gồm có những thông tin sau:
Thông tin hành chính: Họ và tên bệnh nhân; địa chỉ thường trú; tuổi; giới
tính; tiền sử bệnh
Các triệu chứng lâm sàng, bao gồm:
Triệu chứng cơ năng (khai thác bệnh nhân bằng hỏi): thường không có biểu
hiện gì, có thể có triệu chứng (nhức đầu từng cơn hay liên tục hai bên thái dương và cùng chẩm, hai nhãn cầu và gốc mũi, ù tai, mờ mắt, giảm trí nhớ, hay quên)
Triệu chứng thực thể (thăm khám): chủ yếu là đo huyết áp thấy các chỉ số
cao, thường cao cả huyết áp động mạch tâm thu và huyết áp động mạch tâm trương,
có khi chỉ cao một trong hai chỉ số ấy (huyết áp tâm thu >= 140 mmHg; huyết áp
tâm trương >= 90 mmHg) Triệu chứng thực thể (thăm khám): chủ yếu là đo huyết
áp thấy các chỉ số cao, thường cao cả huyết áp động mạch tâm thu và huyết áp động mạch tâm trương, có khi chỉ cao một trong hai chỉ số ấy (huyết áp tâm thu >= 140 mmHg; huyết áp tâm trương >= 90 mmHg)
Dấu hiệu lâm sàng: Bệnh nhân có thể béo phì, mặt tròn Khám tim mạch có
thể phát hiện sớm dày thất trái hay dấu suy tim trái, các động mạch gian sườn đập trong eo động mạch chủ Sờ và nghe động mạch để phát hiện các trường hợp nghẽn
Trang 23hay tắc động mạch cảnh trong động mạch chủ bụng,… Khám bụng có thể phát hiện tiếng thổi tâm thu hai bên rốn trong hẹp động mạch thận, phồng động mạch chủ hoặc khám phát hiện thận to, thận đa nang Khám thần kinh có thể phát hiện các tai biến mạch máu não cũ hoặc nhẹ
Triệu chứng Cận lâm sàng: mục đích để đánh giá nguy cơ tim mạch, tổn
thương thận và tìm nguyên nhân
- Xét nghiệm máu: Ure, creatinin để đánh giá biến chứng suy thận,
Cholesterol, triglycerid, HDL- Cholesterol, LDL- Cholesterol, Glucoese máu, HbA1C… để phát hiện các yếu tố nguy cơ của người bệnh tăng huyết áp
- Xét nghiệm nước tiểu: Protein, hồng cầu trong nước tiểu
- Điện tim: phát hiện dày thất trái, hở van hai lá do biến chứng suy tim trái
- Siêu âm tim mạch: đánh giá chức năng tâm thu thất trái, tình trạng xơ vữa
mạch
Tình trạng đến khám và nhập viện: tỉnh hay hôn mê Đến khám (nhập viện)
ngày thứ mấy của bệnh
- Thông tin hành chính: Chọn thuộc tính tuổi (khoangtuoi) còn thông tin
hành chính Họ và tên bệnh nhân, địa chỉ thường trú, giới tính, tình trạng gia đình, tiền sử bệnh không có giá trị trong chẩn đoán bệnh tăng huyết áp
- Triệu chứng lâm sàng: chọn thuộc tính huyết áp (theo kinh nghiệm lâm
sàng của chuyên gia bác sĩ bệnh viện YHCT Tuệ Tĩnh)
- Triệu chứng Cận lâm sàng
Xét nghiệm:
Haemoglobin và/ hoặc haematiocrit
Đường máu lúc đói
Trang 24Cholesterol toàn phần, LDL-C, HDL-C
Triglycerid lúc đói
Natri và kali máu
Acid uric máu
Creatinin máu (tính mức lọc cầu thận)
Phân tích nước tiểu: soi nước tiểu, tìm protein, albumin trong nước tiểu Các xét nghiệm bổ sung dựa trên tiền sử, khám thực thể, và kết quả từ các xét nghiệm thường quy
HbA1c (nếu đường máu lúc đói > 5,6 mg/dL) hoặc đã chẩn đoán đái tháo đường từ trước)
Định lượng protein nước tiểu (nếu trong nước tiểu có protein), nồng độ natri, kali nước tiểu và tỷ lệ của chúng
Theo dõi huyết áp 24h
Siêu âm động mạch ở bụng
Đo chỉ số huyết áp cổ chân cánh tay
2.2 Khai phá dữ liệu bằng cây quyết định
Trang 25Hình 2.1: Biểu diễn cây quyết định cơ bản
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo
(predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong (internal node)
tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ
thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay
chỉ gọi với cái tên ngắn gọn là cây quyết định
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng
để phân lớp các đối tượng dựa vào dãy các luật (series of rules) Các thuộc tính của
Trang 26đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu
dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal, dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật
để dự đoán lớp của các đối tượng chưa biết (unseen data)
Cây quyết định phân lớp các trường hợp cụ thể bằng cách sắp đặt chúng từ
trên xuống và bắt đầu từ nút gốc và đi xuống các nút lá:
Mỗi nút trong biểu diễn một thuộc tính cần kiểm tra giá trị (an attribute to be
tested) đối với các ví dụ kiểm tra giá trị (an attribute to be tested) đối với các ví dụ
Mỗi nhánh từ một nút sẽ tương ứng với một giá trị có thể của thuộc tính gắn
với nút đó trị có thể của thuộc tính gắn với nút đó
Mỗi nút lá biểu diễn một phân lớp (a classification)
Một cây quyết định học được sẽ phân lớp đối với một ví dụ, bằng cách duyệt cây từ nút gốc đến một nút lá → Nhãn lớp gắn với nút lá đó sẽ được gán cho ví dụ cần phân lớp
Mỗi đường đi (path) từ nút gốc đến một nút lá sẽ tương ứng với một kết hợp (conjunction) của các kiểm tra giá trị thuộc tính (attribute tests)
Cây quyết định (bản thân nó) chính là một phép tuyển (disjunction) của các kết hợp (conjunctions) này
a Xây dựng cây quyết định
Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, C5.0…Nhưng nói chung quá trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản:
- Xây dựng cây: thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp
Trang 27- Cắt tỉa cây: là việc làm dùng để tối ưu hoá cây Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá
- Đánh giá cây: dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào
Mã giả cho quá trình Xây dựng cây
Make Tree (Training Data T)
{ Partition(T) }
Partition(Data S)
{ if (all points in S are in the same class) then
return for each attribute A do
evaluate splits on attribute A;
use best split found to partition S into S1,
S2, , Sk Partition(S1) Partition(S2) Partition(Sk)
}
b Tính chất của cây quyết định
- Khả năng sinh ra các quy tắc hiểu được: Cây quyết định có khả năng sinh ra
các quy tắc dễ dịch (if … then …) hoặc có thể chuyển đổi được sang tiếng Anh hoặc SQL Đây là ưu điểm nổi bật của kỹ thuật này Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng Do vậy sự giải thích cho bất
cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch Do đó mọi người có thể hiểu mô hình cây quyết định thông qua giải thích ban đầu
Trang 28- Khả năng thực thi trong những lĩnh vực hướng quy tắc: Điều này có nghe
có vẻ hiển nhiên, nhưng quy tắc quy nạp nói chung và cây quyết định nói riêng là lựa chọn hoàn hảo cho những lĩnh vực thực sự là các quy tắc Rất nhiều lĩnh vực từ
di truyền tới các quá trình công nghiệp thực sự chứa các quy tắc ẩn, không rõ ràng (underlying rules) do khá phức tạp và tối nghĩa bởi những dữ liệu lỗi (noisy) Cây quyết định là một sự lựa chọn tự nhiên khi chúng ta nghi ngờ sự tồn tại của các quy tắc ẩn, không rõ ràng
- Dễ dàng tính toán trong khi phân lớp: Mặc dù như chúng ta đã biết, cây
quyết định có thể chứa nhiều định dạng, nhưng trong thực tế, các thuật toán sử dụng
để tạo ra cây quyết định thường tạo ra những cây với số phân nhánh thấp và các test đơn giản tại từng node Những test điển hình là: so sánh số, xem xét phần tử của một tập hợp, và các phép nối đơn giản Khi thực thi trên máy tính, những test này chuyển thành các toán hàm logic và số nguyên là những toán hạng thực thi nhanh và không đắt Đây là một ưu điểm quan trọng bởi trong môi trường thương mại, các
mô hình dự đoán thường được sử dụng để phân lớp hàng triệu thậm trí hàng tỉ bản ghi
- Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc: Cây quyết
định xử lý “tốt” như nhau với thuộc tính liên tục và thuộc tính rời rạc Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn
- Thể hiện rõ ràng những thuộc tính tốt nhất: Các thuật toán xây dựng cây
quyết định đưa ra thuộc tính mà phân chia tốt nhất tập dữ liệu đào tạo bắt đầu từ node gốc của cây Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc dự đoán hay phân lớp
- Quá trình xây dựng cây tương đối đơn giản: Dữ liệu dùng cho cây quyết
định chỉ là những dữ liệu căn bản hoặc có thể không cần thiết Một số kỹ thuật khác
có thể đòi hỏi dữ liệu chuẩn, tạo các biến giả và loại bỏ đi các giá trị trống Quá
Trang 29trình xây dựng cây tương đối nhanh Kết quả dự đoán bằng cây quyết định có thể thẩm định lại bằng cách kiểm tra thống kê
Chính những điểm mạnh này mà liên tục trong nhiều năm qua, cây quyết định được bình chọn là giải thuật được sử dụng nhiều nhất và thành công nhất Được ứng dụng thành công trong hầu hết các lãnh vực về phân tích dữ liệu, phân loại text, spam, phân loại gien, etc Có rất nhiều giải thuật sẵn dùng : CART (Breiman et al., 1984) [28] , C4.5 (Quinlan, 1993) [29], etc… Bên cạnh những tính chất tốt đã kể trên, một số hạn chế của cây quyết định có thể liệt kê như sau:
- Cây quyết định không thích hợp lắm với mục tiêu là dự đoán giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi suất ngân hàng Cây quyết định cũng khó giải quyết với thời gian liên tục
- Dễ xảy ra lỗi khi có nhiều lớp Một số cây quyết định chỉ thao tác với lớp giá trị nhị phân dạng yes/no hay acept/reject Dễ xảy ra lỗi khi số ví dụ đào tạo là nhỏ và càng nhanh hơn với cây mà có nhiều tầng hay có nhiều nhánh trên một node
- Chi phí tính toán đắt để học: do phải đi qua nhiều node để đến node lá cuối cùng Tại từng nút, cần tính toán mật độ (hay tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác sắp xếp lại tập dữ liệu theo thứ tự giá trị của từng thuộc tính đó Sau đó mới có thể chọn được một thuộc tính phát triển và tương ứng là một phân chia tốt nhất
2.2.2.Khai phá dữ liệu bằng cây quyết định
Hầu hết các thuật toán đã được phát triển cho việc học cây quyết định [10] là các biến thể trên một thuật toán cốt lõi Thuật toán đã sử dụng phương pháp tìm kiếm tham lam và từ trên xuống (top-down, greedy) thông qua không gian có thể của cây quyết định Mục đích của luân văn làm thế nào chọn thuộc tính có đặt tính tốt nhất cho mô hình khai phá dữ liệu Do đó tôi chỉ trình bài một cách tổng quan 3
Trang 30thuật toán điển hình sau: ID3 (Quinlan 1986)[30] , C4.5 (Quinlan 1993) và SPRINT (do 3 tác giả John Shafer, Rakesh Agrawal, Manish Mehta đề xuất năm 1996)[31]
a Thuật toán ID3
Thuật toán ID3 là một trong những thuật toán trong khai phá dữ liệu Là một thuật toán học đơn giản nhưng tỏ ra thành công trong nhiều lĩnh vực ID3 là một thuật toán hay vì cách biểu diễn tri thức học được của nó, tiếp cận của nó trong việc quản lý tính phức tạp, heuristic của nó dùng cho việc chọn lựa các khái niệm ứng viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu ID3 biểu diễn các khái niệm ở dạng các cây quyết định Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó
Thuật toán ID3 được phát biểu bởi Quinlan (trường đại học Syney, Australia)
và được công bố vào cuối thập niên 70 của thế kỷ 20 Sau đó, thuật toán ID3 được giới thiệu và trình bày trong mục Induction on decision trees, machine learning năm
1986 ID3 được xem như là một cải tiến của thuật toán CLS(CLS được Hovland và Hint giới thiệu trong Concept learning System vào những năm 50 của thế kỷ 20) với khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tại mỗi bước ID3 xây dựng cây quyết định từ trên-xuống (top -down) [30]
Thuật toán được mô tả đơn giản như sau:
Function induce_tree (tập_ví dụ, tập thuộc tính)
BEGIN
If mọi ví dụ trong tập_ví_vụ đều nằm cùng một lớp
then Return một nút lá được gán nhãn bởi lớp
đó
Else if tập thuộc tính là rỗng then
Return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong