Trong đó, khai phá dữ liệu là một kỹ thuật thường được áp dụng để hỗ trợ đưa ra các quyết định khá chính xác.. Chính vì vậy tôi đã chọn luận văn “Ứng dụng khai phá dữ liệu để chẩn đoán
Trang 1VIÊM PHẾ QUẢN CHO TRẺ EM
Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
ĐÀ NẴNG - NĂM 2017
Trang 2Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN
Người hướng dẫn khoa học: TS NGUYỄN HOÀNG HẢI
Phản biện 1: PGS.TSKH Trần Quốc Chiến
Phản biện 2: PGS.TS Huỳnh Công Pháp
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Hệ thống thông tin họp tại Trường Đại học Sư
phạm – ĐHĐN vào ngày 30 tháng 7 năm 2017
Có thể tìm hiểu luận văn tại:
- Thư viện Trường Đại học Sư phạm, Đại học Đà Nẵng
- Trung tâm thông tin học liệu, Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Nhiễm khuẩn hô hấp cấp là bệnh lý phổ biến ở trẻ em và gây tỉ lệ tử vong cao nhất so với các bệnh khác Các thông báo chính tại hội nghị quốc tế về chống nhiễm khuẩn hô hấp cấp cho biết hàng năm trên thế giới có khoảng 4,3 triệu trẻ em dưới 5 tuổi chết vì nhiễm khuẩn hô hấp Mỗi năm một đứa trẻ bị 5 đến 8 lần nhiễm khuẩn hô hấp cấp làm ảnh hưởng đến ngày công lao động của bố mẹ, là gánh nặng đối với xã hội Do nhiễm khuẩn hô hấp cấp có tầm quan trọng như vậy nên tổ chức y tế thế giới và Unicef
đã đưa ra chương trình phòng chống bệnh nhiễm khuẩn hô hấp cấp với mục tiêu cụ thể là làm giảm tỉ lệ tử vong do nhiễm khuẩn
hô hấp cấp ở trẻ dưới 5 tuổi, cùng với mục tiêu lâu dài là làm giảm tỉ lệ mắc bệnh và giảm tỉ lệ kháng kháng sinh
Nhìn chung, tại các nước đang phát triển, nhiễm khuẩn hô hấp cấp là nguyên nhân mắc bệnh hàng đầu ở trẻ em dưới 5 tuổi,
là nguyên nhân đến khám bệnh cũng như vào điều trị hàng đầu tại các tuyến y tế và cũng là nguyên nhân tử vong làm trẻ chết nhiều nhất Thật vậy, nguyên nhân ước tính của 12,8 triệu tử vong ở trẻ dưới 5 tuổi, 1990: nhiễm khuẩn hô hấp cấp 33,4 % (4,3 triệu), tiêu chảy 24,8% (3,2 triệu), nguyên nhân khác 41,8% (5,4 triệu) Hen phế quản là một trong những bệnh mạn tính thường gặp ở trẻ em và là một trong những nguyên nhân buộc trẻ phải nghỉ học nhiều ngày (trung bình trẻ nghỉ học 5-7 ngày/năm do bị hen phế quản), tỷ lệ mắc bệnh cũng như tử vong do hen phế quản ngày càng tăng Tỉ lệ mắc bệnh từ 0,5-6% trước đây, hiện nay tỉ lệ
Trang 4mắc trung bình tử 5-10% Tỉ lệ tử vong trước đây là 1-2% hiện nay có thể cao hơn 2-3%
Nước ta đang trên đà phát triển và hội nhập Hệ thống Y tế
và Giáo dục vẫn còn nhiều bất cập và hạn chế, đặc biệt là các cơ
sở vùng sâu vùng xa, chưa có điều kiện tiếp cận với công nghệ hiện đại Đội ngũ Y Bác sĩ chưa đủ để đáp ứng với tình trạng bệnh nhân ngày càng tăng cả về số lượng và loại bệnh Nhận thức của người dân về bệnh tật và cách sơ cứu cũng mơ hồ Nếu muốn đưa bệnh nhân đến được các bệnh viện trung tâm thì mất nhiều thời gian…Để khắc phục những khó khăn này, chúng ta cần có công
cụ gần gũi với thực tiễn, người dùng dễ sử dụng và linh hoạt để có thể giúp bệnh nhân và Y Bác sĩ phát hiện bệnh và điều trị kịp thời Việc ứng dụng Công nghệ thông tin (CNTT) vào lĩnh vực y
tế còn hạn chế, nhất là việc hỗ trợ tìm kiếm, khai thác thông tin nhằm chẩn đoán các biểu hiện lâm sàng Trong đó, khai phá dữ liệu là một kỹ thuật thường được áp dụng để hỗ trợ đưa ra các quyết định khá chính xác
Chính vì vậy tôi đã chọn luận văn “Ứng dụng khai phá dữ
liệu để chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em” làm đề tài nghiên cứu luận văn của mình
2 Mục tiêu và nhiệm vụ nghiên cứu của đề tài
Mục tiêu
Mục tiêu của đề tài là xây dựng và áp dụng có hiệu quả việc trợ giúp ra quyết định trong việc chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em từ 2 tháng tuổi đến 5 tuổi
Nhiệm vụ
Nghiên cứu lý thuyết về thuật toán phân lớp và kỹ thuật cây quyết định
Trang 5 Tìm hiểu về bệnh hen phế quản và viêm phế quản, tiến hành điều tra thu thập dữ liệu về bệnh hen phế quản và viêm phế quản ở trẻ
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
Dữ liệu nghiên cứu bao gồm các yếu tố liên quan đến biểu hiện và các yếu tố lâm sàng của bệnh hen phế quản và viêm phế quản
Các kỹ thuật khai phá dữ liệu, công cụ khai phá dữ liệu và mô-đun lập trình trong khai phá dữ liệu
Nghiên cứu ứng dụng về thuật toán phân lớp và kỹ thuật cây quyết định
Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em
4 Phương pháp nghiên cứu
Phương pháp nghiên cứu lý luận
Tìm tòi, đọc hiểu, phân tích thông tin, dữ liệu từ các tài liệu, giáo trình, sách liên quan đến khai phá dữ liệu
Trang 6 Nghiên cứu các kỹ thuật phân lớp bằng thuật toán cây quyết định, ứng dụng các kỹ thuật đó để chuẩn đoán bệnh hen phế quản và viêm phế quản dựa vào các thông tin đầu vào
Phương pháp nghiên cứu thực tiễn
Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác sĩ, y học chứng cớ và y học thực chứng trong quá trình khai phá dữ liệu y khoa
Tiến hành so sánh kết quả của các kỹ thuật khai phá dữ liệu
để lựa chọn kỹ thuật cho kết quả chính xác nhất
Xây dựng hệ thống nhằm hỗ trợ bác sĩ trong việc chẩn đoán
và điều trị bệnh
5 Kết quả dự kiến
Kết quả lý thuyết
Nắm được kỹ thuật khai phá dữ liệu bằng thuật toán phân lớp
và kỹ thuật cây quyết định
Ứng dụng kỹ thuật khai phá dữ liệu trên kết quả lâm sàng về bệnh hen phế quản và viêm phế quản để đưa ra chẩn đoán về khả năng mắc hay không mắc hai chứng bệnh này
Kết quả thực tiễn
Xây dựng được mô hình chẩn đoán và tư vấn bệnh hen phế quản và viêm phế quản dựa trên kỹ thuật khai phá dữ liệu
Xây dựng hệ thống hỗ trợ để chẩn đoán bệnh hen phế quản
và viêm phế quản cho trẻ em
6 Ý nghĩa khoa học và thực tiễn của luận văn
Ý nghĩa khoa học
Thông qua đề tài sẽ hiểu sâu hơn về thuật toán phân lớp và
kỹ thuật cây quyết định
Trang 7 Góp phần chẩn đoán bệnh hen phế quản và viêm phế quản của trẻ em dựa trên khai phá dữ liệu
Ý nghĩa thực tiễn
Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản và viêm phế quản sẽ hỗ trợ cho bác sĩ, cha mẹ các bé phát hiện được bệnh để có giải pháp can thiệp kịp thời trong việc chăm sóc sức khoẻ cho trẻ
7 Bố cục của luận văn
Dự kiến luận văn được trình bày bao gồm 3 chương như sau: Chương 1: Trong chương 1 sẽ trình bày về tổng quan về khai phá dữ liệu, quy trình khai phá dữ liệu, các kỹ thuật khai phá bằng cây quyết định, Trình bày chi tiết hai thuật toán là ID3 và C4.5 Chương 2: Nghiên cứu và xử lý dữ liệu về bệnh hen phế quản
và viêm phế quản ở trẻ em Chương này trình bày nội dung sau: Đặc điểm hệ hô hấp của trẻ em, khái niệm về bệnh hen phế quản và viêm phế quản, bệnh nguyên, cơ chế sinh bệnh, đặc điểm lâm sàng và chẩn đoán bệnh hen phế quản, viêm phế quản cho trẻ em, trình bày về canh tác dữ liệu trong khai phá dữ liệu và ứng dụng vào khai phá dữ liệu trong y khoa
Chương 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản
và viêm phế quản cho trẻ em
Trang 8CHƯƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Sơ lược về khai phá dữ liệu
Quy trình khai phá dữ liệu
Quá trình phân lớp dữ liệu
Trang 9Giới thiệu chung
Entropy đo tính thuần nhất của tập dữ liệu:
Dùng để đo tính thuần nhất của một tập dữ liệu Entropy của một tập S được tính theo công thức
Entropy(S) = - P+ log2 (P+) - P- log2 (P-)
Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân lớp "yes" (+), "no" (-) Ký hiệu p+
là để chỉ tỷ lệ các mẫu có giá trị của thuộc tính quyết định là "yes", và P-
là tỷ lệ các mẫu có giá trị của thuộc tính quyết định là "no" trong tập S
Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta
có công thức sau:
2 1
( ) ( log ( ))
n
i i i
Information Gain (viết tắt là Gain): Gain là đại lượng dùng
để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc phân lớp Đại lượng này được tính thông qua hai giá trị Information và Entropy
Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2…n) giá trị Gain của thuộc tính A trong tập S ký hiệu là Gain(S, A) và được tính theo công thức sau:
(1.2)(1.1)
Trang 10 Hàm xây dựng cây quyết định trong thuật toán ID3
Function induce_tree (tập_ví_dụ, tập_thuộc_tính)
begin
if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then return một nút lá được gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá được gán nhãn bởi tuyển của tất cả các lớp
tạo một nhánh của cây gán nhãn V;
Đặt vào phân_vùng V các ví dụ trong tập_ví_dụ có giá trị V tại thuộc tính P;
(1.3)
Trang 11Gọi induce_tree (phân_vùng V, tập_thuộc_tính), gắn kết quả vào nhánh V
số (numeric atributes) và làm việc được với tập dữ liệu bị thiếu và
bị nhiễu Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược
ưu tiên theo chiều sâu (Depth – First) Thuật toán xét tất cả các phép thử có thể để phân chia tập dữ liệu đã cho và chọn ra một phép thử có giá trị GainRatio tốt nhất GainRatio là một đại lượng
để đánh giá độ hiệu quả của thuộc tính dùng để thực hiện phép tách trong thuật toán để phát triển DT
GainRatio được xác định bởi công thức sau:
( , )( , )
Gain S A GainRatio S A
Split omation S A
Trong đó:
Cách tính của Entropy và Gain có ở công thức 1.2 và 1.3
Trong đó, SplitInformation(S, A) chính là thông tin do phân tách của A trên cơ sở giá trị của thuộc tính phân loại S Công thức tính như sau
(1.4)
Trang 12
2
1
log,
Xây dựng giải thuật
1.5.2
Thuật Toán C4.5
Dữ liệu vào: Tập dữ liệu E, tập thuộc tính F, tập nhãn lớp
Dữ liệu ra: Mô hình DT
Thuật toán: Tạo cây (tập dữ liệu E, tập thuộc tính F, tập
Lặp qua từng tập phân chia vV
Đặt Ev ={e| Nutgoc.điều kiện kiểm tra (e)=v và e E} Nutcon=Tạocây(Ev, F, Tập nhãn lớp)
Dừng lặp
End if
(1.5)
Trang 13Trả về Nút gốc
Ví dụ thuật toán C4.5
1.5.3
Dữ liệu vào:
+ Tập dữ liệu thời tiết
Bảng 1.1 Tập dữ liệu ví dụ thuật toán C4.5
Chơi tennis
Trang 14Entropy(S, Ngày)= ( 1
14)×Entropy(SD1) + (
1
14)×Entropy(SD2)… + ( 1
14) × Entropy(SD14) = 14×(
1
14)×(0) = 0 Gain(S, Ngày) = Entropy(S) - Entropy(S, Ngày) = 0.940 – 0
Thuộc tính nhiệt độ:
Gain(S, Nhiệt độ) = Entropy(S) - Entropy(S, Nhiệt độ), Trong đó:
Trang 16Entropy(S, Gió) = ( 6
14)×Entroy(SMạnh) + (
8
14)×Entropy(SNhẹ) Gain(S, Gió) = 0.940 – ( 8
14)*0.811 – (
6
14)*1= 0.048 SplitInfomation(S, Gió)=-( 6
GainRatio(S, Gió) = 0.048/0.985 = 0.049
Lựa chọn thuộc tính tốt nhất để phân chia
Entropy trung bình của các thuộc tính = (0.694 + 0.892 + 0.838 + 0.911 + 0)/5 = 0.667
Tương tự như vậy đối với nhánh còn lại của DT ta được cây quyết định hoàn chỉnh như sau:
Trang 17Hình 1.1 Cây Quyết định Chơi tennis thuật toán C4.5 Tập luật từ cây quyết định:
Luật 1: if (Quang cảnh = Nắng) Và (Độ ẩm ≤ 82.5) then Chơi tennis = Có
Luật 2: if (Quang cảnh = Nắng) Và (Độ ẩm >82.5) then Chơi tennis = Không
Luật 3: if (Quang cảnh = Âm u) Và Chơi tennis = Có
Luật 4: if (Quang cảnh = Mưa) Và (Gió = Mạnh) then Chơi tennis = Không
Luật 5: if (Quang cảnh = Mưa) Và (Gió = Nhẹ) then Chơi tennis = Có
Trang 18CHƯƠNG 2 TỔNG QUAN VỀ BỆNH HEN PHẾ QUẢN
2.2 KHÁI NIỆM BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN
Khái niệm bệnh hen phế quản
2.2.1
Mặc dù cho tới nay vẫn chưa có được một định nghĩa nào hoàn chình về hen và vấn đề này còn đang được tranh luận, nhưng những quan điểm chính về hen được nhiều người công nhận có thể tóm tắt như sau:
Quan điểm của các nhà sinh lý học cho rằng hen là sự kết hợp giữa hai hiện tượng tăng tính mẫn cảm của phế quản và tắc nghẽn đường hô hấp
Quan điểm của các nhà sinh lý bệnh cho rằng hen bao gồm các hiện tượng co thắt cơ trơn phế quản, phù niêm mạc và tăng tiết dịch nhầy của phế quản
Hiện nay người ta cho rằng viêm là yếu tố trung tâm gây nên các thay đổi kể trên Phản ứng viêm huy động và hoạt hóa tê bào Mast, bạch cầu đa nhân trung tính, đại thực bào, tiểu cầu và bạch cầu ưa axít giải phóng ra các chất trung gian hóa học như Histamin, Leucotrien, Prostaglandin, Thromboxan và các yếu tố hoạt hóa tiểu cầu
Khái niệm bệnh viêm phế quản
2.2.2
Viêm phế quản (VPQ) là bệnh thường gặp ở trẻ em, bất kể lứa tuổi nào và thời tiết nào Đặc biệt là trẻ ở thành thị cũng như ở
Trang 19các nơi tập trung dân cư đông đúc thì tỉ lệ bệnh còn cao hơn Hiểu biết một số nguyên nhân và cách đề phòng sẽ làm giảm thiểu căn bệnh, đề phòng biến chứng và nâng cao chất lượng cuộc sống VPQ là viêm nhiễm đường thở dưới, dân gian còn gọi là sưng cuống phổi, bệnh chưa tấn công vào nhu mô phổi, tuy nhiên khi viêm cuống phổi thì sẽ gây triệu chứng kích thích ho nhiều và nếu không được điều trị tích cực thì có thể lan xuống nhu mô phổi dẫn đến viêm phổi
2.3 BỆNH NGUYÊN – CƠ CHẾ SINH BỆNH HEN PHẾ QUẢN
Qui trình và các phương pháp được sử dụng để quyết định đặc tính nào thích đáng nhất cần thu thập dữ liệu, nhằm rút ra được tri thức hữu dụng từ các CSDL, gọi là canh tác dữ liệu
Canh tác dữ liệu (CTDL), xét về mặt ứng dụng thì giá trị thông tin là gần như chưa có Còn về phương pháp, CTDL thì tập trung xác định bản chất tác động qua lại giữa các thuộc tính để khai phá
Mục đích và phương pháp luận của canh tác dữ liệu 2.4.2
Trang 20Vai trò canh tác dữ liệu trong khám phá tri thức và 2.4.3
Các phương pháp chọn lựa đặc tính
Có 3 phương pháp chọn lựa đặc tính sau:
Phương pháp vét cạn, phương pháp chọn ngẫu nhiên, phương pháp chọn theo kinh nghiệm chuyên gia
Trong 3 phương pháp trên phương pháp vét cạn sẽ cho ra
dư thừa các tập con rất nhiều vì nó có thể không liên quan đến giá trị trong chẩn đoán Phương pháp chọn ngẫu nhiên sẽ có thể dẫn đến khả năng thiếu tập con mà những tập dữ liệu con này có khả năng có giá trị trong chẩn đoán Còn phương pháp chọn theo kinh nghiệm của chuyên gia nó sẽ khắc phục được các khuyết điểm của
2 phương pháp trên, vì những thuộc tính do kinh nghiệm của các chuyên gia đưa ra đa phần là kết quản đã được kiểm chứng thực tế
do đó đều liên quan đến chẩn đoán, mặc dù các chuyên gia khác nhau nhiều lúc đem ra các đặc tính khác nhau
Nên trong luận văn này em chọn phương pháp theo kinh
nghiệm của chuyên gia
2.5 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ
DỮ LIỆU Y KHOA
Vai trò của điều dưỡng, bác sĩ trong canh tác dữ liệu y 2.5.1
khoa
Trang 21Ứng dụng canh tác dữ liệu trong khai phá dữ liệu 2.5.2
bệnh HPQ và VPQ
Có nhiều triệu chứng ảnh hưởng đến việc chẩn đoán bệnh HPQ và VPQ như đã nêu ở trên Tuy nhiên ở đây, chúng ta chú trọng đến những triệu chứng quan trọng sau:
Thuộc tính ho: Là kiểu thuộc tính loại Nominal có giá trị {có,
không}
Thuộc tính sốt: Là kiểu thuộc tính loại Nominal có giá trị
{sốt, không sốt}
Thuộc tính nặng ngực (tức ngực): Là kiểu thuộc tính loại
Nominal có giá trị {có, không}
Thuộc tính nhịp thở: Là kiểu thuộc tính loại Nominal có giá
trị {bình thường, khó thở, thở nhanh}
Thuộc tính đàm (đờm): Là kiểu thuộc tính loại Nominal có
giá trị {không có, màu xanh,Màu trắng}
Thuộc tính sổ mũi: Là kiểu thuộc tính loại Nominal có giá trị
{có, không}
Thuộc tính khò khè: Là kiểu thuộc tính loại Nominal có giá
trị {có, không}
Thuộc tính rút lõm lồng ngực: Là kiểu thuộc tính loại
Nominal có giá trị {có, không}
Thuộc tính ran ngáy, ran rít: Là kiểu thuộc tính loại Nominal
Trên chính là các tập thuộc tính, dựa vào tập thuộc tính này
ta sẽ dự đoán giá trị cho thuộc tính đích là chẩn đoán, đây là
thuộc tính phân loại