1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em

26 62 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 836,31 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong đó, khai phá dữ liệu là một kỹ thuật thường được áp dụng để hỗ trợ đưa ra các quyết định khá chính xác.. Chính vì vậy tôi đã chọn luận văn “Ứng dụng khai phá dữ liệu để chẩn đoán

Trang 1

VIÊM PHẾ QUẢN CHO TRẺ EM

Chuyên ngành: Hệ thống thông tin

Mã số: 61.49.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

ĐÀ NẴNG - NĂM 2017

Trang 2

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN

Người hướng dẫn khoa học: TS NGUYỄN HOÀNG HẢI

Phản biện 1: PGS.TSKH Trần Quốc Chiến

Phản biện 2: PGS.TS Huỳnh Công Pháp

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Hệ thống thông tin họp tại Trường Đại học Sư

phạm – ĐHĐN vào ngày 30 tháng 7 năm 2017

Có thể tìm hiểu luận văn tại:

- Thư viện Trường Đại học Sư phạm, Đại học Đà Nẵng

- Trung tâm thông tin học liệu, Đại học Đà Nẵng

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

Nhiễm khuẩn hô hấp cấp là bệnh lý phổ biến ở trẻ em và gây tỉ lệ tử vong cao nhất so với các bệnh khác Các thông báo chính tại hội nghị quốc tế về chống nhiễm khuẩn hô hấp cấp cho biết hàng năm trên thế giới có khoảng 4,3 triệu trẻ em dưới 5 tuổi chết vì nhiễm khuẩn hô hấp Mỗi năm một đứa trẻ bị 5 đến 8 lần nhiễm khuẩn hô hấp cấp làm ảnh hưởng đến ngày công lao động của bố mẹ, là gánh nặng đối với xã hội Do nhiễm khuẩn hô hấp cấp có tầm quan trọng như vậy nên tổ chức y tế thế giới và Unicef

đã đưa ra chương trình phòng chống bệnh nhiễm khuẩn hô hấp cấp với mục tiêu cụ thể là làm giảm tỉ lệ tử vong do nhiễm khuẩn

hô hấp cấp ở trẻ dưới 5 tuổi, cùng với mục tiêu lâu dài là làm giảm tỉ lệ mắc bệnh và giảm tỉ lệ kháng kháng sinh

Nhìn chung, tại các nước đang phát triển, nhiễm khuẩn hô hấp cấp là nguyên nhân mắc bệnh hàng đầu ở trẻ em dưới 5 tuổi,

là nguyên nhân đến khám bệnh cũng như vào điều trị hàng đầu tại các tuyến y tế và cũng là nguyên nhân tử vong làm trẻ chết nhiều nhất Thật vậy, nguyên nhân ước tính của 12,8 triệu tử vong ở trẻ dưới 5 tuổi, 1990: nhiễm khuẩn hô hấp cấp 33,4 % (4,3 triệu), tiêu chảy 24,8% (3,2 triệu), nguyên nhân khác 41,8% (5,4 triệu) Hen phế quản là một trong những bệnh mạn tính thường gặp ở trẻ em và là một trong những nguyên nhân buộc trẻ phải nghỉ học nhiều ngày (trung bình trẻ nghỉ học 5-7 ngày/năm do bị hen phế quản), tỷ lệ mắc bệnh cũng như tử vong do hen phế quản ngày càng tăng Tỉ lệ mắc bệnh từ 0,5-6% trước đây, hiện nay tỉ lệ

Trang 4

mắc trung bình tử 5-10% Tỉ lệ tử vong trước đây là 1-2% hiện nay có thể cao hơn 2-3%

Nước ta đang trên đà phát triển và hội nhập Hệ thống Y tế

và Giáo dục vẫn còn nhiều bất cập và hạn chế, đặc biệt là các cơ

sở vùng sâu vùng xa, chưa có điều kiện tiếp cận với công nghệ hiện đại Đội ngũ Y Bác sĩ chưa đủ để đáp ứng với tình trạng bệnh nhân ngày càng tăng cả về số lượng và loại bệnh Nhận thức của người dân về bệnh tật và cách sơ cứu cũng mơ hồ Nếu muốn đưa bệnh nhân đến được các bệnh viện trung tâm thì mất nhiều thời gian…Để khắc phục những khó khăn này, chúng ta cần có công

cụ gần gũi với thực tiễn, người dùng dễ sử dụng và linh hoạt để có thể giúp bệnh nhân và Y Bác sĩ phát hiện bệnh và điều trị kịp thời Việc ứng dụng Công nghệ thông tin (CNTT) vào lĩnh vực y

tế còn hạn chế, nhất là việc hỗ trợ tìm kiếm, khai thác thông tin nhằm chẩn đoán các biểu hiện lâm sàng Trong đó, khai phá dữ liệu là một kỹ thuật thường được áp dụng để hỗ trợ đưa ra các quyết định khá chính xác

Chính vì vậy tôi đã chọn luận văn “Ứng dụng khai phá dữ

liệu để chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em” làm đề tài nghiên cứu luận văn của mình

2 Mục tiêu và nhiệm vụ nghiên cứu của đề tài

 Mục tiêu

Mục tiêu của đề tài là xây dựng và áp dụng có hiệu quả việc trợ giúp ra quyết định trong việc chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em từ 2 tháng tuổi đến 5 tuổi

 Nhiệm vụ

 Nghiên cứu lý thuyết về thuật toán phân lớp và kỹ thuật cây quyết định

Trang 5

 Tìm hiểu về bệnh hen phế quản và viêm phế quản, tiến hành điều tra thu thập dữ liệu về bệnh hen phế quản và viêm phế quản ở trẻ

3 Đối tượng và phạm vi nghiên cứu

 Đối tượng nghiên cứu

 Dữ liệu nghiên cứu bao gồm các yếu tố liên quan đến biểu hiện và các yếu tố lâm sàng của bệnh hen phế quản và viêm phế quản

 Các kỹ thuật khai phá dữ liệu, công cụ khai phá dữ liệu và mô-đun lập trình trong khai phá dữ liệu

 Nghiên cứu ứng dụng về thuật toán phân lớp và kỹ thuật cây quyết định

Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em

4 Phương pháp nghiên cứu

 Phương pháp nghiên cứu lý luận

Tìm tòi, đọc hiểu, phân tích thông tin, dữ liệu từ các tài liệu, giáo trình, sách liên quan đến khai phá dữ liệu

Trang 6

 Nghiên cứu các kỹ thuật phân lớp bằng thuật toán cây quyết định, ứng dụng các kỹ thuật đó để chuẩn đoán bệnh hen phế quản và viêm phế quản dựa vào các thông tin đầu vào

 Phương pháp nghiên cứu thực tiễn

 Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác sĩ, y học chứng cớ và y học thực chứng trong quá trình khai phá dữ liệu y khoa

 Tiến hành so sánh kết quả của các kỹ thuật khai phá dữ liệu

để lựa chọn kỹ thuật cho kết quả chính xác nhất

 Xây dựng hệ thống nhằm hỗ trợ bác sĩ trong việc chẩn đoán

và điều trị bệnh

5 Kết quả dự kiến

 Kết quả lý thuyết

 Nắm được kỹ thuật khai phá dữ liệu bằng thuật toán phân lớp

và kỹ thuật cây quyết định

Ứng dụng kỹ thuật khai phá dữ liệu trên kết quả lâm sàng về bệnh hen phế quản và viêm phế quản để đưa ra chẩn đoán về khả năng mắc hay không mắc hai chứng bệnh này

 Kết quả thực tiễn

 Xây dựng được mô hình chẩn đoán và tư vấn bệnh hen phế quản và viêm phế quản dựa trên kỹ thuật khai phá dữ liệu

 Xây dựng hệ thống hỗ trợ để chẩn đoán bệnh hen phế quản

và viêm phế quản cho trẻ em

6 Ý nghĩa khoa học và thực tiễn của luận văn

 Ý nghĩa khoa học

Thông qua đề tài sẽ hiểu sâu hơn về thuật toán phân lớp và

kỹ thuật cây quyết định

Trang 7

 Góp phần chẩn đoán bệnh hen phế quản và viêm phế quản của trẻ em dựa trên khai phá dữ liệu

 Ý nghĩa thực tiễn

Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản và viêm phế quản sẽ hỗ trợ cho bác sĩ, cha mẹ các bé phát hiện được bệnh để có giải pháp can thiệp kịp thời trong việc chăm sóc sức khoẻ cho trẻ

7 Bố cục của luận văn

Dự kiến luận văn được trình bày bao gồm 3 chương như sau: Chương 1: Trong chương 1 sẽ trình bày về tổng quan về khai phá dữ liệu, quy trình khai phá dữ liệu, các kỹ thuật khai phá bằng cây quyết định, Trình bày chi tiết hai thuật toán là ID3 và C4.5 Chương 2: Nghiên cứu và xử lý dữ liệu về bệnh hen phế quản

và viêm phế quản ở trẻ em Chương này trình bày nội dung sau: Đặc điểm hệ hô hấp của trẻ em, khái niệm về bệnh hen phế quản và viêm phế quản, bệnh nguyên, cơ chế sinh bệnh, đặc điểm lâm sàng và chẩn đoán bệnh hen phế quản, viêm phế quản cho trẻ em, trình bày về canh tác dữ liệu trong khai phá dữ liệu và ứng dụng vào khai phá dữ liệu trong y khoa

Chương 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản

và viêm phế quản cho trẻ em

Trang 8

CHƯƠNG 1

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Sơ lược về khai phá dữ liệu

Quy trình khai phá dữ liệu

Quá trình phân lớp dữ liệu

Trang 9

Giới thiệu chung

Entropy đo tính thuần nhất của tập dữ liệu:

Dùng để đo tính thuần nhất của một tập dữ liệu Entropy của một tập S được tính theo công thức

Entropy(S) = - P+ log2 (P+) - P- log2 (P-)

Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân lớp "yes" (+), "no" (-) Ký hiệu p+

là để chỉ tỷ lệ các mẫu có giá trị của thuộc tính quyết định là "yes", và P-

là tỷ lệ các mẫu có giá trị của thuộc tính quyết định là "no" trong tập S

Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta

có công thức sau:

2 1

( ) ( log ( ))

n

i i i

Information Gain (viết tắt là Gain): Gain là đại lượng dùng

để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc phân lớp Đại lượng này được tính thông qua hai giá trị Information và Entropy

Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2…n) giá trị Gain của thuộc tính A trong tập S ký hiệu là Gain(S, A) và được tính theo công thức sau:

(1.2)(1.1)

Trang 10

 Hàm xây dựng cây quyết định trong thuật toán ID3

Function induce_tree (tập_ví_dụ, tập_thuộc_tính)

begin

if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then return một nút lá được gán nhãn bởi lớp đó

else if tập_thuộc_tính là rỗng then

return nút lá được gán nhãn bởi tuyển của tất cả các lớp

tạo một nhánh của cây gán nhãn V;

Đặt vào phân_vùng V các ví dụ trong tập_ví_dụ có giá trị V tại thuộc tính P;

(1.3)

Trang 11

Gọi induce_tree (phân_vùng V, tập_thuộc_tính), gắn kết quả vào nhánh V

số (numeric atributes) và làm việc được với tập dữ liệu bị thiếu và

bị nhiễu Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược

ưu tiên theo chiều sâu (Depth – First) Thuật toán xét tất cả các phép thử có thể để phân chia tập dữ liệu đã cho và chọn ra một phép thử có giá trị GainRatio tốt nhất GainRatio là một đại lượng

để đánh giá độ hiệu quả của thuộc tính dùng để thực hiện phép tách trong thuật toán để phát triển DT

GainRatio được xác định bởi công thức sau:

( , )( , )

Gain S A GainRatio S A

Split omation S A

Trong đó:

 Cách tính của Entropy và Gain có ở công thức 1.2 và 1.3

Trong đó, SplitInformation(S, A) chính là thông tin do phân tách của A trên cơ sở giá trị của thuộc tính phân loại S Công thức tính như sau

(1.4)

Trang 12

  2  

1

log,

Xây dựng giải thuật

1.5.2

 Thuật Toán C4.5

Dữ liệu vào: Tập dữ liệu E, tập thuộc tính F, tập nhãn lớp

Dữ liệu ra: Mô hình DT

Thuật toán: Tạo cây (tập dữ liệu E, tập thuộc tính F, tập

Lặp qua từng tập phân chia vV

Đặt Ev ={e| Nutgoc.điều kiện kiểm tra (e)=v và e E} Nutcon=Tạocây(Ev, F, Tập nhãn lớp)

Dừng lặp

End if

(1.5)

Trang 13

Trả về Nút gốc

Ví dụ thuật toán C4.5

1.5.3

 Dữ liệu vào:

+ Tập dữ liệu thời tiết

Bảng 1.1 Tập dữ liệu ví dụ thuật toán C4.5

Chơi tennis

Trang 14

Entropy(S, Ngày)= ( 1

14)×Entropy(SD1) + (

1

14)×Entropy(SD2)… + ( 1

14) × Entropy(SD14) = 14×(

1

14)×(0) = 0 Gain(S, Ngày) = Entropy(S) - Entropy(S, Ngày) = 0.940 – 0

Thuộc tính nhiệt độ:

Gain(S, Nhiệt độ) = Entropy(S) - Entropy(S, Nhiệt độ), Trong đó:

Trang 16

Entropy(S, Gió) = ( 6

14)×Entroy(SMạnh) + (

8

14)×Entropy(SNhẹ) Gain(S, Gió) = 0.940 – ( 8

14)*0.811 – (

6

14)*1= 0.048 SplitInfomation(S, Gió)=-( 6

GainRatio(S, Gió) = 0.048/0.985 = 0.049

Lựa chọn thuộc tính tốt nhất để phân chia

Entropy trung bình của các thuộc tính = (0.694 + 0.892 + 0.838 + 0.911 + 0)/5 = 0.667

Tương tự như vậy đối với nhánh còn lại của DT ta được cây quyết định hoàn chỉnh như sau:

Trang 17

Hình 1.1 Cây Quyết định Chơi tennis thuật toán C4.5 Tập luật từ cây quyết định:

Luật 1: if (Quang cảnh = Nắng) Và (Độ ẩm ≤ 82.5) then Chơi tennis = Có

Luật 2: if (Quang cảnh = Nắng) Và (Độ ẩm >82.5) then Chơi tennis = Không

Luật 3: if (Quang cảnh = Âm u) Và Chơi tennis = Có

Luật 4: if (Quang cảnh = Mưa) Và (Gió = Mạnh) then Chơi tennis = Không

Luật 5: if (Quang cảnh = Mưa) Và (Gió = Nhẹ) then Chơi tennis = Có

Trang 18

CHƯƠNG 2 TỔNG QUAN VỀ BỆNH HEN PHẾ QUẢN

2.2 KHÁI NIỆM BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN

Khái niệm bệnh hen phế quản

2.2.1

Mặc dù cho tới nay vẫn chưa có được một định nghĩa nào hoàn chình về hen và vấn đề này còn đang được tranh luận, nhưng những quan điểm chính về hen được nhiều người công nhận có thể tóm tắt như sau:

Quan điểm của các nhà sinh lý học cho rằng hen là sự kết hợp giữa hai hiện tượng tăng tính mẫn cảm của phế quản và tắc nghẽn đường hô hấp

Quan điểm của các nhà sinh lý bệnh cho rằng hen bao gồm các hiện tượng co thắt cơ trơn phế quản, phù niêm mạc và tăng tiết dịch nhầy của phế quản

Hiện nay người ta cho rằng viêm là yếu tố trung tâm gây nên các thay đổi kể trên Phản ứng viêm huy động và hoạt hóa tê bào Mast, bạch cầu đa nhân trung tính, đại thực bào, tiểu cầu và bạch cầu ưa axít giải phóng ra các chất trung gian hóa học như Histamin, Leucotrien, Prostaglandin, Thromboxan và các yếu tố hoạt hóa tiểu cầu

Khái niệm bệnh viêm phế quản

2.2.2

Viêm phế quản (VPQ) là bệnh thường gặp ở trẻ em, bất kể lứa tuổi nào và thời tiết nào Đặc biệt là trẻ ở thành thị cũng như ở

Trang 19

các nơi tập trung dân cư đông đúc thì tỉ lệ bệnh còn cao hơn Hiểu biết một số nguyên nhân và cách đề phòng sẽ làm giảm thiểu căn bệnh, đề phòng biến chứng và nâng cao chất lượng cuộc sống VPQ là viêm nhiễm đường thở dưới, dân gian còn gọi là sưng cuống phổi, bệnh chưa tấn công vào nhu mô phổi, tuy nhiên khi viêm cuống phổi thì sẽ gây triệu chứng kích thích ho nhiều và nếu không được điều trị tích cực thì có thể lan xuống nhu mô phổi dẫn đến viêm phổi

2.3 BỆNH NGUYÊN – CƠ CHẾ SINH BỆNH HEN PHẾ QUẢN

Qui trình và các phương pháp được sử dụng để quyết định đặc tính nào thích đáng nhất cần thu thập dữ liệu, nhằm rút ra được tri thức hữu dụng từ các CSDL, gọi là canh tác dữ liệu

Canh tác dữ liệu (CTDL), xét về mặt ứng dụng thì giá trị thông tin là gần như chưa có Còn về phương pháp, CTDL thì tập trung xác định bản chất tác động qua lại giữa các thuộc tính để khai phá

Mục đích và phương pháp luận của canh tác dữ liệu 2.4.2

Trang 20

Vai trò canh tác dữ liệu trong khám phá tri thức và 2.4.3

 Các phương pháp chọn lựa đặc tính

Có 3 phương pháp chọn lựa đặc tính sau:

Phương pháp vét cạn, phương pháp chọn ngẫu nhiên, phương pháp chọn theo kinh nghiệm chuyên gia

Trong 3 phương pháp trên phương pháp vét cạn sẽ cho ra

dư thừa các tập con rất nhiều vì nó có thể không liên quan đến giá trị trong chẩn đoán Phương pháp chọn ngẫu nhiên sẽ có thể dẫn đến khả năng thiếu tập con mà những tập dữ liệu con này có khả năng có giá trị trong chẩn đoán Còn phương pháp chọn theo kinh nghiệm của chuyên gia nó sẽ khắc phục được các khuyết điểm của

2 phương pháp trên, vì những thuộc tính do kinh nghiệm của các chuyên gia đưa ra đa phần là kết quản đã được kiểm chứng thực tế

do đó đều liên quan đến chẩn đoán, mặc dù các chuyên gia khác nhau nhiều lúc đem ra các đặc tính khác nhau

Nên trong luận văn này em chọn phương pháp theo kinh

nghiệm của chuyên gia

2.5 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ

DỮ LIỆU Y KHOA

Vai trò của điều dưỡng, bác sĩ trong canh tác dữ liệu y 2.5.1

khoa

Trang 21

Ứng dụng canh tác dữ liệu trong khai phá dữ liệu 2.5.2

bệnh HPQ và VPQ

Có nhiều triệu chứng ảnh hưởng đến việc chẩn đoán bệnh HPQ và VPQ như đã nêu ở trên Tuy nhiên ở đây, chúng ta chú trọng đến những triệu chứng quan trọng sau:

Thuộc tính ho: Là kiểu thuộc tính loại Nominal có giá trị {có,

không}

Thuộc tính sốt: Là kiểu thuộc tính loại Nominal có giá trị

{sốt, không sốt}

 Thuộc tính nặng ngực (tức ngực): Là kiểu thuộc tính loại

Nominal có giá trị {có, không}

Thuộc tính nhịp thở: Là kiểu thuộc tính loại Nominal có giá

trị {bình thường, khó thở, thở nhanh}

Thuộc tính đàm (đờm): Là kiểu thuộc tính loại Nominal có

giá trị {không có, màu xanh,Màu trắng}

Thuộc tính sổ mũi: Là kiểu thuộc tính loại Nominal có giá trị

{có, không}

Thuộc tính khò khè: Là kiểu thuộc tính loại Nominal có giá

trị {có, không}

 Thuộc tính rút lõm lồng ngực: Là kiểu thuộc tính loại

Nominal có giá trị {có, không}

Thuộc tính ran ngáy, ran rít: Là kiểu thuộc tính loại Nominal

Trên chính là các tập thuộc tính, dựa vào tập thuộc tính này

ta sẽ dự đoán giá trị cho thuộc tính đích là chẩn đoán, đây là

thuộc tính phân loại

Ngày đăng: 25/05/2019, 14:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm