ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT DƯƠNG THỊ THÚY HIỀN BIỂU DIỄN VÀ PHÂN TÍCH TRỰC QUAN DỮ LIỆU DỊCH BỆNH ÁP DỤNG TẬP DỮ LIỆU DỊCH BỆNH SỐT XUẤT HUYẾT HOẶC D
Trang 1ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
DƯƠNG THỊ THÚY HIỀN
BIỂU DIỄN VÀ PHÂN TÍCH TRỰC QUAN DỮ LIỆU DỊCH BỆNH
ÁP DỤNG TẬP DỮ LIỆU DỊCH BỆNH SỐT XUẤT HUYẾT
(HOẶC DỊCH BỆNH TAY - CHÂN - MIỆNG)
Trang 2ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
DƯƠNG THỊ THÚY HIỀN
BIỂU DIỄN VÀ PHÂN TÍCH TRỰC QUAN DỮ LIỆU DỊCH BỆNH - ÁP DỤNG TẬP DỮ LIỆU DỊCH BỆNH SỐT XUẤT HUYẾT (HOẶC DỊCH
BỆNH TAY - CHÂN - MIỆNG) TỈNH BÌNH DƯƠNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
Trang 3i
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi Dữ liệu tôi sử dụng trong nghiên cứu về sốt xuất huyết và thời tiết đã được sự chấp thuận, cho phép
sử dụng của lãnh đạo cơ quan Trung tâm Y tế Dự phòng tỉnh Bình Dương, Trung tâm quan trắc, môi trường tỉnh
Nội dung tham khảo từ các nghiên cứu liên quan đều được trích dẫn rõ ràng Nội dung của nghiên cứu là nỗ lực của tôi và chưa từng được công bố trong các công trình nghiên cứu khoa học nào khác
Tác giả
Dương Thị Thúy Hiền
Trang 4ii
LỜI CẢM ƠN
Trong quá trình nghiên cứu và thực hiện đề tài luận văn “Biểu diễn và phân tích trực quan dữ liệu dịch bệnh - Áp dụng tập dữ liệu dịch bệnh sốt xuất huyết (hoặc dịch bệnh tay - chân - miệng) tỉnh Bình Dương”, tôi đã nhận được rất nhiều sự giúp đỡ từ phía thầy cô, các tổ chức và cá nhân sau:
Đầu tiên, tôi xin chân thành cảm ơn sâu sắc đến Thầy PGS.TS Trần Vĩnh Phước - đã tận tâm dìu dắt, hướng dẫn, góp ý, chỉnh sửa để tôi hoàn thành luận văn này Tôi xin chân thành cảm ơn đến Thầy PGS.TS Lê Tuấn Anh - Phó Hiệu trưởng Phụ trách Đại học Thủ Dầu Một đã giúp tôi tiếp cận các lĩnh vực nghiên cứu mới vừa khoa học, vừa gần gũi thực tiễn cuộc sống
Tôi trân trọng gửi lời cảm ơn đến Ban Giám hiệu nhà trường, Viện Sau Đại học, cùng Thầy, Cô trong hoa thuật - Công nghệ, Trường Đại học Thủ Dầu Một đã tạo mọi điều kiện giúp tôi nghiên cứu thuận lợi Xin cảm ơn tất cả Thầy, Cô là giảng viên đã truyền đạt cho chúng tôi những kiến thức và kinh nghiệm vô c ng quý giá trong học tập và nghiên cứu khoa học
Tôi trân trọng cảm ơn Ban lãnh đạo, chuyên gia y tế của Trung tâm Y tế
Dự phòng tỉnh Bình Dương, cảm ơn lãnh đạo Trung tâm quan trắc môi trường tỉnh đã giúp đỡ nhiệt tình trong việc thu thập dữ liệu và chia sẻ các kiến thức về chuyên về bệnh Sốt xuất huyết
Xin cảm ơn gia đình, bạn bè c ng lớp CH18HT01 đã luôn ủng hộ, động viên, tạo điều kiện thuận lợi cho tôi hoàn thành văn này
Xin trân trọng cảm ơn BGH trường THCS Phú M , trường THCS Hiệp
An c ng đồng nghiệp đã tạo điều kiện thuận lợi cho tôi đi học và báo cáo luận văn này Một lần nữa xin tri ân và trân trọng cảm ơn tất cả mọi người
25 á 12 ăm 2020
Tác giả
Dương Thị Thúy Hiền
Trang 5iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU v
DANH SÁCH CÁC BẢNG BIỂU vi
DANH SÁCH HÌNH ẢNH vii
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài: 1
2 Mục tiêu nghiên cứu: 2
3 Đối tượng nghiên cứu: 2
4 Phạm vi nghiên cứu: 2
Phạm vi không gian: 2
Phạm vi thời gian: 2
5 Phương pháp nghiên cứu: 2
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 4
1.1 Tổng quan về tỉnh Bình Dương: 4
1.2 Tổng quan về bệnh sốt xuất huyết ở Việt Nam và tỉnh Bình Dương giai đoạn 2014 - 2018: 4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6
2.1 Tổng quan về trực quan hóa: 6
2.2 Lý thuyết về trực quan hóa: 6
2.2.1 Các dạng biểu đồ, đồ thị thường d ng trong trực quan hóa: 6
2.2.2 Biểu diễn vị trí của đối tượng trên khối không gian - thời gian 9 2.3 Các nghiên cứu liên quan: 9
2.4 Trực quan hóa bằng ngôn ngữ lập trình python: 11
Tôi sử dụng Thư viện Matplotlib để tạo các biểu đồ trực quan trong Python 11
2.3.1 Giới thiệu thư viện Matplotlib: 11
2.3.2 hái niệm: 11
2.3.3 Các dạng biểu đồ trong thư viện Matplotlib: 11
CHƯƠNG 3: NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIỆN 13
3.1 Đặt vấn đề: 13
3.2 Nội dung nghiên cứu: 13
3.2.1 Xác định các biến và mô tả: 15
3.2.2 Lập bảng dữ liệu: 17
Trang 6iv
3.2.3 Phân tích mối quan hệ giữa các biến: 17
3.2.4 Sơ đồ quan hệ giữa các biến: 18
3.2.5 Các hàm toán học giữa các biến: 18
3.3 Lập trình trên Python: 18
3.3.1 Biểu đồ cột tổng hợp ca bệnh SXH trong 5 năm (2014 – 2018) của tỉnh Bình Dương: 19
3.3.2 Biểu đồ cột ca bệnh SXH từng năm của tỉnh Bình Dương: 20
3.3.3 Biểu đồ cột ca bệnh SXH từng Huyện/Thị/Thành phố của tỉnh Bình Dương trong 5 năm: 22
CHƯƠNG 4: CÂU HỎI PHÂN TÍCH 27
4.1 Câu hỏi phân tích: 27
4.2 Phân tích trực quan dữ liệu bệnh, các yếu tố liên quan: 28
KẾT LUẬN 37
1 Nội dung nghiên cứu và kết quả đạt được 37
2 Định hướng phát triển: 38
TÀI LIỆU THAM KHẢO 39
PHỤ LỤC 1
1 Bảng dữ liệu thô số ca SXH từng tháng trong khoảng thời gian từ năm 2014 – 2018: 1
2 Bảng dữ liệu số ca SXH từng tháng trong khoảng thời gian từ năm 2014 – 2018: 3
3 Bảng 3.1 Dữ liệu thống kê số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa của tỉnh Bình Dương năm 2014 16
4 Bảng 3.2 Dữ liệu thống kê số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa của tỉnh Bình Dương năm 2018 20
Trang 7v
DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU
TTYTDP
Trung tâm Y tế dự phòng hoặc (Trung tâm kiểm soát, phòng ngừa dịch bệnh)
Trang 8Bảng 4.1: Dữ liệu lƣợng mƣa, nhiệt độ, độ ẩm số ca mắc SXH của năm 2014 -
2018 – Thành phố TDM sau khi đã loại bỏ một số dữ liệu không cần thiết d ng
cho phân tích dữ liệu 29
Trang 9vii
DANH SÁCH HÌNH ẢNH
Hình 2.1: Biểu đồ cột, cột chồng 7
Hình 2.2: Biểu đồ đường 7
Hình 2.3: Biểu đồ tròn 7
Hình 2.4: Biểu đồ Area 8
Hình 2.5: Biểu đồ thác nước 8
Hình 2.5: Biểu đồ nhiệt 8
Hình 2.6: Biểu đồ kết quả mô hình Hồi quy của nhóm tác giả Ngọc Anh 8
Hình 3.1: Biểu đồ dịch sốt xuất huyết ở Bình Dương 15
Hình 3.2: Sơ đồ quan hệ giữa các biến 18
Hình 3.3: Màn hình chính lựa chọn thông tin để xem 19
Hình 3.4: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong giai đoạn 2014 – 2018 của 9 huyện, Thị xã/ Thành phố 19 Hình 3.5: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong năm 2014 của 9 huyện, thị xã/ thành phố 20
Hình 3.6: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong năm 2015 của 9 huyện, thị xã/ thành phố 20
Hình 3.7: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong năm 2016 của 9 huyện, thị xã/ thành phố 21
Hình 3.8: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong năm 2017 của 9 huyện, thị xã/ thành phố 21
Hình 3.9: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong năm 2018 của 9 huyện, thị xã/ thành phố 22
Hình 3.10: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Bàu Bàng 22
Hình 3.11: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Bến Cát 23
Hình 3.12: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Bắc Tân Uyên 23
Trang 10viii
Hình 3.13: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Dĩ An 24
Hình 3.14: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Dầu Tiếng 24
Hình 3.15: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Phú Giáo 25
Hình 3.16: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Thuận An 25
Hình 3.17: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Thủ Dầu Một 26
Hình 3.18: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Tân Uyên 26 Hình 4.1: Biểu đồ dịch bệnh sốt xuất huyết ở Bình Dương năm 2014 31 Hình 4.2: Biểu đồ dịch bệnh sốt xuất huyết ở Bình Dương năm 2017 32
Trang 111
MỞ ĐẦU
1 Tính cấp thiết của đề tài:
Bình Dương là một trong những tỉnh có số ca bệnh sốt xuất huyết tăng nhanh hàng năm và không theo chu kỳ nhất định mà diễn biến ngày một phức tạp Trong vòng 5 năm từ 2014-2018 đã có hai đợt dịch lớn xảy ra vào các năm
2015 và 2017; số ca mắc và tử vong cao nhất nhì khu vực phía Nam Tình hình dịch bệnh diễn biến ngày càng phức tạp là vấn đề quan tâm hàng đầu của ngành y
tế Việc biểu diễn và phân tích dữ liệu bệnh nhanh chóng là hết sức cần thiết để giúp chuyên gia kịp thời đưa ra những giải pháp có khả năng giải quyết được tính phức tạp và dự báo dịch bệnh
Ở Việt Nam, nguồn dữ liệu về y tế, khí hậu, thời tiết, dân cư v.v được thu thập, lưu trữ trong nhiều năm qua Điều này đã mang đến cơ hội mới cho phân tích, biểu diễn dữ liệu bệnh và dự báo dịch bệnh trong ngành y tế
Do đó, việc áp dụng phương pháp trực quan hóa dữ liệu giúp chuyên gia
dự báo dịch bệnh dựa vào nguồn dữ liệu hiện có, kết hợp xem xét các yếu tố liên quan tới sự xuất hiện và lan truyền dịch bệnh là rất cần thiết nhằm góp phần cảnh báo sớm, ngăn chặn sự b ng phát, lây lan của dịch bệnh; giúp các cơ quan có chức năng quản lý, kiểm soát dịch bệnh tiếp cận với một hướng khác mới hơn trong công tác dự báo, phòng chống dịch ngoài các phương pháp truyền thống
Bệnh truyền nhiễm sốt xuất huyết đã đe dọa tính mạng con người vì bệnh không chỉ làm nhiều người chết ở một nơi, mà còn có thể lây lan đến nhiều nơi khác nhau Cần theo dõi tiến trình của bệnh và tìm cách giảm tổn thất Trong đề tài này, tôi đề xuất một hệ thống cảnh báo dựa trên trực quan để kiểm soát sự phát triển của bệnh Hệ thống này hỗ trợ các chuyên gia trong việc xem tổng quan, từ sự hiểu biết cũng như kinh nghiệm của các chuyên gia sẽ ước tính khả năng b ng phát dịch Xem biểu đồ biểu diễn dữ liệu, trên cơ sở kiến thức và kinh nghiệm sẵn có các nhà dịch tễ học có thể ước tính tình hình để đưa ra thông điệp cảnh báo/hoặc đề xuất một giải pháp ngăn chặn sự b ng phát dịch
Trang 122
Nhận thấy được tầm quan trọng của vấn đề nêu trên, tôi quyết định chọn
đề tài: “Biểu diễn và phân tích trực quan dữ liệu dịch bệnh - áp dụng tập dữ
liệu dịch bệnh sốt xuất huyết tỉnh Bình Dương” làm đề tài cho luận văn của
mình
2 Mục tiêu nghiên cứu:
Thực hiện phân tích và biểu diễn trực quan dữ liệu dịch bệnh sốt xuất huyết tại Bình Dương trong 5 năm 2014 - 2018
3 Đối tượng nghiên cứu:
Để biểu diễn và phân tích trực quan dịch SXH trên địa bàn tỉnh Bình Dương, luận văn tập trung sử dụng, tìm hiểu, xử lý, biểu diễn, phân tích các tập
dữ liệu sau: Tập dữ liệu về ca bệnh SXH, lượng mưa, nhiệt độ, độ ẩm từ năm
5 Phương pháp nghiên cứu:
Phương pháp phân tích: được d ng để trả lời các câu hỏi về các thuộc tính như số ca mắc sốt xuất huyết và các yếu tố ảnh hưởng đến số ca mắc
Phương pháp trực quan: được d ng để giúp người d ng biết được tình trạng các thuộc tính bằng phương pháp nhìn - hiểu
Trang 13Qua biểu đồ biểu diễn trực quan, thể hiện mối liên hệ giữa số ca bệnh sốt xuất huyết với lượng mưa, nhiệt độ, độ ẩm, giúp chuyên gia đánh giá và dự báo tình hình dịch bệnh một cách nhanh chóng
Bố cục luận văn được trình bày ngoài phần Mở đầu và ết luận gồm 04 chương với các nội dung chính như sau:
- Chương 1: Giới thiệu tổng quan về tỉnh Bình Dương, về tình hình dịch
bệnh sốt xuất huyết tại Việt Nam và tỉnh Bình Dương; công tác phòng chống dịch bệnh và đặc điểm dịch bệnh sốt xuất huyết tại Bình Dương
- Chương 2: Cơ sở lý thuyết Tác giả trình bày tổng quan về trực quan hóa
và lý thuyết trực quan hóa Trực quan hóa bằng ngôn ngữ lập trình Python
- Chương 3: Nội dung và phương pháp thực hiện
- Chương 4: Câu hỏi phân tích
Trang 14769 người/ km2 Bình Dương có 09 đơn vị hành chính cấp huyện (gồm: Thị xã Thuận An, thị xã Bến Cát, thị xã Tân Uyên, thị xã Dĩ An, Thành phố Thủ Dầu Một, và các huyện Bàu Bàng, Bắc Tân Uyên, Dầu Tiếng, Phú Giáo) và 91 đơn vị hành chính cấp xã (46 xã, 41 phường, 04 thị trấn)
hí hậu ở Bình Dương có đặc điểm: nắng nóng vào tháng 1, 2, 3, 4 và mưa nhiều vào tháng 6, 7, 8, 9, độ ẩm khá cao hí hậu nhiệt đới gió m a, trong năm phân chia thành hai m a: m a mưa và m a khô M a mưa thường bắt đầu từ tháng 5 kéo dài đến cuối tháng 10 dương lịch Những tháng 7, 8, 9 thường là những tháng mưa dầm Nhiệt độ trung bình hàng năm ở Bình Dương từ 26oC-
27oC Nhiệt độ cao nhất có lúc lên tới 39,3o
C và thấp nhất từ 16oC-17oC (ban đêm) và 18o
C vào sáng sớm Vào m a nắng, độ ẩm trung bình hàng năm từ 76%
- 80%, cao nhất là 86% (vào tháng 9) và thấp nhất là 66% (vào tháng 2) Lượng nước mưa trung bình hàng năm từ 1.800 - 2.000 mm
Bình Dương là một trong những tỉnh có nhiều khu công nghiệp lớn, tốc độ
đô thị hóa cao; tốc độ tăng dân số cơ học rất nhanh Sự phát triển kinh tế mạnh
mẽ, Bình Dương cũng đối mặt với vấn đề về chăm sóc sức khỏe và phòng chống dịch bệnh Nhất là tình hình bệnh SXHD cũng tăng nhanh lên theo, số ca mắc bệnh ngày càng tăng theo hàng năm và không theo chu kỳ nhất định mà diễn biến ngày một phức tạp
1.2 Tổng quan về bệnh sốt xuất huyết ở Việt Nam và tỉnh Bình Dương
giai đoạn 2014 - 2018:
Theo báo cáo của TTYTDP tỉnh, Bình Dương là một trong những tỉnh có
số ca mắc SXHD cao nhất cả nước Trong vòng 5 năm từ 2014 - 2018 đã có
Trang 155
nhiều đợt dịch lớn xảy ra vào các năm 2015 và 2017, số ca mắc và tử vong cao tăng theo hàng năm Năm 2014 có 2714 ca mắc, tử vong 1; Năm 2015 có 5991 ca mắc, tử vong 14 ca; Năm 2016 cả tỉnh có 3.964 ca mắc SXHD, trong đó có 01 ca
tử vong Trong năm 2017 có 8507 ca mắc và 3 ca tử vong; Năm 2018 toàn tỉnh
có 8244 ca mắc, tử vong 3
Cũng như nhiều nơi lưu hành bệnh sốt xuất huyết, hệ thống giám sát sốt xuất huyết ở Việt Nam dựa vào báo cáo thụ động được chẩn đoán lâm sàng ở bệnh nhân nhập viện iểm soát véc-tơ là công cụ chính để dự phòng và kiểm soát bệnh sốt xuất huyết Chiến lược này phải đối mặt với những hạn chế về tính kịp thời trong phát hiện và ngăn chặn dịch, đòi hỏi cần có những biện pháp khác
để hỗ trợ kiểm soát bệnh tốt hơn
Trong các yếu tố nguy cơ giúp truyền bệnh sốt xuất huyết thì thời tiết, khí hậu là yếu tố đặc biệt quan trọng, gây ảnh hưởng đến sự sinh sản và phát triển của vec-tơ truyền bệnh, chẳng hạn như mưa cung cấp môi trường thuận lợi để muỗi đẻ trứng, nhiệt độ cao sẽ làm giảm thời gian sinh trưởng và phát triển của muỗi…
Việc nghiên cứu dự báo sớm nguy cơ xảy ra dịch sốt xuất huyết là rất cần thiết, giúp các nhà quản lý, chuyên môn chủ động trong công tác phòng chống dịch một cách hiệu quả, giảm được nguồn lực phân bổ cũng như tránh được rủi
ro, thiệt hại lớn khi dịch xảy ra
Trang 162.2 Lý thuyết về trực quan hóa:
Trực quan hóa là biểu diễn dữ liệu thành dạng hình ảnh [8] Trực quan hóa
là công cụ cần thiết để hiểu rõ về dữ liệu Trực quan hóa biểu diễn dữ liệu lên biểu đồ với mục đích mô tả, phát hiện,thu nhận các thông tin bổ ích, các thông tin tiềm ẩn trong dữ liệu thông qua thị giác và bộ não con người Thị giác giúp chúng ta tiếp nhận thông tin từ những mô hình trực quan, bộ não sẽ xử lý giúp chúng ta có được thông tin hữu ích từ những hình ảnh minh họa
Trực quan hóa dữ liệu là các k thuật được sử dụng để chuyển đổi dữ liệu thành các đối tượng trực quan trên màn hình như các điểm, đường hoặc các thanh
đồ họa [9] Mục tiêu chính của trực quan hóa dữ liệu là hỗ trợ người d ng rút trích thông tin hoặc khai phá tri thức từ dữ liệu bằng cách d ng thị giác cảm nhận thông tin hoặc tri thức từ hình ảnh, đồ thị biểu diễn dữ liệu Trong phân tích trực quan, người d ng (hay các chuyên gia) sử dụng các công cụ đồ họa để rút trích thông tin cần thiết bằng kiến thức và k năng sẵn có của mình
2.2.1 Các dạng biểu đồ, đồ thị thường dùng trong trực quan hóa:
Trang 199
2.2.2 Biểu diễn vị trí của đối tượng trên khối không gian - thời gian
Trên khối không gian - thời gian, một đối tượng được biểu diễn như một điểm của phép chiếu trên mặt phẳng xy, cho thấy vị trí của nó trong thế giới thực
và chiếu trên trục thời gian chỉ ra thời điểm tương ứng với vị trí này
2.3 Các nghiên cứu liên quan:
Nghiên cứu dự báo dịch tả dựa vào mô hình học máy hồi quy và phân lớp của nhóm tác giả Lê Thị Ngọc Anh thực hiện năm 2016, đăng trên cổng Researchgate.net, nghiên cứu trên tập dữ liệu dịch tả và khí hậu, môi trường tại địa bàn Hà Nội [1] ết quả thực nghiệm trên mô hình hồi quy và phân lớp của nhóm tác giả Ngọc Anh như hình :
Hình 2.6: Biểu đồ kết quả mô hình Hồi quy của nhóm tác giả Ngọc Anh
Bảng 2.1 : Bảng kết quả mô hình phân lớp của nhóm tác giả Ngọc Anh
Trang 2010
Một nghiên cứu của nhóm tác giả thuộc Đại học Công nghệ umaraguru [2] về phát hiện sớm bệnh sốt xuất huyết bằng thuật toán học máy ết quả thực nghiệm cho thấy thuật toán Random Forest cho độ chính xác 83,3%
Bảng 2 2: Bảng kết quả mô hình học máy của nhóm tác giả Đại học Công
nghệ Kumaraguru:
Martin Mabangiz và cộng sự đã thực hiện nghiên cứu sử dụng k thuật học máy để dự báo dịch tả ở những khu vực khác nhau ở Uganda bằng thuật toán Bayesians dựa trên số liệu dịch tả trong quá khứ [3]
Ngoài ra, trong một nghiên cứu khác của nhóm tác giả trong bài báo [4] đã
đề xuất k thuật dựa trên thống kê hồi quy đa biến Poisson Họ tập trung vào phân tích tri thức ẩn trong dữ liệu, mối tương quan tuyến tính của các trường hợp sốt xuất huyết và dữ liệu về muỗi, vai trò của muỗi cái, m a để đưa ra tỷ lệ dự đoán dịch sốt xuất huyết Một nghiên cứu khác nữa, các tác giả trong bài báo [5]
đã xây dựng mô hình dự đoán bằng cách sử dụng cây quyết định (Decision Tree)
để dự đoán khả năng xuất hiện bệnh sốt xuất huyết ở khu vực các bộ tộc Độ chính xác của mô hình do họ đề xuất lên tới 97%
Tuy nhiên, các nghiên cứu đã đề cập ở trên chỉ phân tích và dự báo về dịch bệnh khác hoặc có đề cập đến dự báo dịch hoặc bệnh sốt xuất huyết nhưng ở các điều kiện (đặc trưng, đặc th ) và ở các không gian khác nhau Theo sự hiểu biết của chúng tôi, hiện chưa có nghiên cứu nào sử dụng phương pháp trực quan
Trang 2111
hóa về dịch bệnh sốt xuất huyết ở tỉnh Bình Dương cũng như ở v ng Đông Nam
bộ
2.4 Trực quan hóa bằng ngôn ngữ lập trình python:
Tôi sử dụng Thư viện Matplotlib để tạo các biểu đồ trực quan trong
Python
2.3.1 Giới thiệu thư viện Matplotlib:
Matplotlib là một thư viện phổ biến nhất của Python Giúp cho chúng ta trực quan hóa dữ liệu của mình bằng các biểu đồ
2.3.2 Khái niệm:
Pyplot là một module của Matplotlib cung cấp các hàm đơn giản để thêm các thành phần plot như lines, images, text vào các axes trong figure Một Matplotlib figure có thể được phân loại thành nhiều phần như dưới đây:
- Figure: là cửa sổ thể hiện bản đồ đã vẽ
- Axes: Là những khung nhỏ hơn chứa hình Một figure có thể chứa một
hoặc nhiều axes
- Axis: Như là các đối tượng và đảm nhiệm việc tạo các giới hạn biểu đồ
- Artist: Hầu hết các Artists được gắn với Axes
2.3.3 Các dạng biểu đồ trong thư viện Matplotlib:
- Biểu đồ thanh
Biểu đồ thanh là một trong những loại biểu đồ phổ biến nhất và được sử dụng để hiển thị dữ liệu được liên kết với các biến phân loại Pyplot cung cấp một phương thức bar() để tạo các biểu đồ thanh có các đối số: biến phân loại, giá trị và màu sắc của chúng (nếu bạn muốn chỉ định bất kỳ)
- Biểu đồ tròn
Trang 2212
Biểu đồ Pie có thể được tạo bằng phương thức Pie() Chúng ta cũng có thể chuyển các đối số để t y chỉnh biểu đồ Pie của mình để hiển thị shadow, explode một phần của nó, nghiêng nó theo một góc
- Biểu đồ Histogram
Histogram là một loại biểu đồ rất phổ biến Histogram's data được vẽ trong một phạm vi so với tần số của nó Histograms là các biểu đồ xuất hiện rất phổ biến trong xác suất và thống kê
- Sơ đồ phân tán và 3 chiều
Các biểu đồ phân tán là các biểu đồ được sử dụng rộng rãi, đặc biệt là chúng có ích trong việc hình dung một vấn đề về hồi quy
Trang 2313
CHƯƠNG 3: NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIỆN
Trong chương này, tác giả sẽ trình bày chi tiết nội dung luận văn, các bước thực hiện và phương thức sử dụng trong đề tài
3.1 Đặt vấn đề:
Bệnh truyền nhiễm sốt xuất huyết đã đe dọa tính mạng con người vì bệnh không chỉ làm nhiều người chết ở một nơi, mà còn có thể lây lan đến nhiều nơi khác nhau Cần theo dõi tiến trình của bệnh và tìm cách giảm tổn thất Trong đề tài này, tôi đề xuất một hệ thống cảnh báo dựa trên trực quan để kiểm soát sự phát triển của bệnh Hệ thống này hỗ trợ các chuyên gia trong việc xem tổng quan, từ sự hiểu biết cũng như kinh nghiệm của các chuyên gia sẻ ước tính khả năng b ng phát dịch Xem biểu đồ biểu diễn dữ liệu, trên cơ sở kiến thức và kinh nghiệm sẵn có các nhà dịch tễ học có thể ước tính tình hình để đưa ra thông điệp cảnh báo/hoặc đề xuất một giải pháp ngăn chặn sự b ng phát dịch
3.2 Nội dung nghiên cứu:
Trong đề tài này, tôi sẽ thể hiện trực quan dữ liệu về bệnh sốt xuất huyết của tỉnh Bình Dương trong giai đoạn 2014 - 2018 Phần mềm hiển thị những dữ liệu này dưới dạng biểu đồ dễ hiểu trên khối đa chiều Nó cho thấy sự thay đổi của số lượng bệnh nhân theo thời gian tại các địa điểm (9 huyện thị), mối tương quan giữa số lượng bệnh nhân và các yếu tố gây bệnh như nhiệt độ không khí, độ
ẩm không khí cũng như lượng mưa ở mỗi huyện thị Trực quan hóa dữ liệu để giúp các chuyên gia dịch tễ học d ng kinh nghiệm có sẵn của họ không những
để cảnh báo về bệnh sốt xuất huyết, mà còn để xác định được yếu tố gây bệnh và truyền bệnh
Các bước thực hiện
Bước 1: Đồng bộ hóa dữ liệu Dữ liệu liên quan đến sốt xuất huyết ở khu vực được tổng hợp từ nhiều nơi
Trang 2414
Số lượng bệnh nhân được tính trong các đơn vị thời gian khác nhau được chuyển đổi sang c ng đơn vị thời gian
Nhiệt độ và độ ẩm là hiện tượng tự nhiên thay đổi liên tục theo thời gian
và tại các địa điểm, nhưng được ghi lại một cách riêng biệt theo thời gian và không gian được thu thập trong khu vực nghiên cứu
Đồng bộ hóa nhiệt độ và độ ẩm được tính giá trị trung bình trong một đơn
vị hành chính quản lý dịch (tỉnh) và trong một đơn vị thời gian
Các giá trị độ ẩm ở mỗi đơn vị thời gian và tại một địa điểm (tỉnh) được tính tương tự như các giá trị của nhiệt độ
Trang 2515
Biểu đồ về số lượng bệnh nhân, nhiệt độ, độ ẩm và lượng mưa theo thời
gian của một tỉnh được tích hợp vào một biểu đồ trên mặt phẳng 3 chiều với trục
thời gian được chia sẻ bởi bốn biểu đồ và màu sắc được sử dụng làm biến số trực
quan để phân biệt giữa các biểu đồ
Một biểu đồ bao gồm 3 trục chỉ vị trí (9 huyện, thị xã của tỉnh Bình
Dương), thời gian và trục chỉ giá trị
Hình 3.1: Biểu đồ dịch sốt xuất huyết ở Bình Dương
3.2.1 Xác định các biến và mô tả:
Sau khi thu thập dữ liệu từ trung tâm y tế dự phòng tỉnh Bình Dương, tiếp
theo cần xác định các loại biến và phân tích thuộc tính từng biến:
a Mô tả các biến dữ liệu:
Số lượng bệnh nhân
Tổng số ca mắc sốt xuất huyết của từng huyện/thị/thành phố trong một
đơn vị thời gian
í hiệu: p
Tính theo đơn vị thời gian: tháng, năm
Trang 273.2.3 Phân tích mối quan hệ giữa các biến:
Trang 2818
Độ ẩm
Độ ẩm phụ thuộc vào thời gian và vị trí
3.2.4 Sơ đồ quan hệ giữa các biến:
Hình 3.2: Sơ đồ quan hệ giữa các biến
3.2.5 Các hàm toán học giữa các biến:
Trang 2919
Hình 3.3: Màn hình chính lựa chọn thông tin để xem
3.3.1 Biểu đồ cột tổng hợp ca bệnh SXH trong 5 năm (2014 – 2018) của tỉnh
Bình Dương:
Hình 3.4: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm,
lượng mưa trong giai đoạn 2014 – 2018 của 9 huyện, thị xã/ thành phố
Trang 3020
3.3.2 Biểu đồ cột ca bệnh SXH từng năm của tỉnh Bình Dương:
Năm 2014:
Hình 3.5: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm,
lượng mưa trong năm 2014 của 9 huyện, thị xã/ thành phố
Năm 2015:
Hình 3.6: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm,
lượng mưa trong năm 2015 của 9 huyện, thị xã/ thành phố
Trang 3121
Năm 2016:
Hình 3.7: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm,
lƣợng mƣa trong năm 2016 của 9 huyện, thị xã/ thành phố
Năm 2017:
Hình 3.8: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm,
lƣợng mƣa trong năm 2017 của 9 huyện, thị xã/ thành phố
Trang 3222
Năm 2018
Hình 3.9: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ ẩm,
lượng mưa trong năm 2018 của 9 huyện, thị xã/ thành phố
3.3.3 Biểu đồ cột ca bệnh SXH từng Huyện/Thị/Thành phố của tỉnh Bình
Dương trong 5 năm:
Bàu Bàng:
Hình 3.10: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lượng mưa trong giai đoạn 2014 – 2018 của Bàu Bàng
Trang 3323
Bến Cát:
Hình 3.11: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Bến Cát
Bắc Tân Uyên:
Hình 3.12: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Bắc Tân Uyên
Trang 3424
Dĩ An
Hình 3.13: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Dĩ An
Dầu Tiếng
Hình 3.14: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Dầu Tiếng
Trang 3525
Phú Giáo
Hình 3.15: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Phú Giáo
Thuận An
Hình 3.16: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Thuận An
Trang 3626
Thủ Dầu Một
Hình 3.17: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Thủ Dầu Một
Tân Uyên
Hình 3.18: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Tân Uyên
Trang 37a Câu hỏi sơ cấp:
Năm 2014, tháng nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2014, địa bàn nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2015, tháng nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2015, địa bàn nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2016, tháng nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2016, địa bàn nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2017, tháng nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2017, địa bàn nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2018, tháng nào có số ca mắc SXH nhiều nhất/ít nhất?
Năm 2018, địa bàn nào có số ca mắc SXH nhiều nhất/ít nhất?
Nhiệt độ, độ ẩm, lƣợng mƣa nhƣ thế nào của tháng có số ca mắc SXH nhiều nhất?
Nhiệt độ, độ ẩm, lƣợng mƣa nhƣ thế nào của tháng có số ca mắc SXH
Số ca mắc SXH trong năm 2014 thay đổi nhƣ thế nào?
Số ca mắc SXH trong năm 2015 thay đổi nhƣ thế nào?
Số ca mắc SXH trong năm 2016 thay đổi nhƣ thế nào?
Số ca mắc SXH trong năm 2017 thay đổi nhƣ thế nào?
Trang 3828
Số ca mắc SXH trong năm 2018 thay đổi như thế nào?
Nhiệt độ, độ ẩm, lượng mưa thay đổi như thế nào trong từng năm?
Nhiệt độ, độ ẩm, lượng mưa như thế nào của tháng có số ca mắc SXH nhiều nhất?
Nhiệt độ, độ ẩm, lượng mưa thay đổi như thế nào giữa các địa bàn trong tỉnh?
Tháng nào nhiệt độ cao nhất trong từng năm?
Tháng nào nhiệt độ thấp nhất trong từng năm?
Địa bàn nào nhiệt độ cao nhất?
b Câu hỏi toàn cục:
Địa bàn nào có số ca mắc SXH nhiều nhất? Vì sao?
Địa bàn nào có số ca mắc SXH ít nhất? Vì sao?
SXH chủ yếu xảy ra ở địa bàn nào?
SXH chủ yếu xảy ra vào tháng nào trong năm?
Năm 2017, diễn biến dịch SXH như thế nào?
c Câu hỏi quan hệ:
hi độ ẩm tăng số ca SXH tăng hay giảm?
hi lượng mưa tăng số ca SXH tăng hay giảm?
hi nhiệt độ tăng số ca SXH tăng hay giảm?
Yếu tố nào tác động lên số ca mắc SXH?
4.2 Phân tích trực quan dữ liệu bệnh, các yếu tố liên quan:
Dữ liệu số ca mắc SXH được thu thập từ trung tâm y tế dự phòng Tỉnh Bình Dương, nhiệt độ, độ ẩm, lượng mưa thu thập từ Trung tâm Quan trắc & Môi trường Bình Dương Bảng dữ liệu gồm có nhiều cột, nhiều hàng thể hiện dữ liệu
số ca mắc SXH, các yếu tố liên quan như nhiệt độ, độ ẩm, lượng mưa Dữ liệu được thu thập trong giai đoạn 2014 – 2018 Số ca mắc SXH của từng địa bàn Tỉnh Bình Dương trong 12 tháng của từng năm
Trang 3929
Bảng 4.1: Dữ liệu lƣợng mƣa, nhiệt độ, độ ẩm số ca mắc SXH của năm
2014 - 2018 – Thành phố TDM sau khi đã loại bỏ một số dữ liệu không cần thiết
d ng cho phân tích dữ liệu
Nam Thang
Diaban
Luong mua