1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Dự báo dịch tả dựa trên mô hình học máy phân lớp

5 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 703,11 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Việc nghiên cứu các phương pháp xây dựng mô hình dự báo mới có khả năng khắc phục các điểm yếu của các phương pháp dựa trên thống kê xác suất là cần thiết. Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá ảnh hưởng của các tham số, đồng thời lựa chọn thuật toán phân lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội. Mời các bạn cùng tham khảo!

Trang 1

Dự Báo Dịch Tả Dựa Trên Mô Hình

Học Máy Phân Lớp

Lê Thị Ngọc Anh và Hoàng Xuân Dậu Học Viện Công Nghệ Bưu Chính Viễn Thông Email: lengocanh@hmu.edu.vn,dauhx@ptit.edu.vn

Abstract—Dự báo bệnh dịch nói chung và dự báo dịch tả nói

riêng là một trong các nội dung quan trọng của công tác y tế dự

phòng Trong việc xây dựng mô hình dự báo bệnh dịch, phương

pháp được áp dụng nhiều nhất hiện nay là dịch tễ học toán học

dựa trên thống kê hồi quy đa biến hoặc phân tích mối tương

quan Các phương pháp dựa trên thống kê xác suất này cho kết

quả tốt với giả định rằng các biến là độc lập và dữ liệu có thể mô

hình hóa bằng cách tổ hợp tuyến tính giữa các biến Tuy nhiên,

khi mối quan hệ của các biến là phi tuyến tính và các biến có điều

kiện phụ thuộc thì các phương pháp dựa trên thống kê thuần túy

không còn phù hợp Do vậy, việc nghiên cứu các phương pháp

xây dựng mô hình dự báo mới có khả năng khắc phục các điểm

yếu của các phương pháp dựa trên thống kê xác suất là cần thiết

Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch

tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá

ảnh hưởng của các tham số, đồng thời lựa chọn thuật toán phân

lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội.

Keywords- Học máy, phân lớp, dự báo dịch bệnh, dự báo dịch

tả

I GIỚI THIỆU Trong các loại dịch bệnh, dịch tả là một bệnh dịch nguy

hiểm có khả năng lây lan nhanh, ảnh hưởng lớn đến sức khỏe

của cộng đồng, thậm chí còn gây ra thiệt hại không nhỏ về

người Việc nghiên cứu dự báo sớm nguy cơ xảy ra dịch tả,

giúp cho công tác chuẩn bị phòng chống dịch hiệu quả, giảm

thiểu các thiệt hại khi dịch bùng phát là rất cần thiết Đã có

nhiều mô hình dự báo tả được công bố [14-20] Các phương

pháp được áp dụng nhiều nhất là dịch tễ học toán học dựa trên

thống kê hồi quy đa biến hoặc phân tích mối tương quan Các

phương pháp dựa trên thống kê xác suất này cho kết quả tốt với

giả định rằng các biến là độc lập và dữ liệu có thể mô hình hóa

bằng cách tổ hợp tuyến tính giữa các biến Tuy nhiên, khi mối

quan hệ của các biến là phi tuyến tính và các biến có điều kiện

phụ thuộc thì các phương pháp dựa trên thống kê thuần túy

không còn phù hợp Do vậy, việc nghiên cứu các phương pháp

xây dựng mô hình dự báo mới có khả năng khắc phục các điểm

yếu của các phương pháp dựa trên thống kê xác suất là cần

thiết

Trong những năm gần đây, học máy nổi lên là một phương

pháp hiệu quả trong xây dựng các mô hình dự báo trong nhiều

lĩnh vực, như nhận dạng mẫu, xử lý ngôn ngữ, tiếng nói, tin

sinh,… Trong học máy, một loạt các kỹ thuật thống kê, xác

xuất, tối ưu hóa,… được sử dụng cho phép máy tính “học” từ

các ví dụ trong quá khứ và phát hiện ra các mô hình từ những

tập dữ liệu lớn và phức tạp Học máy giống thống kê vì sử

dụng để phân tích và giải nghĩa dữ liệu Tuy nhiên, nó khác thống kê ở chỗ phương pháp học máy có thể triển khai được với các toán tử logic (AND, OR, NOT), các toán tử điều kiện (IF, THEN, ELSE), các toán tử xác xuất, hoặc tối ưu hóa mô hình dữ liệu hay phân lớp Học máy vẫn dựa chủ yếu vào thống

kê và xác suất, nhưng nó hiệu quả hơn khi cho phép suy luận hoặc quyết định mà ở các phương pháp thống kê khác không thực hiện được [11,12]

Trong học máy, phân lớp dữ liệu (classification) là một trong những hướng chính được nghiên cứu và ứng dụng rộng rãi Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có

bộ giá trị là biết trước Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục Không phải lúc nào phương pháp học máy cũng đảm bảo thành công Cũng giống như các phương pháp khác, việc thấu hiểu được vấn đề và đánh giá được những giới hạn của dữ liệu là rất quan trọng Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá ảnh hưởng của các tham số mô hình cũng như các biến số khí hậu, đồng thời lựa chọn thuật toán phân lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội

Phần còn lại của bài báo được bố cục như sau: Phần 2 trình bày về việc lựa chọn thuật toán phân lớp cho các thử nghiệm

và phương pháp đánh giá; Phần 3 giới thiệu chi tiết mô hình dự báo dịch tả đề xuất; Phần 4 giới thiệu tập dữ liệu sử dụng cho thử nghiệm, nội dung và các kết quả thử nghiệm; Phần 5 phân tích các kết quả thử nghiệm thu được và Phần 6 là Kết luận và hướng phát triển

II LỰA CHỌN THUẬT TOÁN VÀ ĐÁNH GIÁ ĐỘ

CHÍNH XÁC PHÂN LỚP

Lựa chọn thuật toán phân lớp

Trong những thập niên gần đây, ứng dụng học máy nói chung và phân lớp nói riêng có xu hướng lan rộng trong rất nhiều ngành khoa học để dự đoán một số thông tin của dữ liệu dựa trên những đặc tính đã biết Có nhiều thuật toán phân lớp được sử dụng rộng rãi cho các ứng dụng nhận dạng mẫu với dữ liệu đầu vào là chuỗi thời gian, như Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forests, RF) [3], Mạng nơ-ron, các phương pháp Bayes [4], các mô hình Markov [4], k hàng xóm gần nhất (k-nearest neighbor, k-NN) [11], hay Máy

Trang 2

thuật toán phân lớp/phân cụm kể trên đã được chứng minh là

hiệu quả trong việc phân lớp dữ liệu trong nhiều ứng dụng và

lĩnh vực khác nhau [4] Trong nghiên cứu này, chúng tôi trước

hết áp dụng thuật toán Random Forests để huấn luyện xây

dựng mô hình dự báo dịch tả ở Hà Nội, sau đó sử dụng kết quả

này làm cơ sở để so sánh với một số thuật toán phân lớp học

máy phổ biến khác nhằm tìm kiếm được thuật toán tối ưu cho

bài toán dự báo Mô hình sử dụng thuật toán được lựa chọn sau

đó sẽ được dùng để dự báo tình trạng dịch tả với các vector đặc

trưng đầu vào

Lựa chọn phương pháp đánh giá độ chính xác của thuật

toán phân lớp

Ước lượng độ chính xác của bộ phân lớp rất quan trọng bởi

nó cho phép dự đoán được độ chính xác của các kết quả phân

lớp những dữ liệu tương lai Độ chính xác còn là cơ sở để so

sánh các mô hình phân lớp khác nhau Có hai phương pháp

đánh giá độ chính xác phổ biến là holdout và k-fold

cross-validation [10, 14] Cả hai phương pháp này đều dựa trên các

phân hoạch ngẫu nhiên tập dữ liệu ban đầu

 Trong phương pháp holdout, dữ liệu dưa ra được phân chia

ngẫu nhiên thành 2 phần là: tập dữ liệu huấn luyện và tập dữ

liệu kiểm tra Thông thường, 2/3 dữ liệu cấp cho tập dữ liệu

huấn luyện, phần còn lại cho tập dữ liệu kiểm tra [14]

đầu được chia ngẫu nhiên thành k tập con (fold) có kích

thước xấp xỉ nhau S1, S2, …, Sk Quá trình học và kiểm tra

được thực hiện k lần Tại lần lặp thứ i, Si là tập dữ liệu kiểm

tra, các tập còn lại hợp thành tập dữ liệu huấn luyện Có

nghĩa là, đầu tiên việc huấn luyện được thực hiện trên các

tập S2, S3,…, Sk, sau đó kiểm tra trên tập S1; tiếp tục quá

trình huấn luyện được thực hiện trên tập S1, S3, S4,…, Sk,

sau đó kiểm tra trên tập S2; và tiếp tục cho đến khi tập Sk

được sử dụng làm tập kiểm tra Độ chính xác là toàn bộ số

phân lớp đúng từ k lần lặp chia cho tổng số mẫu của tập dữ

liệu ban đầu [10]

Nghiên cứu này lựa chọn sử dụng phương pháp k-fold cross

validation để đánh giá độ chính xác của các thuật toán phân

lớp, với k = 4

III ĐỀ XUẤT MÔ HÌNH DỰ BÁO DỊCH TẢ

Nghiên cứu này đề xuất mô hình phân lớp để dự đoán tỷ lệ

bệnh tả trong một khoảng thời gian định sẵn, sử dụng các số

liệu về khí hậu, môi trường dựa trên học máy thống kê rời rạc

Mô hình đề xuất gồm các bước xử lý như mô tả trong Hình 1

Dữ liệu đầu vào sử dụng cho mô hình dự báo là chuỗi dữ liệu

theo thời gian, gồm chuỗi các giá trị liên tục của các biến số

(khí hậu, thời tiết, độ ẩm, số giờ nắng …) trong khu vực thành

phố Hà Nội Chuỗi dữ liệu đầu vào được biến đổi thành các đặc trưng trước khi áp dụng kỹ thuật học máy thống kê

Hình 1 Các nước xử lý của mô hình dự báo

Do dữ liệu đầu vào là chuỗi biến thiên liên tục theo thời gian, nên để xác định khoảng thời gian nào có khả năng xảy ra dịch hay bùng phát dịch, cần thực hiện phân chia dữ liệu thành các đoạn dữ liệu gọi là frame, sử dụng một khung cửa sổ trượt (sliding window) với kích cỡ w ngày Các frame có thể tách rời, hoặc chồng lấn lên nhau với một khoảng cố định Trong thực nghiệm xây dựng mô hình, chúng tôi sử dụng các khung cửa sổ trượt với các kích cỡ là 7 ngày, 14 ngày, 22 ngày và 30 ngày Kích cỡ cửa sổ trượt được lựa chọn dựa trên các đặc điểm dịch tễ học của bệnh tả và phân bố dữ liệu tả

Trong dịch tễ học, để xác định mức độ bùng phát dịch, giá trị

số ca bệnh trung bình tháng khu vực, tính trên 0.000 dân được

sử dụng Gọi giá trị này là a, trạng thái dịch tả có thể được chia thành 3 nhóm:

•Nhóm không có dịch tả, hoặc nhóm “0” nếu a = 0;

•Nhóm dịch tả thấp, hoặc nhóm “ ” nếu 0 < a ≤ 1;

•Nhóm dịch tả cao, hoặc nhóm “2” nếu a >

Mô hình sử dụng các đặc trưng thống kê cơ bản bao gồm mean, min, max, variance, standard deviation để tách các đặc trưng của chuỗi dữ liệu đầu vào như sau:

1 Mean:

1

N

trong frame S.N là độ dài của S

N

2 1

1

4 Min: giá trị nhỏ nhất trong Si

5 Max: giá trị lớn nhất trong Si

Mô hình đề xuất sử dụng bộ phân loại Rừng ngẫu nhiên đề xuất bởi L Breiman và A Cutler [5] với công cụ Weka phiên bản 3.7 [21] để phân loại và đánh giá mức độ ảnh hưởng của các tham số của mô hình, các biến số khí hậu, thời tiết đến hiệu năng của mô hình Các độ đo: độ chính xác (Precision), độ bao phủ (Recall) và độ đo F được lấy trung bình trên các lớp, áp dụng theo phương pháp kiểm tra chéo 4 lần (4-folds cross-validation)

Trang 3

IV THỰC NGHIỆM VÀ KẾT QUẢ

Trong phần này, chúng tôi thực hiện thử nghiệm mô hình với

các dữ liệu các dữ liệu về thời tiết, dân số được cung cấp bởi

các cơ quan, gồm Viện nghiên cứu khí tượng thủy văn, Tổng

cục dân số và Viện khoa học và môi trường Dữ liệu cụ thể bao

gồm: số dân của 29 quận huyện trong thành phố Hà Nội, từ

năm 2007 đến năm 20 0; diện tích, mật độ dân số của từng

quận huyện Các thông số thời tiết bao gồm: nhiệt độ trung

bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ

ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất trong ngày,

trung bình số giờ nắng trong ngày, tốc độ gió và chỉ số biến đổi

khí hậu SOI (ENSO) Về số liệu thống kê bệnh nhân tả được

cung cấp bởi Trung tâm y tế dự phòng Hà Nội: năm 2007 có

79 ca, năm 2008 có 2057 ca, năm 2009 có 89 ca và năm

2010 có 251 ca Với mục đích đánh giá ảnh hưởng của các

tham số (kích cỡ cửa số trượt, độ chồng lấn cửa sổ, các tham số

khí hậu, trễ thời gian) lên mô hình dự báo đề xuất và tìm ra

thuật toán cho kết quả phân lớp chính xác cao nhất, chúng tôi

tiến hành các thực nghiệm sau: ( ) Đánh giá ảnh hưởng của

kích cỡ cửa sổ trượt, (2) Đánh giá ảnh hưởng của độ chồng lấn

frame, (3) Đánh giá ảnh hưởng của tập các đặc trưng, (4) Đánh

giá ảnh hưởng của các biến số, (5) Đánh giá ảnh hưởng của độ

trễ thời gian và (6) Thử nghiệm mô hình dự báo với một số

thuật toán phân lớp Với mỗi thử nghiệm độ đo F được tính

toán làm cơ sở cho các phân tích, so sánh

1 Ảnh hưởng của kích cỡ cửa sổ trượt

Thực nghiệm được thực hiện với các kích cỡ cửa sổ trượt

khác nhau (7, 14, 22 và 30 ngày) và tham số độ chồng lấn là

50% Ngoài ra, các biến số về khí hậu được xem xét bao gồm:

nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng

lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất,

trung bình số giờ nắng trong ngày, tốc độ gió và ENSO Dữ

liệu tả đầu vào được gán nhãn gồm 3 loại: không có dịch, mức

dịch tả thấp và mức dịch tả cao, tương ứng với các giá trị a = 0;

0 < a ≤ 1; a > 1 Sử dụng phương pháp kiểm tra chéo 4 lần, các

dữ liệu huấn luyện đầu vào được dùng để tách đặc trưng, sau

đó các vector đặc trưng được sử dụng để huấn luyện sử dụng

bộ phân loại Random Forests Kết quả thu được cho trên Bảng

1 Từ kết quả thử nghiệm cho ở Bảng 1 ta thấy, với kích cỡ cửa

sổ trượt 14 ngày, mô hình cho kết quả các độ đo tốt nhất Trên

cơ sở này, chúng tôi lựa chọn cửa sổ trượt là 14 ngày cho các

thử nghiệm tiếp theo

Kích cỡ cửa sổ trượt Độ chính xác Độ bao phủ F1

Bảng 1: Ảnh hưởng của kích cỡ cửa sổ trượt tới các độ đo của mô hình

2 Ảnh hưởng của độ chồng lấn frame

Để đánh giá ảnh hưởng của độ chồng lấn giữa các frame kế tiếp nhau với hiệu năng hệ thống, nghiên cứu đã thực hiện thực nghiệm với các độ chồng lấn khác nhau, với kích cỡ cửa

sổ trượt là 4 ngày Độ chồng lấn giữa hai frame liền nhau có thể từ 0 đến 13 ngày/14 ngày Hình 2 thể hiện mức độ ảnh hưởng của độ chồng lấn tới hiệu năng của mô hình theo độ đo F1

0 1 2 3 4 5 6 7 8 9 10 11 12 13 0.6

0.65 0.7 0.75 0.8 0.85 0.9 0.95 1

Overlap (Ngày)

Hình 2 Ảnh hưởng của độ chồng lấn frame độ đo F1

3 Ảnh hưởng của tập đặc trưng

Tiến hành thực nghiệm với 2 trường hợp: có sử dụng tập đặc trưng thống kê (mean, variance, standard deviation, min, max) và chỉ sử dụng các giá trị thô ban đầu của các biến số về khí hậu Đối với trường hợp không sử dụng các đặc trưng thống kê mà chỉ sử dụng các giá trị thô (số giá trị của từng frame), thu được giá trị độ đo F là 0.902, còn khi sử dụng các đặc trưng thống kê nêu trên, giá trị F thu được cao hơn là 0.973

4 Ảnh hưởng của các biến số

Để xác định mức độ ảnh hưởng của từng biến số, chúng tôi loại dần các biến số ra khỏi tập dữ liệu ban đầu và đánh giá sự thay đổi của giá trị độ đo F so với tập đầy đủ các biến số Kết quả thu được cho ở Bảng 2

Nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp

Độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất 0.972

Bảng 2: Ảnh hưởng của các biến số đến độ đo F1

Trang 4

5 Thử nghiệm mô hình với biến số khí hậu hiện tại và mô

hình với các biến số khí hậu có độ trễ

Để đánh giá khả năng xuất hiện ca bệnh tả sau một khoảng

thời gian có tác động của các yếu tố thời tiết, khí hậu trong quá

khứ, chúng tôi tiến hành thử nghiệm mô hình với biến số khí

hậu khác nhau, từ đó đánh giá được ảnh hưởng yếu tố khí hậu,

thời tiết tới khả năng gây ra dịch tả sau các khoảng thời gian

tính theo tuần Kết quả thử nghiệm cho trên Bảng 3

F1 0.973 0.973 0.974 0.978 0.979 0.979 0.976

Bảng 3: Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới độ

đo F1

6 Thử nghiệm với một số bộ phân loại khác với mô hình

biến số khí hậu có độ trễ

Trong các thực nghiệm trên đã thực hiện, chúng tôi sử dụng bộ

phân loại là Random Forest [3] và đã đạt được độ chính xác

khá cao (giá trị cao nhất của F1 = 0.979 như cho trên Bảng 3)

Để có thêm căn cứ lựa chọn mô hình dự báo tối ưu cho bệnh tả

ở Hà Nội, chúng tôi tiến hành bổ sung một số thực nghiệm với

các bộ phân loại học máy phổ biến khác, nhằm so sánh khả

năng phân lớp của chúng Kết quả thực nghiệm so sánh giữa

các bộ phân lớp được trình bày trong Bảng 4

Trễ (tuần)

F

1

Random

Random

Multilayer

Bảng 4 Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ

biến

V BÀN LUẬN Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm

trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay

dự đoán xu hướng dữ liệu tương lai Các kết quả thử nghiệm

của nghiên cứu này là một minh chứng cho sự phù hợp của

phương pháp phân lớp ứng dụng trong dự báo bệnh dịch trong

lĩnh vực y tế Trong mô hình dự đoán bệnh dịch tả dựa trên

phương pháp phân lớp, các thử nghiệm đã được thực hiện

nhằm đánh giá độ chính xác của mô hình và ảnh hưởng của các

tham số

Các kết quả ở Bảng 1 và Hình 2 cho thấy kích cỡ cửa số

trượt và độ chồng lấn có ảnh hưởng đáng kể đến độ chính xác

phân lớp Cửa sổ trượt dài 4 ngày cho độ chính xác cao nhất

Khi độ chồng lấn nhỏ hơn 50% thì giá trị F có xu hướng tăng

dần, tuy có một số thời điểm giảm, nhưng khi độ chồng lấn

càng tăng thì giá trị F tăng ổn định, đạt giá trị lớn nhất là gần

0.973 với độ chồng lấn là 13 ngày

Khi sử dụng tập đặc trưng thống kê thì độ dài vector đặc trưng ngắn hơn (gồm 5 đặc trưng tương đương mỗi vector có

độ dài là 5) giúp cho thời gian huấn luyện cũng như thời gian

dự đoán của bộ phân loại nhanh hơn, làm tăng tính hiệu quả của tập đặc trưng thống kê khi thử nghiệm với mô hình đề xuất Giá trị độ đo F khi sử dụng tập đặc trưng thống kê cao hơn đáng kể so với khi không sử dụng tập đặc trưng này (0.973 so với 0.902)

Các kết quả ở Bảng 2 cho thấy các biến số khí hậu có ảnh hưởng đáng kể đến độ đo F Giá trị F1 thấp nhất là 0,966 và 0,969 khi loại bỏ cùng lúc cả 3 biến số về nhiệt độ và biến trung bình số giờ nắng Giá trị F1 cao nhất là 0,973 khi không loại bỏ biến nào

Kết quả ở Bảng 3 cho thấy khi sử dụng độ trễ thời gian là 8 tuần hoặc 10 tuần thì F1 có giá trị lớn nhất là 0.979 Khi không

sử dụng độ trễ hoặc sử dụng độ trễ 2 tuần thì F1 có giá trị nhỏ nhất là 0.973 Như vậy, yếu tố khí hậu, thời tiết trong quá khứ

có ảnh hưởng đến tỷ lệ mắc bệnh tả ở thành phố Hà Nội, và các yếu thời tiết từ 8 tuần hoặc 10 tuần trước đó ảnh hưởng nhiều nhất Kết quả này là tương đồng với những nghiên cứu được thực hiện ở Đông Phi, Tazania khi nghiên cứu thời gian bùng phát và các yếu tố khí hậu ảnh hưởng đến sự xuất hiện của bệnh tả [14-20]

Kết quả trong Bảng 4 cho thấy khả năng phân lớp tốt nhất trong tất cả các trường hợp là của thuật toán Random Forests trong trường hợp trễ 6 tuần, và 1-NN trong trường hợp trễ 10 tuần, cùng với giá trị F1=0.981 1-NN là bộ phân lớp đơn giản, tốc độ nhanh và không phụ thuộc vào tham số Ưu điểm của thuật toán Random Forests so với các thuật toán phân lớp khác

là tốc độ cao, độ chính xác cao, chống nhiễu tốt và đặc biệt là hiếm khi rơi vào tình trạng “quá vừa” (overfit) [7, 8, 9] Như vậy, cả 2 thuật toán Random Forests và 1-NN đều có thể được chấp nhận cho xây dựng mô hình dự báo tả tại Hà Nội

VI KẾT LUẬN Nghiên cứu đã đề xuất mô hình sử dụng học máy phân lớp thống kê để dự báo dịch tả tại Hà Nội dựa trên việc phân tích

dữ liệu về các ca bệnh trong nhiều năm liên tiếp và các mối liên hệ với các yếu tố thời tiết, khí hậu Các thực nghiệm đã được thực hiện để xem xét ảnh hưởng của các tham số như kích cỡ cửa sổ trượt, mức độ chồng lấn giữa các khung dữ liệu liên tiếp nhau, các loại đặc trưng thống kê, các yếu tố thời tiết, khí hậu và ENSO với kết quả giá trị phân lớp a = 0; 0 < a <= 1; a > 1 Kết quả thu nhận được cho thấy các tham số này đều

có ảnh hưởng đối với hiệu năng của mô hình Các yếu tố thời tiết có ảnh hưởng quan trọng nhất tới việc dự báo là các biến

số về nhiệt độ trung bình, trung bình số giờ nắng và ENSO Ngược lại, các yếu tố hầu như không ảnh hưởng tới kết quả dự báo là độ ẩm Các kết quả thực nghiệm cũng chỉ ra rằng các yếu tố khí hậu trong quá khứ có ảnh hưởng quan trọng tới mô hình ở các thời điểm 4, 8 và 10 tuần Dựa trên các kết quả thực nghiệm thu được, có thể khẳng định hai thuật toán tối ưu nhất được đề xuất để sử dụng cho mô hình dự báo trên thực tế là

1-NN và Random Forests, với độ chính xác dự báo tỷ lệ mắc bệnh tả đạt khoảng 98%

Để tăng độ tin cậy của kết quả thực nghiệm trước khi có thể triển khai ứng dụng trong công tác dự báo bệnh dịch tả, nhóm

Trang 5

nghiên cứu dự kiến sẽ tiếp tục thử nghiệm mô hình với các dữ

liệu ca bệnh trong một thời gian dài hơn nữa và bổ sung thêm

các yếu tố khác, như môi trường, điều kiện sống và dân trí

trong khu vực nghiên cứu

TÀI LIỆU THAM KHẢO

1 X Wu (2008) “Top 10 algorithms in data mining,” Knowl Inf

Syst., vol 14, no 1, pp 1–37, 2008

2 C J C Burges, “A tutorial on support vector machines for

pattern recognition,” Data Min Knowl Discov., vol 2, no 2,

pp 121–167, 1998

3 L Breiman, “Random forests,” Mach Learn., vol 45, no , pp

5–32, 2001

4 C M Bishop, Pattern recognition and machine learning

Springer, 2006

5 N S Altman, “An introduction to kernel and nearest-neighbor

nonparametric regression,” Am Stat., vol 46, no 3, pp 175–

185, 1992

6 C.-W Hsu, C.-C Chang, C.-J Lin, and others, “A practical

guide to support vector classification.” 2003.

7 L Breiman, J Friedman, C J Stone, and R A Olshen,

Classification and regression trees CRC press, 1984

8 Caruana, R.; Niculescu-Mizil, A (2006) An empirical

comparison of supervised learning algorithms Proc 23rd

International Conference on Machine Learning Cite SeerX:

10.1.1.122.5901

9 Russell, Stuart; Norvig, Peter (2003) Artificial Intelligence: A

Modern Approach (2nd ed.) Prentice Hall ISBN

978-0137903955

10 J Gray, Data mining – Concepts and Techniques, Chapter 7 –

Classification and Prediction series, Morgan Kaufmann

Publishers, August 2000

11 T Michell, Machine Learning, McGraw Hill, 1997

12 Duda RO, Hart PE, Stork DG (2001) Pattern classification (2nd

edition) New York: Wiley

13 Fred Brauer, Pouline Van de Driessche and Jianhoo Wu,

Mathematical Epidemiology, Springer, 2008

14 J Wang and S Liao, A generalized cholera model and

epidemic- endemic analysis, Hournal of Biological Dynamics,

p.568-589, 2012

15 Y Yue, J Gong, D Way, B Kan, B Li and C Ke, Influence of

Climate factors on Vibro cholera dynamics in the Pearl River estuary, South China, World J Microliol Biotechnol, 2014

16 R.C Rainer, A King, M Emch, M Yunus, S.G Faruque and

M Paucula, Highly localized sensitivity to climate forcing drives endemic cholera in a megacity, Proc.Nalt Âcd Sci

U.S.S, 109,2033-2036, 2012

17 Z Mukandavire, S Liao, J Wang, H Gaff, D.L Smith, and

J.G Morris, Estimating the reproductive numbers for the 2008–

2009 cholera outbreaks in Zimbabwe, Proc Natl Acad Sci 108

(2011), pp 8767–8772

18 R Reyburn, D R Kim, M Emch và các cộng sự (2011),

"Climate variability and the outbreaks of cholera in Zanzibar,

East Africa: a time series analysis", Am J Trop Med Hyg, 84(6),

tr 862-9

19 Sara L M Trærup;Ramon A Ortiza;Anil Markandya (2011),

"The Costs of Climate Change: A Study of Cholera in

Tanzania", International Journal of Environmental Research

and Public Health, 8, tr 4386-4405

20 Michael Emch et al (2008), "Seasonality of cholera from 1974

to 2005: a review of global patterns", International Journal of

Health Geographics, 7(31)

21 Bộ công cụ học máy Weka, www.cs.waikato.ac.nz/ml/weka/, University of Waikato, truy nhập tháng 8.2015

Ngày đăng: 27/04/2022, 10:17

HÌNH ẢNH LIÊN QUAN

Bảng 1: Ảnh hưởng của kích cỡ cửa sổ trượt tới các độ đo của mô hình - Dự báo dịch tả dựa trên mô hình học máy phân lớp
Bảng 1 Ảnh hưởng của kích cỡ cửa sổ trượt tới các độ đo của mô hình (Trang 3)
Hình 2. Ảnh hưởng của độ chồng lấn frame độ đo F1 - Dự báo dịch tả dựa trên mô hình học máy phân lớp
Hình 2. Ảnh hưởng của độ chồng lấn frame độ đo F1 (Trang 3)
Trong phần này, chúng tôi thực hiện thử nghiệm mô hình với các dữliệu các dữliệu vềthời tiết, dân số được cung cấp bởi các cơ quan, gồm Viện nghiên cứu khí tượng thủy văn, Tổng cục dân số và Viện khoa học và môi trường - Dự báo dịch tả dựa trên mô hình học máy phân lớp
rong phần này, chúng tôi thực hiện thử nghiệm mô hình với các dữliệu các dữliệu vềthời tiết, dân số được cung cấp bởi các cơ quan, gồm Viện nghiên cứu khí tượng thủy văn, Tổng cục dân số và Viện khoa học và môi trường (Trang 3)

🧩 Sản phẩm bạn có thể quan tâm