Việc nghiên cứu các phương pháp xây dựng mô hình dự báo mới có khả năng khắc phục các điểm yếu của các phương pháp dựa trên thống kê xác suất là cần thiết. Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá ảnh hưởng của các tham số, đồng thời lựa chọn thuật toán phân lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội. Mời các bạn cùng tham khảo!
Trang 1Dự Báo Dịch Tả Dựa Trên Mô Hình
Học Máy Phân Lớp
Lê Thị Ngọc Anh và Hoàng Xuân Dậu Học Viện Công Nghệ Bưu Chính Viễn Thông Email: lengocanh@hmu.edu.vn,dauhx@ptit.edu.vn
Abstract—Dự báo bệnh dịch nói chung và dự báo dịch tả nói
riêng là một trong các nội dung quan trọng của công tác y tế dự
phòng Trong việc xây dựng mô hình dự báo bệnh dịch, phương
pháp được áp dụng nhiều nhất hiện nay là dịch tễ học toán học
dựa trên thống kê hồi quy đa biến hoặc phân tích mối tương
quan Các phương pháp dựa trên thống kê xác suất này cho kết
quả tốt với giả định rằng các biến là độc lập và dữ liệu có thể mô
hình hóa bằng cách tổ hợp tuyến tính giữa các biến Tuy nhiên,
khi mối quan hệ của các biến là phi tuyến tính và các biến có điều
kiện phụ thuộc thì các phương pháp dựa trên thống kê thuần túy
không còn phù hợp Do vậy, việc nghiên cứu các phương pháp
xây dựng mô hình dự báo mới có khả năng khắc phục các điểm
yếu của các phương pháp dựa trên thống kê xác suất là cần thiết
Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch
tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá
ảnh hưởng của các tham số, đồng thời lựa chọn thuật toán phân
lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội.
Keywords- Học máy, phân lớp, dự báo dịch bệnh, dự báo dịch
tả
I GIỚI THIỆU Trong các loại dịch bệnh, dịch tả là một bệnh dịch nguy
hiểm có khả năng lây lan nhanh, ảnh hưởng lớn đến sức khỏe
của cộng đồng, thậm chí còn gây ra thiệt hại không nhỏ về
người Việc nghiên cứu dự báo sớm nguy cơ xảy ra dịch tả,
giúp cho công tác chuẩn bị phòng chống dịch hiệu quả, giảm
thiểu các thiệt hại khi dịch bùng phát là rất cần thiết Đã có
nhiều mô hình dự báo tả được công bố [14-20] Các phương
pháp được áp dụng nhiều nhất là dịch tễ học toán học dựa trên
thống kê hồi quy đa biến hoặc phân tích mối tương quan Các
phương pháp dựa trên thống kê xác suất này cho kết quả tốt với
giả định rằng các biến là độc lập và dữ liệu có thể mô hình hóa
bằng cách tổ hợp tuyến tính giữa các biến Tuy nhiên, khi mối
quan hệ của các biến là phi tuyến tính và các biến có điều kiện
phụ thuộc thì các phương pháp dựa trên thống kê thuần túy
không còn phù hợp Do vậy, việc nghiên cứu các phương pháp
xây dựng mô hình dự báo mới có khả năng khắc phục các điểm
yếu của các phương pháp dựa trên thống kê xác suất là cần
thiết
Trong những năm gần đây, học máy nổi lên là một phương
pháp hiệu quả trong xây dựng các mô hình dự báo trong nhiều
lĩnh vực, như nhận dạng mẫu, xử lý ngôn ngữ, tiếng nói, tin
sinh,… Trong học máy, một loạt các kỹ thuật thống kê, xác
xuất, tối ưu hóa,… được sử dụng cho phép máy tính “học” từ
các ví dụ trong quá khứ và phát hiện ra các mô hình từ những
tập dữ liệu lớn và phức tạp Học máy giống thống kê vì sử
dụng để phân tích và giải nghĩa dữ liệu Tuy nhiên, nó khác thống kê ở chỗ phương pháp học máy có thể triển khai được với các toán tử logic (AND, OR, NOT), các toán tử điều kiện (IF, THEN, ELSE), các toán tử xác xuất, hoặc tối ưu hóa mô hình dữ liệu hay phân lớp Học máy vẫn dựa chủ yếu vào thống
kê và xác suất, nhưng nó hiệu quả hơn khi cho phép suy luận hoặc quyết định mà ở các phương pháp thống kê khác không thực hiện được [11,12]
Trong học máy, phân lớp dữ liệu (classification) là một trong những hướng chính được nghiên cứu và ứng dụng rộng rãi Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có
bộ giá trị là biết trước Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục Không phải lúc nào phương pháp học máy cũng đảm bảo thành công Cũng giống như các phương pháp khác, việc thấu hiểu được vấn đề và đánh giá được những giới hạn của dữ liệu là rất quan trọng Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá ảnh hưởng của các tham số mô hình cũng như các biến số khí hậu, đồng thời lựa chọn thuật toán phân lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội
Phần còn lại của bài báo được bố cục như sau: Phần 2 trình bày về việc lựa chọn thuật toán phân lớp cho các thử nghiệm
và phương pháp đánh giá; Phần 3 giới thiệu chi tiết mô hình dự báo dịch tả đề xuất; Phần 4 giới thiệu tập dữ liệu sử dụng cho thử nghiệm, nội dung và các kết quả thử nghiệm; Phần 5 phân tích các kết quả thử nghiệm thu được và Phần 6 là Kết luận và hướng phát triển
II LỰA CHỌN THUẬT TOÁN VÀ ĐÁNH GIÁ ĐỘ
CHÍNH XÁC PHÂN LỚP
Lựa chọn thuật toán phân lớp
Trong những thập niên gần đây, ứng dụng học máy nói chung và phân lớp nói riêng có xu hướng lan rộng trong rất nhiều ngành khoa học để dự đoán một số thông tin của dữ liệu dựa trên những đặc tính đã biết Có nhiều thuật toán phân lớp được sử dụng rộng rãi cho các ứng dụng nhận dạng mẫu với dữ liệu đầu vào là chuỗi thời gian, như Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forests, RF) [3], Mạng nơ-ron, các phương pháp Bayes [4], các mô hình Markov [4], k hàng xóm gần nhất (k-nearest neighbor, k-NN) [11], hay Máy
Trang 2thuật toán phân lớp/phân cụm kể trên đã được chứng minh là
hiệu quả trong việc phân lớp dữ liệu trong nhiều ứng dụng và
lĩnh vực khác nhau [4] Trong nghiên cứu này, chúng tôi trước
hết áp dụng thuật toán Random Forests để huấn luyện xây
dựng mô hình dự báo dịch tả ở Hà Nội, sau đó sử dụng kết quả
này làm cơ sở để so sánh với một số thuật toán phân lớp học
máy phổ biến khác nhằm tìm kiếm được thuật toán tối ưu cho
bài toán dự báo Mô hình sử dụng thuật toán được lựa chọn sau
đó sẽ được dùng để dự báo tình trạng dịch tả với các vector đặc
trưng đầu vào
Lựa chọn phương pháp đánh giá độ chính xác của thuật
toán phân lớp
Ước lượng độ chính xác của bộ phân lớp rất quan trọng bởi
nó cho phép dự đoán được độ chính xác của các kết quả phân
lớp những dữ liệu tương lai Độ chính xác còn là cơ sở để so
sánh các mô hình phân lớp khác nhau Có hai phương pháp
đánh giá độ chính xác phổ biến là holdout và k-fold
cross-validation [10, 14] Cả hai phương pháp này đều dựa trên các
phân hoạch ngẫu nhiên tập dữ liệu ban đầu
Trong phương pháp holdout, dữ liệu dưa ra được phân chia
ngẫu nhiên thành 2 phần là: tập dữ liệu huấn luyện và tập dữ
liệu kiểm tra Thông thường, 2/3 dữ liệu cấp cho tập dữ liệu
huấn luyện, phần còn lại cho tập dữ liệu kiểm tra [14]
đầu được chia ngẫu nhiên thành k tập con (fold) có kích
thước xấp xỉ nhau S1, S2, …, Sk Quá trình học và kiểm tra
được thực hiện k lần Tại lần lặp thứ i, Si là tập dữ liệu kiểm
tra, các tập còn lại hợp thành tập dữ liệu huấn luyện Có
nghĩa là, đầu tiên việc huấn luyện được thực hiện trên các
tập S2, S3,…, Sk, sau đó kiểm tra trên tập S1; tiếp tục quá
trình huấn luyện được thực hiện trên tập S1, S3, S4,…, Sk,
sau đó kiểm tra trên tập S2; và tiếp tục cho đến khi tập Sk
được sử dụng làm tập kiểm tra Độ chính xác là toàn bộ số
phân lớp đúng từ k lần lặp chia cho tổng số mẫu của tập dữ
liệu ban đầu [10]
Nghiên cứu này lựa chọn sử dụng phương pháp k-fold cross
validation để đánh giá độ chính xác của các thuật toán phân
lớp, với k = 4
III ĐỀ XUẤT MÔ HÌNH DỰ BÁO DỊCH TẢ
Nghiên cứu này đề xuất mô hình phân lớp để dự đoán tỷ lệ
bệnh tả trong một khoảng thời gian định sẵn, sử dụng các số
liệu về khí hậu, môi trường dựa trên học máy thống kê rời rạc
Mô hình đề xuất gồm các bước xử lý như mô tả trong Hình 1
Dữ liệu đầu vào sử dụng cho mô hình dự báo là chuỗi dữ liệu
theo thời gian, gồm chuỗi các giá trị liên tục của các biến số
(khí hậu, thời tiết, độ ẩm, số giờ nắng …) trong khu vực thành
phố Hà Nội Chuỗi dữ liệu đầu vào được biến đổi thành các đặc trưng trước khi áp dụng kỹ thuật học máy thống kê
Hình 1 Các nước xử lý của mô hình dự báo
Do dữ liệu đầu vào là chuỗi biến thiên liên tục theo thời gian, nên để xác định khoảng thời gian nào có khả năng xảy ra dịch hay bùng phát dịch, cần thực hiện phân chia dữ liệu thành các đoạn dữ liệu gọi là frame, sử dụng một khung cửa sổ trượt (sliding window) với kích cỡ w ngày Các frame có thể tách rời, hoặc chồng lấn lên nhau với một khoảng cố định Trong thực nghiệm xây dựng mô hình, chúng tôi sử dụng các khung cửa sổ trượt với các kích cỡ là 7 ngày, 14 ngày, 22 ngày và 30 ngày Kích cỡ cửa sổ trượt được lựa chọn dựa trên các đặc điểm dịch tễ học của bệnh tả và phân bố dữ liệu tả
Trong dịch tễ học, để xác định mức độ bùng phát dịch, giá trị
số ca bệnh trung bình tháng khu vực, tính trên 0.000 dân được
sử dụng Gọi giá trị này là a, trạng thái dịch tả có thể được chia thành 3 nhóm:
•Nhóm không có dịch tả, hoặc nhóm “0” nếu a = 0;
•Nhóm dịch tả thấp, hoặc nhóm “ ” nếu 0 < a ≤ 1;
•Nhóm dịch tả cao, hoặc nhóm “2” nếu a >
Mô hình sử dụng các đặc trưng thống kê cơ bản bao gồm mean, min, max, variance, standard deviation để tách các đặc trưng của chuỗi dữ liệu đầu vào như sau:
1 Mean:
1
N
trong frame S.N là độ dài của S
N
2 1
1
4 Min: giá trị nhỏ nhất trong Si
5 Max: giá trị lớn nhất trong Si
Mô hình đề xuất sử dụng bộ phân loại Rừng ngẫu nhiên đề xuất bởi L Breiman và A Cutler [5] với công cụ Weka phiên bản 3.7 [21] để phân loại và đánh giá mức độ ảnh hưởng của các tham số của mô hình, các biến số khí hậu, thời tiết đến hiệu năng của mô hình Các độ đo: độ chính xác (Precision), độ bao phủ (Recall) và độ đo F được lấy trung bình trên các lớp, áp dụng theo phương pháp kiểm tra chéo 4 lần (4-folds cross-validation)
Trang 3IV THỰC NGHIỆM VÀ KẾT QUẢ
Trong phần này, chúng tôi thực hiện thử nghiệm mô hình với
các dữ liệu các dữ liệu về thời tiết, dân số được cung cấp bởi
các cơ quan, gồm Viện nghiên cứu khí tượng thủy văn, Tổng
cục dân số và Viện khoa học và môi trường Dữ liệu cụ thể bao
gồm: số dân của 29 quận huyện trong thành phố Hà Nội, từ
năm 2007 đến năm 20 0; diện tích, mật độ dân số của từng
quận huyện Các thông số thời tiết bao gồm: nhiệt độ trung
bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ
ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất trong ngày,
trung bình số giờ nắng trong ngày, tốc độ gió và chỉ số biến đổi
khí hậu SOI (ENSO) Về số liệu thống kê bệnh nhân tả được
cung cấp bởi Trung tâm y tế dự phòng Hà Nội: năm 2007 có
79 ca, năm 2008 có 2057 ca, năm 2009 có 89 ca và năm
2010 có 251 ca Với mục đích đánh giá ảnh hưởng của các
tham số (kích cỡ cửa số trượt, độ chồng lấn cửa sổ, các tham số
khí hậu, trễ thời gian) lên mô hình dự báo đề xuất và tìm ra
thuật toán cho kết quả phân lớp chính xác cao nhất, chúng tôi
tiến hành các thực nghiệm sau: ( ) Đánh giá ảnh hưởng của
kích cỡ cửa sổ trượt, (2) Đánh giá ảnh hưởng của độ chồng lấn
frame, (3) Đánh giá ảnh hưởng của tập các đặc trưng, (4) Đánh
giá ảnh hưởng của các biến số, (5) Đánh giá ảnh hưởng của độ
trễ thời gian và (6) Thử nghiệm mô hình dự báo với một số
thuật toán phân lớp Với mỗi thử nghiệm độ đo F được tính
toán làm cơ sở cho các phân tích, so sánh
1 Ảnh hưởng của kích cỡ cửa sổ trượt
Thực nghiệm được thực hiện với các kích cỡ cửa sổ trượt
khác nhau (7, 14, 22 và 30 ngày) và tham số độ chồng lấn là
50% Ngoài ra, các biến số về khí hậu được xem xét bao gồm:
nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng
lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất,
trung bình số giờ nắng trong ngày, tốc độ gió và ENSO Dữ
liệu tả đầu vào được gán nhãn gồm 3 loại: không có dịch, mức
dịch tả thấp và mức dịch tả cao, tương ứng với các giá trị a = 0;
0 < a ≤ 1; a > 1 Sử dụng phương pháp kiểm tra chéo 4 lần, các
dữ liệu huấn luyện đầu vào được dùng để tách đặc trưng, sau
đó các vector đặc trưng được sử dụng để huấn luyện sử dụng
bộ phân loại Random Forests Kết quả thu được cho trên Bảng
1 Từ kết quả thử nghiệm cho ở Bảng 1 ta thấy, với kích cỡ cửa
sổ trượt 14 ngày, mô hình cho kết quả các độ đo tốt nhất Trên
cơ sở này, chúng tôi lựa chọn cửa sổ trượt là 14 ngày cho các
thử nghiệm tiếp theo
Kích cỡ cửa sổ trượt Độ chính xác Độ bao phủ F1
Bảng 1: Ảnh hưởng của kích cỡ cửa sổ trượt tới các độ đo của mô hình
2 Ảnh hưởng của độ chồng lấn frame
Để đánh giá ảnh hưởng của độ chồng lấn giữa các frame kế tiếp nhau với hiệu năng hệ thống, nghiên cứu đã thực hiện thực nghiệm với các độ chồng lấn khác nhau, với kích cỡ cửa
sổ trượt là 4 ngày Độ chồng lấn giữa hai frame liền nhau có thể từ 0 đến 13 ngày/14 ngày Hình 2 thể hiện mức độ ảnh hưởng của độ chồng lấn tới hiệu năng của mô hình theo độ đo F1
0 1 2 3 4 5 6 7 8 9 10 11 12 13 0.6
0.65 0.7 0.75 0.8 0.85 0.9 0.95 1
Overlap (Ngày)
Hình 2 Ảnh hưởng của độ chồng lấn frame độ đo F1
3 Ảnh hưởng của tập đặc trưng
Tiến hành thực nghiệm với 2 trường hợp: có sử dụng tập đặc trưng thống kê (mean, variance, standard deviation, min, max) và chỉ sử dụng các giá trị thô ban đầu của các biến số về khí hậu Đối với trường hợp không sử dụng các đặc trưng thống kê mà chỉ sử dụng các giá trị thô (số giá trị của từng frame), thu được giá trị độ đo F là 0.902, còn khi sử dụng các đặc trưng thống kê nêu trên, giá trị F thu được cao hơn là 0.973
4 Ảnh hưởng của các biến số
Để xác định mức độ ảnh hưởng của từng biến số, chúng tôi loại dần các biến số ra khỏi tập dữ liệu ban đầu và đánh giá sự thay đổi của giá trị độ đo F so với tập đầy đủ các biến số Kết quả thu được cho ở Bảng 2
Nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp
Độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất 0.972
Bảng 2: Ảnh hưởng của các biến số đến độ đo F1
Trang 45 Thử nghiệm mô hình với biến số khí hậu hiện tại và mô
hình với các biến số khí hậu có độ trễ
Để đánh giá khả năng xuất hiện ca bệnh tả sau một khoảng
thời gian có tác động của các yếu tố thời tiết, khí hậu trong quá
khứ, chúng tôi tiến hành thử nghiệm mô hình với biến số khí
hậu khác nhau, từ đó đánh giá được ảnh hưởng yếu tố khí hậu,
thời tiết tới khả năng gây ra dịch tả sau các khoảng thời gian
tính theo tuần Kết quả thử nghiệm cho trên Bảng 3
F1 0.973 0.973 0.974 0.978 0.979 0.979 0.976
Bảng 3: Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới độ
đo F1
6 Thử nghiệm với một số bộ phân loại khác với mô hình
biến số khí hậu có độ trễ
Trong các thực nghiệm trên đã thực hiện, chúng tôi sử dụng bộ
phân loại là Random Forest [3] và đã đạt được độ chính xác
khá cao (giá trị cao nhất của F1 = 0.979 như cho trên Bảng 3)
Để có thêm căn cứ lựa chọn mô hình dự báo tối ưu cho bệnh tả
ở Hà Nội, chúng tôi tiến hành bổ sung một số thực nghiệm với
các bộ phân loại học máy phổ biến khác, nhằm so sánh khả
năng phân lớp của chúng Kết quả thực nghiệm so sánh giữa
các bộ phân lớp được trình bày trong Bảng 4
Trễ (tuần)
F
1
Random
Random
Multilayer
Bảng 4 Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ
biến
V BÀN LUẬN Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm
trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay
dự đoán xu hướng dữ liệu tương lai Các kết quả thử nghiệm
của nghiên cứu này là một minh chứng cho sự phù hợp của
phương pháp phân lớp ứng dụng trong dự báo bệnh dịch trong
lĩnh vực y tế Trong mô hình dự đoán bệnh dịch tả dựa trên
phương pháp phân lớp, các thử nghiệm đã được thực hiện
nhằm đánh giá độ chính xác của mô hình và ảnh hưởng của các
tham số
Các kết quả ở Bảng 1 và Hình 2 cho thấy kích cỡ cửa số
trượt và độ chồng lấn có ảnh hưởng đáng kể đến độ chính xác
phân lớp Cửa sổ trượt dài 4 ngày cho độ chính xác cao nhất
Khi độ chồng lấn nhỏ hơn 50% thì giá trị F có xu hướng tăng
dần, tuy có một số thời điểm giảm, nhưng khi độ chồng lấn
càng tăng thì giá trị F tăng ổn định, đạt giá trị lớn nhất là gần
0.973 với độ chồng lấn là 13 ngày
Khi sử dụng tập đặc trưng thống kê thì độ dài vector đặc trưng ngắn hơn (gồm 5 đặc trưng tương đương mỗi vector có
độ dài là 5) giúp cho thời gian huấn luyện cũng như thời gian
dự đoán của bộ phân loại nhanh hơn, làm tăng tính hiệu quả của tập đặc trưng thống kê khi thử nghiệm với mô hình đề xuất Giá trị độ đo F khi sử dụng tập đặc trưng thống kê cao hơn đáng kể so với khi không sử dụng tập đặc trưng này (0.973 so với 0.902)
Các kết quả ở Bảng 2 cho thấy các biến số khí hậu có ảnh hưởng đáng kể đến độ đo F Giá trị F1 thấp nhất là 0,966 và 0,969 khi loại bỏ cùng lúc cả 3 biến số về nhiệt độ và biến trung bình số giờ nắng Giá trị F1 cao nhất là 0,973 khi không loại bỏ biến nào
Kết quả ở Bảng 3 cho thấy khi sử dụng độ trễ thời gian là 8 tuần hoặc 10 tuần thì F1 có giá trị lớn nhất là 0.979 Khi không
sử dụng độ trễ hoặc sử dụng độ trễ 2 tuần thì F1 có giá trị nhỏ nhất là 0.973 Như vậy, yếu tố khí hậu, thời tiết trong quá khứ
có ảnh hưởng đến tỷ lệ mắc bệnh tả ở thành phố Hà Nội, và các yếu thời tiết từ 8 tuần hoặc 10 tuần trước đó ảnh hưởng nhiều nhất Kết quả này là tương đồng với những nghiên cứu được thực hiện ở Đông Phi, Tazania khi nghiên cứu thời gian bùng phát và các yếu tố khí hậu ảnh hưởng đến sự xuất hiện của bệnh tả [14-20]
Kết quả trong Bảng 4 cho thấy khả năng phân lớp tốt nhất trong tất cả các trường hợp là của thuật toán Random Forests trong trường hợp trễ 6 tuần, và 1-NN trong trường hợp trễ 10 tuần, cùng với giá trị F1=0.981 1-NN là bộ phân lớp đơn giản, tốc độ nhanh và không phụ thuộc vào tham số Ưu điểm của thuật toán Random Forests so với các thuật toán phân lớp khác
là tốc độ cao, độ chính xác cao, chống nhiễu tốt và đặc biệt là hiếm khi rơi vào tình trạng “quá vừa” (overfit) [7, 8, 9] Như vậy, cả 2 thuật toán Random Forests và 1-NN đều có thể được chấp nhận cho xây dựng mô hình dự báo tả tại Hà Nội
VI KẾT LUẬN Nghiên cứu đã đề xuất mô hình sử dụng học máy phân lớp thống kê để dự báo dịch tả tại Hà Nội dựa trên việc phân tích
dữ liệu về các ca bệnh trong nhiều năm liên tiếp và các mối liên hệ với các yếu tố thời tiết, khí hậu Các thực nghiệm đã được thực hiện để xem xét ảnh hưởng của các tham số như kích cỡ cửa sổ trượt, mức độ chồng lấn giữa các khung dữ liệu liên tiếp nhau, các loại đặc trưng thống kê, các yếu tố thời tiết, khí hậu và ENSO với kết quả giá trị phân lớp a = 0; 0 < a <= 1; a > 1 Kết quả thu nhận được cho thấy các tham số này đều
có ảnh hưởng đối với hiệu năng của mô hình Các yếu tố thời tiết có ảnh hưởng quan trọng nhất tới việc dự báo là các biến
số về nhiệt độ trung bình, trung bình số giờ nắng và ENSO Ngược lại, các yếu tố hầu như không ảnh hưởng tới kết quả dự báo là độ ẩm Các kết quả thực nghiệm cũng chỉ ra rằng các yếu tố khí hậu trong quá khứ có ảnh hưởng quan trọng tới mô hình ở các thời điểm 4, 8 và 10 tuần Dựa trên các kết quả thực nghiệm thu được, có thể khẳng định hai thuật toán tối ưu nhất được đề xuất để sử dụng cho mô hình dự báo trên thực tế là
1-NN và Random Forests, với độ chính xác dự báo tỷ lệ mắc bệnh tả đạt khoảng 98%
Để tăng độ tin cậy của kết quả thực nghiệm trước khi có thể triển khai ứng dụng trong công tác dự báo bệnh dịch tả, nhóm
Trang 5nghiên cứu dự kiến sẽ tiếp tục thử nghiệm mô hình với các dữ
liệu ca bệnh trong một thời gian dài hơn nữa và bổ sung thêm
các yếu tố khác, như môi trường, điều kiện sống và dân trí
trong khu vực nghiên cứu
TÀI LIỆU THAM KHẢO
1 X Wu (2008) “Top 10 algorithms in data mining,” Knowl Inf
Syst., vol 14, no 1, pp 1–37, 2008
2 C J C Burges, “A tutorial on support vector machines for
pattern recognition,” Data Min Knowl Discov., vol 2, no 2,
pp 121–167, 1998
3 L Breiman, “Random forests,” Mach Learn., vol 45, no , pp
5–32, 2001
4 C M Bishop, Pattern recognition and machine learning
Springer, 2006
5 N S Altman, “An introduction to kernel and nearest-neighbor
nonparametric regression,” Am Stat., vol 46, no 3, pp 175–
185, 1992
6 C.-W Hsu, C.-C Chang, C.-J Lin, and others, “A practical
guide to support vector classification.” 2003.
7 L Breiman, J Friedman, C J Stone, and R A Olshen,
Classification and regression trees CRC press, 1984
8 Caruana, R.; Niculescu-Mizil, A (2006) An empirical
comparison of supervised learning algorithms Proc 23rd
International Conference on Machine Learning Cite SeerX:
10.1.1.122.5901
9 Russell, Stuart; Norvig, Peter (2003) Artificial Intelligence: A
Modern Approach (2nd ed.) Prentice Hall ISBN
978-0137903955
10 J Gray, Data mining – Concepts and Techniques, Chapter 7 –
Classification and Prediction series, Morgan Kaufmann
Publishers, August 2000
11 T Michell, Machine Learning, McGraw Hill, 1997
12 Duda RO, Hart PE, Stork DG (2001) Pattern classification (2nd
edition) New York: Wiley
13 Fred Brauer, Pouline Van de Driessche and Jianhoo Wu,
Mathematical Epidemiology, Springer, 2008
14 J Wang and S Liao, A generalized cholera model and
epidemic- endemic analysis, Hournal of Biological Dynamics,
p.568-589, 2012
15 Y Yue, J Gong, D Way, B Kan, B Li and C Ke, Influence of
Climate factors on Vibro cholera dynamics in the Pearl River estuary, South China, World J Microliol Biotechnol, 2014
16 R.C Rainer, A King, M Emch, M Yunus, S.G Faruque and
M Paucula, Highly localized sensitivity to climate forcing drives endemic cholera in a megacity, Proc.Nalt Âcd Sci
U.S.S, 109,2033-2036, 2012
17 Z Mukandavire, S Liao, J Wang, H Gaff, D.L Smith, and
J.G Morris, Estimating the reproductive numbers for the 2008–
2009 cholera outbreaks in Zimbabwe, Proc Natl Acad Sci 108
(2011), pp 8767–8772
18 R Reyburn, D R Kim, M Emch và các cộng sự (2011),
"Climate variability and the outbreaks of cholera in Zanzibar,
East Africa: a time series analysis", Am J Trop Med Hyg, 84(6),
tr 862-9
19 Sara L M Trærup;Ramon A Ortiza;Anil Markandya (2011),
"The Costs of Climate Change: A Study of Cholera in
Tanzania", International Journal of Environmental Research
and Public Health, 8, tr 4386-4405
20 Michael Emch et al (2008), "Seasonality of cholera from 1974
to 2005: a review of global patterns", International Journal of
Health Geographics, 7(31)
21 Bộ công cụ học máy Weka, www.cs.waikato.ac.nz/ml/weka/, University of Waikato, truy nhập tháng 8.2015