BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP DỰ BÁO TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊC
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI
LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP DỰ BÁO TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊCH TẢ
TẠI HÀ NỘI
DƯƠNG QUỐC HUY
HÀ NỘI - 2018
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
DƯƠNG QUỐC HUY
CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.01 8
TS LÊ VĂN PHÙNG
HÀ NỘI – 2018
Trang 3LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận văn này là kết quả nghiên cứu của bản
thân Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu rõ nguồn
gốc một cách rõ ràng trong danh mục tài liệu tham khảo được đề cập ở phần sau của
luận văn Những đóng góp trong luận văn là kết quả nghiên cứu của tác giả đã được
công bố trong các bài báo của tác giả ở phần sau của luận văn và chưa được công bố
trong bất kỳ công trình khoa học nào khác
Hà Nội, tháng 11 năm 2018 Tác giả luận văn
Dương Quốc Huy
Trang 4Xin chân thành cảm ơn lãnh đạo Trường Đại học mở Hà Nội đã tạo điều kiện giúp đỡ tôi về mọi mặt trong suốt thời gian học tập tại trường cũng như thời gian thực hiện luận văn
Tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, người thân, bạn bè, đồng nghiệp những người luôn động viên, khuyến khích và giúp đỡ để tôi có thể hoàn thành tốt nội dung nghiên cứu
Tôi xin chân thành cảm ơn !
Hà Nội, tháng 11 năm 2018 Tác giả luận văn
Dương Quốc Huy
Trang 5MỤC LỤC
PHẦN MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục tiêu nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 3
5 Kết cấu luận văn 3
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4
VÀ BÀI TOÁN DỰ BÁO 4
1.1 Tổng quan về khai phá dữ liệu 4
1.1.1 Các vấn đề chung nhất về khai phá dữ liệu 4
1.1.2 Tổng quan về phân loại và dự đoán trong khai phá dữ liệu 6
1.1.3 Tổng quan về mô hình dự báo dịch bệnh 7
1.1.4 Dự báo dịch bệnh với mô hình toán học về dịch tễ học Error! Bookmark not defined. 1.1.5 Dự báo dịch bệnh dựa trên khai phá dữ liệu 8
1.1.6 Tổng quan về tả và dịch tả 12
CHƯƠNG 2: CÁC PHƯƠNG PHÁP DỰ BÁO TRONG 17
KHAI PHÁ DỮ LIỆU 17
2.1 Các phương pháp dự đoán 17
2.1.1 Các mô hình điển hình về hồi quy 17
2.1.2 Kiểm thử trong hồi quy 17
2.2 Phương pháp phân lớp 18
2.2.1 Phân lớp kiểu Bayes 18
2.2.2 Phân lớp dựa trên các quy tắc IF-THEN 20
2.2.3 Phân lớp bằng các luật kết hợp 20
2.2.4 Phân lớp theo các thuật toán di truyền 22
2.2.5 Phân lớp theo cách tiếp cận tập thô 23
2.2.6 Phân lớp theo cách tiếp cận tập mờ 24
2.3 Một số mô hình học máy điển hình trong dự báo 25
2.3.1 Hồi quy tuyến tính .26
2.3.2 K láng giềng .26
Trang 62.3.3 Cây quyết định 27
2.3.4 Bagging 31
2.3.5 Rừng ngẫu nhiên 32
2.3.6 Máy học vector hỗ trợ .40
2.3.7 Nạve Bayes Error! Bookmark not defined CHƯƠNG 3: ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI 44
3.1 Bài tốn dịch tả tại Hà Nội 44
3.2 Dữ liệu 45
3.3 Phương pháp thực hiện 46
3.4 Cách đánh giá 47
3.5 Thực nghiệm và kết quả 47
3.5.1 Kết quả thực nghiệm phân loại theo cách thứ nhất .48
3.5.2 Kết quả thực nghiệm phân loại theo cách thứ hai 54
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61
TÀI LIỆU THAM KHẢO 62
Trang 7DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
ENSO El Nino Southern Oscillation
KDD Knowledge Discovery from Data Phát hiện tri thức từ dữ liệu
SVM Support Vector Machines Máy học vector hỗ trợ
Trang 8DANH SÁCH BẢNG
Bảng 3.1 Mô tả các đặc trưng thống kê 47
Bảng 3.2 Ảnh hưởng của kích cỡ cửa sổ trượt tới hiệu năng hệ thống 48
Bảng 3.3 Độ ảnh hưởng của các biến số tới hiệu năng hệ thống 51
Bảng 3.4 Độ ảnh hưởng của biến số ENSO tới hiệu năng của hệ thống 52
Bảng 3.5 Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới hiệu năng hệ thống 52
Bảng 3.6 Bảng ma trận lỗi phân lớp 53
Bảng 3.7 Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ biến 54
Bảng 3.8 Ảnh hưởng của kích cỡ cửa sổ trượt tới hiệu năng hệ thống 55
Bảng 3.9 Độ ảnh hưởng của các biến số tới hiệu năng hệ thống 57
Bảng 3.10 Độ ảnh hưởng của biến số ENSO tới hiệu năng của hệ thống 57
Bảng 3.11 Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới hiệu năng hệ thống58 Bảng 3.12 Bảng ma trận lỗi phân lớp 59
Bảng 3.13 Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ biến 60
Trang 9DANH SÁCH HÌNH
Hình 1.1: Các lĩnh vực liên quan đến DM và KDD 5
Hình 1.2: Quá trình chuyển đổi tỷ lệ dương tính 8
Hình 1.3: Kiến trúc hệ thống BioCaster 10
Hình 1.4: Mô hình phân cấp về lan truyền dịch tả trong môi trường 13
Hình 2.1: Hồi quy tuyến tính 26
Hình 2.2: Giải thuật kNN 27
Hình 2.3: Cây quyết định học từ dữ liệu cho phép dự báo cho Golf 28
Hình 2.4: Giải thuật Bagging của cây quyết định 31
Hình 2.5: Phương pháp phân lớp random forest 35
Hình 2.6: Giải thuật rừng ngẫu nhiên .39
Hình 2.7: Rừng ngẫu nhiên 40
Hình 2.8: Phân lớp tuyến tính với học máy vector hỗ trợ 41
Hình 2.9: Hồi quy với máy học vector hỗ trợ 42
Hình 3.1 Sơ đồ thực hiện của hệ thống dự báo dịch tả dựa trên phân loại tình trạng bệnh theo tháng 46
Hình 3.2 Ảnh hưởng kích cỡ khung cửa sổ trượt tới hiệu năng hệ thống 49
Trang 10PHẦN MỞ ĐẦU
1 Tính cấp thiết của đề tài
Dự báo trong y tế đã và đang được ứng dụng rộng rãi ở nhiều nước trên thế giới, thu hút sự chú ý của các nhà nghiên cứu, các nhà quản lý, hoạch định chính sách, những người cung cấp và sử dụng dịch vụ y tế Dự báo là một hoạt động thường xuyên có tính tất yếu của các cá nhân và tổ chức nhằm dự báo (dự đoán) các thông tin chưa biết trên cơ sở các thông tin đã biết Trong lĩnh vực y tế và chăm sóc sức khỏe chứa đựng một lớp rộng lớn các bài toán dự báo với phạm vi dự báo ở nhiều cấp độ từ tỉnh, quốc gia, thế giới Chính vì vậy dự báo dịch bệnh luôn nhận được sự quan tâm của cộng đồng nghiên cứu Nhằm góp phần ngăn chặn dịch bệnh phát triển, đã có nhiều nghiên cứu liên quan, trong đó dự báo sớm là một biện pháp góp phần đáng kể Kết quả từ các nghiên cứu dự báo dịch bệch là bằng chứng cho việc lập kế hoạch và quản lý các hoạt động chăm sóc sức khỏe Chính vì vậy dự báo
đã được coi là công cụ cho các nhà quản lý Cùng với sự phát triển nhanh chóng của khoa học công nghệ, nhiều phương pháp và kỹ thuật mới đã được sử dụng cho dự báo Trong đó, mô hình dự báo bằng phương pháp học máy là một trong những kỹ thuật tiên tiến đang có xu hướng áp dụng rộng rãi Trong bối cảnh thực hiện các nghiên cứu với sự hạn chế về thời gian và nguồn lực, sử dụng mô hình học máy trong dự báo dịch bệnh là một phương pháp thích hợp, giải quyết được tính phức tạp và không chắc chắn của các kết quả phân tích tạo cơ sở cho ra quyết định Ở Việt Nam, ứng dụng học máy trong dự báo vẫn là một lĩnh vực non trẻ Số lượng các chuyên gia về lĩnh vực này cũng như các nghiên cứu ứng dụng các phương pháp dự báo dịch bệnh trong y tế còn hạn chế trong khi nhu cầu cần bằng chứng trong xây dựng các chương trình, chính sách y tế đang ngày càng gia tăng
Ngày nay, các bệnh truyền nhiễm tuy không còn giữ vai trò "độc tôn" và đang có xu hướng giảm trong cộng đồng, nhưng dưới tác động của nhiều yếu tố như khí hậu, môi trường và ý thức con người, nhiều bệch dịch truyền nhiễm đã được thanh toán trước đây, nay tái xuất hiện và cùng với đó, nhiều bệch dịch mới nổi lên,
Trang 11đặc biệt ở các vùng chịu ảnh hướng của biến đổi khí hậu và đời sống kinh tế còn nghèo Chính vì vậy việc tìm hiểu nguyên nhân dịch bệnh đã không còn gói gọn trong việc phát hiện căn nguyên vi sinh vật, mà mở rộng ra cho nhiều loại yếu tố tự nhiên, xã hội và sinh học có các mức độ liên quan với số ca mắc bệnh trong cộng đồng Ngoài việc phát hiện ra căn nguyên và các yếu tố ảnh hưởng, cần có các mô hình được xây dựng bằng các kỹ thuật khác nhau nhằm cảnh báo dịch bệnh sớm giúp giảm thiểu nguy cơ, tổn thất xảy ra cho con người dựa vào các thông số về tự nhiên, môi trường, hành vi, thói quen trong cộng đồng Trong những năm gần đây,
sự sẵn có và ngày càng tăng nguồn dữ liệu, đặc biệt là dữ liệu khí hậu - thời tiết từ các cảm biến từ xa và những dữ liệu phân tích lại, cũng như sự phát triển trong việc
dự báo đã mang lại cơ hội mới cho phân tích và dự báo dịch bệnh trong ngành y tế Chính vì vậy việc nghiên cứu tìm hiểu các kỹ thuật xây dựng mô hình dự báo dịch bệnh với mối liên quan của các yếu tố khí hậu tới sự xuất hiện và lan truyền dịch bệnh là rất cần thiết
2 Mục tiêu nghiên cứu
- Tổng quan được các phương pháp dự báo trong khai phá dữ liệu
- Thực nghiệm dự báo dịch tả tại Hà Nội
3 Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu
- Một số phương pháp dự báo trong khai phá dữ liệu
- Một số các thuật toán và kỹ thuật học máy áp dụng trong dự báo
- Dịch Tả và các yếu tố khí hậu ảnh hưởng đến dịch tả tại Hà Nội
- Hệ thống dự báo dịch tả
Phạm vi nghiên cứu
- Giới hạn về không gian nghiên cứu: Địa bàn thành phố Hà Nội
- Giới hạn về thời gian nghiên cứu: khảo sát, thu thập dữ liệu về dịch tả và các yếu tố khí hậu giai đoạn từ 2007 đến 2010
Trang 124 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý luận: Đọc tài liệu, thu thập, phân tích tài liệu để
thu thập thông tin và hệ thống hóa các công trình nghiên cứu khoa học có liên quan
5 Kết cấu luận văn
Với đề tài “Nghiên cứu một số phương pháp dự báo trong khai phá dữ liệu và ứng dụng dự báo dịch tả tại Hà Nội” Học viên dự kiến thực hiện các nội
dung nghiên cứu chính theo kế hoạch như sau:
Chương 1: Tổng quan về khai phá dữ liệu và bài toán dự báo
Chương 2: Các phương pháp dự báo trong khai phá dữ liệu
Chương 3: Ứng dụng dự báo dịch tả tại Hà Nội
Trang 13CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
VÀ BÀI TOÁN DỰ BÁO 1.1 Tổng quan về khai phá dữ liệu
1.1.1 Các vấn đề chung nhất về khai phá dữ liệu
Theo bách khoa toàn thư, khai phá dữ liệu (DM) là khâu chủ yếu trong quá trình phát hiện tri thức từ dữ liệu để trợ giúp cho việc làm quyết định trong quản lý
DM sử dụng nhiều phương pháp của phân tích thống kê, của lý thuyết nhận dạng, của các hệ học, các mạng nơ-ron nhân tạo nhằm phát hiện các mẫu hình tri thức trực tiếp từ các kho dữ liệu DM và phát hiện tri thức là những nghiên cứu mới trong tổ chức và khai phá các hệ thống thông tin và trợ giúp quyết định
Thuật ngữ DM do Fayyad Smyth và Piatestky-Shapiro đề xuất năm 1989 Có rất nhiều định nghĩa khác nhau về DM đã được đưa ra Theo nghĩa đơn giản nhất,
DM là việc trích lọc tri thức từ một lương lớn dữ liệu Nó còn có một số tên gọi khác nhau như “trích chọn tri thức”, “phân tích dữ liệu/ mẫu”, “khảo cổ dữ liệu”,
“nạo vét dữ liệu”,…
Giáo sư Tom Mitchell đã đưa định nghĩa về DM như sau: “DM là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lại” Với một cách tiếp cận thực tế hơn, tiến sĩ Fayyed đã phát biểu:
“DM thường được xem là việc khám phá tri thức trong các CSDL, là một quá trình xuất những thông tin ẩn, trước đây chưa biết và có khả năng là hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong CSDL” Các nhà thống kê thì xem “ DM như
là một quá trình phân tích được thiêt kế thăm dò một lượng lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hóa các kết quả tìm được bằng cách áp dụng các mẫu
đã phát hiện được cho tập con mới của dữ liệu”
Nói chung, DM là cốt lõi của quá trình phát hiện tri thức Nó gồm có các thuật giải DM chuyên dùng, một số quy định về hiệu quả tính toán chấp nhận được DM nhằm tìm ra những mẫu mới, mẫu có tính chất không tầm thường, những thông tin tiềm ẩn mang tính dự đoán chưa được biết đến và có khả năng mang lại lợi ích Nói gọn hơn, DM là việc tìm kiếm các kiến thức/các mẫu hấp dẫn trong kho dữ liệu
Trang 14DM là hoạt động trọng tâm của quá trình phát hiện tri thức
Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành và lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê, máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán toán học, tính toán song song với tốc độ cao, thu thập cơ sở tri thức cho hệ chuyên gia, Trong đó phát hiện tri thức
từ dữ liệu (KDD) và DM rất gần gũi với lĩnh vực thống kê, dựa nhiều vào nền tảng
lý thuyết của nó, cũng như tạp trung vào kiểm định những giả thiết, sử dụng các phương pháp thống kê để phát hiện ra các mẫu, các luật bên trong dữ liệu KDD và
DM cũng liên quan chặt chẽ đến máy học, dưa nhiều vào heuristics (phương pháp giải quyết vấn đề bằng cách đánh giá kinh nghiệm, tìm giải pháp qua thử nghiệm và cải tiến) và tập trung vàocải tiến hiệu quả của giải thuật học Kho dữ liệu và các công cụ phân tích trực tuyến cũng liên quan chặt chẽ đến KDD và DM [1]
Hình 1.1: Các lĩnh vực liên quan đến DM và KDD
Khoa học, Thống kê, Xác suất
Phương pháp hiển thị
Công nghệ
cơ sở dữ liệu
Máy học
Trí tuệ nhân tạo
Khoa học kinh tế
Khoa học thông tin
DM và KDD
Trang 151.1.2 Tổng quan về phân loại và dự đoán trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên ngành, chịu sự tác động của nhiều ngành kiến thức Trước hết, do phụ thuộc vào cách tiếp cận khai phá dữ liệu đã sử dụng dẫn tới việc phải dùng các kỹ thuật của nhiều ngành khác chẳng hạn như là mạng nơ-ron, tập mờ, lý thuyết tập thô, việc trình diễn tri thức, chương trình quy nạp logic, Tiếp đó, do phụ thuộc vào loại dữ liệu được khai phá hoặc ứng dụng khai phá dữ liệu triển khai nên hệ thống kahi phá dữ liệu phải tích hợp các kỹ thuật từ các phân tích dữ liệu không gian, trích rút thông tin, nhận biết mẫu, phân tích ảnh,
xử lý tín hiệu, đồ họa vi tính, công nghệ web, kinh tế, thương mại, tin sinh học hoặc triết học [1]
Nhờ việc đóng góp của nhiều ngành kiến thức khác nhau cho khai phá dữ liệu nên việc nghiên cứu khai phá dữ liệu đã đượckỳ vọng sinh thành một lượng phong phú các hệ thống khai phá dữ liệu Do vậy cần phải phân định rõ ràng các hệ thống khai phá dữ liệu có khả năng giúp người sử dụng phân biệt rõ ràng và xác định việc kết nối tốt nhất với nhu cầu của họ Các hệ thống khai phá dữ liệu có thể phân loại theo các tiêu chuẩn khác nhau như sau [1]:
Theo loại của CSDL đã khai phá
- Các mô hình dữ liệu (hệ thống khai phá dữ liệu quan hệ, hệ thống khai phá
dữ liệu giao dịch, hệ thống khai phá dữ liệu quan hệ - đối tượng, hệ thống khai phá
dữ liệu kho dữ liệu)
- Các kiểu dữ liệu đã xử lý (hệ thống khai phá dữ liệu không gian, hệ thống khai phá dữ liệu chuỗi thời gian, hệ thống khai phá dữ liệu văn bản, hệ thống khai phá dữ liệu dòng dữ liệu, hệ thống khai phá dữ liệu đa phương tiện, hệ thống khai phá dữ liệu Web)
- Các loại CSDL riêng cho mỗi ứng dụng
Theo loại của tri thức đã phát hiện
- Dựa trên các chức năng khai phá dữ liệu như đặc trưng hóa, tách lọc, kết hợp
và phân tích tương quan, phân loại dự đoán, phân cụm, phân tích ngoại lai, phân tích tiến hóa Một hệ thống khai phá dữ liệu toàn diện thường cung cấp đã chức năng hoặc tích hợp nhiều chức năng
Trang 16- Dựa trên hạt nhân hoặc tính trừu tượng của tri thức được khám phá bao gồm các tri thức tổng quát (ở mức trừu tượng cao), tri thức mức nguyên thủy (ở mức dữ liệu thô), hoặc tri thức ở mức đa tầng (xem xét một số mức trừu tượng) Một hệ thống khai phá dữ liệu liên tiến sẽ rất tiện cho việc phát hiện tri thức ở đa mức trừu tượng Các hệ thống khai phá dữ liệu cũng có thể được phân loại như những thứ mà các quy tắc khai phá dữ liệu (các mẫu xuất hiện một cách phổ biến) ngược với các bất quy tắc (loại trừ, ngoại lai)
Nói chung, các quy tắc khai phá dữ liệu mô tả khái niệm, sự kết hợp, phân tích tương quan, phân loại, dự đoán và phân cụm sẽ loại trừ được các phần tử ngoại lai, Các phương pháp này cũng có thể giúp cho việc khám phá các phân
tử ngoại lai
Theo loại kỹ thuật đã sử dụng
- Các kỹ thuật có thể được mô tả tùy theo mức độ tương tác sử dụng, ví dụ như các hệ tự trị, các hệ thống thăm dò tương tác
- Các hệ thống hướng truy vấn, hoặc các phương pháp phân tích dữ liệu đã sử dụng, ví dụ như các kỹ thuật hướng CSDL hay kho dữ liệu, máy học, thống kê, hiển thị, nhận dạng mẫu, mạng nơ-ron,
Một hệ thống khai phá dữ liệu phức tạp thường chấp nhận các kỹ thuật khai phá dữ liệu đa tạp hoặc trắc nghiệm một kỹ thuật tích hợp, hiệu quả trên cơ sở liên hợp nhiều cách tiếp cận riêng lẻ
Theo loại các ứng dụng đã thích ứng
- Các hệ thống khai phá dữ liệu có được trang bị riêng cho ngành tài chính, giao thông liên lạc, thị trường vốn, thư tín điện tử,
- Các ứng dụng khác nhau thường đòi hỏi sự tích hợp các phương pháp đặc
tả Do vậy, nhìn chung các hệ thống khai phá dữ liệu đa mục tiêu không thể có đủ các nhiệm vụ khai phá đặc trưng theo miền
1.1.3 Tổng quan về mô hình dự báo dịch bệnh
Mỗi một dịch bệnh có nguyên nhân bùng phát và các yếu tố liên quan khác nhau Mục tiêu của luận văn tập trung vào dự báo dịch tả nên các thông tin tổng quan đến mô hình dự báo cũng được tìm hiểu xung quanh các mô hình dự báo Tả
Trang 17Trong phần tiếp theo của luận văn sẽ lần lượt giới thiệu một số mô hình dự báo dịch bệnh điển hình đã được công bố trong những năm gần đây
1.1.4 Dự báo dịch bệnh dựa trên khai phá dữ liệu
Yujuan Yue và cộng sự [8] trình bày các mô hình dịch Tả (tỷ lệ dương tính với V.cholerae) theo tác động của các yếu tố khí hậu tại khu vực cửa sông Châu Giang, Trung Quốc Dữ liệu được lấy tại 24 điểm lấy mẫu (ký hiệu là Z1-Z24) thuộc 4 khu vực được giám sát nằm trong vùng 22-24 vĩ độ Bắc và 112-114 kinh độ Đông Dữ liệu về tỷ lệ dương tính với V.cholerae, nhiệt độ nước, độ pH, nhiệt độ bề mặt đất được Trung tâm giám sát và ngăn ngừa dịch bệnh Trung Quốc (Chinese Center for Disease Control and Prevention: China CDC) cung cấp theo từng điểm lẫy mẫu hàng tháng từ tháng 01/2008 tới tháng 12/2009 Dữ liệu về nhiệt độ không khí, lượng mưa, áp suất không khí, độ ẩm, số giờ nắng, tốc độ gió được thu thập hàng ngày từ hai trạm khí tượng Quảng Châu và Thẩm Quyến; sau đó được chuyển thành dữ liệu tháng
Hình 1.2: Quá trình chuyển đổi tỷ lệ dương tính
Mô hình dịch Tả (xem xét quan hệ của tỷ lệ dương tính với V.cholerae) theo mỗi yếu tố khí hậu tại điểm lấy mẫu (i, j) được cụ thể hóa bằng hai phương trình sau đây:
)(
)
, 1
,
t j t
j t
j t
j t
j t
j i t
j t
j i t
j t
C
(14) )]
()(
)(
)[(C i t1,j 1 C t,j C i t1,j 1 C t,j C i t1,j 1 C t,j C i t1,j 1 C t,j
md
1 , ) , ( 1 ) , ( 1
'
j t
j I t
j I t
Trang 18một cách đồng bộ tại mỗi nhịp thời gian Xem xét mô hình ảnh hưởng của nhiệt độ nước (các yếu tố khí hậu khác là hoàn toàn tương tự) tới dịch Tả Các quy tắc tính toán theo ô được thi hành theo các công thức (14) và (15), trong đó t1 là hệ số nhiệt
độ nước, m là hệ số chuyển giao V.cholerae giữa các ô lân cận và d là hệ số đường chéo theo sự khác biệt giữa chuyển giao V.cholerae giữa các ô đường chéo và chuyển giao V.cholerae giữa các ô lân cận
t j I
T (, )
và (1, )
t j I
T
là giá trị nhiệt độ nước tại
ô (i, j) tại các nhịp thời gian t và t+1, tương ứng C I t(,j)
và
1 ) , (
t j I
C
là các giá trị nồng
độ V.cholerae tại ô (i, j) tại các nhịp thời gian t và t+1, tương ứng C't I(1,j)
là giá trị kết luận về nồng độ V.cholerae tại ô (i, j) vào nhịp thời gian t+1 Giá trị các tham số t1, m, d được xác định qua hồi quy tuyến tính
Năm 2008, Nigel Collier và cộng sự [10] giới thiệu một hệ thống dựa trên một phương pháp phân tích một lượng lớn các truy vấn tìm kiếm Google để theo dõi dịch cúm trong cộng đồng Dựa trên lập luận tần số tương đối của các truy vấn nhất định có liên quan cao với số lần khám bệnh, với một bệnh nhân có các triệu chứng giống cúm có thể ước tính chính xác mức độ hiện thời trạng thái cúm hàng tuần tại mỗi khu vực của nước Mỹ, với một độ trễ báo cáo khoảng một ngày Ước tính cúm tức thời cho phép các nhà quản lý y tế công cộng và các chuyên gia y tế đáp ứng các dịch vụ tốt hơn Nếu một khu vực xuất hiện sự tăng mạnh số lượt khám bệnh thì khu vực đó cần được quan tâm để tập trung nguồn lực bổ sung để xác định nguyên nhân các ổ dịch, cung cấp dung lượng vaccine thêm hoặc nâng cao nhận thức truyền thông địa phương khi cần thiết Các tác giả nhận định rằng, dù cho kết quả nghiên cứu và hệ thống còn có một số hạn chế cũng như không thể thay thế được các hệ thống truyền thống, song việc phát hiện sớm được cung cấp bởi phương pháp có thể trở thành một kênh phòng thủ quan trọng phòng chống dịch cúm tương lai tại Mỹ, và có thể trên thế giới Hình 1.3 cung cấp mô hình kiến trúc khái quát hệ thống BioCaster giám sát dịch bệnh dựa trên dữ liệu phương tiện xã hội và để hoàn thành hệ thống đòi hỏi một nỗ lực lớn của một đội ngũ chuyên gia nhiều lĩnh vực, đặc biệt là xử lý ngôn ngữ tự nhiên và dịch tễ học
Trang 19Hình 1.3: Kiến trúc hệ thống BioCaster
Năm 2012, R Chunara và cộng sự [11] xây dựng một mô hình hỗ trợ dự báo sớm dịch Tả sử dụng dữ liệu từ Twitter Các tác giả nhận định rằng phân tích hồi cứu dựa trên dữ liệu báo cáo từ các nguồn y tế công cộng thường bị giới hạn về thời gian và các nguồn dữ liệu khác có thể cung cấp một cơ hội thu thập thông tin sớm
về cách thức một dịch bệnh đang diễn ra, và do đó tạo cơ hội cho việc thực hiện các biện pháp can thiệp kịp thời và hiệu quả hơn Ở đây, các tác giả sử dụng hai nguồn thông tin không chính thức từ HealthMap (http://www.HealthMap.org) và Twitter (http://www.twitter.com) cùng với nguồn thông tin chính thức từ Bộ Y tế công cộng (Ministère de la Santé Publique et de la Population: MSPP) Haiti Dữ liệu được thu thập trong thời gian 100 ngày, từ 20/10/2010 đến 28/01/2011 Các tác giả tập trung vào các khoảng thời gian bùng phát dịch bệnh, và phát hiện dữ liệu chuỗi thời gian phù hợp với một phân phối mũ Trong trường hợp chuỗi thời gian phân phối mũ ở đây, công thức đơn giản sau được sử dụng để tính toán số nhiễm bệnh dựa trên mô hình SIR:
Re = 1 + rTc
Trong đó, Tc = 1/b (b là tỷ lệ chuyển dịch từ nhiễm bệnh mô hình SIR) và r tốc độ tăng trưởng Kết quả cho thấy có mối tương quan cao xu hướng về khối lượng theo thời gian giữa dữ liệu không chính thức và dữ liệu chính thức trong giai đoạn đầu của một ổ dịch hoặc sự kiện có liên quan Hơn nữa, sự tương quan tốt nhất với độ trễ một ngày chứng tỏ khả năng sử dụng các dữ liệu không chính thức trong
Trang 20việc phát hiện sớm một ổ dịch để đạt được cái nhìn sâu sắc vào việc ước tính số nhiễm bệnh dịch Tả trong giai đoạn phát triển ban đầu của dịch bệnh Điều này càng
có ý nghĩa rất quan trọng để tiến hành các biện pháp kiểm soát dịch bệnh khi mà dữ liệu chính thức được công bố trễ hai tuần trong trường hợp dịch tả Haiti năm 2010 Các tác giả cũng cho rằng mô hình này có khả năng phù hợp với các bệnh dịch khác Tuy nhiên, R Chunara và cộng sự cũng chỉ ra một số hạn chế của phương pháp sử dụng dữ liệu phương tiện truyền thông dự báo dịch bệnh Thứ nhất, hạn chế
từ trình độ sử dụng phương tiện xã hội thấp kém ở những vùng dịch bệnh và điều này có thể được khắc phục trong tương lai Thứ hai, hạn chế về nhân khẩu học cung cấp dữ liệu cá nhân trên các phương tiện xã hội (ví dụ như blog, điện thoại di động, v.v.) Thứ ba, một sai lệch tiềm ẩn là thông điệp phương tiện xã hội có thể chứa các sai lệch do dựa trên các cảnh báo sai, tin đồn, hoặc báo cáo sai, đặc biệt là trong các tình huống của sự sợ hãi hoặc hoảng sợ Cuối cùng, độ tương quan giữa dữ liệu nguồn phương tiện xã hội với báo cáo chính thức vào khoảng thời gian cuối dịch bệnh là rất thấp
Ngoài ra còn tồn tại một số công trình nghiên cứu về khai phá phương tiện
xã hội ứng dụng vào y tế như Prieto VM và cộng sự [12], José Carlos Santos và Sérgio Matos [13], Yusheng Xie và cộng sự [14]
Ali và cộng sự [15] đã phân tích dữ liệu ca bệnh Tả tại Matlab, Bangladesh
t-ừ năm 1988 đến năm 2001 và rút ra kết luận: Số ca dịch tả tại Matlab chịu ảnh hưởng mạnh của nhiệt độ tại thành phố và nhiệt độ bề mặt nước biển Nghiên cứu này dự báo số ca mắc tả trên toàn vùng và sử dụng phương pháp phân tích chuỗi thời gian
R C Reiner và cộng sự [16]đã xây dựng mô hình dự báo số ca mắc tả trước
11 tháng tại Matlab Dữ liệu được sử dụng trong nghiên cứu này là các tham số khí tượng, chỉ số dao động Nam và số ca mắc tả của Matlab từ năm 1995 đến năm
2008 Chỉ số dao động phía Nam (SOI) và tình trạng ngập lụt ở Matlab là các yếu tố khí hậu cục bộ có ảnh hưởng lớn nhất đến số ca mắc tả Ngoài ra, nghiên cứu này đã
dự báo số ca theo đơn vị thanas và có một kết luận quan trọng là các thanas tại trung tâm Matlab có vai trò trong việc lây lan bệnh ra toàn thành phố Kỹ thuật xây dựng
mô hình dự báo được sử dụng trong nghiên cứu này là mô phỏng bằng mô hình xích
Trang 21Markov đa chiều không đồng nhất (Multidimensional Inhomogeneous Markov Chain – MDIMC)
Xu Min và cộng sự [17] sử dụng mô hình MaxEnt – một mô hình dựa trên mô hình kỳ vọng cực đại – để phân tích ảnh hưởng của khí hậu đến bệnh Tả ở Trung Quốc từ năm 2001-2008 Theo kết quả của nghiên cứu này, lượng mưa, nhiệt độ và
độ cao so với mặt biển có ảnh hưởng mạnh nhất tới số ca bệnh tả Khoảng cách tới bờ biển, độ ẩm tương đối và khí áp cũng có ảnh hưởng Tuy nhiên số giờ nắng và quá trình giảm mức nước sông hầu như không có ảnh hưởng đến số ca bệnh
1.1.5 Tổng quan về tả và dịch tả
Tả là một bệnh truyền nhiễm cấp tính do vi khuẩn tả Vibrio cholerae nhóm
huyết thanh O1 và O319 gây nên Bệnh lây theo đường tiêu hóa, chủ yếu do ăn phải thức ăn hoặc nước uống bị ô nhiễm vi khuẩn tả Bệnh tả lây lan nhanh và có khả năng gây thành dịch lớn với tỷ lệ mắc và tử vong cao, đặc biệt tại các nước đang phát triển Cho đến nay bệnh tả vẫn lưu hành ở nhiều quốc gia và khu vực, theo Tổ chức y tế thế giới số lượng các vụ dịch tả và số ca mắc tả có xu hướng tăng trong những năm gần đây, bệnh tả và tiêu chảy - là nguyên nhân đứng hạng thứ năm gây
tử vong trên toàn cầu, và đứng hạng thứ hai gây tử vong đối với trẻ em dưới năm tuổi [9]
Theo R.R Colwell [18] thuật ngữ bệnh tả ("cholera") có nguồn gốc từ tiếng Hy Lạp, được giải thích hoặc "cholera" là từ ghép của "chole" ("mật") và "rein " ("dòng chảy") có nghĩa là dòng chảy mật, hoặc là "máng xối của mái nhà" (các triệu chứng của bệnh tả-có thể đã gợi ý cho người Hy Lạp dòng chảy nặng của nước trên máng mái nhà trong cơn dông) Dù cho không tính đến các khu vực phát triển của thế giới, thì bệnh tả vẫn là một mối đe dọa lớn ở quy mô toàn cầu Bệnh tả có thể gây ra tình trạng mất nước nghiêm trọng và dẫn đến tử vong cho chủ thể nếu không được điều trị đúng cách thông qua bù nước Năm 1883, Rocbert Kock đã phân lập được
vi khuẩn tả từ phân người bệnh và từ niêm mạc ruột của những xác chết vì bệnh tả.Vi khuẩn tả Vibrio cholerae (V.cholerae) thuộc giống Vibrio, chúng có thể tồn tại lâu trong phân, đất ẩm, nước và thực phẩm Trong đất vi khuẩn tả có thể sống 60 ngày, trong phân 150 ngày, trên bề mặt thân thể 30 ngày, trong sữa 6 - 10 ngày, trên rau quả 7 - 8 ngày, trong nước 20 ngày
Trang 22Là một bệnh - gây ra bởi vi khuẩn V.cholerae - dịch tả có thể tấn công dữ dội
các quốc gia nghèo nàn về vệ sinh và thiếu thốn về cơ sở hạ tầng thoát nước và lương thực Trong những năm gần đây, cụ thể hơn là từ khi bắt đầu của thiên niên
kỷ mới, sự bùng phát dịch tả đã tàn phá khủng khiếp nhất tới các khu vực nghèo nhất và không ổn định nhất của thế giới, nơi cư trú một lượng lớn người dân phải chịu dựng một tần suất gặp và bị tổn thương bởi các sự kiện cực đoan (như bão) và thiên tai Kết quả là, các mẫu bệnh tả nổi lên chuyển từ các khu vực đặc hữu có tính lịch sử (ví dụ như khu vực Vịnh Bengal) tới các quốc gia nguyên sơ với bệnh trước đây - nhưng còn rất khó khăn - ở châu Phi và Trung và Nam Mỹ
Hình 1.4: Mô hình phân cấp về lan truyền dịch tả trong môi trường [9]
Hình 1.4 mô tả một mô hình phân cấp về lan truyền dịch tả trong môi trường, trong đó, các nhóm tác động lan truyền dịch tả là các ảnh hưởng mùa (seasonal effects), các biến đổi đa dạng khí hậu (Climate Variability), Các yếu tố kinh tế-xã hội, nhân khẩu học, vệ sinh môi trường của con người (Human Socioeconomics, demographics, sanitation) Mỗi nhóm tác động lan truyền dịch tả trên đây lại bao gồm rất nhiều yếu tố có thể mà mỗi một khu vực cụ thể tác động của mỗi yếu tố như vậy lại lớn/nhỏ khác nhau Điều đó có nghĩa là mỗi mô hình dự báo cho một trường hợp khu vực địa lý cụ thể cần xác định các yếu tố liên quan nhất tới hình thành và lan truyền dịch tả cũng như giá trị cụ thể của các tham số mô hình kết hợp với các yếu tố đó
Trang 23Dịch tả là một trong những bệnh dịch nhạy cảm nhất với các yếu tố biến đổi thời tiết - khí hậu và được coi như một hình mẫu về tác động của biến đối khí hậu tới các bệnh dịch [18] Nhiều công trình nghiên cứu về mối liên quan của biến đổi khi hậu với dịch tả đã được công bố, chẳng hạn [18], [19], [20], [21], [22]
Nghiên cứu của Rita R Colwell [18] được coi là một trong những công trình sớm nhất về tác động của biến đổi khí hậu tới dịch tả, được coi là hình mẫu về tác động của biến đổi khí hậu tới các bệnh dịch
Keya Chaudhuri và S.N Chatterjee [19] dựa trên bệnh tả nhận định bệnh tả về
cơ bản là một bệnh theo đường nước cho nên các cải tiến về vệ sinh y tế công cộng giữ vai trò chính để phòng ngừa hoặc thậm chí xóa bỏ căn bệnh tả, tuy nhiên, đối với nhiều nước đang phát triển và không giàu có, rất khó để đạt được cải thiện như vậy cho nên đặt ra nhu cầu rõ ràng về loại vắc xin có hiệu quả và có sẵn để điều trị
dễ dàng là giải pháp quan trọng và hiệu quả nhất
Colin D Butler [21] tổng hợp các tác động của biến đổi khí hậu đối với việc hình thành và bùng phát các dịch bệnh (nói chung) và dịch tả (nói riêng) Liên quan tới hình thành và bùng phát dịch tả, công trình nghiên cứu cho thấy:
- Biến đổi khí hậu có thể làm tăng tỷ lệ mắc tiêu chảy nhiễm trùng, do các nguyên nhân được công nhận, gồm có nhiệt độ tăng, giảm tiếp cận nguồn nước sạch do hạn hán và thiệt hại cho cơ sở hạ tầng nước và vệ sinh môi trường do lũ lụt
- Biến đổi khí hậu liên quan đến cả hai giai đoạn của ENSO đã ảnh hưởng đến tỷ lệ mắc các bệnh nhiệt đới và truyền nhiễm khác nhau đáng kể ở
Mỹ, bao gồm cả bệnh sốt rét, sốt xuất huyết, leishmaniasis (da và nội tạng), sốt vàng da, bệnh tả, tiêu chảy Biến đổi khí hậu hiện nay đang gây
ra sự gia tăng, kiên trì và tái xuất hiện của một số bệnh, bao gồm cả một
số từng được coi là loại bỏ, loại trừ hoặc kiểm soát Mối tương quan giữa bất thường tích cực ở nhiệt độ bề mặt nước biển kết hợp với El Nino và bệnh tả ở Peru, Ecuador, Colombia, Mexico và Venezuela cũng được nêu trong tài liệu
Trước năm 2005, chỉ có một vài trường hợp bệnh tả đã được báo cáo ở miền Bắc Việt Nam Tuy nhiên, vào cuối năm 2007, đã bùng phát dịch tả xảy ra tại khu
Trang 24vực này [23], [24], [25] Trường hợp đầu tiên của bệnh tả được báo cáo vào ngày 23/11/2007 tại Hà Nội, và đến ngày 11/4/2008, tổng số tích lũy đã là 3.271 trường hợp theo các báo cáo từ 18 tỉnh phía Bắc Việt Nam, trong đó Hà Nội chiếm đa phần người nhiễm bệnh Bùng phát dịch tả tại Việt Nam vào các năm 2007-2008 đã tạo động lực thúc đẩy việc tiến hành một số nghiên cứu về dịch tả ở Việt Nam [23], [26], [27]
Một sô các nghiên cứu về Tả được giới thiệu sơ bộ sau đây: Tiến hành phân tích 70 V.cholerae phân lập được thu thập từ các bệnh nhân và môi trường ở miền Bắc Việt Nam trong ba đợt Tả từ giữa tháng 11/2007 tới tháng 02/2008, Nguyễn Bình Minh và cộng sự [23] phát hiện vi khuẩn tả gây dịch tả ở đây là V.cholerae O1 Ogawa serotype Việc định danh vi khuẩn tả cho phép lựa chọn hữu hiệu các loại văc-xin và phương pháp điều trị phù hợp để phòng - chống dịch Tả
Nhóm nghiên cứu quốc tế của Michael Emch và cộng sự [27] công bố kết quả nghiên cứu về tác động của các yếu tố môi trường địa phương tới dịch Tả tại Bangladesh và Việt Nam Kết quả nghiên cứu của các tác giả cung cấp thêm minh chứng về sự hình thành bệnh Tả và mức độ dịch Tả có liên quan đến các yếu tố khí hậu địa phương Cụ thể ở Việt Nam, sự gia tăng nhiệt độ bề mặt nước biển có ảnh hưởng lớn nhất tới dịch tả ở Huế (trong các yếu tố Chiều cao sông 2 tháng gần nhất, Nhiệt độ bề mặt biển, Chiều cao bề mặt biển, Chiều cao bề mặt biển 2 tháng gần nhất, Lượng mưa 2 tháng gần nhất, Nhiệt độ, Nồng độ chất diệp lục biển, trong khi
đó, sự tăng chiều cao nước sông có một vai trò quan trọng ở Nha Trang (trong các yếu tố Lượng mưa hàng tháng, Chiều cao sông Cái, Chiều cao sông Dinh, Chiều cao sông Dinh hai tháng gần nhất, Xả nước sông Dinh, Nhiệt độ bề mặt biển, Nhiệt
độ, Nồng độ chất diệp lục biển)
Từ tháng 03/2011 tới tháng 05/2012, một đề tài nghiên cứu về dịch Tả được thực hiện tại tỉnh Bắc Ninh [3] Đề tài này đánh giá sự liên quan giữa các yếu tố môi trường - kinh tế - xã hội của các cộng đồng dân cư với tỷ lệ mắc, mô tả phân bố và lây truyền bệnh dịch tả dựa trên việc sử dụng hệ thống thông tin địa lý trên địa bàn tỉnh Bắc Ninh Đề tài cung cấp bằng chứng về sự liên quan giữa điều kiện địa lý, điều kiện kinh tế xã hội, vệ sinh môi trường (nhà nhiều ruồi, nguồn nước giếng đào, chuồng gia súc, hố xí, hệ thống thoát nước thải), thói quen (ăn rau sống - thức ăn
Trang 25chưa chín, sử dụng phân tươi trong trồng trọt), tập quán với việc mắc và lây tryền
bệnh dịch Tả trên địa bàn tỉnh Bắc Ninh, từ đó đề xuất một số biện pháp can thiệp
nhằm làm giảm tỷ lệ mắc và lây truyền dịch tả trên địa bàn tỉnh Bắc Ninh Tuy
nhiên, đề tài chưa đề cập tới các yếu tố biến đổi khí hậu tác động tới dịch tả cũng
như chưa đề cập tới việc mô hình hóa dự báo dịch tả Tóm lại ở Việt Nam, bệnh tả
vẫn diễn ra phức tạp, tại Hà Nội trong bốn năm từ 2007 đến 2010 bệnh tả liên tục
xuất hiện và không giống với các vụ dịch tả trước đây, dịch bệnh xảy ra cả trong
mùa đông, các ca bệnh xuất hiện tản phát trên diện rộng, có tính chất dồn dập vào
cùng một thời điểm, nhưng hầu như không có liên quan với nhau về mặt dịch tễ Vì
vậy công tác theo dõi giám sát và dự báo dịch để chuẩn bị sẵn sàng các biện pháp
đáp ứng phòng chống dịch trong thời gian sớm là vô cùng quan trọng
Trang 26CHƯƠNG 2: CÁC PHƯƠNG PHÁP DỰ BÁO TRONG
KHAI PHÁ DỮ LIỆU 2.1 Các phương pháp dự đoán
2.1.1 Các mô hình điển hình về hồi quy
Mô hình hồi quy được phân thành hai loại chính là hồi quy tuyến tính và hồi quy phi tuyến Một trường hợp riêng của lớp mô hình hồi quy phi tuyến là mô hình hồi quy loga tuyến tính, trong đó dữ liệu được thay thế bằng giá tri logarith của chúng thì phù hợp với mô hình hồi quy tuyến tính Xây dựng mô hình hồi quy tuyến tính cho giá trị logarithm, sau đó sử dụng hàm mũ để chuyển đổi giá trị kết quả trở
về giá trị dạng thông thường của dữ liệu
Các bộ công cụ phân tích dữ liệu, chẳng hạn như như bộ công cụ thương mại STATISTICA [43] hay bộ công cụ phần mềm tự do WEKA [44], R cũng có các thành phần thực thi các mô hình hồi quy điển hình
2.1.2 Kiểm thử trong hồi quy
Mô hình hồi quy hầu như bao giờ cũng có sai số vì hiện tượng tự nhiên và xã hội phụ thuộc quá nhiều yếu tố, diễn biến rất phức tạp, khó mà ước lượng hết được Để đánh giá, so sánh các phương pháp dự báo một cách định lượng, các chỉ số đánh giá
mô hình dự báo được sử dụng Dưới đây là một số chỉ số đánh giá thông dụng nhất:
(i) Sai số quân phương (Mean Square Error):
Trang 27n: Số lượng các điểm dữ liệu trong bộ dữ liệu kiểm thử
ˆ
i
Q : Giá trị tính toán tại điểm dữ liệu thứ i trong bộ dữ liệu kiểm thử
i
Q : Giá trị thực đo tại điểm dữ liệu thứ i trong bộ dữ liệu kiểm thử
Giá trị các chỉ số đánh giá này của một phương pháp dự báo càng nhỏ thì chứng tỏ rằng phương pháp dự báo đó càng tốt
Các chỉ số (1)-(3) là trực quan và dễ dàng tính toán song trong nhiều trường hợp khi dung lượng dữ liệu lớn hay dữ liệu có độ biến động cao thì các chỉ số này trở nên quá thô sơ Trong một số trường hợp, người ta còn sử dụng các chỉ số (4)-(5) sau đây tuy có độ phức tạp tính toán cao hơn song có thể khắc phục được hạn chế về tính thô sơ của các chỉ số (1)-(3):
(iv) Chỉ số hiệu quả - E (Coefficient of Efficiency)
n
i n i i
Q Q E
2.2 Phương pháp phân lớp
2.2.1 Phân lớp kiểu Bayes
Các phân lớp kiểu Bayes thuộc loại thống kê Chúng ta có thể dự đoán về khả năng là thành viên của lớp, như xác suất mà một bộ nhận được thuộc về một lớp nào đó Cách phân lớp kiểu Bayes dựa trên lý thuyết của Bayes Các nghiên cứu khi
so sánh các thuật toán phân lớp đã tìm ra một lớp Bayes đơn giản nổi tiếng như một
bộ phân loại bình dị (naive) để so sánh trong thực hành với cây quyết định và bộ phận loại mạng nơ-ron được chọn Các bộ phận loại Bayes cũng đạt độ chính xác và tốc độ cao khi dùng cho CSDL lớn [1]
Trang 28Các bộ phận loại bình dị thừa nhận rằng sự ảnh hưởng của một giá trị thuộc tính vào một lớp đã cho là độc lập với các giá trị của các thuộc tính khác Giả thiết này được gọi là “độc lập theo điều kiện của lớp” Nó được tạo ra để đơn giản tính toán, theo nghĩa này, được gọi là “bình dị” Các mạng Bayes là các mô hình đồ họa, không như các bộ phân loại Bayes bình dị, cho phép biểu diễn các phụ thuộc trong tập con các thuộc tính Các mạng Bayes có thể được sử dụng để phân lớp
Lý thuyết Bayes được đặt tên sau Thomas Bayes, một tu sĩ người Anh lập dị, người sớm tìm hiểu lý thuyết quyết định và xác suất ở thế kỷ VIII Cho x là một bộ
dữ liệu Theo thuật ngữ Bayes, x được xem là “bằng chứng” Thông thường nó được mô tả bằng các độ đo tạo trên một tập n thuộc tính Cho H là một số giả thiết, chẳng hạn như là bộ dữ liệu x thuộc về lớp C Đối với các vấn đề về phân lớp, chúng ta muốn xác định P(H/X), xác suất mà giả thiết H gán cho “bằng chứng” hoặc bộ dữ liệu X đã quan sát Nói khác đi, chúng ta tìm xác suất mà bộ X thuộc vào lớp C, dựa vào đó chúng ta biết về mô tả thuộc tính của X [1]
P(X/H) là xác suất của H điều kiện X Ví dụ, giả sử bộ dữ liệu được hạn chế trong phạm vi các khách hàng đã mô tả với các thuộc tính tuổi và thu nhập, X là khách 35 tuổi có thu nhập 40.000$ Giả sử H là giả thiết khách hàng sẽ mua một máy tính Lúc đó P(H/X) là xác suất mà khách hàng X sẽ mua một máy tính dựa trên việc chúng ta đã biết tuổi và thu nhập của khách hàng
Trái lại, P(H) là tiền xác suất của H Đối với ví dụ trên, đây là xác suất mà một khách hàng đã cho nào đó sẽ mua một máy tính, không quan tâm đến tuổi và thu nhập hoặc một thông tin nào khác Hậu xác suất P(H/X) dựa trên nhiều thông tin hơn (ví dụ như thông tin về khách hàng) so với thông tin tiền xác suất P(H) P(H) độc lập với X
Tương tự, P(H/X) là hậu xác suất của X xác định điều kiện trên H Đó là xác suất mà khách hàng X có tuổi 35 thu nhập 40.000$ sẽ mua một máy tính
P(X) là tiền xác suất của X Trong ví dụ của chúng ta, đó là xác suất mà một người trong tập khách hàng có tuổi 35 và thu nhập 40.000$
Việc ước lượng xác suất này như thế nào? P(X), P(X/H) và P(X) có thể được ước lượng từ dữ liệu đưa ra Lý thuyết của Bayes là có ích Nó cung cấp một cách tính hậu xác suất P(H/X) từ P(X), P(H/X) và P(X):
Trang 29( ⁄ ) ( ⁄ ) ( )
( )
2.2.2 Phân lớp dựa trên các quy tắc IF-THEN
Chúng ta nghiên cứu các cách phân loại dựa trên quy tắc ở nơi các mô hình học được trình diễn bằng một tập quy tắc IF-THEN Trước hết chúng ta xem các quy tắc nào được dùng để phân loại Sau đó chúng ta xét các cách có thể phát sinh hoặc từ cây quyết định hoặc trực tiếp từ những dữ liệu huấn luyện nhờ việc sử dụng một thuật toán “phủ thường xuyên”
Các quy tắc là một phương pháp tốt để trình diễn thông tin hoặc một lượng tri thức Một bộ phân loại dựa trên quy tắc sử dụng một tập các quy tắc IF-THEN để phân loại Một quy tắc IF-THEN là một biểu diễn dạng:
IF điều kiện THEN kết luận
Nếu điều kiện (tất cả các thuộc tính test) trong vế trái quy tắc đúng đối với một
bộ dữ liệu, ta nói chúng thỏa mãn (hay nói đơn giản là quy tắc đó thỏa mãn điều kiện trái) và nói rằng quy tắc đó phủ bộ đó
Cho bộ X, từ tập dữ liệu đã phân lớp có nhãn, gọi nphủ là số các bộ được phủ bởi quy tắc R, gọi nđúng là số các bộ thỏa mãn đúng quy tắc R, còn /D/ là số các bộ trong D Chúng ta có thể xác định độ phủ và độ đúng của quy tắc R như sau [1]:
bộ được phủ bởi quy tắc
Ngoài quy tắc IF – THEN, người ta còn sử dụng quy tắc khác nữa như quy tắc trích rút từ cây quyết định, quy tắc quy nạp nhờ sử dụng thuật toán phủ theo dãy,…
2.2.3 Phân lớp bằng các luật kết hợp
Các mẫu thường xuyên và các quy tắc tương quan hoặc kết hợp tương ứng của chúng đặc trưng cho các mối quan hệ thú vị giữa các thuộc tính điều kiện và các
Trang 30nhãn của lớp, do vậy chúng được dùng để phân loại rất hiệu quả Các luật kết hợp chỉ ra các kết hợp mạnh giữa các cặp giá trị thuộc tính (hoặc các chỉ mục) mà xảy ra thường xuyên trong tập dữ liệu cho trước Các luật kết hợp được dùng rộng rãi để phân tích các mẫu mua sắm của khách hàng trong một cửa hiệu Chẳng hạn việc phân tích có lợi trong nhiều quyết định – thực hiện xử lý, như là vị trí sản phẩm, thiết kế catalog và quảng cáo khuếch trương Việc phát hiện ra các luật kết hợp dựa trên việc khai phá tập mục thường xuyên Ở đây, chúng ta tìm hiêu sâu về việc phân loại kết hợp, nơi mà các luật kết hợp được phát sinh và được phân tích phục vụ mục đích phân loại Ý tưởng chung là chúng ta có thể tìm kiếm các kết hợp mạnh giữa các mẫu thường xuyên (các kết hợp của các cặp giá trị thuộc tính) và các nhãn lớp
Vì các luật kết hợp khai thác các kết hợp có độ tin cậy cao trong số nhiều thuộc tính, cách tiếp cận này có thể trở thành một số ràng buộc như trong cây quyết định
mà các xem xét chỉ 1 thuộc tính tại 1 thời điểm Trong nhiều trường hợp, việc phân loại theo kết hợp đã được tìm là chính xác hơn một số phương pháp phân loại truyền thông, như thuật toán C4.5… chúng ta sẽ xem xét 3 phương pháp chính là CBA, cmAR và CPAR [1]
Trước hết nhắc lại việc khai phá theo luật kết hợp nói chung Các luật kết hợp được khai phá theo tiến trình 2 bước bao gồm khai phá tập mục thường xuyên sau đó là việc sinh luật:
Bước thứ nhất, tìm các mẫu của các cặp giá trị thuộc tính mà xảy ra lặp đi lặp lại trong tập dữ liệu, nơi mà mỗi cặp giá trị thuộc tính được xem như một chỉ mục Các cặp giá trị thuộc tính kết quả có dạng các tập chỉ mục thường xuyên
Bước thứ hai, phân tích các tập chỉ mục thường xuyên để sinh luận kết hợp Tất cả các luật kết hợp phải thỏa mãn một số tiêu chuẩn “chính xác” (độ tin cậy) và
Trang 31Được gọi là độ ủng hộ R, nghĩa là 20% khách hàng trong D là trẻ, có thẻ tín dụng và có mua máy
Một trong những thuật toán sớm nhất và đơn giản nhất để phân loại theo thuật kết hợp là CBA (Classification – Based Association) CBA sử dụng một cách tiếp cận lặp tớiviệc khai phá tập mục thường xuyên, tương tự như mô tả đối với thuật toán Apriori Tập các luật cuối cùng thỏa mãn ngưỡng cực tiểu độ tin cậy và cực tiểu độ ủng hộ được tìm và được kết luận để kết luận trong bộ phân loại CBA sử dụng một phương pháp tự khám phá để cấu trúc bộ phân loại xếp quyền ưu tiên theo thứ tự giảm dần dựa trên độ ủng hộ và tin cậy của chúng Nói chung CBA được tìm theo kinh nghiệm và chính xác hơn thuật toán C4.5
CMAR (Classification based on Multiple Asociation Rule) khác CBA về mặt chiến thuật khai phá tập thường xuyên và cách xây dựng bộ phân lớp CMAR chấp nhận một phương án của thuật toán FP – growth để tìm tập các luật cuối cùng thỏa mãn các ngưỡng tối thiểu về độ tin cậy và độ ủng hộ FP-growth sử dụng một cấu trúc cây được gọi là FP – cây để đăng ký tất cả các thông tin của tập chỉ mục thường xuyên chứa đựng trong tập dữ liệu đã cho D Các tập mục thường xuyên được khai phá từ FP – cây CMAR sử dụng một FP – cây nổi bật nhằm duy trì phân
bố các nhãn lớp trong số các bộ thỏa mãn mỗi tập thường xuyên Theo cách này, cho phép sinh ra các luật tổ hợp cùng với việc khai phá tập mục thường xuyên trong một bước đơn
CBA và CMAR chấp nhận các phương pháp khai phá tập mục thường xuyên
để sinh ra các luật kết hợp ứng viên bao gồm tất cả các kết hợp các cặp (các tập mục) giá trị thuộc tính thỏa mãn cực tiểu độ ủng hộ Các luật này sau đó được kiểm tra và một tập con của nó được chọn để trình diễn bộ phân loại Tuy nhiên các phương pháp như thế sẽ sinh ra một lượng lớn các luật
Tiếp cận theo cách khác để sinh luật (CPAR – Classification base on Predicitive Asociation Rules) dựa trên một thuật toán phân lớp nổi tiếng như FOIL (First Order Inductive Learner) FOIL xây dựng các quy tắc để phân biệt các bộ chính diện (mua máy tính = yes) từ các bộ phản diện (mua máy tính = no) Đối với
đa lớp, FOIL được áp dụng cho từng lớp
2.2.4 Phân lớp theo các thuật toán di truyền
Trang 32Các thuật toán di truyền cố gắng hợp nhất các ý tưởng tiến hóa tự nhiên Đại thể, quá trình phân loại theo di truyền như sau Một quần thể khởi tạo được tạo ra bao gồm các luật được sinh ra tự nhiên Mỗi luật được biểu diễn bằng một chuỗi các bit Ví dụ đơn giản như sau: giả sử rằng các mẫu trong một tập huấn luyện cho trước được mô tả bởi 2 thuộc tính Boolean A1 và A2, hai lớp C1 và C2 Quy tắc “IF A1 AND NOT A2 THEN C2 có thể mã hóa bằng chuỗi bit “100”, ở đây 2 bit đầu biểu diễn thuộc tính A1 và A2, bit bên phải biểu diễn lớp (0) Tương tự quy tắc “IF NOT A1 AND NOT A2 THEN C1” có thể mã hóa bằng “001” Nếu một thuộc tính
có k giá trị, với k > 2, thì k bit có thể được sử dụng để mã hóa các giá trị của thuộc tính đó Các lớp có thể cũng được mã hóa ở dạng tương tự [1]
Dựa trên khái niệm “sống sót” của phần tử thích hợp nhất, một quần thể mới được hình thành bao gồm các quy tắc thích hợp nhất trong quần thể hiện tại là hậu thế của các quy tắc này Điển hình là các phần tử thích nghi của một quy tắc được đánh giá bởi tính chính xác phân loại của nó trên một tập mẫu huấn luyện
“Hậu thế” được tạo bằng việc áp dụng các toán tử di truyền như chuyển đổi và đột biến Trong chuyển đổi, các dãy con từ các cặp quy tắc được đổi thành dạng cặp các quy tắc mới Trong đột biến, các bit được chọn ngẫu nhiên trong chuỗi của quy tắc được đảo ngược
Các quá trình sinh ra các quần thể mới dựa trên các quần thể ưu tiên của các quy tắc liên tục cho đến khi một quần thể P tiến hóa, ở đây mỗi quy tắc trong P thỏa mãn một ngưỡng thích hợp đã mô tả
Các thuật toán di truyền xử lý dữ liệu động bộ và được sử dụng để phân loại giống như các bài toán tối ưu Trong khai phá dữ liệu, chúng có thể được dùng để
ước lượng sự thích hợp của các thuật toán khác
2.2.5 Phân lớp theo cách tiếp cận tập thô
Lý thuyết tập thô có thể được sử dụng để phân loại khám phá các mối quan hệ
có ý nghĩa cấu trúc với dữ liệu mơ hồ và hỗn loạn Nó dùng với các thuộc tính có giá trị rời rạc Các thuộc tính có giá trị liên tục do vậy phải được rời rạc hóa trước khi sử dụng
Lý thuyết tập thô được dựa trên việc thành lập các lớp tương đương trong giới hạn dữ liệu huấn luyện cho trước Tất cả các bộ dữ liệu hình thành một lớp tương
Trang 33đương là không phân biệt được Nghĩa là, các mẫu là đồng nhất đối với các thuộc tính mô tả trong dữ liệu Một số lớp không thể phân biệt được theo nghĩa các thuộc tính có thể chấp nhận Các tập thô có thể được dùng để xấp xỉ hoặc xác định các lớp
“thô” Một tập thô xác định trên lớp C được xấp xỉ bằng 2 tập – một xấp xỉ dưới của
C và một xấp xỉ trên tập C Tập xấp xỉ dưới của C gồm tất cả các bộ dữ liệu chắc chắn nằm trong C Tập xấp xỉ trên của C gồm tất cả các bộ không nói rõ là không thuộc C
Các tập thô cũng có thể được sử dụng để lựa chọn các tập con thuộc tính (loại
bỏ các thuộc tính không có ích cho việc phân loại) và phân tích Vấn đề là tìm các tập con cực tiểu các thuộc tính mà có thể mô tả đầy đủ các khái niệm trong tập dữ liệu Tuy nhiên các thuật toán giảm cường độ tính toán đã được dùng để lưu sự khác biệt giữa các giá trị thuộc tính đối với mỗi cặp các bộ dữ liệu Ngoài tập huấn luyện, người ta nghiên cứu nhiều hơn ma trận này để khám phá các thuộc tính dư thừa [1]
2.2.6 Phân lớp theo cách tiếp cận tập mờ
Các hệ thống dựa trên luật để phân loại có bất lợi đối với các thuộc tính liên tục Ví dụ, xét quy tắc sau đối với sự chấp thuận sử dụng thẻ tín dụng của khách hàng:
IF(năm công tác>=2) AND (thu nhập>=50000)
THEN thẻ tín dụng = được dùng
Theo quy tắc này, một khách hàng đã làm việc ít nhất 2 năm sẽ nhận thẻ tín dụng nếu thu nhập của cô ta là 50000 nhưng không nhận thẻ tín dụng nếu thu nhập chỉ là 49000 Một ngưỡng cứng nhắc như thế dường như không ổn Chúng ta có thể rời rạc hóa thu nhập heo chủng loại như {thu nhập thấp, trung bình, cao}, sau đó sử dụng lý thuyết mờ với ngưỡng hoặc là các biến “mờ” để phân loại
Mỗi loại biểu diễn một tập mờ Chú ý rằng một giá trị thu nhập x có thể có thành viên trong nhiều hơn một tập mờ Các giá trị thành viên của x trong mỗi tập
mờ không nhất thiết có tổng bằng 1
Lý thuyết tập mờ cũng được biết như lý thuyết xác suất Nó được đề xuất bởi Lotfi Zadeh năm 1965 như một sự lựa chọn thay thế nhau giữa 2 lý thuyết truyền thống là xác xuất và logic Chúng cho chúng ta mức trừu tượng cao và cách giải quyết vừa phải với độ đo chính xác của dữ liệu Điều quan trọng nhất, lý thuyết tập
Trang 34mờ cho phép chúng ta giải quyết các yếu tố không chính xác và mơ hồ (48000 hay 49000) Không giống như khái niệm tập “rõ”, trong lý thuyết “mờ” các phần tử có thể thuộc vào nhiều hơn một tập mờ Ví dụ, thu nhập 49000 thuộc trong 2 tập trung bình và cao nhưng ở mức độ khác nhau.Khi sử dụng ký hiệu của lý thuyết mờ chúng ta có:
mthu nhập trung bình (49000) = 0,15 và mthu nhập cao (49000) = 0,96
Ở đây m ký hiệu cho hàm thành viên, hoạt động trên tập mờ về thu nhập (trung bình hay cao) Trong lý thuyết mờ, các giá trị thành viên trong mỗi phần tử x (ví dụ như là 49000) có tổng không bằng 1 Điều này không giống như lý thuyết xác suất (ràng buộc theo một tiên đề về tổng)
Lý thuyết tập mờ có ích cho các hệ thống khai phá dữ liệu khi thực hiện phân lớp dựa trên các luật Nó cung cấp các toán tử/ thao tác để tổ hợp các độ đo mờ Giả thiết rằng, bổ sung vào trong tập mờ đối với thu nhập, chúng ta xác định các tập mờ người lao động ít tuổi hơn, người nhiều tuổi hơn cho thuộc tính năm công tác Giả
sử chúng ta có một quy tắc, thử nghiệm thu nhập cao, người nhiều tuổi trong phần
IF của quy tắc Nếu hai độ đo mờ này là AND cùng nhau thì cực tiểu độ đo của chúng được lấy là độ đo của quy tắc Nói khác đi [1]:
m(thu nhập cao AND người cao tuổi) (x) = min (mthu nhập cao(x),mngười cao tuổi(x))
Có thể nói đây là mắt xích một liên kết mạnh, một liên kết yếu Nếu 2 độ đo
là OR thì cả cực đại độ đo của chúng được chọn là độ đo của quy tắc, nghĩa là:
M(thu nhập cao OR người cao tuổi )(x) = max(mthu nhập cao(x),mngười cao tuổi(x))
Bằng trực giác, ta nói rằng một xâu mạnh, một xâu mạnh nhất
Cho một bộ để phân loại, có hơn 1 quy tắc có thể dùng Mỗi quy tắc áp dụng góp phần gợi ý thành viên trong các loại đó Một cách điển hình, các giá trị đúng đối với chủng loại dự đoán là được lấy tổng, và các tổng này được tổ hợp
Các hệ thống logic mờ đã được dùng trong nhiều lĩnh vực để phân loại, bao gồm nghiên cứu thị trường, tài chính, chăm sóc sức khỏe, và kỹ nghệ môi trường
2.3 Một số mô hình học máy điển hình trong dự báo
Xindong Wu và Vipin Kumar [39] tập hợp 10 thuật toán khai phá dữ liệu được cộng đồng công nhận là điển hình nhất, trong đó có các thuật toán phân lớp SVM
Trang 35(Support Vector Machines), kNN (k-Nearest Neighbors), Naıve Bayes, CART
(Classification and Regression Trees) Dưới đây là mô tả sơ bộ về một số thuật toán điển hình này
2.3.1 Hồi quy tuyến tính (Linear Regression –LM)
Hồi quy là phương pháp toán học được áp dụng thường xuyên trong thông kê phân tích mối liên hệ giữa các hiện tượng kinh tế- xã hội Hồi quy tuyến tính được
sử dụng rộng rãi trong thực tế do tính chất đơn giản hóa của hồi quy Phân tích hồi quy là phân tích thống kê để xác định mối quan hệ giữa biến phụ thuộc y với một hay nhiều biến độc lập x Mô hình hồi quy đơn giản nhất là hàm tuyến tính dùng để
mô tả mối quan hệ giữa biến phụ thuộc và biến độc lập là tuyến tính Mô hình hồi quy tuyến tính có dạng: Y=α +βx
Với α là chặn (intercept), β là độ đốc (slope)
Các tham số α ,β của mô hình được ước lượng từ dữ liệu quan sát Xét tập dữ liệu gồm m phần tử x1,x2, ,xm trong không gian n chiều (biến độc lập, thuộc tính),
có giá trị tương ứng của biến phụ thuộc (cần dự báo) là y1,y2, ,ym Các tham số α, β của mô hình được ước lượng bằng phương pháp bình phương bé nhất ( least squares):
(∑, (
)
Hình 2.1: Hồi quy tuyến tính
2.3.2 K láng giềng (k Nearest Neighbors –kNN)
Trang 36Giải thuật k láng giềng (kNN) được Fix và Hodges đề xuất từ những năm
1952 [31] Đây là một thuật toán phân loại học máy dựa trên các đặc trưng (thuộc tính) quan sát được Trong thuật toán, mỗi đặc trưng được gán cho một chiều để tạo thành một không gian đặc trưng đa chiều Mỗi mẫu (đối tượng) được mô tả bằng n-chiều thuộc tính, như vậy các mẫu sẽ được lưu trữ trong không gian n-chiều Giả sử
có tập dữ liệu bao gồm m phần tử x1,x2, ,xm trong không gian n chiều, có giá trị tương ứng của biến phụ thuộc là y1,y2, ym
Giải thuật k-NN không có quá trình học Khi dự đoán giá trị biến phụ thuộc
của phân tử dữ liệu x mới đến, giải thuật sẽ đi tìm k láng giềng (k=1,2, ) của x từ
tập dữ liệu học là các phần tửv (xk,yk) [5(xk,yk)], sau đó thực hiện :
Phân lớp với bình chọn số đông trong các giá trị [20]
Hồi quy với giá trị trung bình của các [25]
Quá trình tìm k láng giềng của x thường sử dụng khoảng cách (distance) hay
độ tương tự (similarity)
Hình 2.2: Giải thuật kNN
2.3.3 Cây quyết định ( Decission Trees –DT)
Cây quyết định đề xuất bởi [32], [33] là mô hình học máy tự động sử dụng rất nhiều trong khai mỏ dữ liệu [31] do tính đơn giản mà hiệu quả Hình 2.3 minh họa ví
dụ của cây quyết định thu được bằng cách học từ tập dữ liệu, để dự báo chơi Goft (y= yes/no) từ các biến (thời tiết, nhiệt độ, độ ẩm, gió) Mô hình rất dễ hiểu bởi vì chúng
ta có thể rút trích luật quyết định tương ứng với nút lá có dạng IF-THEN được tạo ra
từ việc thực hiện AND trên các điều kiện theo đường dẫn từ nút gốc đến nút lá
Trang 37Outlook Temp Hum Windy Play
Hình 2.3: Cây quyết định học từ dữ liệu cho phép dự báo cho Golf
Cho tập dữ liệu bao gồm m phần tử x1,x2,…,xm trong không gian n chiều,
có giá trị tương ứng của biến phụ thuộc là y1,y2, ,ym Giải thuật học từ dữ liệu là quá trình xây dựng cây bắt đầu từ nút gốc đến nút lá Đây là giải thuật đệ quy phân hoạch tập dữ liệu theo các biến độc lập thành các phân vùng chữ nhật rời nhau mà ở
đó các phân tử dữ liệu xi,xj, ,xk của cùng phân vùng (nút lá) có các yi,ỵ, yk là thuần khiết:
Giống nhau trong vấn đề phân lớp