Cách tiếp cận thứ nhất, dựa trên các kiến thức khoa học về cơ sở vật lý và hóa học của chất ô nhiễm được nghiên cứu, còn được gọi là dự báo số trị, trong đó đặc trưng diễn biến hóa học v
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn khoa học của PGS.TS Nghiêm Trung Dũng và GS.TS Hoàng Xuân Cơ Các kết quả trong luận án là trung thực và chưa từng được tác giả khác công bố
Trang 2LỜI CẢM ƠN
Trước hết tác giả xin chân thành cảm ơn đến PGS.TS Nghiêm Trung Dũng và GS.TS Hoàng Xuân Cơ đã tận tình chỉ bảo, hướng dẫn, giúp đỡ trong quá trình thực hiện luận án này Tác giả cũng xin được bày tỏ lòng biết ơn đối với Trung tâm Quan trắc Môi trường Miền Bắc, Tổng cục Môi trường đã tạo điều kiện để tác giả được tiếp cận các hệ thống quan trắc và được cung cấp dữ liệu quan trắc chất lượng không khí cho luận án này
Tác giả bày tỏ lòng biết ơn đến các thầy, cô Viện Khoa học và Công nghệ Môi trường; Phòng Đào tạo, Trường Đại học Bách khoa Hà Nội đã hỗ trợ và tạo mọi điều kiện thuận lợi nhất để tác giả hoàn thành luận án này
Tác giả cũng chân thành cảm ơn đến Trường Đại học Kỹ thuật Công nghiệp - Đại học Thái Nguyên, Bộ môn Kỹ thuật Môi trường, Khoa Xây dựng và Môi trường đã tạo mọi điều kiện thuận lợi cho tác giả trong suốt thời gian thực hiện luận án
Tác giả xin được bày tỏ lòng cảm ơn tới sự giúp đỡ, động viên và chia sẻ kinh nghiệm cũng như những lời khuyên quý giá của thầy cô, các bạn đồng nghiệp trong suốt quá trình học tập và nghiên cứu
Tác giả xin được bày tỏ lòng cảm ơn sâu sắc tới sự giúp đỡ, động viên và sự chia sẻ kinh nghiệm của TS Nguyễn Thị Yến Liên và TS Nguyễn Thị Thu Thủy trong suốt quá trình nghiên cứu
Xin gửi lời cảm ơn về sự động viên, chia sẻ và tạo điều kiện của gia đình và bè bạn trong suốt quá trình thực hiện luận án này
Nghiên cứu sinh
Mạc Duy Hưng
Trang 3MỤC LỤC
LỜI CAM ĐOAN………i
LỜI CẢM ƠN……….ii
DANH MỤC CHỮ VIẾT TẮT v
DANH MỤC BẢNG viii
DANH MỤC HÌNH ix
MỞ ĐẦU 1
TỔNG QUAN 5
1.1 Chất lượng không khí và vấn đề dự báo 5
1.1.1 Chất lượng không khí và ảnh hưởng của nó đến sức khỏe 5
1.1.2 Dự báo chất lượng không khí 6
1.2 Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí 15
1.2.1 Trên thế giới 15
1.2.2 Ở Việt Nam 19
1.3 Phương pháp tiền xử lý dữ liệu cho các mô hình dự báo thống kê 20
1.3.1 Các phương pháp xử lý dữ liệu ngoại vi 20
1.3.2 Phương pháp bổ khuyết dữ liệu 22
1.4 Mô hình trí tuệ nhân tạo 23
1.4.1 Mô hình ARIMA 23
1.4.2 Mạng nơron nhân tạo (ANN) 24
1.4.3 Máy véc tơ hỗ trợ (SVM) 26
1.4.4 Mạng nơron tích chập (CNN) 28
1.4.5 Khối bộ nhớ dài – ngắn (LSTM) 30
PHƯƠNG PHÁP NGHIÊN CỨU 32
2.1 Quy trình nghiên cứu 32
2.2 Thu thập dữ liệu 32
2.2.1 Địa điểm và thời gian thu thập dữ liệu 32
2.2.2 Thông số kỹ thuật và phương pháp đo đạc tại trạm quan trắc 33
2.3 Làm sạch và chuẩn bị dữ liệu 34
Trang 42.3.1 Xử lý dữ liệu ngoại vi 34
2.3.2 Bổ khuyết dữ liệu 35
2.3.3 Kiểm tra độ tin cậy của bộ dữ liệu sau khi đã bổ khuyết 38
2.3.4 Chuẩn hóa dữ liệu đầu vào cho mô hình dự báo 39
2.4 Xây dựng mô hình dự báo thống kê chất lượng không khí 41
2.5 Tiến trình thực thi mô hình 46
2.6 Đánh giá hiệu suất của mô hình nghiên cứu 50
2.7 Nền tảng và thông số kỹ thuật máy tính 51
KẾT QUẢ VÀ THẢO LUẬN 53
3.1 Kết quả phân tích và xử lý dữ liệu đầu vào 53
3.1.1 Tình trạng dữ liệu và xử lý sơ bộ 53
3.1.2 Kết quả bổ khuyết dữ liệu 57
3.1.3 Luật phân bố xác suất của dữ liệu 62
3.1.4 Diễn biến theo thời gian và tương quan giữa các thông số 64
3.2 Lựa chọn mô hình dự báo 71
3.3 Dự báo nồng độ trung bình giờ 73
3.3.1 Thông số chất lượng không khí dạng bụi 75
3.3.2 Nhóm thông số ô nhiễm dạng khí 81
3.4 Dự báo nồng độ trung bình ngày 90
3.4.1 Nhóm thông số chất lượng không khí dạng bụi 90
3.4.2 Nhóm thông số chất lượng không khí dạng khí 94
KẾT LUẬN VÀ KIẾN NGHỊ 102
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 105
PHỤ LỤC 117
Trang 5DANH MỤC CHỮ VIẾT TẮT
AI Artificial Intelligent Trí tuệ nhân tạo
ANN Artificial neural netwwork Mạng nơron nhân tạo
AQI Air quality index Chỉ số chất lượng không khí
ARIMA Autoregressive integrated
moving average
Mô hình tự hồi quy tích hợp trung bình trượt
BN Batch normalization Chuẩn hóa hàng loạt
CEM Nothern Centre for
Environmental Monitoring
Trung tâm quan trắc môi trường miền Bắc
CNN Convolution neural network Mạng nơron tích chập
CTM Chemical transport model Mô hình lan truyền hóa học US.EPA Environmental Protection
Agency
Cục bảo vệ Môi trường Hoa Kỳ
ESN Echo state network Mạng trạng thái phản hồi
FFNN Feed-forward neural network Mạng nơron truyền thuận
FN Fully connected network Mạng nơron kết nối đầy đủ
GA Genetic algorithm Thuật giải di truyền
Trang 6GPU Graphic Process Unit Bộ xử lý hình ảnh (card màn
hình) GRU Gated recurrent unit Đơn vị cổng hồi quy
IDE Integrated development
environment
Môi trường phát triển tích hợp
IQR Inter quartile range Khoảng phân vị
LR Linear regression Hồi quy tuyến tính
LSSVM Least squares support vector
machine
Mô hình máy véc tơ hỗ trợ bình phương tối thiểu
LSTM Long – short term memory Khối bộ nhớ dài – ngắn
MAD Mean absolute deviation Trung bình của các độ lệch tuyệt
đối (Trị trung bình của các độ lệch tuyệt đối)
MAE Mean absolute error Trị trung bình của các sai tuyệt
đối MLP Multi-layer perceptron Mạng nơron đa lớp
NARX Nonlinear autoregressive with
exogenous input neural network
Mạng nơron tự động hồi quy phi tuyến với biến ngoại sinh NMHC Nonmethane hydrocacbon Hydrocacbon không phải mêtan NOAA National Oceanic and
Atmospheric Administration
Cơ quan quốc gia về Đại dương
và Khí quyển Hoa Kỳ NWP Numerical weather prediction Dự báo thời tiết bằng phương
pháp số trị
Trang 7Q1 Quartile 25th Phân vị 25%
RBF Radial basis function Hàm cơ sở xuyên tâm
RMSE Root mean square error Sai số quân phương
RNN Recurrent neural network Mạng nơron hồi quy
RT-AQF Real-time Air quality forecast Dự báo chất lượng không khí
theo thời gian thực
SVM Support vector machine Máy véc tơ hỗ trợ
USWB U.S Weather Bureau Cục thời tiết Hoa Kỳ
VOC Volatile organic compounds Các hợp chất hữu cơ bay hơi
WHO World Health Organization Tổ chức Y tế Thế giới
Trang 8DANH MỤC BẢNG
Bảng 1.1 So sánh ưu nhược điểm của một số mô hình dự báo cơ bản 7
Bảng 2.1 Phương pháp đo đạc của các thông số CLKK chính được quan trắc tại trạm Nguyễn Văn Cừ 33
Bảng 3.1 Thống kê bộ dữ liệu thô thu thập được tại trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội từ 2010 đến 2018 54
Bảng 3.2 Thống kê tỷ lệ dữ liệu trống trước và sau khi xử lý dữ liệu ngoại vi 57
Bảng 3.3 Kết quả bù dữ liệu với các tỷ lệ mất dữ liệu giả định từ 5% đến 80% 58
Bảng 3.4 Phân bố xác suất của các thông số CLKK điển hình từ 2010 đến 2018 63
Bảng 3.5 Hệ số tương quan (r) giữa các thông số 70
Bảng 3.6 So sánh hiệu suất của các mô hình thử nghiệm ứng dụng các công cụ học máy để dự báo nồng độ trung bình giờ của bụi PM10 72
Bảng 3.7 Hiệu suất của các mô hình dự báo nồng độ trung bình giờ cho các chất ô nhiễm dạng bụi trên bộ dữ liệu huấn luyện 76
Bảng 3.8 Hiệu suất của các mô hình dự báo nồng độ trung bình giờ cho các chất ô nhiễm dạng bụi trên bộ dữ liệu kiểm tra 78
Bảng 3.9 Hiệu suất của các mô hình dự báo nồng độ trung bình giờ cho các chất ô nhiễm dạng khí trên bộ dữ liệu huấn luyện 82
Bảng 3.10 Hiệu suất của các mô hình dự báo nồng độ trung bình giờ cho các chất ô nhiễm dạng khí trên bộ dữ liệu kiểm tra độc lập 85
Bảng 3.11 Hiệu suất của các mô hình dự báo nồng độ trung bình ngày cho các chất ô nhiễm dạng bụi trên bộ dữ liệu huấn luyện 91
Bảng 3.12 Hiệu suất của các mô hình dự báo nồng độ trung bình ngày cho các chất ô nhiễm dạng bụi trên bộ dữ liệu kiểm tra độc lập 93
Bảng 3.13 Hiệu suất của các mô hình dự báo nồng độ trung bình ngày cho các chất ô nhiễm dạng khí trên bộ dữ liệu huấn luyện 95
Bảng 3.14 Hiệu suất của các mô hình dự báo nồng độ trung bình ngày cho các chất ô nhiễm dạng khí trên bộ dữ liệu kiểm tra độc lập 98
Trang 9DANH MỤC HÌNH
Hình 1.1 Giải thích biểu đồ hộp 22
Hình 1.2 Mô hình toán của một tế bào nơron 25
Hình 1.3 Mô tả cách mạng tích chập nhận dạng hình ảnh 29
Hình 1.4 Cấu trúc của một khối bộ nhớ dài – ngắn 31
Hình 2.1 Vị trí của trạm quan trắc tự động CLKK Nguyễn Văn Cừ 32
Hình 2.2 Sơ đồ các bước thực hiện quá trình xử lý dữ liệu ngoại vi 35
Hình 2.3 Kiến trúc của mô hình dự báo CLKK được đề xuất 41
Hình 2.4 Hoạt động của các bộ lọc trong lớp tích chập 42
Hình 2.5 Ví dụ về hoạt động của một bộ lọc kích thước 3x3 trên ma trận đầu vào có kích thước 5x5 42
Hình 2.6 Ví dụ về hoạt động của lớp gộp (pool layer) 45
Hình 2.7 Sơ đồ các bước làm việc của mô hình đề xuất 46
Hình 2.8 Sơ đồ thuật toán tối ưu Adam 48
Hình 2.9 Giao diện môi trường làm việc của Colaboratory trên trình duyệt Google Chrome 51
Hình 3.1 Tỷ lệ dữ liệu trống của các thông số quan trắc của bộ dữ liệu thu thập được tại trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội từ 2010 đến 2018.54 Hình 3.2 Biểu đồ hộp xác định các dữ liệu ngoại vi 55
Hình 3.3 Biểu đồ hộp các thông số sau khi đã xử lý dữ liệu ngoại vi 56
Hình 3.4 So sánh diễn biến nồng độ NO tính toán từ các mô hình bù dữ liệu với dữ liệu thực trên tỷ lệ dữ liệu trống giả định là 50% (100 điểm dữ liệu từ bộ dữ liệu) 61
Hình 3.5 Phân bố xác suất của 06 thông số CLKK điển hình của năm 2012 64
Hình 3.6 Xu hướng diễn biến chất lượng không khí tại trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội từ 2010 đến 2018 65
Hình 3.7 Biến trình nồng độ trong ngày của các thông số CLKK tại trạm Nguyễn Văn Cừ, Long Biên, Hà Nội 67
Hình 3.8 Biến trình nồng độ trung bình tháng của các thông số CLKK tại trạm Nguyễn Văn Cừ, Long Biên, Hà Nội từ 2010 đến 2018 69
Hình 3.9 Biểu đồ sự thay đổi của sai số qua các Epochs huấn luyện (100 epochs đầu) 75 Hình 3.10 Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình giờ
và giá trị thực đo của của các chất ô nhiễm dạng bụitrên bộ dữ liệu huấn luyện 77
Trang 10Hình 3.11 So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện 78
Hình 3.12 Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình giờ
và giá trị thực đo của của các chất ô nhiễm dạng bụitrên bộ dữ liệu kiểm tra 79
Hình 3.13 So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra 81
Hình 3.14 Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình giờ và
giá trị thực đo của của các chất ô nhiễm dạng khítrên bộ dữ liệu huấn luyện 83
Hình 3.15 So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện 84
Hình 3.16 Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình giờ và
giá trị thực đo của của các chất ô nhiễm dạng khítrên bộ dữ liệu kiểm tra 86
Hình 3.17 So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra 89
Hình 3.18 Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình ngày và
giá trị thực đo của của các chất ô nhiễm dạng bụitrên bộ dữ liệu huấn luyện 91
Hình 3.19 So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện 92
Hình 3.20 Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình ngày
và giá trị thực đo của của các chất ô nhiễm dạng bụitrên bộ dữ liệu kiểm tra 93
Hình 3.21 So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng bụi
dự báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra 94
Hình 3.22 Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình ngày và
giá trị thực đo của của các chất ô nhiễm dạng khí trên bộ dữ liệu huấn luyện 96
Hình 3.23 So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện 97
Hình 3.24 Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình ngày và
giá trị thực đo của của các chất ô nhiễm dạng khí trên bộ dữ liệu kiểm tra 99
Hình 3.25 So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra 100
Trang 11MỞ ĐẦU
1 Sự cần thiết của đề tài
Theo Rob và George [1], thuật ngữ dự báo nói chung đề cập đến thực tiễn dự đoán một sự kiện trong tương lai một cách chính xác nhất dựa trên các thông tin sẵn
có bao gồm dữ liệu về sự kiện đó trong quá khứ cũng như hiện tại và các thông tin/ kiến thức của những sự kiện khác có thể ảnh hưởng đến sự kiện được dự báo Thuật ngữ chất lượng không khí (CLKK) dùng để chỉ tình trạng hóa học của khí quyển tại một thời điểm và địa điểm nhất định, được thể hiện bằng nồng độ của các chất ô nhiễm không khí có nguy cơ gây ảnh hưởng tiêu cực đến sức khỏe con người và môi trường Cũng như thời tiết, CLKK có thể có tác động tiêu cực đến sức khỏe con người khi nồng độ của các chất ô nhiễm trong không khí vượt quá mức cho phép – hay còn gọi là “ô nhiễm không khí”, tiếp xúc với thời gian ngắn có thể gây ra các phản ứng cấp tính như cay mắt, khó thở Khi tiếp xúc với thời gian dài có thể gây ra các bệnh mạn tính về hệ hô hấp, tim mạch và có thể cả ung thư đặc biệt là đối với người già và trẻ em Ngoài ra, ô nhiễm không khí còn có thể gây ra các ảnh hưởng xấu đến hệ sinh thái tự nhiên như suy giảm chất lượng không khí (giảm tầm nhìn, gây mưa axit…), biến đổi khí hậu, giảm chất lượng nước và đất [2] Chính vì vậy, bên cạnh công tác quan trắc thì dự báo và giám sát diễn biến của các tác nhân gây ô nhiễm có vai trò rất quan trọng trong công tác quản lý CLKK Hiện nay, các mô hình dự báo diễn biến nồng độ các chất ô nhiễm không khí đang phát triển mạnh và trở thành một trong những công cụ hữu hiệu trong đánh giá và quản lý chất lượng không khí Trong công tác đánh giá CLKK, mô hình có thể hỗ trợ và tối ưu hóa mạng lưới quan trắc CLKK, cung cấp thông tin một cách toàn diện hơn về tình trạng chất lượng không khí cũng như thông tin về mức độ hoạt động của các nguồn gây ô nhiễm [3] Về mặt quản lý, khi dự báo được CLKK trong tương lai các cơ quan hữu trách có thể cảnh báo và đưa
ra các chiến lược kiểm soát tốt hơn [3, 4]
Do vậy, có thể hiểu dự báo CLKK là dự đoán sớm CLKK trong tương lai được thể hiện dưới dạng giá trị nồng độ của các thông số CLKK (chất ô nhiễm) hoặc đã được quy đổi sang chỉ số CLKK (Air Quality Index - AQI) dựa trên việc thống kê lịch sử diễn biến của chúng trong quá khứ, đặc trưng diễn biến hóa học cũng như vật
Trang 12lý của các thông số CLKK… nhằm phục vụ cho các công tác nghiên cứu cũng như quản lý CLKK Hiện nay để trích xuất các đặc trưng diễn biến về mặt hóa học và vật
lý của một thông số CLKK (chất ô nhiễm) có hai cách tiếp cận chính Cách tiếp cận thứ nhất, dựa trên các kiến thức khoa học về cơ sở vật lý và hóa học của chất ô nhiễm được nghiên cứu, còn được gọi là dự báo số trị, trong đó đặc trưng diễn biến hóa học
và vật lý của một thông số CLKK được nghiên cứu dựa trên việc mô phỏng lại các quá trình vật lý và hóa học của chúng trong không khí dưới dạng các mô hình toán học Trong khi đó, cách tiếp cận thứ hai được gọi là dự báo thống kê, khác với dự báo
số trị, các đặc trưng diễn biến về mặt hóa học của một chất ô nhiễm được trích xuất dựa trên việc phân tích thống kê dữ liệu các mối quan hệ giữa các thông số hóa học
có liên quan đến diễn biến của chất ô nhiễm cần dự báo bao gồm diễn biến của tiền chất, điều kiện phản ứng, sản phẩm của phản ứng hóa học có liên quan… Tương tự, đặc trưng diễn biến của một chất ô nhiễm không khí do các quá trình vật lý cũng được nghiên cứu dựa trên việc thống kê tương quan dữ liệu lịch sử về diễn biến của nó với các thông số vật lý có liên quan như nhiệt độ, độ ẩm, lượng mưa, bức xạ mặt trời…[2]
Dự báo diễn biến của các chất ô nhiễm không khí là rất phức tạp đặc biệt là đối với các chất ô nhiễm thứ cấp như ôzôn do nồng độ của nó phụ thuộc vào rất nhiều yếu tố như nồng độ của các tiền chất, các yếu tố khí tượng … Hiện nay, nhiều quốc gia đã phát triển nhiều mô hình dự báo CLKK theo thời gian thực (Real-time Air quality forecast – RT-AQF) để dự báo nồng độ các chất ô nhiễm có ảnh hưởng lớn đến sức khỏe của người dân đặc biệt như O3, NO2, SO2, NO, bụi PM10, PM2,5 … [2] Những thông tin này được sử dụng để đưa ra cảnh báo CLKK, cho phép chính phủ và người dân có những biện pháp phòng ngừa tạm thời (dừng hoạt động các nguồn phát thải lớn, tham gia giao thông công cộng để giảm phát thải hoặc hạn chế tiếp xúc với khu vực ô nhiễm) cũng như chiến lược lâu dài như lập kịch bản và lên kế hoạch bảo vệ môi trường không khí trong tương lai, theo dõi và nghiên cứu các nguồn gây ô nhiễm không khí địa phương và nguồn xa Do vậy, có thể thấy rằng sự hiện diện của các mô hình dự báo CLKK sẽ đem lại nhiều lợi ích to lớn cả về mặt xã hội cũng như kinh tế [2]
Tại Việt Nam, cho đến nay trong lĩnh vực dự báo CLKK, các mô hình số trị được
sử dụng chiếm ưu thế Loại mô hình này có ưu điểm là cung cấp một cách rất chi tiết
về tình trạng CLKK trên diện rộng, ngay cả tại những điểm không được quan trắc Tuy nhiên, việc xây dựng và vận hành chúng lại rất tốn kém và đòi hỏi trình độ cao Trong khi đó, ngược lại với mô hình số trị, việc xây dựng và vận hành mô hình dự
Trang 13báo thống kê là rất đơn giản và không đòi hỏi cao về chuyên môn của người vận hành [2], tuy nhiên việc nghiên cứu và ứng dụng loại mô hình này tại Việt Nam còn khá hạn chế
Trong thập kỷ vừa qua, các mô hình dự báo thống kê CLKK sử dụng mạng nơron nhân tạo đã được nghiên cứu và ứng dụng thành công tại nhiều quốc gia trên Thế giới [2], có thể kể đến ở đây như dự báo nồng độ bụi PM10 [5], dự báo nồng độ ôzôn [6-8], hoặc một số chất ô nhiễm khác như SO2, NOx, VOC… [9-13] sử dụng các kiến trúc mạng nơron kết nối đầy đủ - FN với cấu trúc truyền thuận (FFNN) đặc biệt như MLP hay như một số mô hình ứng dụng mạng nơron hồi quy thông thường (RNN)
như mạng tự hồi quy phi tuyến với biến ngoại sinh (NARX) [9] và Vanilla RNN [14]
Trong những năm gần đây, các kỹ thuật học sâu phát triển mạnh giúp giảm thời gian huấn luyện, giảm tiêu tốn tài nguyên máy và tăng độ chính xác đặc biệt có thể kể đến
ở đây như mạng nơron tích chập (CNN) [15, 16] , mạng bộ nhớ dài – ngắn (LSTM) [15-17] Tuy nhiên, cho đến nay dự báo thống kê CLKK tại Việt Nam nói chung và đặc biệt là dự báo thống kê ứng dụng các kỹ thuật trí tuệ nhân tạo còn khá mới mẻ và theo hiểu biết của tác giả hiện có rất ít các nghiên cứu liên quan đến lĩnh vực này
Xuất phát từ thực tế đó, đề tài “Nghiên cứu ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí” đã được lựa chọn nhằm khởi động và thúc đẩy hướng nghiên
cứu mới này tại Việt Nam, góp phần vào công tác quản lý và bảo vệ môi trường không khí ở nước ta
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Các thông số chất lượng không khí cơ bản gồm 09 thông số:
+ Nhóm thông số ô nhiễm dạng bụi: PM10, PM2.5 và PM1
+ Nhóm thông số ô nhiễm dạng khí: NO, NO2, NOx, CO, SO2 và O3
- Một số kỹ thuật học máy để xây dựng mô hình dự báo thống kê chất lượng
không khí, tập trung vào hai kỹ thuật trí tuệ nhân tạo mới gồm mạng nơron tích chập (CNN) và mạng bộ nhớ dài – ngắn (LSTM)
Trang 14Phạm vi nghiên cứu: Các thông số cơ bản về chất lượng không khí tại trạm quan
trắc số 556, Nguyễn Văn Cừ, phường Gia Thụy, quận Long Biên, Hà Nội trong thời gian từ 2010 đến 2018 (từ bây giờ sẽ gọi là trạm Nguyễn Văn Cừ, Long Biên,
Hà Nội)
4 Các đóng góp mới của luận án
Về phương pháp
- Bổ khuyết dữ liệu quan trắc CLKK bằng cách tiếp cận sử dụng các công
cụ học máy (machine learning), mà cụ thể là mô hình ARIMA
- Một cách tiếp cận tích hợp ba phương pháp bao gồm xử lý dữ liệu ngoại
vi bằng biểu đồ hộp, bổ khuyết dữ liệu bằng công cụ học máy ARIMA và xác định luật phân bố dữ liệu quan trắc CLKK đã được sử dụng để trích xuất thông tin của CLKK từ dữ liệu quan trắc CLKK Đây là một cách tiếp cận mới và khả thi để trích xuất thông tin của CLKK từ dữ liệu quan trắc CLKK phục vụ cho các công tác nghiên cứu và quản lý CLKK
Về kết quả cụ thể
- Mô hình dự báo chất lượng không khí ứng dụng mạng nơron tích chập (CNN) kết hợp với khối bộ nhớ dài – ngắn (LSTM) được nghiên cứu thử nghiệm
- Cung cấp một bộ dữ liệu đầy đủ, đồng bộ và liên tục cho một quãng thời gian dài (9 năm) về nồng độ trung bình giờ của các chất ô nhiễm không khí cơ bản ở Hà Nội để phục vụ công tác nghiên cứu và quản lý chất lượng không khí
- Thông tin về sự thay đổi nồng độ các chất ô nhiễm không khí theo thời gian (bao gồm biến trình trong ngày,diễn biến theo mùa và xu hướng diễn biến chất lượng không khí dài hạn (trend)); về mối tương quan giữa chúng với nhau và mối tương quan giữa chúng với các yếu tố khí tượng trong giai đoạn 2010 - 2018 tại trạm 556, Nguyễn Văn Cừ, Long Biên, Hà Nội
5 Bố cục của luận án
Mở đầu
Chương 1 Tổng quan
Chương 2: Phương pháp nghiên cứu
Chương 3: Kết quả và thảo luận
Kết luận và kiến nghị
Trang 15TỔNG QUAN
1.1 Chất lượng không khí và vấn đề dự báo
1.1.1 Chất lượng không khí và ảnh hưởng của nó đến sức khỏe
Chất lượng không khí đã và đang là một trong những vẫn đề được quan tâm của các quốc gia trên thế giới, trong đó có Việt Nam, bởi mức độ rủi ro tiềm ẩn của nó đến sức khỏe người dân và hệ sinh thái Theo tổ chức Y tế Thế giới – WHO, ước tính trong năm 2012, ô nhiễm không khí là nguyên nhân gây ra gần 7 triệu ca tử vong, chiếm 10% trong số các ca tử vong do tất cả các nguyên nhân [18] Trong đó, theo ước tính có khoảng 9% do nguyên nhân ung thư phổi, 17% do các bệnh phổi mạn tính, 30% do các nguyên nhân như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan đến ô nhiễm không khí, và 9% do nhiễm trùng đường hô hấp [18]
Chất lượng không khí, là một thuật ngữ liên quan đến thành phần hóa học của khí quyển Trong đó, bụi (PM), ôzôn (O3), NO2, các hợp chất hữu cơ dễ bay hơi (VOC),
CO và SO2 là những thông số được quan tâm hơn cả do mức độ nguy hiểm của chúng đến sức khỏe Nhiều nghiên cứu dịch tễ học tại Hồng Kông và Đài Loan đã chỉ ra rằng sự gia tăng nồng độ của O3, NO2, SO2 và PM2.5 có liên quan đến sự gia tăng số
ca nhập viện do các nguyên nhân hen và viêm phổi Một kết quả đáng lưu ý được báo cáo bởi Di và cộng sự [19] nghiên cứu trên hơn 60 triệu người thụ hưởng bảo hiểm y
tế (Medicare) tại Mỹ trong giai đoạn từ 2000 đến 2012 phát hiện rằng, cứ nồng độ của PM2.5 tăng lên 10 μg/m3, thì tỷ lệ tử vong do mọi nguyên nhân tăng lên 7,3%, còn khi nồng độ O3 tăng lên 10 ppb thì tỷ lệ tử vong tăng lên 1,1% Ngoài ra, một phân tích tổng hợp được nghiên cứu tại nhiều thành phố của Trung Quốc [20], trong nhiều gian đoạn khác nhau cũng đã quan sát được rằng khi nồng độ của PM2.5 tăng lên 10 μg/m3 thì tỷ lệ tử vong do các nguyên nhân tăng lên 0,38%; tăng 0,51% tỷ lệ tử vong
do các bệnh liên quan đến hô hấp và tăng 0,44% tỷ lệ tử vong do các bệnh tim mạch Tương tự, ứng với sự gia tăng của SO2, NO2 và O3 lên10 μg/m3 thì tỷ lệ gia tăng tỷ lệ
tử vong tương ứng gồm tỷ lệ tử vong tổng số là 0,81%; 1,30% và 0,48%; tỷ lệ tử vong
do các bệnh hô hấp 1,18%; 1,62% và 0,73%; và tỷ lệ tử vong do các bệnh tim mạch 0,85%, 1,46% và 0,45% Còn với CO, nghiên cứu này cũng quan sát được rằng khi nồng độ của CO tăng lên 1mg/m3 (1000 μg/m3) thì tỷ lệ tử vong do tất cả các nguyên
Trang 16nhân tăng lên 3,7% và do các bệnh tim mạch tăng lên 4,77% Tại Việt Nam, nghiên cứu của Phung Dung và cộng sự [21] tại thành phố Hồ Chí Minh từ 2004 đến hết
2007 cũng cho thấy có mối liên quan chặt chẽ giữa diễn biến nồng độ chất ô nhiễm
và số ca nhập viện do các bệnh liên quan đến hô hấp, cụ thể: ứng với sự gia tăng nồng
độ của mỗi chất PM10, NO2 và SO2 lên 10 μg/m3 thì tỷ lệ gia tăng các ca nhập viện do
hô hấp tăng lên tương ứng là 0,7%, 8% và 2%, trong khi, O3 không gây tác động đáng
kể nào Trong báo cáo này, theo ghi nhận trong số các chất ô nhiễm được nghiên cứu gồm PM10, NO2, SO2 và O3 thì nồng độ của PM10 có đến 1126 ngày vượt quy chuẩn theo thang đo của WHO (chiếm 79% thời gian nghiên cứu) Đối tượng nhạy cảm hơn
cả với CLKK là nhóm người già và trẻ em, nghiên cứu của Nguyen Thi Trang Nhung
và cộng sự [22] trên hơn 75 nghìn các bệnh nhi từ 0 – 5 tuổi nhập viện do các bệnh liên quan đến hô hấp tại Hà Nội trong thời gian từ 2004 đến 2016 (trong đó có 2462/3351 ngày có nồng độ PM10 vượt quá quy chuẩn của WHO) cho thấy khi khoảng cách giữa các phân vị (IQR – interquartile range) của nồng độ của O3 tăng lên 86 μg/m3 thì tỷ lệ ra viện của bệnh nhi mắc các bệnh hô hấp giảm 5%, tương ứng với
PM10 là 61,5 μg/m3 thì tỷ lệ ra viện giảm 6% (ghi nhận trên nhóm trẻ có độ tuổi từ
2-5, nhóm trẻ dưới 2 tuổi không biểu hiện rõ ràng) Điều này cho thấy, nếu công tác dự báo CLKK được thực hiện tốt như đối với dự báo khí tượng thì sẽ giúp người dân có thể chủ động hơn với các hoạt động giảm thiểu mức độ ảnh hưởng tiêu cực của ô nhiễm không khí đến sức khỏe, nâng cao hiểu biết và ý thức bảo vệ môi trường, đặc biệt là không khí Ngoài ra, dựa vào đó, các cơ quan có các chính sách và chiến lược quản lý CLKK kịp thời hơn
1.1.2 Dự báo chất lượng không khí
Trong những năm gần đây, các tác động tiêu cực của ô nhiễm không khí đến sức khỏe con người và hệ sinh thái ngày càng rõ rệt Rất nhiều nghiên cứu như [18-20]
đã chỉ ra rằng, ô nhiễm không khí có thể gây nên các phản ứng cấp tính về sức khỏe như kích ứng thị giác, da, gây khó thở… và thậm chí nặng hơn có thể dẫn đến tử vong khi tiếp xúc với nồng độ cao Khi tiếp xúc với thời gian dài (phơi nhiễm mạn tính) có thể gây tổn thương và suy giảm hệ miễn dịch, tăng nguy cơ mắc các bệnh ung thư, tăng nguy cơ mắc và tăng nặng các ca bệnh tim mạch và hô hấp… Ngoài ra, ô nhiễm không khí còn gây các tác động tiêu cực đến môi trường xung quanh như giảm tầm
Trang 17nhìn, mưa axít, suy giảm chất lượng đất, nước, ảnh hưởng xấu đến hệ sinh thái tự nhiên [23, 24] Chính vì vậy, để bảo vệ sức khỏe con người và môi trường xung quanh, nhiều quốc gia đã phát triển và áp dụng các hệ thống dự báo CLKK để dự báo nồng độ các chất ô nhiễm cần quan tâm đặc biệt đến sức khỏe như O3, NO2, PM2.5 và
PM10 [2, 25] Các thông tin này được sử dụng để đưa ra các cảnh báo sớm về CLKK giúp chính phủ và người dân chủ động với việc phòng tránh các tác động tiêu cực do
ô nhiễm không khí gây ra Ngoài ra, nó còn giúp các cơ quan hữu trách và các nhà nghiên cứu theo dõi diễn biến, các nguồn đóng góp, cơ chế vận chuyển chất ô nhiễm… cho phép xây dựng các chiến lược giảm thiểu ô nhiễm không khí Do đó, có thể thấy các mô hình dự báo CLKK mang lại những lợi ích kinh tế và xã hội to lớn bằng cách cho phép lập kế hoạch hoạt động cho các tổ chức, cá nhân và cộng đồng nhằm giảm phát thải và tránh các tác động xấu do ô nhiễm không khí gây nên Các mô hình dự báo CLKK hiện nay có thể được chia thành ba loại dựa vào phương pháp tiếp cận của chúng gồm phương pháp tiếp cận thực nghiệm đơn giản, phương pháp thống kê tham số hoặc phi tham số và phương pháp tiếp cận dự trên cơ
sở vật lý nâng cao Ưu nhược điểm của một số phương pháp tiếp cận điển hình được trình bày trong Bảng 1.1
Bảng 1.1 So sánh ưu nhược điểm của một số mô hình dự báo cơ bản (Nguồn: [2])
Mô hình thực nghiệm đơn giản
Mô hình quán tính
(Persistence)
Giả thiết, nồng độ chất ô nhiễm cần
dự báo hôm nay chính là nồng độ
dự báo của ngày hôm qua
Thời gian tính toán nhỏ; Độ chính xác cao trong trường hợp môi trường tĩnh (ít có biến động cả về nồng độ chất ô nhiễm và thời tiết); đơn giản,
dễ sử dụng; Chi phí vận hành nhỏ
Không sử dụng được trong trường hợp có biến động lớn về khí tượng và nồng độ chất ô nhiễm; Độ chính xác thấp; Không thể sử dụng một cách độc lập
Trang 18Thời gian tính toán nhỏ; Đơn giản, dễ
sử dụng; Chi phí vận hành thấp
Không sử dụng được trong trường hợp có biến động lớn nồng độ chất ô nhiễm; Độ chính xác thấp; Không thể sử dụng một cách độc lập
Mô hình kinh
nghiệm
(Empiricism)
Coi các thông số khí tượng như là chỉ thị cho nồng độ của chất ô nhiễm không khí
Thời gian tính toán nhỏ; Là một trong những phương pháp khá tin cậy để
dự báo các trường hợp ô nhiễm cao;
Đơn giản, dễ sử dụng; Chí phí vận hành thấp
Không thể dự báo được với các chất
ít phụ thuộc vào các yếu tố khí tượng; Độ chính xác trung bình
Thời gian tính toán nhỏ; Dự báo tốt đối với phạm vị hẹp;
Tự động phân biệt nồng độ chất ô nhiễm theo ngày;
Vận hành không đòi hỏi chuyên môn cao; Độ chính xác khá
Độ chính xác bị giới hạn bởi số lượng và chất lượng dữ liệu đầu vào; Không thích hợp với trường hợp
dự báo khu vực lớn
Trang 19Mô hình hồi quy Sử dụng các
phương pháp hồi quy để dự báo
Tính toán nhanh;
Chất lượng dự báo tốt; Vận hành không đòi hỏi chuyên môn cao;
Độ chính xác khá;
Chi phí vận hành trung bình
Độ chính xác khi
dự báo sự cố không cao; Độ chính xác
bị giới hạn bởi số lượng và chất lượng dữ liệu đầu vào; Không thích hợp với trường hợp
dự báo khu vực lớn
Mô hình ANN Là các mô hình
toán đơn giản mô phỏng lại quá trình tính toán và xử lý thông tin của nơron sinh học
Có khả năng học từ
dữ liệu; Dự báo tốt đối với khu vực nhỏ; Có thể xử lý tốt đối với mối quan hệ hóa học phi tuyến phức tạp của chất ô nhiễm;
Chi phí vận hành trung bình; độ chính xác cao; thời gian tính toán thấp
Độ chính xác khi
dự báo sự cố không cao; Độ chính xác
bị giới hạn bởi số lượng và chất lượng dữ liệu đầu vào; Chỉ thích hợp với dự báo điểm ô nhiễm
Mô hình FL Sử dụng một tập
hợp các giá trị trong khoảng đại diện cho các giá trị logic
Là công cụ để đối phó với sự không chắc chắn trong nhận thức của ANN; Xử lý tốt đối với mối quan hệ hóa học phi tuyến phức tạp của chất ô
Cần bộ dữ liệu lớn; Hạn chế trong việc
dự báo quy mô lớn; khối lượng tính toán lớn, phức tạp
0;1
Trang 20nhiễm; Độ chính xác tốt; Chi phí vận hành trung bình
Mô hình KF Là một thuật toán
đệ quy để theo dõi trạng thái phụ thuộc thời gian của một véc tơ dựa vào
độ nhiễu
Có thể phân tích diễn biến nồng độ của chất ô nhiễm theo thời gian
Hoạt động không hiệu quả với các thông số có tính phi tuyến cao
Mô hình cơ sở vật lý nâng cao (mô hình số trị)
Mô hình lan
truyền hóa học
(CTM)
Thể hiện rõ ràng các quá trình khí tượng, vật lý và hóa học dẫn đến diễn biến của nồng
độ chất ô nhiễm thông qua các phương trình cân bằng vật chất
Có khả năng tiên lượng ảnh hưởng của yếu tố thời gian và không gian
để xác định nồng
độ chất ô nhiễm theo cả hai kịch bản điển hình và không điển hình kể
cả những khu vực không có quan trắc; Hiểu biết sâu sắc về diễn biến của chất ô nhiễm cần dự báo; Không đòi hỏi bộ dữ liệu lớn; Độ chính xác tốt
Độ lệch chuẩn của kết quả dự báo phụ thuộc vào quá nhiều yếu tố như sai sót trong quá trình xử lý mô hình, yếu tố khí tượng và đầu vào của mô hình; Khối lượng tính toán lớn, phức tạp đòi hỏi hạ tầng máy tính mạnh; Vận hành đòi hỏi chuyên môn cao
Trang 21Mô hình CTM cải
tiến (kèm hiệu
chỉnh độ lệch)
Kết hợp giữa mô hình CTM truyền thống và mô hình thống kê (hoặc các phương pháp khác) nhằm tối ưu độ lệch
Có khả năng tiên lượng ảnh hưởng của yếu tố thời gian và không gian
để xác định nồng
độ chất ô nhiễm theo cả hai kịch bản điển hình và không điển hình kể
cả những khu vực không có quan trắc; Hiểu biết sâu sắc về diễn biến của chất ô nhiễm cần dự báo; Độ chính xác cao
Sự hiệu chỉnh độ lệch có thể chỉ hiệu quả đối với độ lệch
hệ thống và nó có thể cản trở nhu cầu nâng cấp và cải tiến mô hình; Khối lượng tính toán lớn, phức tạp cần
hạ tầng máy tính mạnh; Vận hành đòi hỏi chuyên môn cao
Độ phức tạp của tính toán cao, đòi hỏi một hệ thống siêu máy tính; Vận hành đòi hỏi trình
độ chuyên gia;
Phương pháp tiếp cận theo thực nghiệm đơn giản [2]: Một số mô hình nổi bật
trong nhóm này có thể kể đến ở đây, mô hình dự báo CLKK tiếp cận theo phương pháp quán tính (Persistence) [26], phương pháp này dựa trên giả định CLKK quan sát
được của ngày thứ t sẽ là giá trị CLKK dự báo của ngày t+1, chính vì vậy, nó yêu cầu
dữ liệu CLKK của một ngày trước đó trong quá khứ Đây là một trong những phương pháp tính toán nhanh nhất trong số tất cả các phương pháp tiếp cận để dự báo CLKK Tuy nhiên, nó chỉ hoạt động tốt trong điều kiện chất lượng không khí ổn định (nồng
độ các chất ô nhiễm không khí không thay đổi nhiều), đối với các trường hợp diễn
Trang 22biến nồng độ các chất ô nhiễm không khí phức tạp (có các sự thay đổi đột ngột) thì phương pháp này không dự báo được Do đó, loại mô hình này chủ yếu được sử dụng
để làm tài liệu tham khảo hoặc xây dựng đường cơ sở cho các phương pháp khác [2] Một loại mô hình khác được tiếp cận theo hướng diễn biến của CLKK phụ thuộc vào khí tượng, vì vậy, loại mô hình này còn được gọi là mô hình khí hậu (Climatology)
Nó sử dụng tần suất lịch sử của các sự kiện ô nhiễm không khí để dự báo CLKK trong tương lai, tương tự phương pháp quán tính, phương pháp này có ưu điểm là tốc độ tính toán nhanh, đơn giản nhưng độ tin cậy của phương pháp này cũng khá thấp và cũng không dự báo được các trường hợp diễn biến CLKK chưa từng xuất hiện trong quá khứ và các trường hợp có biến động lớn Chính vì vậy, phương pháp này không được sử dụng một cách độc lập mà được sử dụng kèm với các phương pháp khác [26] Một cách tiếp cận khác dựa vào lý thuyết kinh nghiệm (empiricism), nó giả định rằng các thông số khí tượng là chỉ thị cho CLKK, có nghĩa là, khi các thông số khí tượng đạt đến một ngưỡng nhất định nào đó, nồng độ các chất ô nhiễm sẽ được dự báo Loại mô hình này có độ chính xác vừa phải, tuy nhiên, đối với các chất ô nhiễm
có tương quan thấp với điều kiện khí tượng như CO thì phương pháp này không hoạt động Mặc dù vẫn còn tồn tại nhiều hạn chế, tuy nhiên, phương pháp này đã được sử dụng khá phổ biến trong các hệ thống dự báo CLKK như là một phương pháp chính hoặc phương pháp kết hợp với các phương pháp khác phức tạp hơn để sàng lọc độ tin cậy của các phương pháp này [2]
Phương pháp tiếp cận dựa trên các cơ sở vật lý nâng cao [2]: còn được gọi là
mô hình số trị hay là các mô hình lan truyền hóa học (CTMs hoặc AQMs), nó mô tả
rõ ràng các quá trình khí tượng, vật lý và hóa học chính dẫn đến sự hình thành và tích
tụ chất ô nhiễm trong không khí trên cơ sở các mối tương quan về định luật bảo toàn khối lượng của các chất ô nhiễm không khí với nhau, các mối quan hệ hóa học (phản ứng hóa học) của chúng trong không khí và trạng thái vật lý của các chất ô nhiễm này tại thời điểm cần dự báo Hệ thống dự báo này đòi hỏi dữ liệu khá phức tạp bao gồm
dữ liệu khí tượng, hoạt động của nguồn thải, điều kiện ban đầu (ICONs – initial conditions) và các điều kiện biên (BCONs – boundary conditions) về hóa học của các chất ô nhiễm So với các phương pháp tiếp cận khác, phương pháp này có nhiều điểm mạnh Thứ nhất, nó dự báo được nồng độ của các chất theo cả không gian và thời gian theo nhiều kịch bản khác nhau cả điển hình và không điển hình, đồng thời nó cũng có thể dự báo được cả các nơi không được quan trắc Thứ hai, phương pháp này dựa trên các cơ sở vật lý và hóa học của chất ô nhiễm, do đó, nó cung cấp sự hiểu biết khoa học về diễn biến nồng độ của chất ô nhiễm không khí một cách cụ thể, do đó,
Trang 23nó có thể giải quyết được các vấn đề mà không thể xử lý được bằng các phương pháp khác như diễn biến di chuyển lâu dài của các chất ô nhiễm, tác động giữa các thông
số khí tượng, yếu tố phát thải và hóa học của các chất ô nhiễm Thứ ba, loại mô hình này cung cấp độ chính xác cao khi tất cả các quá trình có ảnh hưởng đến diễn biến CLKK được thể hiện chính xác trong mô hình Thứ tư, nó không yêu cầu bộ dữ liệu lịch sử lớn về diễn biến của chất ô nhiễm cần dự báo Tuy nhiên, loại mô hình này cũng tồn tại một số nhược điểm Thứ nhất, nó đòi hỏi kiến thức cao về các nguồn gây
ô nhiễm và các quá trình biến đổi của các chất ô nhiễm trong không khí, khiến việc phát triển và ứng dụng các mô hình này khá khó khăn và tốn kém Mặt khác, các dữ liệu/ kiến thức về các vấn đề này trong nhiều trường hợp là có những hạn chế, và trong một số trường hợp khác, quá trình cần mô phỏng quá phức tạp không thể dễ dàng biểu diễn chúng bằng các mô hình toán Do đó, các phương pháp tính gần đúng hoặc đơn giản hóa các quá trình thường được sử dụng trong các mô hình số trị, điều này thường làm giảm độ chính xác của mô hình dự báo Thứ hai, độ chính xác của các mô hình số trị dự báo CLKK phụ thuộc lớn vào độ chính xác của các mô hình dự báo khí tượng, ước tính phát thải và các điều kiện đầu vào và điều kiện biên về mặt hóa học của chất ô nhiễm, do đó, sai số từ các mô hình này có thể làm tăng độ sai lệch của kết quả dự báo của các mô hình dự báo CLKK Thứ ba, do tính phức tạp của cách tiếp cận này nên các mô hình/hệ thống dự báo số trị CLKK thường đòi hỏi cơ
sở hạ tầng về máy tính, bộ nhớ và dung lượng nhớ cao
Tuy nhiên, những hạn chế này không làm giảm sự quan tâm của cộng đồng khoa học đến loại mô hình này, bởi một mặt cách tiếp cận này thể hiện sự tiến bộ đáng kể trong lĩnh vực dự báo CLKK, mặt khác, nó nâng cao đáng kể các kiến thức về các mối quan hệ phức tạp giữa diễn biến nồng độ chất ô nhiễm với các yếu tố khí tượng, phát thải và hóa học Chính vì vậy, ngay từ những năm 90 của thế kỷ XX, nhiều hệ thống dự báo CLKK ứng dụng CTMs đã được phát triển nhanh chóng và hiện đang hoạt động tại nhiều quốc gia, bao gồm: Mỹ, Úc, Canada, Nhật Bản, Pháp, Đan Mạch, Đức, Na Uy, Anh, Tây Ban Nha, Bỉ, Thổ Nhĩ Kỳ, Hà Lan, Chile và Trung Quốc Để giải quyết những hạn chế cố hữu của CTM, một số phương pháp đã được phát triển
để hiệu chỉnh sai số bằng các mô hình thống kê hay đồng bộ hóa dữ liệu, trong phương pháp này các mô hình thống kê được sử dụng có thể kể đến ở đây như mô hình hồi quy tuyến tính được xây dựng dựa trên mối quan hệ giữa các biến của CTM và một biến (thông số ô nhiễm) được quan trắc và sau đó dùng nó để hiệu chỉnh sai số dự báo cho một địa điểm nhất định [27, 28], phương pháp nội suy [29], nội suy Kriging kết hợp hồi quy tuyến tính [30] … Một số mô hình CTM nổi bật đã được ứng dụng thành
Trang 24công phổ biến trên thế giới có thể kể đến ở đây như WRF/Chem (được ứng dụng tại
Mỹ, Nhật), CMAQ (Anh, Mỹ, Tây Ban Nha và Trung Quốc), CHIMERE (Pháp, Tây Ban Nha, Italy), CAMx (Hi lạp, Trung Quốc, Đan Mạch, Mỹ)… [2]
Phương pháp tiếp cận thống kê tham số hoặc phi tham số [2]: các mô hình dự
báo thống kê dựa trên thực tế là các thông số khí tượng và các thông số CLKK có mối liên hệ chặt chẽ với nhau về mặt thống kê Chính vì vậy, nó sử dụng các mô hình thống kê khác nhau từ đơn giản như hồi quy tuyến tính – LR, cây phân lớp và hồi quy – CART, cho đến các công cụ phức tạp hơn như bộ lọc Kalman (KF), mạng nơron nhân tạo – ANN, máy véctơ hỗ trợ – SVM, lô-gíc mờ - FL, …Trong đó, CART sử dụng cây phân lớp (phân loại) và hồi quy để dự báo nồng độ của một chất ô nhiễm không khí với các biến phụ thuộc là các thông số khí tượng và các chất ô nhiễm không khí khác có liên quan Lọc Kalman là một cách tiếp cận tính toán đệ quy hiệu quả để theo dõi một biến/véc tơ trạng thái phụ thuộc vào thời gian dựa trên việc xây dựng các phương trình tiến hóa sai số (nhiễu), KF có thể có nhiều biến thể bao gồm bộ lọc Kalman mở rộng (EKF), bộ lọc Kalman tổng hợp (EnKF) ANN, SVM, FL… là các công cụ trí tuệ nhân tạo (AI), trong đó, ANN sử dụng các mô hình toán học đơn giản
mô tả lại quá trình xử lý thông tin của một hệ thần kinh sinh học, bằng cách học tập các hành vi từ tập dữ liệu trong quá khứ nó có thể phân tích và thích ứng tốt để đưa
ra các dự đoán (dự báo) FL sử dụng một tập hợp các giá trị đại số từ 0 đến 1 đại diện cho các biến lô-gíc (tương ứng với sai hoặc đúng) để biểu thị mức độ trung thực và sai lệch khác nhau Sự khác biệt chính giữa FL và ANN cũng như SVM đó là FL là một công cụ toán học để đối phó (giải quyết) với những bất ổn trong nhận thức và suy luận của các công cụ này, do đó nó có thể cung cấp một số hiểu biết tương đối sâu sắc về các quá trình
Các mô hình thống kê tồn tại một số nhược điểm chung Thứ nhất, chúng gặp hạn chế trong dự báo không gian do phụ thuộc vào dữ liệu quan trắc cho nên chỉ thích hợp ứng dụng dự báo tại các khu vực có trạm quan trắc Thứ hai, bản chất của mô hình thống kê không cho phép hiểu rõ về các quá trình vật lý và hóa học ảnh hưởng đến diễn biến của chất ô nhiễm cần dự báo cũng như sự đóng góp của các nguồn xa Thứ ba, độ chính xác của các mô hình này phụ thuộc vào chất lượng và số lượng của
dữ liệu lịch sử được quan trắc, do đó, nó đòi hỏi một bộ dữ liệu về lịch sử diễn biến CLKK lớn và liên tục Tuy vậy, các ưu điểm của phương pháp này so với các cách tiếp cận khác có thể kể đến ở đây, thứ nhất, do phương pháp này sử dụng các mô hình toán thống kê tương đối đơn giản, do đó, việc phát triển và ứng dụng các mô hình này
ít tốn kém và dễ dàng hơn so với các mô hình số trị Thứ hai, với sự phát triển mạnh
Trang 25mẽ của các công cụ AI trong đó có ANN, SVM, FL và đặc biệt gần đây với những tiến bộ vượt bậc trong lĩnh vực học máy (machine learning) các mô hình học sâu (deep learning) đã được ứng dụng giúp các mô hình dự báo thống kê ứng dụng các
kỹ thuật này có khả năng xử lý các mối liên hệ phi tuyến phức tạp giữa các thông số khí tượng, các thông số CLKK có liên quan với nồng độ chất ô nhiễm cần dự báo một cách mạnh mẽ, chúng có thể thích ứng nhanh và mềm dẻo với các điều kiện khác nhau bằng cách “học” không ngừng từ các dữ liệu mới thu được Chính điều này, giúp độ chính xác của các mô hình thống kê nói chung và các mô hình dự báo thống
kê ứng dụng các kỹ thuật học sâu có độ chính xác cao hơn tương đương với các mô hình CTM trong các điều kiện dự báo nồng độ tại một điểm Thứ ba, do khối lượng tính toán nhỏ và không đòi hỏi nhiều hệ thống cung cấp dữ liệu phụ trợ như đối với các mô hình số trị CTMs như hệ thống dự báo khí tượng (MM5, WRF, …) và hệ thống ước tính phát thải, chính vì vậy, việc triển khai loại mô hình này trong thực tế không đòi hỏi cao về cơ sở hạ tầng nên thích hợp để áp dụng vào bất kỳ khu vực nào
mà các công cụ AI, đặc biệt là ANN đã được ứng dụng từ rất sớm trong công tác dự báo CLKK Ngay từ những năm 1990, một mô hình dự báo nồng độ đỉnh của ôzôn trong ngày ứng dụng ANN đã được Junsub Yi và cộng sự xây dựng và phát triển thành công cho thành phố Dallas, bang Texas, Mỹ [6] Mặc dù thời điểm này tác giả
sử dụng một kiến trúc mạng nơron truyền thuận (FFNN) khá đơn giản gồm 01 lớp đầu vào, 01 lớp ẩn và 01 lớp đầu ra Tuy nhiên, kết quả được báo cáo trong nghiên cứu này [6] là rất khả quan Theo báo cáo, 85% hàm lượng ôzôn được tạo thành do các hoạt động giao thông của thành phố Do đó, nghiên cứu đã sử dụng ba nhóm biến đầu vào gồm nhóm yếu tố tiền chất (NO, NO2, CO2 và nồng độ ôzôn lúc 9 giờ sáng), nhóm yếu tố khí tượng (tốc độ gió, hướng gió và nhiệt độ cao nhất trong ngày) và
Trang 26nhóm yếu tố liên quan đến đặc điểm thời gian – đặc trưng cho hoạt động của giao thông Trong nghiên cứu này, bộ dữ liệu được đưa vào huấn luyện và kiểm tra độc lập được thu thập trong giai đoạn từ 1993 đến 1994 Kết quả so sánh thử nghiệm với
mô hình AR và ARIMA cho thấy, mô hình ANN được ứng dụng cho kết quả vượt trội hơn cả trong cả hai tiêu chí là sai số và độ phù hợp tương quan diễn biến giá trị
dự báo và giá trị thực được ghi nhận tại tram quan trắc, cụ thể MAE của mô hình ANN là 6,4 ppb, trong khi mô hình ARIMA và AR lần lượt là 26,3 ppb và 12,9 ppb
Từ đó cho đến nay, nhận thấy tính hiệu quả của công cụ này, một loạt các mô hình
dự báo thống kê chất lượng không khí cũng đã được nghiên cứu phát triển và ứng dụng thành công tại nhiều quốc gia Một số các cải tiến đã được thực hiện để nâng cao độ tin cậy và tính ổn định của các mô hình, có thể kể đến ở đây như mô hình Elman – ANN được ứng dụng cho mô hình dự báo CLKK tại Palermo, Italia năm
2007 [12] Điểm khác biệt của Elman – ANN so với ANN – MLP truyền thống đó là trong cấu trúc mạng các đầu ra của lớp ẩn và lớp đầu ra được phép tự phản hồi thông qua một lớp đệm, được gọi là lớp bối cảnh (context layer) Sự phản hồi này cho phép Elman – ANN tìm hiểu, nhận biết và tạo các mẫu tương ứng theo trình tự thời gian cũng như không gian [12] Chính vì vậy, kết quả dự báo của Elman – ANN được báo cáo là ổn định hơn so với ANN – MLP thông thường được so sánh Cụ thể, hai mô hình được thử nghiệm đối chứng trên 08 bộ dữ liệu của 08 trạm quan trắc của thành phố Parlemo, Italy, kết quả cho thấy, trong tất cả các trường hợp của 07 bộ dữ liệu tương ứng của 07 trạm quan trắc Kết quả cho thấy, đối với thông số dự báo là SO2
mô hình Elman – ANN đều cho kết quả cao hơn so với ANN – MLP, cá biệt trên trạm Diblasi hệ số tương quan Peason giữa giá trị dự báo và giá trị thực đo được ghi nhận của ANN chỉ đạt 0,28 trong khi Elman – ANN đạt 0,94; tương ứng với MAE (và RMSE) của mô hình ANN – MLP và Elman – ANN lần lượt là 16,93(18,15) μg/m3
và 3,52(4,14) μg/m3 Một biến thể cải tiến khác của ANN được gọi là ANFIS cũng được ứng dụng thành công tại Tehran, Iran [31] Đây là một biến thể lai giữa ANN
và FL, trong đó một số quy tắc của phương pháp logic mờ - FL được sử dụng để phân loại dữ liệu, trong nghiên cứu này phương pháp phân cụm mờ (fuzzy clustering) được
áp dụng Kết quả so sánh độ tin cậy của ANN thông thường và ANFIS cho thấy hiệu năng của ANFIS được cải thiện hơn so với ANN thông thường, nhưng không rõ ràng
Trang 27như trong nghiên cứu [12], cụ thể MAE và r là 0,37 – 0,48 ppm và 0,87 – 0,9 tương ứng, còn ANFIS là 0,34 – 0,43 ppm và 0,88 – 0,91 tương ứng là MAE và r Một số
biến thể cải tiến khác của ANN thông thường có thể kể đến ở đây như RBF-ANN hay PCA-ANN sử dụng hàm xuyên tâm cơ sở (radial basis function – RBF) hoặc phương pháp phân tích nhân tố chính (PCA) [13], ngoài ra, để tối ưu cấu trúc mạng thì thuật giải di truyền (GA) [32] cũng đã được sử dụng trong các mô hình dự báo thống kê chất lượng không khí ứng dụng ANN
Một công cụ AI khác được gọi là máy véc tơ hỗ trợ - SVM , lần đầu được giới thiệu bởi Vapnik (1995) [33], cũng giống như ANN, đầu tiên SVM được phát triển
để giải quyết các bài toán phân lớp dữ liệu, sau đó SVM được phát triển ứng dụng trong nhiều lĩnh vực trong đó có dự báo thống kê theo chuỗi thời gian [34, 35] Đối với lĩnh vực dự báo CLKK, SVM cũng là một trong những công cụ AI được ứng dụng rộng rãi tương tự ANN, các nghiên cứu nổi bật có thể kể đến ở đây như nghiên cứu
ứng dụng SVM để dự báo nồng độ ôzôn [32, 36-38], dự báo nồng độ bụi PM10 và các chất ô nhiễm không khí khác [39, 40] đều cho kết quả rất khả quan Tùy theo cấu trúc phát triển và chất ô nhiễm cần dự báo, số lượng và chất lượng của bộ số liệu đầu vào nhưng hầu hết các mô hình ứng dụng SVM trong dự báo CLKK có độ chính xác trên 80% Một số nghiên cứu so sánh đánh giá hiệu năng và độ chính xác của các kỹ thuật trí tuệ nhân tạo đều chỉ ra rằng ANN, FM, SVM và ESN có độ chính xác và thời gian tính toán nhỏ hơn so với ARIMA
Trong những năm gần đây, các kỹ thuật AI thường được thiết kế và ứng dụng cho mục đích khai thác các bộ dữ liệu lớn (bigdata), và dữ liệu CLKK cũng là một trong
số đó Để làm việc với các bộ dữ liệu lớn hơn thì đòi hỏi kiến trúc mạng ANN phải nhiều lớp hơn (sâu hơn) – còn gọi là mạng nơron sâu (DNN) Tuy nhiên, kiến trúc kết nối đầy đủ như ANN thông thường không còn phù hợp do lượng tham số sử dụng trong mô hình quá lớn, chúng tiêu tốn quá nhiều tài nguyên máy tính Từ thực tế trên,
để giảm số lượng các tham số của mạng, cách tiếp cận khả thi đã được sử dụng thành công là cố gắng giảm chiều dữ liệu qua các lớp của mạng Một kiến trúc mạng nơron đặc biệt được gọi là mạng nơron tích chập – CNN hoàn chỉnh lần đầu tiên được giới thiệu và ứng dụng bởi Yann LeCunn và cộng sự năm 1998 dựa trên cách tiếp cận như vậy để nhận diện ký tự [41] Kiến trúc này giải quyết được hầu hết các nhược điểm
Trang 28kể trên của các loại mạng kết nối đầy đủ - FN khác [15] (cấu trúc CNN được trình bày cụ thể trong Mục 1.3) Nhờ ưu điểm này, cho đến nay CNN trở thành một trong những ANN được ứng dụng nhiều nhất cho các bài toán khai thác dữ liệu lớn, theo thống kê từ hệ thống Google Scholar nghiên cứu này được trích dẫn 28.998 lần (truy cập lúc 16 giờ 15’ ngày 17 tháng 8 năm 2020) Trong lĩnh vực dự báo CLKK, CNN cũng đã được ứng dụng thành công [15, 16, 42-44] Tuy nhiên, cũng giống như các ANN thông thường, hạn chế của CNN trong khai thác dữ liệu theo chuỗi thời gian như dữ liệu CLKK, đó là đầu vào của mô hình là các mẫu dữ liệu rời rạc, trong quá trình huấn luyện các mẫu này được đưa vào huấn luyện một cách ngẫu nhiên không theo trình tự thời gian Điều này có thể làm mất thông tin về chu kỳ diễn biến của nồng độ chất ô nhiễm theo thời gian (ngày, tuần, mùa, …) Chính vì vậy, đối với việc khai thác các bộ dữ liệu theo chuỗi thời gian thì CNN thường không sử dụng một mình Để khắc phục vấn đề này, ngay từ rất sớm một số loại ANN đã được cải tiến
để đáp ứng yêu cầu xử lý các bộ dữ liệu theo chuỗi thời gian (time-series data), được gọi là mạng nơron hồi quy hoặc mạng nơron tái phát – RNN, có thể kể đến ở đây như NARX [9] hay như ESN … Chúng được thiết kế để “ghi nhớ” diễn biến của đối tượng cần dự báo (trong luận án này là nồng độ các chất ô nhiễm không khí) trong quá khứ
mà diễn biến của nó có tính chu kỳ theo thời gian Tuy nhiên, các RNN này cũng chỉ
“nhớ” được ngắn hạn (đoạn thời gian ngắn), do vậy, chúng có thể không nắm bắt được chính xác chu kỳ của các đối tượng mà diễn biến chu kỳ của nó có khoảng thời gian dài Nhằm giải quyết yêu cầu này, một cấu trúc được gọi là khối bộ nhớ dài – ngắn (LSTM) đã được đề xuất bởi Sepp Hochreiter và Jürgen Schmidhuber năm 1997, với cấu trúc đặc biệt (được trình bày cụ thể trong Mục 1.3) các nơron có thể nhớ được thời gian dài hơn như mong muốn Một số nghiên cứu và ứng dụng nổi bật trong dự báo CLKK có thể kể đến ở đây như mô hình APNet [15], DeepAirNet [14] và một số
mô hình khác [45-49], các kết quả được báo cáo cho thấy sự phù hợp của LSTM khi ứng dụng để xây dựng mô hình dự báo thống kê CLKK là rất lớn Mặt khác, các mô hình lai kết hợp giữa CNN-LSTM cũng đã được nghiên cứu ứng dụng trong các mô hình dự báo CLKK đặc biệt là phát triển mô hình dự báo CLKK cho các đô thị thông minh cho kết quả rất khả quan [14-16, 43, 50] Điều này cho thấy tiềm năng ứng dụng
Trang 29AI nói chung, ANN nói riêng và đặc biệt các mạng ANN học sâu để xây dựng các
mô hình dự báo thống kê CLKK là rất lớn
đề liên quan đến sự biến động nồng độ các chất ô nhiễm không khí như quá trình khí tượng, các quá trình biến đổi hóa học…áp dụng được với quy mô rộng lớn và có thể kết hợp với các mô hình khí tượng đã được ứng dụng tại Việt Nam như MM5, FVM… Tuy nhiên, nhược điểm chung của các mô hình này đó là khối lượng tính toán lớn, phức tạp vì vậy đòi hỏi một hệ thống cơ sở hạ tầng về công nghệ thông tin đủ mạnh Thêm nữa, việc vận hành các mô hình loại này đòi hỏi có chuyên môn tương đối cao, bởi nếu không những sai sót trong thiết lập (setup) mô hình cũng có thể gây ra sai số không mong muốn Nhìn vào hiện trạng trên có thể thấy rằng các mô hình ứng dụng trí tuệ nhân tạo trong dự báo và khai thác dữ liệu môi trường không khí tại Việt Nam còn rất hạn chế
Cùng với sự phát triển chung của Thế giới, các kỹ thuật trí tuệ nhân tạo cũng đã được nghiên cứu và áp dụng trong rất nhiều lĩnh vực tại Việt Nam Theo dữ liệu học liệu mở trên cổng thông tin quốc gia (www.vista.gov.vn) từ năm 1985 cho đến nay
có thể kể đến như đối với ứng dụng trong công nghệ thông tin [57-61], trong điều
khiển và kiểm soát các quá trình công nghệ [59, 60, 62], trong lĩnh vực dự báo nhu
cầu năng lượng [63, 64], trong dự báo lũ [65], trong xây dựng [66] và đặc biệt là ứng
dụng trong dự báo kinh tế [67, 68]… Trong lĩnh vực quản lý và bảo vệ môi trường việc ứng dụng các kỹ thuật trí tuệ nhân tạo cũng đã bước đầu có những kết quả tương
Trang 30đối khả quan, có thể kể đến ở đây như nghiên cứu dự báo chất lượng nước hồ Suối Vàng, Đà Lạt bằng ANN đăng trên tạp chí Tài Nguyên và Môi trường năm 2012 [69], ứng dụng ANN trong mô hình hóa các quá trình xử lý nước thải [70] Điều này cho thấy, tiềm năng ứng dụng các kỹ thuật của trí tuệ nhân tạo trong thực tế quản lý và sản xuất là rất lớn
Đối với quản lý và dự báo CLKK việc ứng dụng trí tuệ nhân tạo mặc dù chưa có nghiên cứu nào, tuy nhiên vấn đề này cũng đã nhận được sự quan tâm của các chuyên gia, trong nghiên cứu của mình tác giả Chử Thị Hồng Nhung (2012) đã thử nghiệm
sử dụng ANN để bổ khuyết số liệu quan trắc CLKK trạm Láng, Hà Nội, mặc dù mới chỉ là thử nghiệm, nhưng kết quả thu được là tương đối khả quan [71], cho thấy việc ứng dụng ANN nói riêng và các kỹ thuật trí tuệ nhân tạo nói chung tại Việt Nam là rất có tiềm năng
1.3 Phương pháp tiền xử lý dữ liệu cho các mô hình dự báo
thống kê
Như đã trình bày ở trên, các mô hình dự báo thống kê nói chung và dự báo CLKK nói riêng, trong đó đặc biệt là các mô hình ứng dụng AI độ tin cậy của chúng phụ thuộc chủ yếu vào chất lượng dữ liệu đầu vào Tuy nhiên, trên thực tế dữ liệu quan trắc CLKK không khí do nhiều nguyên nhân (hỏng hóc, mất điện, …) mà dẫn tới dữ liệu được ghi nhận luôn tồn tại một lượng không nhỏ dữ liệu trống (không ghi nhận được) và dữ liệu lỗi Điều này có thể làm sai lệch bản chất diễn biến dữ liệu dẫn đến giảm độ tin cậy của các mô hình dự báo thống kê Chính vì vậy, tiền xử lý dữ liệu là một trong những công việc quan trọng nhất, mang tính quyết định đối với sự thành công của các mô hình AI nói chung và luận án nói riêng
Để xử lý vấn đề này ngoài việc xóa lỗi (các dữ liệu được xác nhận là lỗi sẽ được coi là dữ liệu trống) thì việc giải quyết các lỗi không xác định, hay còn gọi là dữ liệu ngoại vi (dữ liệu dị thường) phải được xử lý trước khi đưa dữ liệu vào các bước xử lý tiếp theo Một số phương pháp xử lý dữ liệu ngoại vi thường được sử dụng được trình bày dưới đây:
1.3.1 Các phương pháp xử lý dữ liệu ngoại vi
+ Phương pháp phát hiện dữ liệu ngoại vi theo độ lệch chuẩn (SD): Đây là một
trong số những phương pháp cổ điển và đơn giản nhất được sử dụng để phát hiện dữ
Trang 31liệu ngoại vi [72] Phương pháp này được sử dụng phổ biến đế xác định các giá trị ngoại biên có phân bố Gausian hoặc tương tự Gausian Thông thường những giá trị không nằm trong khoảng được coi là giá trị ngoại vi (lượng dữ liệu
có giá trị nằm trong khoảng này chiếm 99,7% tổng số dữ liệu), trong đó, là giá trị trung bình của dữ liệu và SD là độ lệch chuẩn của dữ liệu Tuy nhiên, với những bộ
dữ liệu với kích thước nhỏ thì có thể sử dụng giá trị ( 95%) hoặc
(99,9%) với các bộ dữ liệu lớn [73, 74]
+Phương pháp phát hiện dữ liệu ngoại vi theo độ lệch trung bình tuyệt đối
(MAD): Phương pháp này dựa vào số trung vị (median) và giá trị độ lệch trung bình
tuyệt đối (mean absolute deviation – MAD) Đây là một trong những phương pháp
có độ tin cậy khá tốt, do nó không bị ảnh hưởng của các giá trị cực [75] Về mặt toán học, cách tiếp cận của phương pháp này tương tự với phương pháp SD, tuy nhiên, giá trị trung bình (mean) và độ lệch chuẩn (SD) được thay bằng số trung bình (mean) và
độ lệch trung bình tuyệt đối (MAD) Tương tự như phương pháp SD, những giá trị
được coi là ngoại vi được giới hạn bởi giá trị median ± 2MADe hoặc median ±
+ Phương pháp phát hiện dữ liệu ngoại vi bằng biểu đồ hộp (Box và Whisker):
Hay còn gọi là phương pháp Turkey (1977) [76], sử dụng biểu đồ hộp (boxplot), là một trong những công cụ đồ họa đơn giản nhưng mạnh mẽ để biểu diễn các thông tin
về một biến liên tục, bao gồm trung vị, trung bình, các phân vị (phân vị 25% - Q1 và phân vị 75% - Q3) và các cực trị Phương pháp này ít nhạy cảm bởi các cực trị so với các phương pháp khác bao gồm cả SD và MAD, do, ngoài những tham số đã được
sử dụng trong các phương pháp khác như mean và SD đối với phương pháp SD và median và MAD đối với phương pháp MAD thì phương pháp này còn sử dụng thêm các tham số như phương sai, và các phân vị của dữ liệu Cách xác định giá trị ngoại
vi được tóm tắt như trong Hình 1.1 dưới đây:
Trang 32Hình 1.1 Giải thích biểu đồ hộp
Trong đó, khoảng phân vị (IQR - Inter quartile range) là khoảng giá trị từ phân
vị 25% (Q1) đến phân vị 75% (Q3) Khoảng tin cậy, là khoảng giá trị nằm trong khoảng từ giới hạn dưới có giá trị là Q1 – 1,5IQR đến giới hạn trên có giá trị là Q3+1,5IQR Một giá trị nếu nằm ngoài khoảng này có thể coi là giá trị ngoại vi Ví
dụ như trong Hình 1.1, các giá trị được coi là ngoại vi của bộ dữ liệu này chiếm 0,7% trên tổng số dữ liệu
1.3.2 Phương pháp bổ khuyết dữ liệu
Sau khi xóa bỏ lỗi và các giá trị ngoại vi, về mặt cơ bản dữ liệu đã tương đối
“sạch” Dữ liệu quan trắc CLKK là dữ liệu theo chuỗi thời gian (time-series data), bởi dữ liệu này không chỉ được ghi lại liên tục theo một thời gian xác định đã được cài đặt trong hệ thống, mà còn bởi các thông số CLKK được quan trắc là các thông
số phụ thuộc theo thời gian [23, 77] Chính vì vậy, một trong những yêu cầu quan trọng khi khai thác loại dữ liệu này đó là phải giữ được tính liên tục của dữ liệu theo thời gian Tuy nhiên, trên thực tế dữ liệu ghi nhận tại các trạm quan trắc CLKK luôn
Trang 33tồn tại một lượng không nhỏ dữ liệu trống hoặc lỗi do nhiều nguyên nhân (mất điện, bảo trì, lỗi thiết bị ) [71], nó gây ảnh hưởng không nhỏ đến công tác khai thác dữ liệu CLKK vào các mục đích nghiên cứu cũng như quản lý CLKK hiện nay Để giải quyết vấn đề này, nội suy và ngoại suy các giá trị đã mất được sử dụng Hiện nay, có nhiều phương pháp nội suy/ngoại suy để dự đoán và điền (bù) lại các giá trị đã mất
phổ biến như hồi quy tuyến tính, nội suy Spline, hồi quy phi tuyến [78, 79]
1.4 Mô hình trí tuệ nhân tạo
1.4.1 Mô hình ARIMA
Mô hình ARIMA được Box và Jenkins đề xuất năm 1970 [80, 81], đây là một trong những mô hình phân tích dữ liệu theo chuỗi thời gian được ứng dụng rộng rãi nhất hiện nay Mô hình ARIMA là một mô hình phân tích dữ liệu theo chuỗi thời gian được kết hợp bởi hai thành phần (mô hình con) gồm mô hình tự hồi quy (Autoregressive - AR) và mô hình trung bình trượt (Moving average – MA), được
mô tả tóm tắt dưới đây:
+ Mô hình tự hồi quy (Autoregressive – AR): thành phần AR của mô hình ARIMA
có thể tóm tắt toán học dưới dạng sau
(MA) được sử dụng để tăng độ mịn dựa trên các yếu tố xu hướng và chu kỳ diễn biến
của y Hơn nữa, mô hình này còn được sử dụng để dự đoán thông qua việc bắt chước
hành vi của thời điểm trước đó Mô hình này có thể được diễn giải bằng phương trình đơn giản sau:
Trang 34Trong đó, β là trọng số của các giá trị y tại các thời điểm trước đó trong chuỗi thời gian
Có nghĩa là, giá trị trung bình trượt được tính toán là trung bình của các trọng số
của các giá trị y tại thời điểm hiện tại (t) và quá khứ Quá trình này, theo một cách
nào đó, là một cơ chế làm mịn dữ liệu trực tiếp mà không cần liên hệ với bất kỳ một
mô hình thống kê (hoặc ngẫu nhiên) nào Nó bao gồm các quá trình di chuyển (trượt) của giá trị trung bình kết hợp với các quá trình ngẫu nhiên Đặt là một tập hợp các biến ngẫu nhiên độc lập và phân bố giống hệt nhau (quá trình ngẫu nhiên) và phương sai đã biết, có thể viết dưới dạng trung bình trượt với tham số q theo như sau:
Giá trị mong muốn của yt trong mô hình này là 0, do đó, mô hình chỉ hợp lệ nếu
yt được điều chỉnh sao để giá trị trung bình bằng 0
Kết hợp hai mô hình trên thành một mô hình có tham số (p, q) được gọi là ARMA,
trong đó p là tham số của mô hình AR và q là tham số của mô hình MA, được trình bày trong phương trình (1.4) dưới đây:
Thông thường, mô hình ARIMA (p, 0, q) hay ARMA (p, q) được sử dụng để mô
tả diễn biến của một biến nào đó theo chuỗi thời gian với tổng số biến phụ thuộc ít hơn khi dùng riêng lẻ mô hình AR hoặc MA Trong đó, diễn biến của y trong chuỗi
thời gian phụ thuộc vào p giá trị của nó và q giá trị ngẫu nhiên z t trong quá khứ Cuối cùng mô hình ARIMA(p, d, q) là mô hình ARIMA(p, 0, q) cho chuỗi thời gian được phân biệt d lần [82]
Chính vì vậy, hiện nay ARIMA được sử dụng trong dự báo thống kê nói chung
và dự báo CLKK nói riêng như là một mô đun kết hợp với các kỹ thuật trí tuệ nhân tạo khác như ANNs, SVM…, nhằm tăng độ tin cậy của kết quả dự báo
1.4.2 Mạng nơron nhân tạo (ANN)
Mạng nơron nhân tạo (ANN) hay còn gọi là mạng nơron kết nối đầy đủ FN được giới thiệu lần đầu bởi McCulloch và Pitt (1943), là một cấu trúc toán học mô tả lại hệ
Trang 35thần kinh sinh học Chúng được tạo thành từ các phần tử xử lý thông tin được gọi là nơron (tế bào thần kinh) [83] Mỗi nơron nhận tín hiệu từ các nơron khác hoặc từ bên ngoài thông qua synape Tại đây, thông tin được xử lý thông qua một hàm truyền (transfer function) để tạo thành tín hiệu truyền đến nơron khác dựa trên kinh nghiệm
đã được học tập trước đó Mô hình toán của ANN được thể hiện trong Hình 1.2
Hình 1.2 Mô hình toán của một tế bào nơron (Nguồn: [83])
Trong mô hình này, nơron thứ i sẽ nhận các dữ liệu vào x i với các trọng số tương
ứng của dữ liệu là w ij Tổng dữ liệu đầu vào tại nơron thứ i với các trọng số tương
ứng sẽ là
Dữ liệu đầu ra tại thời điểm t+1 được xác định từ các thông tin đầu vào theo
phương trình sau [83]:
(1.5)
Trong đó: g(f) là hàm truyền có nhiệm vụ biến đổi thông tin đầu vào thành các
thông tin đầu ra
θ i là ngưỡng của đơn vị xử lý
Điều đó có nghĩa là, out=1 khi tổng dữ liệu đầu vào lớn hơn θ i, và ngược lại
Các trọng số w ij trong mô hình thể hiện ảnh hưởng của khớp nối trong sự liên kết
giữa nơron thứ i và nơron thứ k, w ij có giá trị dương khi liên kết là kích thích và mang
giá trị âm khi liên kết là ức chế
Tại một nơron dữ liệu đầu vào thông qua hàm số tương tác (interaction) f kết hợp
tạo thành thông tin tổng hợp từ dữ liệu đầu vào (net input) có dạng [83]:
1
m
ij j j
Trang 36(1.6)
Tiếp đến, hàm truyền g(f) sẽ tính toán và đưa ra giá trị đầu ra tương ứng với các
dữ liệu đầu vào Một số hàm g(f) thường sử dụng:
PM10, CO, O3 [9, 12, 84, 87, 88], dự báo nồng độ các khí nhà kính [89], dự báo nồng
độ bụi PM10 [5, 82] Điều này cho thấy khả năng ứng dụng của ANN trong lĩnh vực
lề siêu phẳng này chính là ranh giới phân chia các lớp dữ liệu Mục tiêu chính của bài
toán chính là hồi quy gần đúng một hàm g(x) từ một bộ mẫu Ý
tưởng cơ bản của thuật toán SVMs cho việc này là bản đồ hóa các dữ liệu x vào một
Trang 37không gian đặc trưng (high dimensionality feature space) bằng một ánh xạ phi tuyến, rồi từ đó hồi quy tuyến tính từ không gian này theo phương trình sau:
(1.7)
Trong đó: là các đặc tính; b và là các trọng số được ước tính từ dữ liệu Vì vậy, hồi quy phi tuyến trong không gian hẹp ban đầu được biến đổi thành hồi quy tuyến tính trong không gian lớn (high dimensionality space) Các hệ số có thể được xác định bằng cách cực tiểu hàm số
Với , i=1,…,N và hàm hạt nhân (kernel function) k(x i ,x) được
mô tả dữ liệu trong không gian với D chiều đặc tính (D – dimensional features space):
(1.11)
Yêu cầu đó là hàm hạt nhân phải đơn giản và có một phương pháp phân tích cụ thể Có nghĩa là hàm hạt nhân này phải thỏa mãn các điều kiện Mercer Trên thực tế thường sử dụng các hạt nhân bao gồm các đa thức Gaussian và Sigmoidal Cũng lưu
ý rằng hệ số Vapnik ε, hệ số Lagrange là các giá trị khác 0 sau khi đã tối ưu hóa chỉ khi nó nằm trên biên giới (ranh giới) phân lớp, có nghĩa là chúng thỏa mãn các
Trang 38điều kiện Karush–Kuhn–Tucker Các hệ số nhận được qua việc cực đại hóa (maximizing) phương trình sau:
(1.12)
Chỉ có một trong số các hệ số sẽ khác 0 và những điểm dữ liệu phụ thuộc vào nó được gọi là Support Vectors Tham số C và ε được lấy tùy ý phụ thuộc vào
người tính toán Việc tính toán hệ số b phải dựa trên các điều kiện Karush–Kuhn–
Tucker Ý tưởng quan trọng đó là việc lựa chọn giá trị cho hệ số cho một điểm
x k nằm trên lề, nghĩa là hoặc thuộc khoảng (0, C) Một giá trị x k là đủ tuy nhiên
để ổn định lấy một giá trị trung bình của tất cả các điểm nằm trên lề [90]
Là một trong những công cụ mới và mạnh mẽ, SVMs đã đạt được những thành công đáng kể trong việc ứng dụng để giải quyết các bài toán về phân loại dữ liệu, nhận dạng và dự báo Thực tế nghiên cứu đã chứng minh tính hiệu quả của SVMs trong các bài toán phân loại và hồi quy So với các mô hình AI truyền thống bao gồm ARIMA, FL, AR và ngay cả ANNs, trong hầu hết các nghiên cứu SVMs đều cho kết
quả tương đương hoặc tốt hơn [39] Một số ưu điểm lớn của SVMs so với các mô
hình hồi quy truyền thống và mạng nơron nhân tạo (ANN) thông thường đó là: khả năng tối ưu toàn diện; khái quát dữ liệu mạnh mẽ; tính độc lập của chiều phân loại dữ liệu; linh hoạt trong phân loại và xấp xỉ dữ liệu [11, 39] Chính vì vậy, gần đây SVMs được nghiên cứu và ứng dụng rất thành công trong lĩnh vực dự báo thống kê, trong
đó có dự báo CLKK nổi bật có thể kể đến ở đây như dự báo nồng độ ôzôn [37, 85, 91], dự báo nồng độ bụi PM10 và PM2.5 [92], dự báo nồng độ của một số chất ô nhiễm môi trường khác như SO2, NOx, VOC… [11, 12, 32, 39, 40, 90, 92, 93]
Trang 39đẩy sự phát triển mạnh mẽ của lĩnh vực học sâu (deeplearning) Một số kiến trúc mạng tích chập mới được đề xuất trong những năm gần đây, tuy nhiên tất cả chúng đều sử dụng các khái niệm và phương pháp tiếp cận chính từ LeNet [42]
Hình 1.3 Mô tả cách mạng tích chập nhận dạng hình ảnh (Nguồn: [42])
Mạng nơron tích chập được thể hiện trong ví dụ như trong Hình 1.3 có cấu trúc tương tự LeNet để phân loại hình ảnh theo các loại biển báo giao thông Trong ví dụ này, khi nhận được hình ảnh đầu vào mạng sẽ phân tích và đưa ra kết quả đầu ra là giá trị xác suất của ảnh đầu vào khớp với loại biển báo nào nhất, và tổng xác suất của tất cả các loại biển báo với ảnh đầu vào phải bằng 1 (100%) Cấu trúc cơ bản của một mạng nơron tích chập gồm 4 thành phần chính là lớp tích chập, hàm kích hoạt (thông thường là ReLU), lớp gộp và lớp kết nối đầy đủ Nhờ lớp tích chập với hàm kích hoạt ReLu đơn giản hơn rất nhiều so với các hàm kích hoạt được sử dụng trong mạng kết nối đầy đủ (FNN) giúp không chỉ giảm mạnh số lượng các kết nối giữa các nơron của lớp trước với lớp sau (giảm số lượng các tham số mạng) mà do hàm kích hoạt ReLU
là rất đơn giản so với các hàm kích hoạt được sử dụng trong mạng kết nối đầy đủ (FNN) Hơn nữa, lớp gộp (pool layer) giúp mạng nơron tích chập chỉ giữ lại những thông tin quan trọng giúp khối lượng kết nối giảm mạnh (với kích thước gộp là (2,2)
và bước trượt là 2) kích thước dữ liệu đầu vào sẽ giảm một nửa)
Các thuộc tính của dữ liệu đầu vào sẽ được trích xuất bởi lớp tích chập thông qua các bộ lọc (filters) Trong thực tế, mỗi bộ lọc tích chập là một bộ trọng số có kích
thước WxH, với các mạng tích chập 2D (hai chiều) và 3D (ba chiều) thì W=H Các
trọng số này sẽ được nhân với vùng giá trị tương ứng của ma trận đầu vào theo nguyên
tắc từ trái qua phải và từ trên xuống dưới với bước di chuyển của bộ lọc là S tương
ứng (thông thường là 1) Kết quả tích chập giữa bộ lọc và ma trận dữ liệu đầu tạo ra một phiên bản lọc của dữ liệu đầu vào được gọi là bản đồ thuộc tính (feature map) Thông qua bộ lọc, đặc trưng của dữ liệu có thể được làm nổi bật với các đặc trưng
Trang 40quan trọng, hoặc làm mờ đi với các thuộc tính không hoặc ít quan trọng Các bộ lọc tích chập khác nhau sẽ trích xuất các thuộc tính khác nhau, điều này cung cấp sức mạnh cho các dự đoán của CNN Do những ưu điểm đột phá của CNN so với FN mà trong vài năm trở lại đây CNN được thay thế ứng dụng thành công trong hầu hết các lĩnh vực để giải quyết các bài toán phân tích dữ liệu lớn, trong đó có dự báo CLKK
Có thể kể đến ở đây như [14, 15, 42]
1.4.5 Khối bộ nhớ dài – ngắn (LSTM)
Khối bộ nhớ dài – ngắn (long-short term memory – LSTM) được đề xuất bởi Sepp Hochreiter và Jürgen Schmidhuber năm 1997, ban đầu LSTM chỉ bao gồm tế bào và hai cổng đầu vào và đầu ra, sau đó cấu trúc LSTM được hoàn thiện hơn bởi Gers Felix [94] khi thêm cổng quên (foget gate) và các kết nối giám sát (peephole
conections) Cấu trúc của một khối LSTM được mô tả trong Hình 2.5, trong đó, σ là
hàm sigmoid được mô tả như trong phương trình (1.13) LSTM chứa một cổng vào (input gate), một cổng đầu ra (output gate) và một cổng quên (foget gate), sự tương tác qua lại giữa ba cổng này giúp LSTM có đủ khả năng phân tích sự phụ thuộc của
dữ liệu trong thời gian dài, điều mà các RNN thông thường không thể giải quyết được Ngoài ra, một vấn đề gặp phải phổ biến của các mạng nơron sâu (nhiều lớp) được gọi
là giảm độ dốc (gradient descent), tức là, tốc độ học của các lớp ẩn phía trước chậm
hơn các lớp ẩn sâu hơn Hiện tượng này thường làm giảm độ chính xác khi số lớp ẩn tăng lên Tuy nhiên, với cấu trúc ô nhớ của LSTM có thể giải quyết hiệu quả vấn đề suy giảm độ dốc trong quá trình lan truyền ngược (backpropagation) [15] và có thể phân tích chuỗi dữ liệu đầu vào với bước thời gian dài hơn Do đó, LSTM thường được sử dụng để giải quyết các vấn đề phân tích dữ liệu theo chuỗi thời gian Mô hình toán của LSTM được mô tả cụ thể trong các công thức (1.13) đến (1.23) dưới đây:
1( )