Trong công tác đánh giá CLKK, mô hình có thể hỗ trợ và tối ưu hóa mạng lưới quan trắc CLKK, cung cấp thông tin một cách toàn diện hơn về tình trạng chất lượng không khí cũng như thông ti
Trang 1MỞ ĐẦU
1 Sự cần thiết của đề tài
Theo Rob và George [1], thuật ngữ dự báo nói chung đề cập đến thực tiễn
dự đoán sự kiện trong tương lai một cách chính xác nhất dựa trên các thông tin sẵn có bao gồm dữ liệu về các sự kiện trong quá khứ cũng như hiện tại và các thông tin kiến thức của một sự kiện khác có thể ảnh hưởng đến sự kiện được dự báo Mặt khác, thuật ngữ chất lượng không khí (CLKK) dùng để chỉ tình trạng hóa học của khí quyển tại một thời điểm và địa điểm nhất định Cũng như thời tiết, CLKK ảnh hưởng trực tiếp đến sức khỏe con người khi nồng độ của các chất ô nhiễm trong không khí vượt quá mức cho phép, tiếp xúc với thời gian ngắn có thể gây ra các phản ứng cấp tính như cay mắt, khó thở Khi tiếp xúc với thời gian dài có thể gây ra các bệnh mãn tính về hệ hô hấp, tim mạch và có thể cả ung thư đặc biệt là đối với người già và trẻ em Ngoài ra, ô nhiễm không khí còn có thể gây ra các ảnh hưởng xấu đến hệ sinh thái tự nhiên như suy giảm chất lượng không khí (giảm tầm nhìn, gây mưa axit…), biến đổi khí hậu, giảm chất lượng nước và đất [2] Chính vì vậy, bên cạnh công tác quan trắc thì dự báo và giám sát diễn biến của các tác nhân gây
ô nhiễm có vai trò rất quan trọng trong công tác quản lý CLKK Hiện nay, các
mô hình dự báo diễn biến nồng độ các chất ô nhiễm không khí đang phát triển mạnh và trở thành một trong những công cụ hữu hiệu trong đánh giá và quản
lý chất lượng không khí Trong công tác đánh giá CLKK, mô hình có thể hỗ trợ và tối ưu hóa mạng lưới quan trắc CLKK, cung cấp thông tin một cách toàn diện hơn về tình trạng chất lượng không khí cũng như thông tin về mức
độ hoạt động của các nguồn gây ô nhiễm [1] Về mặt quản lý, khi dự báo được CLKK trong tương lai các cơ quan hữu trách có thể cảnh báo và đưa ra các chiến lược kiểm soát tốt hơn [3, 4]
Trong thập kỷ vừa qua, các mô hình dự báo thống kê CLKK sử dụng mạng nơron nhân tạo đã được nghiên cứu và ứng dụng thành công tại nhiều quốc gia trên Thế giới [2], có thể kể đến ở đây như dự báo nồng độ bụi PM10
[5], dự báo nồng độ ôzôn [6-8], hoặc một số chất ô nhiễm khác như SO2, NOx, VOC… [9-13] sử dụng các kiến trúc mạng nơron kết nối đầy đủ - FN với cấu trúc truyền thuận (FFNN) đặc biệt như MLP hay như một số mô hình ứng dụng mạng nơron hồi quy thông thường (RNN) như mạng tự hồi quy phi
tuyến với biến ngoại sinh (NARX) [9] và Vanilla RNN [14] Trong những
năm gần đây, các kỹ thuật học sâu phát triển mạnh giúp giảm thời gian huấn luyện, giảm tiêu tốn tài nguyên máy và tăng độ chính xác đặc biệt có thể kể đến ở đây như mạng nơron tích chập (CNN) [15-16], mạng bộ nhớ dài – ngắn
Trang 2(LSTM) [15-17] Tuy nhiên, cho đến nay dự báo thống kê CLKK tại Việt Nam nói chung và đặc biệt là dự báo thống kê ứng dụng các kỹ thuật trí tuệ nhân tạo còn khá mới mẻ và theo hiểu biết của tác giả hiện có rất ít các nghiên
cứu liên quan đến lĩnh vực này Xuất phát từ thực tế đó, đề tài “Nghiên cứu
ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí” đã được lựa
chọn nhằm khởi động và thúc đẩy hướng nghiên cứu mới này tại Việt Nam, góp phần vào công tác quản lý và bảo vệ môi trường không khí ở nước ta
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Các thông số chất lượng không khí cơ bản gồm 09 thông số:
+ Nhóm thông số ô nhiễm dạng bụi: PM10, PM2.5 và PM1
+ Nhóm thông số ô nhiễm dạng khí: NO, NO2, NOx, CO, SO2 và O3
- Một số kỹ thuật học máy để xây dựng mô hình dự báo thống kê chất
lượng không khí, tập trung vào hai kỹ thuật trí tuệ nhân tạo mới gồm mạng nơron tích chập (CNN) và mạng bộ nhớ dài – ngắn (LSTM)
Phạm vi nghiên cứu: Các thông số cơ bản về chất lượng không khí tại
trạm quan trắc số 556, phường Gia Thụy, quận Long Biên, Hà Nội trong thời gian từ 2010 đến 2018 trong thời gian từ 2010 đến 2018
4 Các đóng góp mới của luận án
Về phương pháp
- Bổ khuyết dữ liệu quan trắc CLKK bằng cách tiếp cận sử dụng các công cụ máy học (machine learning), mà cụ thể là mô hình ARIMA
- Một cách tiếp cận tích hợp ba phương pháp bao gồm xử lý dữ liệu ngoại vi bằng biểu đồ hộp, bổ khuyết dữ liệu bằng công cụ máy học ARIMA và xác định luật phân bố dữ liệu quan trắc CLKK đã được
sử dụng để trích xuất thông tin của CLKK từ dữ liệu CLKK Đây là một cách tiếp cận mới và khả thi để trích xuất thông tin của CLKK
Trang 3từ dữ liệu quan trắc CLKK phục vụ cho các công tác nghiên cứu và quản lý chất lượng không khí
Về kết quả cụ thể
- Mô hình dự báo chất lượng không khí ứng dụng mạng nơron tích chập (CNN) kết hợp với khối bộ nhớ dài – ngắn (LSTM) được nghiên cứu thử nghiệm
- Cung cấp một bộ dữ liệu đầy đủ, đồng bộ và liên tục cho một quãng thời gian dài (9 năm) về nồng độ trung bình giờ của các chất ô nhiễm không khí cơ bản ở Hà Nội để phục vụ công tác nghiên cứu
và quản lý chất lượng không khí
- Thông tin về sự thay đổi nồng độ các chất ô nhiễm không khí theo thời gian (bao gồm biến trình trong ngày,diễn biến theo mùa và xu hướng diễn biến chất lượng không khí dài hạn (trend)); về mối tương quan giữa chúng với nhau và mối tương quan giữa chúng với các yếu tố khí tượng trong giai đoạn 2010 - 2018 tại trạm Nguyễn Văn Cừ, Gia Lâm, Hà Nội
5 Bố cục của luận án
Mở đầu
Chương 1 Tổng quan
Chương 2: Phương pháp nghiên cứu
Chương 3: Kết quả và thảo luận
Kết luận và kiến nghị
TỔNG QUAN CHƯƠNG 1.
Chất lượng không khí đã và đang là một trong những vẫn đề được quan tâm của các quốc gia trên thế giới, trong đó có Việt Nam, bởi mức độ rủi ro tiềm ẩn của nó đến sức khỏe người dân và hệ sinh thái Theo tổ chức Y tế Thế giới – WHO, ước tính trong năm 2012, ô nhiễm không khí là nguyên nhân gây ra gần 7 triệu ca tử vong, chiếm 10% trong số các ca tử vong do tất cả các nguyên nhân [18] Trong đó, theo ước tính có khoảng 9% do nguyên nhân ung thư phổi, 17% do các bệnh phổi mạn tính, 30% do các nguyên nhân như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan đến ô nhiễm không khí, và 9% do
Trang 4nhiễm trùng đường hô hấp [18] Điều này cho thấy, nếu công tác dự báo CLKK được thực hiện tốt như đối với dự báo khí tượng thì sẽ giúp người dân
có thể chủ động hơn với các hoạt động giảm thiểu mức độ ảnh hưởng tiêu cực của ô nhiễm không khí đến sức khỏe, nâng cao hiểu biết và ý thức bảo vệ môi trường, đặc biệt là không khí Ngoài ra, dựa vào đó, các cơ quan có các chính sách và chiến lược quản lý CLKK kịp thời hơn
1.1.2 Dự báo chất lượng không khí
Các mô hình dự báo CLKK hiện nay có thể được chia thành ba loại dựa vào phương pháp tiếp cận của chúng gồm phương pháp tiếp cận thực nghiệm đơn giản, phương pháp thống kê tham số hoặc phi tham số và phương pháp tiếp cận dự trên cơ sở vật lý nâng cao
Phương pháp tiếp cận theo thực nghiệm đơn giản [2]: Một số mô hình
nổi bật trong nhóm này có thể kể đến ở đây, mô hình dự báo CLKK tiếp cận theo phương pháp quán tính (Persistence), mô hình khí hậu (Climatology) và
cách tiếp cận khác dựa vào lý thuyết kinh nghiệm (empiricism)
Phương pháp tiếp cận dựa trên các cơ sở vật lý nâng cao [2]: còn được
gọi là mô hình số trị hay là các mô hình lan truyền hóa học (CTMs hoặc AQMs), nó mô tả rõ ràng các quá trình khí tượng, vật lý và hóa học chính dẫn đến sự hình thành và tích tụ chất ô nhiễm trong không khí trên cơ sở các mối tương quan về định luật bảo toàn khối lượng của các chất ô nhiễm không khí với nhau, các mối quan hệ hóa học (phản ứng hóa học) của chúng trong không khí và trạng thái vật lý của các chất ô nhiễm này tại thời điểm cần dự báo
Phương pháp tiếp cận thống kê tham số hoặc phi tham số [2]: các mô
hình dự báo thống kê dựa trên thực tế là các thông số khí tượng và các thông
số CLKK có mối liên hệ chặt chẽ với nhau về mặt thống kê Chính vì vậy, nó
sử dụng các mô hình thống kê khác nhau từ đơn giản như hồi quy tuyến tính –
LR, cây phân lớp và hồi quy – CART, cho đến các công cụ phức tạp hơn như
bộ lọc Kalman (KF), mạng nơron nhân tạo – ANN, máy véctơ hỗ trợ – SVM, lô-gíc mờ - FL, … Tình hình nghiên cứu và ứng dụng trí tuệ nhân tạo trong
dự báo chất lượng không khí trong nước
Trang 51.2 Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí
1.3 Phương pháp tiền xử lý dữ liệu cho các mô hình dự báo thống kê
1.3.1 Các phương pháp xử lý dữ liệu ngoại vi
+ Phương pháp phát hiện dữ liệu ngoại vi theo độ lệch chuẩn (SD) + Phương pháp phát hiện dữ liệu ngoại vi theo độ lệch tuyệt đối trung bình (MAD) + Phương pháp phát hiện dữ liệu ngoại vi bằng biểu đồ hộp (Box và Whisker)
1.3.2 Phương pháp bổ khuyết dữ liệu
Trên thực tế dữ liệu ghi nhận tại các trạm quan trắc CLKK luôn tồn tại một lượng không nhỏ dữ liệu trống hoặc lỗi do nhiều nguyên nhân (mất điện, bảo trì, lỗi thiết bị ) [71], nó gây ảnh hưởng không nhỏ đến công tác khai thác dữ liệu CLKK vào các mục đích nghiên cứu cũng như quản lý CLKK hiện nay Để giải quyết vấn đề này, có nhiều phương pháp để dự đoán
và điền (bù) lại các giá trị đã mất phổ biến như hồi quy tuyến tính, nội suy Spline, hồi quy phi tuyến [78-79]
1.4 Mô hình trí tuệ nhân tạo
1.4.1 Mô hình ARIMA
Mô hình ARIMA được Box và Jenkins đề xuất năm 1970 [80, 81], là một mô hình phân tích dữ liệu theo chuỗi thời gian được kết hợp bởi hai thành phần (mô hình con) gồm mô hình tự hồi quy (Autoregressive - AR) và mô hình trung bình trượt (Moving average – MA), được mô tả tóm tắt dưới đây:
+ Mô hình tự hồi quy (Autoregressive – AR):
+ Mô hình trung bình trượt (Moving average – MA
Kết hợp hai mô hình trên thành một mô hình có tham số (p, q) được gọi
là ARMA, trong đó p là tham số của mô hình AR và q là tham số của mô hình
MA, được trình bày trong phương trình (1.4) dưới đây:
Trang 6(1.4)
1.4.2 Mạng nơron nhân tạo (ANN)
Mạng nơron nhân tạo (ANN) được giới thiệu lần đầu bởi McCulloch và Pitt (1943), là một cấu trúc toán học mô tả lại hệ thần kinh sinh học Chúng được tạo thành từ các phần tử xử lý thông tin được gọi là nơron (tế bào thần kinh) [83] Mỗi nơron nhận tín hiệu từ các nơron khác hoặc từ bên ngoài thông qua synape Tại đây, thông tin được xử lý thông qua một hàm truyền (transfer function) để tạo thành tín hiệu truyền đến nơron khác dựa trên kinh nghiệm đã được học tập trước đó Mô hình toán của ANN được thể hiện trong Hình 1.1
Hình 1.1 Mô hình toán của một tế bào thần kinh (Nguồn [83])
1.4.3 Máy hỗ trợ véc tơ (SVM)
Thuật toán SVMs được phát triển bởi Vapnik (1995) [33] dựa trên lý thuyết thống kê, ban đầu được sử dụng trong các bài toán phân lớp dữ liệu Thuật toán SVMs sử dụng các mô hình tuyến tính để phân chia ranh giới giữa các lớp phi tuyến bằng cách mô tả dữ liệu đầu vào bằng một ánh xạ phi tuyến, nói cách khác đó là sự biến đổi không gian ban đầu thành một không gian mới SVMs là thuật toán cơ sở của mô hình tuyến tính đặc biệt: Lề tối đa siêu phẳng Trong đó, các lề siêu phẳng này chính là ranh giới phân chia các lớp
dữ liệu Mục tiêu chính của bài toán chính là hồi quy gần đúng một hàm g(x)
Trang 7rô bốt Được giới thiệu và phát triển trong thập niên 90 của thế kỷ XX, kiến trúc LeNet được đề xuất bởi Yann LeCun được coi là một trong những mạng nơron tích chập đầu tiên và được thiết kế trong mô hình nhận dạng chữ in và viết tay được gọi là LeNet5 đã giúp thúc đẩy sự phát triển mạnh mẽ của lĩnh vực học sâu (deeplearning) Một số kiến trúc mạng tích chập mới được đề xuất trong những năm gần đây, tuy nhiên tất cả chúng đều sử dụng các khái niệm và phương pháp tiếp cận chính từ LeNet [42]
1.4.5 Khối bộ nhớ dài – ngắn (LSTM)
Khối bộ nhớ dài – ngắn (long-short term memory – LSTM) được đề xuất bởi Sepp Hochreiter và Jürgen Schmidhuber năm 1997, ban đầu LSTM chỉ bao gồm tế bào và hai cổng đầu vào và đầu ra, sau đó cấu trúc LSTM được hoàn thiện hơn bởi Gers Felix [94] khi thêm cổng quên (foget gate) và các kết nối giám sát (peephole conections) LSTM chứa một cổng vào (input gate), một cổng đầu ra (output gate) và một cổng quên (foget gate), sự tương tác qua lại giữa ba cổng này giúp LSTM có đủ khả năng phân tích sự phụ thuộc của
dữ liệu trong thời gian dài, điều mà các RNN thông thường không thể giải quyết được Ngoài ra, một vấn đề gặp phải phổ biến trong các mạng nơron sâu
(nhiều lớp) được gọi là mất độ dốc (gradient descent), tức là, tốc độ học của
các lớp ẩn phía trước chậm hơn các lớp ẩn sâu hơn Hiện tượng này thường làm giảm độ chính xác khi số lớp ẩn tăng lên Tuy nhiên, với cấu trúc ô nhớ của LSTM có thể giải quyết hiệu quả vấn đề suy giảm độ dốc trong quá trình lan truyền ngược (backpropagation) [15] và có thể phân tích chuỗi dữ liệu đầu vào với bước thời gian dài hơn Do đó, LSTM thường được sử dụng để giải quyết các vấn đề phân tích dữ liệu theo chuỗi thời gian
PHƯƠNG PHÁP NGHIÊN CỨU CHƯƠNG 2.
2.1 Quy trình nghiên cứu
Để đạt được mục tiêu đã đề ra, nghiên cứu đã được thực hiện theo các bước chính được tóm tắt dưới đây:
Bước 1 Thu thập dữ liệu từ trạm quan trắc CLKK
Bước 2 Làm sạch và chuẩn bị dữ liệu:
- Xử lý dữ liệu ngoại vi
- Bổ khuyết dữ liệu
- Kiểm tra độ tin cậy của bộ dữ liệu đã được bổ khuyết
Bước 3 Xây dựng và đánh giá mô hình nghiên cứu
Trang 8- Xây dựng kiến trúc mô hình CNN-LSTM
- Huấn luyện mô hình
- Đánh giá độ tin cậy của mô hình
Bước 4 Thực hiện mô hình
2.2 Thu thập dữ liệu
2.2.1 Địa điểm và thời gian thu thập dữ liệu
a Địa điểm thu thập dữ liệu
Bộ dữ liệu quan trắc CLKK sử dụng trong nghiên cứu này là nồng độ trung bình giờ của các thông số CLKK được đo tại trạm quan trắc CLKK tự động thuộc quyền quản lý của Trung tâm quan trắc Môi trường Miền Bắc (CEM), Tổng cục Môi trường đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm, Hà Nội, tương ứng với tọa độ 21°02'55.6"N và 105°52'57.4"E (Hình 2.1 trong quyển thuyết minh luận án)
b Thời gian thu thập dữ liệu
Bộ dữ liệu được thu thập tại quan trắc đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm, Hà Nội trong 09 năm từ tháng 7 năm 2010 đến 31 tháng 12 năm
Trang 92.3.3 Kiểm tra độ tin cậy của bộ dữ liệu sau khi đã bổ khuyết
- Xác định và kiểm tra tính đồng nhất về luật phân bố xác suất của dữ liệu
- So sánh, đánh giá giá diễn biến nồng độ của các thông số CLKK được nghiên cứu trước và sau khi bổ khuyết
2.3.4 Chuẩn hóa dữ liệu đầu vào cho mô hình dự báo
Được thực hiện qua hai bước:
Bước 1 Chia tỷ lệ thuộc tính (feature scaling): Trong bước này, giá trị
(nồng độ) của các thông số được nghiên cứu trong bộ dữ liệu được chuẩn hóa
về khoảng giá trị từ 0 đến 1 theo công thức (2.6) (quyển thuyết minh luận án)
Bộ dữ liệu sau khi đã được chuẩn hóa về khoảng giá trị , dữ liệu đầu vào của mô hình sẽ được cài đặt theo mẫu sau:
1
1
t t t
t n
X X input
Bước 2: Bộ dữ liệu sau khi đã được chuẩn hóa ở bước trên sẽ được chia
thành hai phần, một phần dùng để huấn luyện (training) mô hình và phần còn lại được dùng đề hiệu chỉnh và kiểm tra độc lập (testing) mô hình Tỷ lệ số lượng và thời gian của hai bộ dữ liệu được phân chia như sau:
- Bộ dữ liệu huấn luyện (training): 90% trên tổng số 78.888 giờ quan trắc, tương ứng với đoạn dữ liệu liên tục từ 0h00 ngày 01/01/2010 đến 6h00 ngày 6/02/2018
- Bộ dữ liệu hiệu chỉnh và kiểm tra: 10% trên tổng số dữ liệu, tương ứng với đoạn dữ liệu từ 7h00 ngày 06/02/2018 đến 23h00 ngày 31/12/2018
2.4 Xây dựng mô hình dự báo thống kê chất lượng không khí
Trong luận án này, với mỗi thông số được nghiên cứu, mạng nơron tích chập (Convolutional neuron network – CNN) kết hợp với sự hỗ trợ việc ghi nhớ lại các hành vi (thông tin) của chính thông số quan trắc CLKK được nghiên cứu, cũng như các thông số phụ thuộc trong quá khứ theo thời gian bởi các khối mạng bộ nhớ dài-ngắn (long-short term memory – LSTM) đã được
Trang 10nghiên cứu Qua nghiên cứu, luận án đề xuất sử dụng mô hình CNN-LSTM (Hình 2.3)
Hình 2.3 Kiến trúc của mô hình dự báo CLKK được đề xuất
2.5 Tiến trình thực thi mô hình
Tiến trình thực thi mô hình nghiên cứu được mô tả tóm tắt theo sơ đồ Hình 2.7 dưới đây
Dữ liệu đầu vào
Chuẩn hóa DL (Normalization)
Khởi tạo các tham số của
mô hình CNN-LSTM Epoch=1
Huấn luyện mô hình CNN-LSTM
Tính MAE, MSE và MAPE
(MAE, MSE≤ mong muốn) hoặc (epoch≥max-epoch)
Đúng
Mô hình CNN-LSTM đã huấn luyện
Tính giá trị dự báo
Tính hiệu suất (MAE, RMSE, R 2 )
Trang 112.6 Đánh giá hiệu suất của mô hình nghiên cứu
Hiệu suất của mô hình được đánh giá thông qua một số chỉ số thống kê
gồm MAE, RMSE, r và R2
2.7 Nền tảng và thông số kỹ thuật máy tính
Các mô hình nghiên cứu được xây dựng và thực thi trên hệ thống
Colaboratory của công ty Google Thông số kỹ thuật của nền tảng cũng như
tài nguyên máy đã sử dụng trong luận án này từ hệ thống Colaboratory được
trình bày dưới đây:
- Ngôn ngữ sử dụng: Python phiên bản 3.6.9
- Môi trường tích hợp (Integrated Development Environment – IDE):
Colaboratory Notebook online trên hệ thống Colab
- Thư viện AI sử dụng: Tensorflow.Keras phiên bản 2.2.0
- Thông số GPU sử dụng để huấn luyện các mô hình nghiên cứu: Google
Colab GPU Tesla T4, RAM 16GB
KẾT QUẢ VÀ THẢO LUẬN CHƯƠNG 3.
3.1 Kết quả phân tích và xử lý dữ liệu đầu vào
3.1.1 Tình trạng dữ liệu và xử lý sơ bộ
3.1.1.1 Tình trạng của bộ dữ liệu thu thập được
Tỷ lệ dữ liệu trống của các thông số quan trắc của bộ dữ liệu nguồn như
49.2 56.8 56.8 49.1 53
E Y -BEE
M -XYN
O-XY
Trang 123.1.1.2 Kết quả xử lý dữ liệu hỏng và dữ liệu ngoại vi
Bảng 3.2 Thống kê tỷ lệ dữ liệu trống trước và sau khi xử lý dữ liệu ngoại vi
Tỷ lệ dữ liệu trống của các thông số quan trắc CLKK (%)
O3 SO2 NO NO2 NOx CO PM10 PM25 PM1Trước 22,17 16,85 7,44 8,08 7,44 6,70 13,26 13,43 22,1
Sau 28,67 23,80 8,92 9,09 7,96 11,82 17,39 16,70 28,7
Số DLXL 5037 5411 1139 766 391 4002 3206 2532 2744
Ghi chú: Số DLXL – số dữ liệu được xác định là ngoại vi (bất thường do lỗi)
3.1.2 Kết quả bổ khuyết dữ liệu
3.1.3 Kết quả bù dữ liệu
Mô hình ARIMA đã được lựa chọn và sử dụng trong luận án này được
thử nghiệm trên bộ dữ liệu quan trắc NO nồng độ trung bình giờ gồm 2000
điểm (giờ) liên tục từ 0 giờ ngày 01/01/2011 đến 7 giờ ngày 25/03/2011 (đoạn
dữ liệu liên tục đủ dài) Với giả định các tỷ lệ dữ liệu trống lần lượt là 5%,
10%, 20%, 30%, 40%, 50%, 60% và 80% thì vị trí của các dữ liệu trống này
được xác định một cách ngẫu nhiên, số lượng của chúng tương ứng theo tỷ lệ
dữ liệu trống đã được xác định Để đánh giá độ tin cậy của mô hình ARIMA
đã chọn, ba phương pháp gồm tự động hồi quy (Autoregressive - AR), hồi
quy tuyến tính (Linear regression, LR) và hồi quy spline tương ứng với 05 mô
hình là AR, LR, Spline bậc 3, Spline bậc 4 và Spline bậc 5 cũng đã được sử
dụng để so sánh và đánh giá độ tin cậy của chúng với nhau Các giá trị nồng
độ NO được tính toán (dự đoán) từ 06 mô hình này được so sánh với giá trị
thực của bộ dữ liệu gốc Kết quả được trình bày trong Bảng 3.3 (trong quyển
thuyết minh luận án)
3.1.4 Luật phân bố mật độ xác suất của dữ liệu
Như đã trình bày ở phần trên, việc bù dữ liệu có thể làm mất đi bản chất
phân bố dữ liệu, do vậy, việc so sánh phân bố mật độ xác suất trước và sau
khi bù dữ liệu là điều cần thiết như là một cách khác để kiểm tra độ tin cậy
của các bộ dữ liệu đã bù