Ứng dụng học máy dự đoán chất lượng không khíỨng dụng học máy dự đoán chất lượng không khíỨng dụng học máy dự đoán chất lượng không khíỨng dụng học máy dự đoán chất lượng không khíỨng dụng học máy dự đoán chất lượng không khí
Trang 1MỤC LỤC
CHƯƠNG 1: TỔNG QUAN 5
1.1 Chất lượng không khí 5
1.1.1 Chất lượng không khí và ảnh hưởng của nó đến sức khỏe 5
1.2 Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí 6
1.2.1 Trên thế giới 6
1.2.2 Ở Việt Nam 7
1.3 Mô hình trí tuệ nhân tạo 8
1.3.1 Mô hình ARIMA 8
1.3.2 Mạng nơron nhân tạo (ANN) 9
1.3.3 Máy hỗ trợ véc tơ (SVM) 9
1.3.4 Mạng nơron tích chập (CNN) 10
1.3.5 Khối bộ nhớ dài – ngắn (LSTM) 10
CHƯƠNG 2 PHƯƠNG PHÁP NGHIÊN CỨU 10
2.1 Quy trình nghiên cứu 10
2.2 Thu thập dữ liệu 11
2.2.1 Địa điểm và thời gian thu thập dữ liệu 11
2.2.2 Thông số kỹ thuật và phương pháp đo đạc tại trạm quan trắc 11
2.3 Ngôn ngữ, công cụ sử dụng 12
2.3.1 Ngôn ngữ lập trình R 12
2.3.2 Công cụ sử dụng 13
CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN 15
3.1 Kết quả phân tích và xử lý dữ liệu đầu vào 15
3.1.1 Tình trạng của bộ dữ liệu thu thập được 15
3.1.2 Kết quả xử lý dữ liệu hỏng và dữ liệu ngoại vi 16
3.2 Phản hồi trung bình hàng giờ 17
3.3 Dự đoán với hồi quy tuyến tính 20
KẾT LUẬN 23
Trang 2DANH MỤC CHỮ VIẾT TẮT
AI Artificial Intelligent Trí tuệ nhân tạo
ANN Artificial neural netwwork Mạng nơron nhân tạo
AQI Air quality index Chỉ số chất lượng không khí
ARIMA Autoregressive integrated moving
average
Mô hình tự hồi quy tích hợptrung bình trượt
CNN Convolution neural network Mạng nơron tích chập
FFNN Feed-forward neural network Mạng nơron truyền thuận
FN Fully connected network Mạng nơron kết nối đầy đủ
LSTM Long – short term memory Khối bộ nhớ dài – ngắn
MAE Mean absolute error
Trị trung bình của các sai tuyệtđối
MLP Multi-layer perceptron Mạng nơron đa lớp
RMSE Root mean square error Sai số quân phương
SVM Support vector machine Máy véc tơ hỗ trợ
LỜI MỞ ĐẦU
Cũng giống như thời tiết, chất lượng không khí ảnh hưởng trực tiếp đến sứckhỏe con người Khi nồng độ các chất ô nhiễm vượt quá ngưỡng cho phép, tiếp xúc
Trang 3với thời gian ngắn có thể gây ra các phản ứng cấp tính như giảm tầm nhìn, khó thở,cay mắt…, tiếp xúc với thời gian dài có thể gây ra các bệnh mạn tính về hô hấp, timmạch và có thể cả ung thư Ngoài ra, ô nhiễm không khí còn gây ra các ảnh hưởng xấuđến các hệ sinh thái tự nhiên Do đó, bên cạnh công tác quan trắc thì dự báo được nồng
độ các chất ô nhiễm không khí, cũng như diễn biến của chúng có ý nghĩa vô cùng quantrọng trong việc đánh giá các mối nguy cơ tiềm tàng của ô nhiễm không khí Chính vìvậy, trong hơn một thập kỷ trở lại đây, các nghiên cứu ứng dụng các mô hình dự báochất lượng không khí tại Việt Nam đã tăng lên đáng kể và đạt được nhiều thành tựu
Trong thập kỷ vừa qua, các mô hình dự báo thống kê CLKK sử dụng mạngnơron nhân tạo đã được nghiên cứu và ứng dụng thành công tại nhiều quốc gia trênThế giới, có thể kể đến ở đây như dự báo nồng độ bụi PM10, dự báo nồng độ ôzôn,hoặc một số chất ô nhiễm khác như SO2, NOx, VOC… sử dụng các kiến trúc mạngnơron kết nối đầy đủ - FN với cấu trúc truyền thuận (FFNN) đặc biệt như MLP haynhư một số mô hình ứng dụng mạng nơron hồi quy thông thường (RNN) như mạng tựhồi quy phi tuyến với biến ngoại sinh (NARX) và Vanilla RNN Trong những năm gầnđây, các kỹ thuật học sâu phát triển mạnh giúp giảm thời gian huấn luyện, giảm tiêutốn tài nguyên máy và tăng độ chính xác đặc biệt có thể kể đến ở đây như mạng nơrontích chập (CNN), mạng bộ nhớ dài – ngắn (LSTM)…
Tuy nhiên, cho đến nay dự báo thống kê CLKK tại Việt Nam nói chung và đặcbiệt là dự báo thống kê ứng dụng các kỹ thuật trí tuệ nhân tạo còn khá mới mẻ và theohiểu biết của tác giả hiện có rất ít các nghiên cứu liên quan đến lĩnh vực này
Xuất phát từ thực tế đó, đề tài “Ứng dụng kỹ thuật học máy trong dự báo cácchỉ số chất lượng không khí.” đã được lựa chọn nhằm khởi động và thúc đẩy hướngnghiên cứu mới này tại Việt Nam, góp phần vào công tác quản lý và bảo vệ môitrường không khí ở nước ta
Trang 4CHƯƠNG 1: TỔNG QUAN 1.1 Chất lượng không khí
1.1.1 Chất lượng không khí và ảnh hưởng của nó đến sức khỏe
Chất lượng không khí đã và đang là một trong những vẫn đề được quan tâm củacác quốc gia trên thế giới, trong đó có Việt Nam, bởi mức độ rủi ro tiềm ẩn của nó đếnsức khỏe người dân và hệ sinh thái Theo tổ chức Y tế Thế giới – WHO, ước tính trongnăm 2012, ô nhiễm không khí là nguyên nhân gây ra gần 7 triệu ca tử vong, chiếm10% trong số các ca tử vong do tất cả các nguyên nhân Trong đó, theo ước tính cókhoảng 9% do nguyên nhân ung thư phổi, 17% do các bệnh phổi mạn tính, 30% do cácnguyên nhân như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan đến ô nhiễm khôngkhí, và 9% do nhiễm trùng đường hô hấp
Chất lượng không khí, là một thuật ngữ liên quan đến thành phần hóa học củakhí quyển Trong đó, bụi (PM), ôzôn (O3), NO2, các hợp chất hữu cơ dễ bay hơi(VOC), CO và SO2 là những thông số được quan tâm hơn cả do mức độ nguy hiểm củachúng đến sức khỏe Nhiều nghiên cứu dịch tễ học tại Hồng Kông và Đài Loan đã chỉ
ra rằng sự gia tăng nồng độ của O3, NO2, SO2 và PM2.5 có liên quan đến sự gia tăng số
ca nhập viện do các nguyên nhân hen và viêm phổi Một kết quả đáng lưu ý được báocáo bởi Di và cộng sự nghiên cứu trên hơn 60 triệu người thụ hưởng bảo hiểm y tế(Medicare) tại Mỹ trong giai đoạn từ 2000 đến 2012 phát hiện rằng, cứ nồng độ củaPM2.5 tăng lên 10 μg/mg/m3 , thì tỷ lệ tử vong do mọi nguyên nhân tăng lên 7,3%, còn khinồng độ O3 tăng lên 10 ppb thì tỷ lệ tử vong tăng lên 1,1% Ngoài ra, một phân tíchtổng hợp được nghiên cứu tại nhiều thành phố của Trung Quốc, trong nhiều gian đoạnkhác nhau cũng đã quan sát được rằng khi nồng độ của PM2.5 tăng lên 10 μg/mg/m3 thì tỷ
lệ tử vong do các nguyên nhân tăng lên 0,38%; tăng 0,51% tỷ lệ tử vong do các bệnhliên quan đến hô hấp và tăng 0,44% tỷ lệ tử vong do các bệnh tim mạch Tương tự,ứng với sự gia tăng của SO2, NO2 và O3 lên10 μg/mg/m3 thì tỷ lệ gia tăng tỷ lệ tử vongtương ứng gồm tỷ lệ tử vong tổng số là 0,81%; 1,30% và 0,48%; tỷ lệ tử vong do cácbệnh hô hấp 1,18%; 1,62% và 0,73%; và tỷ lệ tử vong do các bệnh tim mạch 0,85%,1,46% và 0,45% Còn với CO, nghiên cứu này cũng quan sát được rằng khi nồng độcủa CO tăng lên 1mg/m3 (1000 μg/mg/m3 ) thì tỷ lệ tử vong do tất cả các nguyên nhân tănglên 3,7% và do các bệnh tim mạch tăng lên 4,77%
Tại Việt Nam, nghiên cứu tại thành phố Hồ Chí Minh từ 2004 đến hết 2007cũng cho thấy có mối liên quan chặt chẽ giữa diễn biến nồng độ chất ô nhiễm và số canhập viện do các bệnh liên quan đến hô hấp, cụ thể: ứng với sự gia tăng nồng độ của
Trang 5mỗi chất PM10, NO2 và SO2 lên 10 μg/mg/m3 thì tỷ lệ gia tăng các ca nhập viện do hô hấptăng lên tương ứng là 0,7%, 8% và 2%, trong khi, O3 không gây tác động đáng kể nào.Trong báo cáo này, theo ghi nhận trong số các chất ô nhiễm được nghiên cứu gồmPM10, NO2, SO2 và O3 thì nồng độ của PM10 có đến 1126 ngày vượt quy chuẩn theothang đo của WHO (chiếm 79% thời gian nghiên cứu) Đối tượng nhạy cảm hơn cả vớiCLKK là nhóm người già và trẻ em, hơn 75 nghìn các bệnh nhi từ 0 – 5 tuổi nhập viện
do các bệnh liên quan đến hô hấp tại Hà Nội trong thời gian từ 2004 đến 2016 (trong
đó có 2462/3351 ngày có nồng độ PM10 vượt quá quy chuẩn của WHO) cho thấy khikhoảng cách giữa các phân vị (IQR – interquartile range) của nồng độ của O3 tăng lên
86 μg/mg/m3 thì tỷ lệ ra viện của bệnh nhi mắc các bệnh hô hấp giảm 5%, tương ứng vớiPM10 là 61,5 μg/mg/m3 thì tỷ lệ ra viện giảm 6%
Điều này cho thấy, nếu công tác dự báo CLKK được thực hiện tốt như đối với
dự báo khí tượng thì sẽ giúp người dân có thể chủ động hơn với các hoạt động giảmthiểu mức độ ảnh hưởng tiêu cực của ô nhiễm không khí đến sức khỏe, nâng cao hiểubiết và ý thức bảo vệ môi trường, đặc biệt là không khí Ngoài ra, dựa vào đó, các cơquan có các chính sách và chiến lược quản lý CLKK kịp thời hơn
1.2 Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí
1.2.1 Trên thế giới
Từ thập niên 90 của thế kỷ XX đến nay, cùng với sự phát triển vượt bậc củacông nghệ thông tin và những bước đột phá trong các nghiên cứu về ứng dụng AItrong khoa học thống kê, công tác phân tích và dự báo thống kê theo chuỗi thời gianmới thực sự phát triển mạnh và được ứng dụng trong nhiều ngành, trong đó có dự báoCLKK Do tính linh hoạt cũng như khả năng “học tập” từ dữ liệu một cách mạnh mẽ
mà các công cụ AI, đặc biệt là ANN đã được ứng dụng từ rất sớm trong công tác dựbáo CLKK Ngay từ những năm 1990, một mô hình dự báo nồng độ đỉnh của ôzôntrong ngày ứng dụng ANN đã được Junsub Yi và cộng sự xây dựng và phát triển thànhcông cho thành phố Dallas, bang Texas, Mỹ Mặc dù thời điểm này tác giả sử dụngmột kiến trúc mạng nơron truyền thuận (FFNN) khá đơn giản gồm 01 lớp đầu vào, 01lớp ẩn và 01 lớp đầu ra Tuy nhiên, kết quả được báo cáo trong nghiên cứu này là rấtkhả quan
Trong những năm gần đây, các kỹ thuật AI thường được thiết kế và ứng dụngcho mục đích khai thác các bộ dữ liệu lớn (bigdata), và dữ liệu CLKK cũng là mộttrong số đó Để làm việc với các bộ dữ liệu lớn hơn thì đòi hỏi kiến trúc mạng ANNphải nhiều lớp hơn (sâu hơn) – còn gọi là mạng nơron sâu (DNN) Tuy nhiên, kiến trúc
Trang 6kết nối đầy đủ như ANN thông thường không còn phù hợp do lượng tham số sử dụngtrong mô hình quá lớn, chúng tiêu tốn quá nhiều tài nguyên máy tính Từ thực tế trên,
để giảm số lượng các tham số của mạng, cách tiếp cận khả thi đã được sử dụng thànhcông là cố gắng giảm chiều dữ liệu qua các lớp của mạng Một kiến trúc mạng nơronđặc biệt được gọi là mạng nơron tích chập – CNN hoàn chỉnh lần đầu tiên được giớithiệu và ứng dụng bởi Yann LeCunn và cộng sự năm 1998 dựa trên cách tiếp cận nhưvậy để nhận diện ký tự
Nhờ ưu điểm này, cho đến nay CNN trở thành một trong những ANN được ứngdụng nhiều nhất cho các bài toán khai thác dữ liệu lớn, theo thống kê từ hệ thốngGoogle Scholar nghiên cứu này được trích dẫn 28.998 lần (truy cập lúc 16 giờ 15’ngày 17 tháng 8 năm 2020) Trong lĩnh vực dự báo CLKK, CNN cũng đã được ứngdụng thành công Tuy nhiên, cũng giống như các ANN thông thường, hạn chế củaCNN trong khai thác dữ liệu theo chuỗi thời gian như dữ liệu CLKK, đó là đầu vàocủa mô hình là các mẫu dữ liệu rời rạc, trong quá trình huấn luyện các mẫu này đượcđưa vào huấn luyện một cách ngẫu nhiên không theo trình tự thời gian Điều này cóthể làm mất thông tin về chu kỳ diễn biến của nồng độ chất ô nhiễm theo thời gian(ngày, tuần, mùa, …) Mặt khác, các mô hình lai kết hợp giữa CNN-LSTM cũng đãđược nghiên cứu ứng dụng trong các mô hình dự báo CLKK đặc biệt là phát triển môhình dự báo CLKK cho các đô thị thông minh cho kết quả rất khả quan Điều này chothấy tiềm năng ứng dụng AI nói chung, ANN nói riêng và đặc biệt các mạng ANN họcsâu để xây dựng các mô hình dự báo thống kê CLKK là rất lớn
1.2.2 Ở Việt Nam
Trong 15 năm trở lại đây, do ý thức được tầm quan trọng của công tác quản lý
và bảo vệ CLKK đặc biệt là công tác dự báo Chính vì vậy, các mô hình dự báo CLKK
đã được nghiên cứu và ứng dụng như mô hình phát thải giao thông SMOKE, mô hìnhCMAQ để dự báo CLKK cho một số tỉnh phía Bắc và thành phố Hồ Chí Minh, môhình DPSIR hoặc mô hình TAPOM với kết quả rất khả quan Tuy nhiên, tựu chung lạicác mô hình đã được nghiên cứu và ứng dụng tại Việt Nam hầu hết là các mô hìnhphát thải (như SMOKE, MOBILE), mô hình quang hóa (CMAQ, TAPOM) hoặc môhình động lực học (DPSIR) Như đã phân tích ở phần trên, các loại mô hình này có ưuđiểm là độ chính xác cao, đánh giá sâu sắc các vấn đề liên quan đến sự biến động nồng
độ các chất ô nhiễm không khí như quá trình khí tượng, các quá trình biến đổi hóahọc…áp dụng được với quy mô rộng lớn và có thể kết hợp với các mô hình khí tượng
đã được ứng dụng tại Việt Nam như MM5, FVM… Tuy nhiên, nhược điểm chung củacác mô hình này đó là khối lượng tính toán lớn, phức tạp vì vậy đòi hỏi một hệ thống
Trang 7cơ sở hạ tầng về công nghệ thông tin đủ mạnh Thêm nữa, việc vận hành các mô hìnhloại này đòi hỏi có chuyên môn tương đối cao, bởi nếu không những sai sót trong thiếtlập (setup) mô hình cũng có thể gây ra sai số không mong muốn Nhìn vào hiện trạngtrên có thể thấy rằng các mô hình ứng dụng trí tuệ nhân tạo trong dự báo và khai thác
dữ liệu môi trường không khí tại Việt Nam còn rất hạn chế
Cùng với sự phát triển chung của Thế giới, các kỹ thuật trí tuệ nhân tạo cũng đãđược nghiên cứu và áp dụng trong rất nhiều lĩnh vực tại Việt Nam Theo dữ liệu họcliệu mở trên cổng thông tin quốc gia (www.vista.gov.vn) từ năm 1985 cho đến nay cóthể kể đến như đối với ứng dụng trong công nghệ thông tin, trong điều khiển và kiểmsoát các quá trình công nghệ, trong lĩnh vực dự báo nhu cầu năng lượng, trong dự báo
lũ, trong xây dựng và đặc biệt là ứng dụng trong dự báo kinh tế… Trong lĩnh vực quản
lý và bảo vệ môi trường việc ứng dụng các kỹ thuật trí tuệ nhân tạo cũng đã bước đầu
có những kết quả tương đối khả quan Điều này cho thấy, tiềm năng ứng dụng các kỹthuật của trí tuệ nhân tạo trong thực tế quản lý và sản xuất là rất lớn
Đối với quản lý và dự báo CLKK việc ứng dụng trí tuệ nhân tạo mặc dù chưa
có nghiên cứu nào, tuy nhiên vấn đề này đã thử nghiệm sử dụng ANN để bổ khuyết sốliệu quan trắc CLKK trạm Láng, Hà Nội, mặc dù mới chỉ là thử nghiệm, nhưng kếtquả thu được là tương đối khả quan, cho thấy việc ứng dụng ANN nói riêng và các kỹthuật trí tuệ nhân tạo nói chung tại Việt Nam là rất có tiềm năng
1.3 Mô hình trí tuệ nhân tạo
+ Mô hình tự hồi quy (Autoregressive – AR):
+ Mô hình trung bình trượt (Moving average – MA
Kết hợp hai mô hình trên thành một mô hình có tham số (p, q) được gọi làARMA, trong đó p là tham số của mô hình AR và q là tham số của mô hình MA, đượctrình bày trong phương trình dưới đây:
Trang 81.3.2 Mạng nơron nhân tạo (ANN)
Mạng nơron nhân tạo (ANN) được giới thiệu lần đầu bởi McCulloch và Pitt(1943), là một cấu trúc toán học mô tả lại hệ thần kinh sinh học Chúng được tạo thành
từ các phần tử xử lý thông tin được gọi là nơron (tế bào thần kinh) Mỗi nơron nhận tínhiệu từ các nơron khác hoặc từ bên ngoài thông qua synape Tại đây, thông tin được
xử lý thông qua một hàm truyền (transfer function) để tạo thành tín hiệu truyền đếnnơron khác dựa trên kinh nghiệm đã được học tập trước đó Mô hình toán của ANNđược thể hiện trong Hình 1.1
Hình 1 1 Mô hình toán của một nơron
Hình 1 2 Kiến trúc cơ bản của một ANN
1.3.3 Máy hỗ trợ véc tơ (SVM)
Thuật toán SVMs được phát triển bởi Vapnik (1995) dựa trên lý thuyết thống
kê, ban đầu được sử dụng trong các bài toán phân lớp dữ liệu Thuật toán SVMs sửdụng các mô hình tuyến tính để phân chia ranh giới giữa các lớp phi tuyến bằng cách
mô tả dữ liệu đầu vào bằng một ánh xạ phi tuyến, nói cách khác đó là sự biến đổi
Trang 9không gian ban đầu thành một không gian mới SVMs là thuật toán cơ sở của mô hìnhtuyến tính đặc biệt: Lề tối đa siêu phẳng Trong đó, các lề siêu phẳng này chính là ranhgiới phân chia các lớp dữ liệu Mục tiêu chính của bài toán chính là hồi quy gần đúngmột hàm g(x) từ một bộ mẫu
1.3.4 Mạng nơron tích chập (CNN)
Mạng nơron tích chập (convolutional neural network) là một loại mạng nơronnhân tạo đã được chứng minh tính hiệu quả của nó trong nhiều lĩnh vực phức tạp như
xe tự hành, nhận dạng sinh trắc học, dự báo kinh tế, điều khiển rô bốt Được giới thiệu
và phát triển trong thập niên 90 của thế kỷ XX, kiến trúc LeNet được đề xuất bởi YannLeCun được coi là một trong những mạng nơron tích chập đầu tiên và được thiết kếtrong mô hình nhận dạng chữ in và viết tay được gọi là LeNet5 đã giúp thúc đẩy sựphát triển mạnh mẽ của lĩnh vực học sâu (deeplearning) Một số kiến trúc mạng tíchchập mới được đề xuất trong những năm gần đây, tuy nhiên tất cả chúng đều sử dụngcác khái niệm và phương pháp tiếp cận chính từ LeNet
1.3.5 Khối bộ nhớ dài – ngắn (LSTM)
Khối bộ nhớ dài – ngắn (long-short term memory – LSTM) được đề xuất bởi Sepp Hochreiter và Jürgen Schmidhuber năm 1997, ban đầu LSTM chỉ bao gồm tế bào và hai cổng đầu vào và đầu ra, sau đó cấu trúc LSTM được hoàn thiện hơn bởi Gers Felixkhi thêm cổng quên (foget gate) và các kết nối giám sát (peephole conections) LSTM chứa một cổng vào (input gate), một cổng đầu ra (output gate) và một cổng quên (fogetgate), sự tương tác qua lại giữa ba cổng này giúp LSTM có đủ khả năng phân tích sự phụ thuộc của dữ liệu trong thời gian dài, điều mà các RNN thông thường không thể giải quyết được Ngoài ra, một vấn đề gặp phải phổ biến trong các mạng nơron sâu (nhiều lớp) được gọi là mất độ dốc (gradient descent), tức là, tốc độ học của các lớp ẩnphía trước chậm hơn các lớp ẩn sâu hơn Hiện tượng này thường làm giảm độ chính xác khi số lớp ẩn tăng lên Tuy nhiên, với cấu trúc ô nhớ của LSTM có thể giải quyết hiệu quả vấn đề suy giảm độ dốc trong quá trình lan truyền ngược (backpropagation)
và có thể phân tích chuỗi dữ liệu đầu vào với bước thời gian dài hơn Do đó, LSTM thường được sử dụng để giải quyết các vấn đề phân tích dữ liệu theo chuỗi thời gian
CHƯƠNG 2 PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Quy trình nghiên cứu
Để đạt được mục tiêu đã đề ra, nghiên cứu đã được thực hiện theo các bướcchính được tóm tắt dưới đây:
Trang 10Bước 1 Thu thập dữ liệu từ trạm quan trắc CLKK
Bước 2 Làm sạch và chuẩn bị dữ liệu:
- Xử lý dữ liệu ngoại vi
- Bổ khuyết dữ liệu
- Kiểm tra độ tin cậy của bộ dữ liệu đã được bổ khuyết
Bước 3 Xây dựng và đánh giá mô hình nghiên cứu
- Xây dựng kiến trúc mô hình
- Huấn luyện mô hình
- Đánh giá độ tin cậy của mô hình
- Cải thiện hiệu suất mô hình
Bước 4 Thực hiện mô hình
2.2 Thu thập dữ liệu
2.2.1 Địa điểm và thời gian thu thập dữ liệu
a Địa điểm thu thập dữ liệu
Bộ dữ liệu quan trắc CLKK sử dụng trong nghiên cứu này là nồng độ trungbình giờ của các thông số CLKK được đo tại trạm quan trắc CLKK tự động thuộcquyền quản lý của Trung tâm quan trắc Môi trường Miền Bắc (CEM), Tổng cục Môitrường đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm, Hà Nội, tương ứng với tọa độ21°02'55.6"N và 105°52'57.4"E
b Thời gian thu thập dữ liệu
Bộ dữ liệu được thu thập tại quan trắc đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm,
Hà Nội từ tháng 3 năm 2018 đến tháng 2 năm 2019 (một năm) ghi lại các phản ứngcủa thiết bị cảm biến hóa học chất lượng không khí được triển khai tại hiện trường
2.2.2 Thông số kỹ thuật và phương pháp đo đạc tại trạm quan trắc
Chúng ta có thể sử dụng Bộ dữ liệu chất lượng không khí UCI ML để chứng
minh ảnh hưởng của hướng kime đối với việc phân tích dữ liệu theo chiều dọc Các dữ
liệu chất lượng không khí bao gồm 9358 phản hồi trung bình hàng giờ từ một loạt 5
cảm biến được nhúng trong Thiết bị đa cảm biến hóa học chất lượng không khí Cácphép đo này được thực hiện tại một khu vực ô nhiễm đáng kể trong khoảng thời gianmột năm (tháng 3 năm 2018 đến tháng 2 năm 2019) Các tính năng bao gồm Nồng độ
Trang 11cho CO, Hydrocacbon không Metan, Benzen, Tổng Nitơ Oxit (NOx) và NitrogenDioxit (NO2).
Các thuộc tính trong tệp CSV bao gồm:
ta có thể sử dụng mà không cần phải mua bản quyền