1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng học máy dự đoán chất lượng không khí

22 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 828,2 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ứng dụng học máy dự đoán chất lượng không khíỨng dụng học máy dự đoán chất lượng không khíỨng dụng học máy dự đoán chất lượng không khíỨng dụng học máy dự đoán chất lượng không khíỨng dụng học máy dự đoán chất lượng không khí

Trang 1

MỤC LỤC

CHƯƠNG 1: TỔNG QUAN 5

1.1 Chất lượng không khí 5

1.1.1 Chất lượng không khí và ảnh hưởng của nó đến sức khỏe 5

1.2 Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí 6

1.2.1 Trên thế giới 6

1.2.2 Ở Việt Nam 7

1.3 Mô hình trí tuệ nhân tạo 8

1.3.1 Mô hình ARIMA 8

1.3.2 Mạng nơron nhân tạo (ANN) 9

1.3.3 Máy hỗ trợ véc tơ (SVM) 9

1.3.4 Mạng nơron tích chập (CNN) 10

1.3.5 Khối bộ nhớ dài – ngắn (LSTM) 10

CHƯƠNG 2 PHƯƠNG PHÁP NGHIÊN CỨU 10

2.1 Quy trình nghiên cứu 10

2.2 Thu thập dữ liệu 11

2.2.1 Địa điểm và thời gian thu thập dữ liệu 11

2.2.2 Thông số kỹ thuật và phương pháp đo đạc tại trạm quan trắc 11

2.3 Ngôn ngữ, công cụ sử dụng 12

2.3.1 Ngôn ngữ lập trình R 12

2.3.2 Công cụ sử dụng 13

CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN 15

3.1 Kết quả phân tích và xử lý dữ liệu đầu vào 15

3.1.1 Tình trạng của bộ dữ liệu thu thập được 15

3.1.2 Kết quả xử lý dữ liệu hỏng và dữ liệu ngoại vi 16

3.2 Phản hồi trung bình hàng giờ 17

3.3 Dự đoán với hồi quy tuyến tính 20

KẾT LUẬN 23

Trang 2

DANH MỤC CHỮ VIẾT TẮT

AI Artificial Intelligent Trí tuệ nhân tạo

ANN Artificial neural netwwork Mạng nơron nhân tạo

AQI Air quality index Chỉ số chất lượng không khí

ARIMA Autoregressive integrated moving

average

Mô hình tự hồi quy tích hợptrung bình trượt

CNN Convolution neural network Mạng nơron tích chập

FFNN Feed-forward neural network Mạng nơron truyền thuận

FN Fully connected network Mạng nơron kết nối đầy đủ

LSTM Long – short term memory Khối bộ nhớ dài – ngắn

MAE Mean absolute error

Trị trung bình của các sai tuyệtđối

MLP Multi-layer perceptron Mạng nơron đa lớp

RMSE Root mean square error Sai số quân phương

SVM Support vector machine Máy véc tơ hỗ trợ

LỜI MỞ ĐẦU

Cũng giống như thời tiết, chất lượng không khí ảnh hưởng trực tiếp đến sứckhỏe con người Khi nồng độ các chất ô nhiễm vượt quá ngưỡng cho phép, tiếp xúc

Trang 3

với thời gian ngắn có thể gây ra các phản ứng cấp tính như giảm tầm nhìn, khó thở,cay mắt…, tiếp xúc với thời gian dài có thể gây ra các bệnh mạn tính về hô hấp, timmạch và có thể cả ung thư Ngoài ra, ô nhiễm không khí còn gây ra các ảnh hưởng xấuđến các hệ sinh thái tự nhiên Do đó, bên cạnh công tác quan trắc thì dự báo được nồng

độ các chất ô nhiễm không khí, cũng như diễn biến của chúng có ý nghĩa vô cùng quantrọng trong việc đánh giá các mối nguy cơ tiềm tàng của ô nhiễm không khí Chính vìvậy, trong hơn một thập kỷ trở lại đây, các nghiên cứu ứng dụng các mô hình dự báochất lượng không khí tại Việt Nam đã tăng lên đáng kể và đạt được nhiều thành tựu

Trong thập kỷ vừa qua, các mô hình dự báo thống kê CLKK sử dụng mạngnơron nhân tạo đã được nghiên cứu và ứng dụng thành công tại nhiều quốc gia trênThế giới, có thể kể đến ở đây như dự báo nồng độ bụi PM10, dự báo nồng độ ôzôn,hoặc một số chất ô nhiễm khác như SO2, NOx, VOC… sử dụng các kiến trúc mạngnơron kết nối đầy đủ - FN với cấu trúc truyền thuận (FFNN) đặc biệt như MLP haynhư một số mô hình ứng dụng mạng nơron hồi quy thông thường (RNN) như mạng tựhồi quy phi tuyến với biến ngoại sinh (NARX) và Vanilla RNN Trong những năm gầnđây, các kỹ thuật học sâu phát triển mạnh giúp giảm thời gian huấn luyện, giảm tiêutốn tài nguyên máy và tăng độ chính xác đặc biệt có thể kể đến ở đây như mạng nơrontích chập (CNN), mạng bộ nhớ dài – ngắn (LSTM)…

Tuy nhiên, cho đến nay dự báo thống kê CLKK tại Việt Nam nói chung và đặcbiệt là dự báo thống kê ứng dụng các kỹ thuật trí tuệ nhân tạo còn khá mới mẻ và theohiểu biết của tác giả hiện có rất ít các nghiên cứu liên quan đến lĩnh vực này

Xuất phát từ thực tế đó, đề tài “Ứng dụng kỹ thuật học máy trong dự báo cácchỉ số chất lượng không khí.” đã được lựa chọn nhằm khởi động và thúc đẩy hướngnghiên cứu mới này tại Việt Nam, góp phần vào công tác quản lý và bảo vệ môitrường không khí ở nước ta

Trang 4

CHƯƠNG 1: TỔNG QUAN 1.1 Chất lượng không khí

1.1.1 Chất lượng không khí và ảnh hưởng của nó đến sức khỏe

Chất lượng không khí đã và đang là một trong những vẫn đề được quan tâm củacác quốc gia trên thế giới, trong đó có Việt Nam, bởi mức độ rủi ro tiềm ẩn của nó đếnsức khỏe người dân và hệ sinh thái Theo tổ chức Y tế Thế giới – WHO, ước tính trongnăm 2012, ô nhiễm không khí là nguyên nhân gây ra gần 7 triệu ca tử vong, chiếm10% trong số các ca tử vong do tất cả các nguyên nhân Trong đó, theo ước tính cókhoảng 9% do nguyên nhân ung thư phổi, 17% do các bệnh phổi mạn tính, 30% do cácnguyên nhân như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan đến ô nhiễm khôngkhí, và 9% do nhiễm trùng đường hô hấp

Chất lượng không khí, là một thuật ngữ liên quan đến thành phần hóa học củakhí quyển Trong đó, bụi (PM), ôzôn (O3), NO2, các hợp chất hữu cơ dễ bay hơi(VOC), CO và SO2 là những thông số được quan tâm hơn cả do mức độ nguy hiểm củachúng đến sức khỏe Nhiều nghiên cứu dịch tễ học tại Hồng Kông và Đài Loan đã chỉ

ra rằng sự gia tăng nồng độ của O3, NO2, SO2 và PM2.5 có liên quan đến sự gia tăng số

ca nhập viện do các nguyên nhân hen và viêm phổi Một kết quả đáng lưu ý được báocáo bởi Di và cộng sự nghiên cứu trên hơn 60 triệu người thụ hưởng bảo hiểm y tế(Medicare) tại Mỹ trong giai đoạn từ 2000 đến 2012 phát hiện rằng, cứ nồng độ củaPM2.5 tăng lên 10 μg/mg/m3 , thì tỷ lệ tử vong do mọi nguyên nhân tăng lên 7,3%, còn khinồng độ O3 tăng lên 10 ppb thì tỷ lệ tử vong tăng lên 1,1% Ngoài ra, một phân tíchtổng hợp được nghiên cứu tại nhiều thành phố của Trung Quốc, trong nhiều gian đoạnkhác nhau cũng đã quan sát được rằng khi nồng độ của PM2.5 tăng lên 10 μg/mg/m3 thì tỷ

lệ tử vong do các nguyên nhân tăng lên 0,38%; tăng 0,51% tỷ lệ tử vong do các bệnhliên quan đến hô hấp và tăng 0,44% tỷ lệ tử vong do các bệnh tim mạch Tương tự,ứng với sự gia tăng của SO2, NO2 và O3 lên10 μg/mg/m3 thì tỷ lệ gia tăng tỷ lệ tử vongtương ứng gồm tỷ lệ tử vong tổng số là 0,81%; 1,30% và 0,48%; tỷ lệ tử vong do cácbệnh hô hấp 1,18%; 1,62% và 0,73%; và tỷ lệ tử vong do các bệnh tim mạch 0,85%,1,46% và 0,45% Còn với CO, nghiên cứu này cũng quan sát được rằng khi nồng độcủa CO tăng lên 1mg/m3 (1000 μg/mg/m3 ) thì tỷ lệ tử vong do tất cả các nguyên nhân tănglên 3,7% và do các bệnh tim mạch tăng lên 4,77%

Tại Việt Nam, nghiên cứu tại thành phố Hồ Chí Minh từ 2004 đến hết 2007cũng cho thấy có mối liên quan chặt chẽ giữa diễn biến nồng độ chất ô nhiễm và số canhập viện do các bệnh liên quan đến hô hấp, cụ thể: ứng với sự gia tăng nồng độ của

Trang 5

mỗi chất PM10, NO2 và SO2 lên 10 μg/mg/m3 thì tỷ lệ gia tăng các ca nhập viện do hô hấptăng lên tương ứng là 0,7%, 8% và 2%, trong khi, O3 không gây tác động đáng kể nào.Trong báo cáo này, theo ghi nhận trong số các chất ô nhiễm được nghiên cứu gồmPM10, NO2, SO2 và O3 thì nồng độ của PM10 có đến 1126 ngày vượt quy chuẩn theothang đo của WHO (chiếm 79% thời gian nghiên cứu) Đối tượng nhạy cảm hơn cả vớiCLKK là nhóm người già và trẻ em, hơn 75 nghìn các bệnh nhi từ 0 – 5 tuổi nhập viện

do các bệnh liên quan đến hô hấp tại Hà Nội trong thời gian từ 2004 đến 2016 (trong

đó có 2462/3351 ngày có nồng độ PM10 vượt quá quy chuẩn của WHO) cho thấy khikhoảng cách giữa các phân vị (IQR – interquartile range) của nồng độ của O3 tăng lên

86 μg/mg/m3 thì tỷ lệ ra viện của bệnh nhi mắc các bệnh hô hấp giảm 5%, tương ứng vớiPM10 là 61,5 μg/mg/m3 thì tỷ lệ ra viện giảm 6%

Điều này cho thấy, nếu công tác dự báo CLKK được thực hiện tốt như đối với

dự báo khí tượng thì sẽ giúp người dân có thể chủ động hơn với các hoạt động giảmthiểu mức độ ảnh hưởng tiêu cực của ô nhiễm không khí đến sức khỏe, nâng cao hiểubiết và ý thức bảo vệ môi trường, đặc biệt là không khí Ngoài ra, dựa vào đó, các cơquan có các chính sách và chiến lược quản lý CLKK kịp thời hơn

1.2 Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí

1.2.1 Trên thế giới

Từ thập niên 90 của thế kỷ XX đến nay, cùng với sự phát triển vượt bậc củacông nghệ thông tin và những bước đột phá trong các nghiên cứu về ứng dụng AItrong khoa học thống kê, công tác phân tích và dự báo thống kê theo chuỗi thời gianmới thực sự phát triển mạnh và được ứng dụng trong nhiều ngành, trong đó có dự báoCLKK Do tính linh hoạt cũng như khả năng “học tập” từ dữ liệu một cách mạnh mẽ

mà các công cụ AI, đặc biệt là ANN đã được ứng dụng từ rất sớm trong công tác dựbáo CLKK Ngay từ những năm 1990, một mô hình dự báo nồng độ đỉnh của ôzôntrong ngày ứng dụng ANN đã được Junsub Yi và cộng sự xây dựng và phát triển thànhcông cho thành phố Dallas, bang Texas, Mỹ Mặc dù thời điểm này tác giả sử dụngmột kiến trúc mạng nơron truyền thuận (FFNN) khá đơn giản gồm 01 lớp đầu vào, 01lớp ẩn và 01 lớp đầu ra Tuy nhiên, kết quả được báo cáo trong nghiên cứu này là rấtkhả quan

Trong những năm gần đây, các kỹ thuật AI thường được thiết kế và ứng dụngcho mục đích khai thác các bộ dữ liệu lớn (bigdata), và dữ liệu CLKK cũng là mộttrong số đó Để làm việc với các bộ dữ liệu lớn hơn thì đòi hỏi kiến trúc mạng ANNphải nhiều lớp hơn (sâu hơn) – còn gọi là mạng nơron sâu (DNN) Tuy nhiên, kiến trúc

Trang 6

kết nối đầy đủ như ANN thông thường không còn phù hợp do lượng tham số sử dụngtrong mô hình quá lớn, chúng tiêu tốn quá nhiều tài nguyên máy tính Từ thực tế trên,

để giảm số lượng các tham số của mạng, cách tiếp cận khả thi đã được sử dụng thànhcông là cố gắng giảm chiều dữ liệu qua các lớp của mạng Một kiến trúc mạng nơronđặc biệt được gọi là mạng nơron tích chập – CNN hoàn chỉnh lần đầu tiên được giớithiệu và ứng dụng bởi Yann LeCunn và cộng sự năm 1998 dựa trên cách tiếp cận nhưvậy để nhận diện ký tự

Nhờ ưu điểm này, cho đến nay CNN trở thành một trong những ANN được ứngdụng nhiều nhất cho các bài toán khai thác dữ liệu lớn, theo thống kê từ hệ thốngGoogle Scholar nghiên cứu này được trích dẫn 28.998 lần (truy cập lúc 16 giờ 15’ngày 17 tháng 8 năm 2020) Trong lĩnh vực dự báo CLKK, CNN cũng đã được ứngdụng thành công Tuy nhiên, cũng giống như các ANN thông thường, hạn chế củaCNN trong khai thác dữ liệu theo chuỗi thời gian như dữ liệu CLKK, đó là đầu vàocủa mô hình là các mẫu dữ liệu rời rạc, trong quá trình huấn luyện các mẫu này đượcđưa vào huấn luyện một cách ngẫu nhiên không theo trình tự thời gian Điều này cóthể làm mất thông tin về chu kỳ diễn biến của nồng độ chất ô nhiễm theo thời gian(ngày, tuần, mùa, …) Mặt khác, các mô hình lai kết hợp giữa CNN-LSTM cũng đãđược nghiên cứu ứng dụng trong các mô hình dự báo CLKK đặc biệt là phát triển môhình dự báo CLKK cho các đô thị thông minh cho kết quả rất khả quan Điều này chothấy tiềm năng ứng dụng AI nói chung, ANN nói riêng và đặc biệt các mạng ANN họcsâu để xây dựng các mô hình dự báo thống kê CLKK là rất lớn

1.2.2 Ở Việt Nam

Trong 15 năm trở lại đây, do ý thức được tầm quan trọng của công tác quản lý

và bảo vệ CLKK đặc biệt là công tác dự báo Chính vì vậy, các mô hình dự báo CLKK

đã được nghiên cứu và ứng dụng như mô hình phát thải giao thông SMOKE, mô hìnhCMAQ để dự báo CLKK cho một số tỉnh phía Bắc và thành phố Hồ Chí Minh, môhình DPSIR hoặc mô hình TAPOM với kết quả rất khả quan Tuy nhiên, tựu chung lạicác mô hình đã được nghiên cứu và ứng dụng tại Việt Nam hầu hết là các mô hìnhphát thải (như SMOKE, MOBILE), mô hình quang hóa (CMAQ, TAPOM) hoặc môhình động lực học (DPSIR) Như đã phân tích ở phần trên, các loại mô hình này có ưuđiểm là độ chính xác cao, đánh giá sâu sắc các vấn đề liên quan đến sự biến động nồng

độ các chất ô nhiễm không khí như quá trình khí tượng, các quá trình biến đổi hóahọc…áp dụng được với quy mô rộng lớn và có thể kết hợp với các mô hình khí tượng

đã được ứng dụng tại Việt Nam như MM5, FVM… Tuy nhiên, nhược điểm chung củacác mô hình này đó là khối lượng tính toán lớn, phức tạp vì vậy đòi hỏi một hệ thống

Trang 7

cơ sở hạ tầng về công nghệ thông tin đủ mạnh Thêm nữa, việc vận hành các mô hìnhloại này đòi hỏi có chuyên môn tương đối cao, bởi nếu không những sai sót trong thiếtlập (setup) mô hình cũng có thể gây ra sai số không mong muốn Nhìn vào hiện trạngtrên có thể thấy rằng các mô hình ứng dụng trí tuệ nhân tạo trong dự báo và khai thác

dữ liệu môi trường không khí tại Việt Nam còn rất hạn chế

Cùng với sự phát triển chung của Thế giới, các kỹ thuật trí tuệ nhân tạo cũng đãđược nghiên cứu và áp dụng trong rất nhiều lĩnh vực tại Việt Nam Theo dữ liệu họcliệu mở trên cổng thông tin quốc gia (www.vista.gov.vn) từ năm 1985 cho đến nay cóthể kể đến như đối với ứng dụng trong công nghệ thông tin, trong điều khiển và kiểmsoát các quá trình công nghệ, trong lĩnh vực dự báo nhu cầu năng lượng, trong dự báo

lũ, trong xây dựng và đặc biệt là ứng dụng trong dự báo kinh tế… Trong lĩnh vực quản

lý và bảo vệ môi trường việc ứng dụng các kỹ thuật trí tuệ nhân tạo cũng đã bước đầu

có những kết quả tương đối khả quan Điều này cho thấy, tiềm năng ứng dụng các kỹthuật của trí tuệ nhân tạo trong thực tế quản lý và sản xuất là rất lớn

Đối với quản lý và dự báo CLKK việc ứng dụng trí tuệ nhân tạo mặc dù chưa

có nghiên cứu nào, tuy nhiên vấn đề này đã thử nghiệm sử dụng ANN để bổ khuyết sốliệu quan trắc CLKK trạm Láng, Hà Nội, mặc dù mới chỉ là thử nghiệm, nhưng kếtquả thu được là tương đối khả quan, cho thấy việc ứng dụng ANN nói riêng và các kỹthuật trí tuệ nhân tạo nói chung tại Việt Nam là rất có tiềm năng

1.3 Mô hình trí tuệ nhân tạo

+ Mô hình tự hồi quy (Autoregressive – AR):

+ Mô hình trung bình trượt (Moving average – MA

Kết hợp hai mô hình trên thành một mô hình có tham số (p, q) được gọi làARMA, trong đó p là tham số của mô hình AR và q là tham số của mô hình MA, đượctrình bày trong phương trình dưới đây:

Trang 8

1.3.2 Mạng nơron nhân tạo (ANN)

Mạng nơron nhân tạo (ANN) được giới thiệu lần đầu bởi McCulloch và Pitt(1943), là một cấu trúc toán học mô tả lại hệ thần kinh sinh học Chúng được tạo thành

từ các phần tử xử lý thông tin được gọi là nơron (tế bào thần kinh) Mỗi nơron nhận tínhiệu từ các nơron khác hoặc từ bên ngoài thông qua synape Tại đây, thông tin được

xử lý thông qua một hàm truyền (transfer function) để tạo thành tín hiệu truyền đếnnơron khác dựa trên kinh nghiệm đã được học tập trước đó Mô hình toán của ANNđược thể hiện trong Hình 1.1

Hình 1 1 Mô hình toán của một nơron

Hình 1 2 Kiến trúc cơ bản của một ANN

1.3.3 Máy hỗ trợ véc tơ (SVM)

Thuật toán SVMs được phát triển bởi Vapnik (1995) dựa trên lý thuyết thống

kê, ban đầu được sử dụng trong các bài toán phân lớp dữ liệu Thuật toán SVMs sửdụng các mô hình tuyến tính để phân chia ranh giới giữa các lớp phi tuyến bằng cách

mô tả dữ liệu đầu vào bằng một ánh xạ phi tuyến, nói cách khác đó là sự biến đổi

Trang 9

không gian ban đầu thành một không gian mới SVMs là thuật toán cơ sở của mô hìnhtuyến tính đặc biệt: Lề tối đa siêu phẳng Trong đó, các lề siêu phẳng này chính là ranhgiới phân chia các lớp dữ liệu Mục tiêu chính của bài toán chính là hồi quy gần đúngmột hàm g(x) từ một bộ mẫu

1.3.4 Mạng nơron tích chập (CNN)

Mạng nơron tích chập (convolutional neural network) là một loại mạng nơronnhân tạo đã được chứng minh tính hiệu quả của nó trong nhiều lĩnh vực phức tạp như

xe tự hành, nhận dạng sinh trắc học, dự báo kinh tế, điều khiển rô bốt Được giới thiệu

và phát triển trong thập niên 90 của thế kỷ XX, kiến trúc LeNet được đề xuất bởi YannLeCun được coi là một trong những mạng nơron tích chập đầu tiên và được thiết kếtrong mô hình nhận dạng chữ in và viết tay được gọi là LeNet5 đã giúp thúc đẩy sựphát triển mạnh mẽ của lĩnh vực học sâu (deeplearning) Một số kiến trúc mạng tíchchập mới được đề xuất trong những năm gần đây, tuy nhiên tất cả chúng đều sử dụngcác khái niệm và phương pháp tiếp cận chính từ LeNet

1.3.5 Khối bộ nhớ dài – ngắn (LSTM)

Khối bộ nhớ dài – ngắn (long-short term memory – LSTM) được đề xuất bởi Sepp Hochreiter và Jürgen Schmidhuber năm 1997, ban đầu LSTM chỉ bao gồm tế bào và hai cổng đầu vào và đầu ra, sau đó cấu trúc LSTM được hoàn thiện hơn bởi Gers Felixkhi thêm cổng quên (foget gate) và các kết nối giám sát (peephole conections) LSTM chứa một cổng vào (input gate), một cổng đầu ra (output gate) và một cổng quên (fogetgate), sự tương tác qua lại giữa ba cổng này giúp LSTM có đủ khả năng phân tích sự phụ thuộc của dữ liệu trong thời gian dài, điều mà các RNN thông thường không thể giải quyết được Ngoài ra, một vấn đề gặp phải phổ biến trong các mạng nơron sâu (nhiều lớp) được gọi là mất độ dốc (gradient descent), tức là, tốc độ học của các lớp ẩnphía trước chậm hơn các lớp ẩn sâu hơn Hiện tượng này thường làm giảm độ chính xác khi số lớp ẩn tăng lên Tuy nhiên, với cấu trúc ô nhớ của LSTM có thể giải quyết hiệu quả vấn đề suy giảm độ dốc trong quá trình lan truyền ngược (backpropagation)

và có thể phân tích chuỗi dữ liệu đầu vào với bước thời gian dài hơn Do đó, LSTM thường được sử dụng để giải quyết các vấn đề phân tích dữ liệu theo chuỗi thời gian

CHƯƠNG 2 PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Quy trình nghiên cứu

Để đạt được mục tiêu đã đề ra, nghiên cứu đã được thực hiện theo các bướcchính được tóm tắt dưới đây:

Trang 10

Bước 1 Thu thập dữ liệu từ trạm quan trắc CLKK

Bước 2 Làm sạch và chuẩn bị dữ liệu:

- Xử lý dữ liệu ngoại vi

- Bổ khuyết dữ liệu

- Kiểm tra độ tin cậy của bộ dữ liệu đã được bổ khuyết

Bước 3 Xây dựng và đánh giá mô hình nghiên cứu

- Xây dựng kiến trúc mô hình

- Huấn luyện mô hình

- Đánh giá độ tin cậy của mô hình

- Cải thiện hiệu suất mô hình

Bước 4 Thực hiện mô hình

2.2 Thu thập dữ liệu

2.2.1 Địa điểm và thời gian thu thập dữ liệu

a Địa điểm thu thập dữ liệu

Bộ dữ liệu quan trắc CLKK sử dụng trong nghiên cứu này là nồng độ trungbình giờ của các thông số CLKK được đo tại trạm quan trắc CLKK tự động thuộcquyền quản lý của Trung tâm quan trắc Môi trường Miền Bắc (CEM), Tổng cục Môitrường đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm, Hà Nội, tương ứng với tọa độ21°02'55.6"N và 105°52'57.4"E

b Thời gian thu thập dữ liệu

Bộ dữ liệu được thu thập tại quan trắc đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm,

Hà Nội từ tháng 3 năm 2018 đến tháng 2 năm 2019 (một năm) ghi lại các phản ứngcủa thiết bị cảm biến hóa học chất lượng không khí được triển khai tại hiện trường

2.2.2 Thông số kỹ thuật và phương pháp đo đạc tại trạm quan trắc

Chúng ta có thể sử dụng Bộ dữ liệu chất lượng không khí UCI ML để chứng

minh ảnh hưởng của hướng kime đối với việc phân tích dữ liệu theo chiều dọc Các dữ

liệu chất lượng không khí bao gồm 9358 phản hồi trung bình hàng giờ từ một loạt 5

cảm biến được nhúng trong Thiết bị đa cảm biến hóa học chất lượng không khí Cácphép đo này được thực hiện tại một khu vực ô nhiễm đáng kể trong khoảng thời gianmột năm (tháng 3 năm 2018 đến tháng 2 năm 2019) Các tính năng bao gồm Nồng độ

Trang 11

cho CO, Hydrocacbon không Metan, Benzen, Tổng Nitơ Oxit (NOx) và NitrogenDioxit (NO2).

Các thuộc tính trong tệp CSV bao gồm:

ta có thể sử dụng mà không cần phải mua bản quyền

Ngày đăng: 21/10/2022, 14:04

HÌNH ẢNH LIÊN QUAN

AR Autoregressive Mơ hình tự hồi quy - Ứng dụng học máy dự đoán chất lượng không khí
utoregressive Mơ hình tự hồi quy (Trang 2)
Hình 1.1 Mơ hình tốn của một nơron - Ứng dụng học máy dự đoán chất lượng không khí
Hình 1.1 Mơ hình tốn của một nơron (Trang 8)
Hình 1.2. Kiến trúc cơ bản của một ANN - Ứng dụng học máy dự đoán chất lượng không khí
Hình 1.2. Kiến trúc cơ bản của một ANN (Trang 8)
Kết quả từ Hình 3.1 cho thấy, lượng dữ liệu trống (không đo đạc được) là rất lớn (từ 6,7% đến 83,2%) - Ứng dụng học máy dự đoán chất lượng không khí
t quả từ Hình 3.1 cho thấy, lượng dữ liệu trống (không đo đạc được) là rất lớn (từ 6,7% đến 83,2%) (Trang 14)
Hình 3.2 Biểu đồ hộp xác định các dữ liệu ngoại vi. - Ứng dụng học máy dự đoán chất lượng không khí
Hình 3.2 Biểu đồ hộp xác định các dữ liệu ngoại vi (Trang 15)
Hình 3.3 Biểu đồ hộp các thông số sau khi đã xử lý dữ liệu ngoại vi - Ứng dụng học máy dự đoán chất lượng không khí
Hình 3.3 Biểu đồ hộp các thông số sau khi đã xử lý dữ liệu ngoại vi (Trang 16)
Do đó, không xem xét các hạt thứ cấp khi tạo mô hình cho Nhiệt độ, vì hạt chính sẽ là đủ nhằm tránh bất kỳ tác động chéo nào - Ứng dụng học máy dự đoán chất lượng không khí
o đó, không xem xét các hạt thứ cấp khi tạo mô hình cho Nhiệt độ, vì hạt chính sẽ là đủ nhằm tránh bất kỳ tác động chéo nào (Trang 18)
Đầu tiên, thử một mơ hình hồi quy tuyến tính, trong đó mọi hạt chính cùng với Độ ẩm tuyệt đối được sử dụng làm yếu tố dự báo và tìm cách chỉ giữ lại những hạt có ý nghĩa thống kê - Ứng dụng học máy dự đoán chất lượng không khí
u tiên, thử một mơ hình hồi quy tuyến tính, trong đó mọi hạt chính cùng với Độ ẩm tuyệt đối được sử dụng làm yếu tố dự báo và tìm cách chỉ giữ lại những hạt có ý nghĩa thống kê (Trang 19)
3.3. Dự đốn với hồi quy tuyến tính - Ứng dụng học máy dự đoán chất lượng không khí
3.3. Dự đốn với hồi quy tuyến tính (Trang 19)
Tiếp tục sử dụng phiên bản thứ hai của mơ hình hồi quy, vì đây là mơ hình có số lượng dự báo có ý nghĩa thống kê ít nhất - Ứng dụng học máy dự đoán chất lượng không khí
i ếp tục sử dụng phiên bản thứ hai của mơ hình hồi quy, vì đây là mơ hình có số lượng dự báo có ý nghĩa thống kê ít nhất (Trang 20)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w