Báo cáo cải thiện mô hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5 Nhóm 11: Các thành viên Nguyễn Văn Tú 19021381 Phạm Thanh Vĩnh 19021396 Bùi Văn Toán 19021372 Nguyễn Mạnh Tuấn 19021384 Giới thiệu và xem xét vấn đề Giới thiệu Các cách tiếp cận trước đó Cách tiếp cận cải tiến Nghiên cứu Khu vực nghiên cứu Dữ liệu khảo sát Nồng độ PM2.5 Khí tượng Mô hình Tổng quan Xây dựng mô hình 1. Tiền xử lý 2. MLP tạo PM2.5 có trọng số cho K khu vực lân cận 3. LSTM để trích xuất đặc trưng không thời gian 4. MLP dự đoán nồng độ PM2.5 vùng trung tâm trong ngày tiếp theo 5. Đánh giá, kết quả và thảo luận Mở rộng vấn đề Tham khảo Từ khóa quan trọng Nhóm 11: Các thành viên Báo cáo cải thiện mô hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
Trang 1Báo cáo cải thiện mô hình học
sâu cho việc dự báo nồng độ
bụi mịn PM 2.5
Nhóm 11: Các thành viên
Nhóm 11: Các thành viên
Nguyễn Văn Tú - 19021381
Phạm Thanh Vĩnh - 19021396
Bùi Văn Toán - 19021372
Nguyễn Mạnh Tuấn - 19021384
Giới thiệu và xem xét vấn đề
Giới thiệu
Các cách tiếp cận trước đó
Cách tiếp cận cải tiến
Nghiên cứu
Khu vực nghiên cứu
Dữ liệu khảo sát
Nồng độ PM2.5 Khí tượng
Mô hình
Tổng quan
Xây dựng mô hình
1 Tiền xử lý
2 MLP tạo PM2.5 có trọng số cho K khu vực lân cận
3 LSTM để trích xuất đặc trưng không - thời gian
4 MLP dự đoán nồng độ PM2.5 vùng trung tâm trong ngày tiếp theo
5 Đánh giá, kết quả và thảo luận
Mở rộng vấn đề
Tham khảo
Từ khóa quan trọng
Trang 2Nguyễn Văn Tú - 19021381
Phạm Thanh Vĩnh - 19021396
Bùi Văn Toán - 19021372
Nguyễn Mạnh Tuấn - 19021384
Giới thiệu và xem xét vấn đề
Giới thiệu
Tốc độ tăng trưởng kinh tế nhanh chóng trên toàn thế giới đã gây ra tình trạng ô
nhiễm không khí nghiêm trọng Một thành phần quan trọng tạo nên sự ô nhiễm
không khí mà đang rất được quan tâm gần đây là bụi mịn PM2.5 Loại bụi mịn
này chỉ có đường kính nên dễ dàng thâm nhập vào phổi từ đó gây ra
những bệnh về hô hấp, tim mạch
Việc dự đoán được nồng độ PM2.5 trên các địa phương sẽ giúp ích rất nhiều
cho việc kiểm soát và đưa ra khuyến cáo, hướng giải quyết kịp thời, nhằm nâng
cao đời sống, sức khỏe mọi người
Để đạt được mục đích này, nghiên cứu đề xuất mô hình mở rộng mạng LSTM có
trọng số (WLSTME)
Các cách tiếp cận trước đó
1 Sử dụng mô hình lý-hóa để mô phỏng lại hiện tương khuếch đại của không khí ô
nhiễm
Phụ thuộc vào kiến thức của chuyên gia Dễ mắc phải thiếu sót
2 Sử dụng những mô hình học từ dữ liệu thực tế
Mô hình hóa mối quan hệ tuyến tính giữa các đặc trưng của dữ liệu quan sát
và nồng độ PM2.5 của trạm trung tâm Quá đơn giản dẫn đến underfit Biểu diễn bằng mối quan hệ phi tuyến thông qua MLP, SVR, RNN, LSTM
LSTM dùng biểu diễn phụ thuộc thời gian giữa tập giữa dữ liệu trong quá khứ và dữ liệu hiện tại
Dựa vào dữ liệu của những trạm hàng xóm có mối quan hệ mật thiết để đưa
ra dự đoán (KNN) Dữ liệu của trạm hàng xóm sẽ được đánh trọng số dựa
2.5μm
⟶
Trang 3trên khoảng cách và hướng gió, tốc độ gió của dữ liệu thu được trong lịch sử
so với dữ liệu của trạm trung tâm
Sử dụng đặc trưng khoảng cách địa lý và các đặc điểm về hướng, tốc độ gió là
một đại lượng đánh giá tương quan không gian khá tốt Tuy nhiên tương quan này
đang được mô tả qua quan hệ tuyến tính → Có thể cải tiến
Cách tiếp cận cải tiến
Trên thực tế, mối tương quan giữa trạm trung tâm và các trạm
lân cận không chỉ đơn thuần là mối quan hệ tuyến tính giữa
khoảng cách địa lý và đặc điểm của gió, mà nó còn bị ảnh hưởng bởi sự phụ thuộc mật độ giữa các trạm, do phân bố các trạm
không đồng đều ⇒ Cần một mô hình phức tạp hơn nữa để có
thể mô phỏng đặc điểm mật độ giữa các trạm ⇒ MÔ HÌNH PHI
TUYẾN
⟹
Trang 4Đề xuất mô hình mở rộng mạng LSTM có trọng số (WLSTME), giải quyết vấn đề làm
thế nào để xem xét ảnh hưởng của mật độ phân bố các trạm và điều kiện gió lên mối
tương quan về mặt không gian của ô nhiễm không khí
Đầu tiên, chọn trạm lân cận ở xung quanh trạm trung tâm
Đánh trọng số dựa trên khoảng cách, nồng độ ô nhiễm và đặc trưng gió Trọng
số này được sinh bởi một mạng MLP Tạo ra tương quan không gian giữa
trạm trung tâm và trạm lân cận
Sau đó, kết hợp với lịch sử về nồng độ PM2.5 của trạm trung tâm và chuỗi dữ
liệu PM2.5 có trọng số của K trạm lân cận được để làm đầu vào cho mạng
LSTM Tạo thành đặc trưng không - thời gian tốt hơn
Cuối cùng, một MLP khác được sử dụng để tích hợp các đặc trưng không - thời
gian được trích xuất ở trên với các đặc trưng phụ khác của trạm trung tâm (dự
báo điều kiện khí tượng hôm sau) Tạo ra các dự báo về nồng độ PM2.5
trong tương lai của khu vực trung tâm
K
⟶
⟶
⟶
Trang 5💡 Cách tiếp cận trên gọi là Weighted Long - Short Term Memory neuron
network extended model (WLSTM)
Nghiên cứu
Khu vực nghiên cứu
Khu vực Bắc Kinh – Thiên Tân – Hà Bắc (BTH) của Trung Quốc là một trong những
khu vực kinh tế và năng động nhất ở Trung Quốc, bao gồm Bắc Kinh, Thiên Tân và
11 thành phố của tỉnh Hà Bắc Theo Bộ Bảo vệ Môi trường (MEP) (2018), trong số
20 thành phố ô nhiễm nhất, có 9 thành phố thuộc tỉnh Hà Bắc, Thiên Tân và Bắc
Kinh lần lượt xếp thứ 15 và 19 Do đó, nghiên cứu này đã sử dụng vùng BTH làm
vùng nghiên cứu để xây dựng mô hình dự báo nồng độ PM2.5
Trang 6Dữ liệu khảo sát
Nồng độ PM2.5
Vị trí các trạm và chất lượng không khí trong vùng BTH Màu sắc đại diện cho thứ hạng và nồng độ
PM2.5 trung bình hàng ngày trong thời gian từ ngày 1 tháng 1 năm 2015 đến ngày 31 tháng 12 năm
2017.
Trang 7Khảo sát 110 trạm quan trắc ô nhiễm không khí được phân bố trong khu vực nghiên
cứu, giúp thu thập:
Nồng độ hàng giờ của PM2.5, PM10, CO, NO2, O3 và SO2
Vĩ độ và kinh độ của trạm, tháng và tuần quan sát
Khí tượng
Ta sẽ quan sát thêm các những biến khí tượng như:
Độ ẩm tuyệt đối (Absolute humidity): khối lượng hơi nước trong một thể tích khí
có thể giữ được ở nhiệt độ nhất định
Tổng cột hơi nước (Total column water vapor): tổng hơi nước trong một cột khí
lấy trong khí quyển Hơi nước thì giữ nhiệt tốt hơn CO2, khi di chuyển có ảnh
hưởng đến sự chuyển đổi nhiệt giữa các khu vực khác nhau và ảnh hưởng đến
lượng mưa (Thời tiết càng ẩm thì càng ít ô nhiễm không khí)
Nhiệt độ điểm sương (Dew point temperature): là nhiệt độ ở đó hơi nước chuyển
sang thể lỏng
Nhiệt độ (MOD11A1 - dữ liệu vệ tinh và ECMWF)
Áp suất khí quyển
Tốc độ gió, hướng gió
: tốc độ gió địa đới và kinh tuyến
Mô hình
Tổng quan
Khung tổng thể của mô hình WLSTME được đề xuất là một mô hình kết hợp tích
hợp ba mạng nơ-ron:
Một mạng MLP để tạo ra PM2.5 có trọng số bằng cách kết hợp tốc độ và hướng
gió, khoảng cách địa lý với nồng độ PM2.5 lịch sử
t c độ gi = oˆˊ oˊ u2 + v2
hướng gi = oˊ −
2
π
tan−1
u v
u , v
Trang 8Một mạng LSTM để giải quyết đồng thời sự phụ thuộc không gian thời gian và
trích xuất các đặc trưng không - thời gian
Một mạng MLP khác để tối ưu hóa dự đoán bằng cách tích hợp các tính năng
công nghệ không gian và dữ liệu dự báo thời tiết
Xây dựng mô hình
1 Tiền xử lý
Loại bỏ những trạm lân cận thiếu 10% dữ liệu nồng độ PM2.5
Chuẩn hóa dữ liệu đầu vào về μ = 0, σ = 1
Trang 9Sử dụng dữ liệu nhiệt độ (MOD11A1 - dữ liệu vệ tinh và ECMWF) cung cấp bởi
dữ liệu vệ tinh do có độ phân giải không gian cao hơn, và sử dụng phép nội suy
từ ECMWF cho những trạm không có dữ liệu vệ tinh ( )
Cuối cùng, dữ liệu nhiệt độ được thu thập từ tập dữ liệu MOD11A1 và ECMWF
đã được hợp nhất với nhau để nâng cao độ tin cậy của nó
2 MLP tạo PM2.5 có trọng số cho K khu vực lân cận
Các chất ô nhiễm được vận chuyển giữa các khu vực dựa vào
gió, ô nhiễm không khí của các khu vực trung tâm có mối tương
quan về mặt không gian với các khu vực lân cận Nhưng, các
trạm quan trắc có phân bố không đồng đều, khoảng cách giữa
các vị trí lân cận và vị trí trung tâm là khác nhau đối với các vị trí
trung tâm khác nhau
💡 MLP ba lớp tích hợp khoảng cách và gió của các vị trí lân cận với PM2.5
của nó để tạo ra dữ liệu PM2.5 có trọng số cho mỗi vị trí lân cận của vị trí trung tâm
R2 = 0.91
csM = 0.953842 ∗ cs −E 0.074635
j i
Trang 10Các dữ liệu ta sẽ đưa vào trong mô hình:
: biểu diễn sự tập trung của của vùng lân cận tại thời điểm
: vẫn tốc gió của vùng lân cận tại thời điểm : khoảng cách giữa vùng trung tâm và lân cận : góc hướng gió từ vùng lân cận với cạnh tại thời điểm Những đại lương trên có liên quan đến tương quan không gian giữa trạm trung
tâm và những trạm lân cận:
Theo dõi nồng độ PM2.5 giúp xem xét tương quan nồng độ bụi giữa 2 trạm nếu giống nhau thì trọng số sẽ lớn hơn
Khoảng cách địa lý thì do ô nhiễm không khí lan sang những nơi khác dựa vào gió do đó cần xem xét vận tốc gió và hướng gió tại các trạm địa
phương
t
Trang 11Khi đã xây dựng được mô hình, ta thu được các số liệu của bụi PM2.5 cho
khu vực lân cận được đánh trọng số theo mức độ tương quan không gian
3 LSTM để trích xuất đặc trưng không - thời gian
LSTM là một mạng nơ-ron hồi quy đặc biệt (RNN), nó có khả
năng nắm bắt đồng thời các phụ thuộc dài và ngắn trong dữ liệu
chuỗi thời gian.
Mô hình LSTM được sử dụng là LSTM trạng thái hai lớp, sử dụng trạng thái của lô
mẫu LSTM hiện tại làm trạng thái ban đầu của lô mẫu tiếp theo
Kết hợp giữa dữ liệu lịch sử PM2.5 có trọng số từ MLP và các dữ liệu ô nhiễm
vùng trung tâm và lân cận để đưa vào LSTM với mục đích trích xuất đặc điểm
không gian - thời gian
Dữ liệu được hợp nhất thành ma trận : là số vùng lân cận, là
chuỗi thời gian tương ứng và giá trị mỗi cột là nồng độ của vùng trung tâm hoặc
lân cận
K
Mô hình LSTM hai lớp
r × (K + 1) K r
Trang 124 MLP dự đoán nồng độ PM2.5 vùng trung tâm trong ngày tiếp
theo
Các biến phụ trợ: nhiệt độ, tốc độ gió, nhiệt độ điểm sương, áp suất khí quyển,
tổng cột hơi nước, dữ liệu thời gian (ngày trong tuần và tháng trong năm), và vĩ
độ của trạm trung tâm tại thời điểm
Kết hợp các biến phụ trợ với đặc trưng không thời gian từ LSTM và đưa vào
MLP ta có dự đoạn nồng độ PM2.5 ngày hôm sau của vị trí trung tâm
5 Đánh giá, kết quả và thảo luận
Ba tiêu chí được dùng để đánh giá hiệu quả mô hình:
Sai số tuyệt đối trung bình (MAE)
Sai số bình phương trung bình căn (RMSE)
Chỉ số độ chính xác tổng (p)
Vì nồng độ PM2.5 theo từng mùa sẽ khác nhau, nên việc chia tập dữ liệu theo từng
năm là thiết yếu Ta sẽ lấy dữ liệu năm 2015 và 2016 để đào tạo xây dựng mô hình
và năm 2017 để đánh giá hiệu suất mô hình
t
Trang 13Mở rộng vấn đề
Trong tương lai, nên tập trung vào dự đoán về sự gia tăng đột ngột của PM2.5,
đặc biệt là vào mùa đông khi tất cả các mô hình hoạt động kém
Ảnh hưởng bởi các chính sách của chính phủ và số lượng nhà máy trong khu
vực
Các phương pháp phức tạp hơn để xem xét mật độ của các địa điểm
Tham khảo
1 An improved deep learning model for predicting daily PM2.5 concentration
Từ khóa quan trọng
MLP, RNN, LSTM, WLSTM, zontal and meridional, , RMSE, MAE,
partial autocorrelation, inverse distance weight method, interpolate, ECMWF,
MOD11A1, KNN, spatialtemporal correlation, RSMprop optimizer
Biểu đồ sai số bình phương trung bình căn theo không gian Vị trí các trạm và chất lượng
không khí trong vùng BTH Màu sắc đại diện cho thứ hạng và nồng
độ PM2.5 trung bình hàng ngày trong thời gian từ ngày 1 tháng 1 năm 2015 đến ngày 31 tháng 12
năm 2017.
R2 − value