Do sự biến đổi nhanh về thời gian và cường độ của thông số trên, các mô hình máy học như: hồi quy tuyến tính [25], Bộ lọc Kalman [26] và Hồi quy Bayes [42] được khảo sát nhằm cảỉ thiện đ
Trang 1TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
- ∞0∞ -
ĐỖ KIM ĐOÀN
HỆ THỐNG HỔ TRỢ QUYẾT ĐỊNH QUẢN LÝ THÔNG SỐ ĐỘ ẨM TRONG NÔNG NGHIỆP
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
TP HỒ CHÍ MINH, NĂM 2020
Trang 2TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
- ∞0∞ -
ĐỖ KIM ĐOÀN
HỆ THỐNG HỔ TRỢ QUYẾT ĐỊNH QUẢN LÝ THÔNG SỐ ĐỘ ẨM TRONG NÔNG NGHIỆP
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Giảng viên hướng dẫn: TS Nguyễn Xuân Sâm
TP HỒ CHÍ MINH, NĂM 2020
Trang 3LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn “Hệ thống hỗ trợ quyết định quản lý thông
số độ ẩm trong nông nghiệp” là bài nghiên cứu của chính tôi
Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố hoặc được sử dụng để nhận bằng cấp ở những nơi khác
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận văn này mà không được trích dẫn theo đúng quy định
Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các trường đại học hoặc cơ sở đào tạo khác
Trang 4LỜI CẢM ƠN
Trong suốt quá trình học tập, nghiên cứu để thực hiện được luận văn này, tôi
đã nhận được rất nhiều sự hướng dẫn, giúp đỡ và góp ý quý báu từ quý thầy cô, bạn
bè và đồng nghiệp
Trước hết, tôi xin gửi lời cảm ơn trân trọng đến TS Nguyễn Xuân Sâm đã
định hướng, trực tiếp hướng dẫn, chia sẻ kíến thức, tài liệu và hỗ trợ tôi hoàn thành luận văn này
Nhân đây, tôi xin tỏ lòng biết ơn sâu sắc tới quý thầy cô Trường Đại học Mở TPHCM, Học viện Công nghệ Bưu chính Viễn thông đã truyền đạt cho tôi những kiến thức quý báu trong những năm học vừa qua
Đồng thời, tôi xin cảm ơn Ban Giám hiệu Trường Đại học Mở TPHCM, gia đình, bạn bè, đồng nghiệp đã ủng hộ, và giúp đỡ tôi trong quá trình thực hiện đề tài nghiên cứu của mình
Mặc dù đã cố gắng hoàn thành luận văn với tất cả sự nỗ lực, nhưng chắc chắn luận văn vẫn còn những thiếu sót, rất mong nhận được những đóng góp quý báu của thầy cô và các bạn
TP Hồ Chí Minh, tháng 01 năm 2020 Người thực hiện
Trang 5Để hệ thống hóa các quá trình trên, chúng tôi xây dựng mô hình hệ thống bao gồm 3 lớp 1) phần cứng cho hệ thu thập dữ liệu là nodeMCU [1] và DHT22 [2], 2) khối back-end sử dụng firebase [3], và 3) front-end để ảo hóa dữ liệu đã được phân tích cho ứng dụng web và ứng dụng di động [4] Trong luận văn này, chúng tôi tập trung đề xuất phân tích dữ liệu thời gian thực để hỗ trợ các quyết định quản lý thông
số độ ẩm như: cảnh báo độ ẩm vượt ngưỡng hoặc dưới ngưỡng ảnh hưởng đến sinh trưởng và phát triển cây trồng, dự báo độ ẩm thích nghi theo sự thay đổi nhanh của thời tiết, vv
Do sự biến đổi nhanh về thời gian và cường độ của thông số trên, các mô hình máy học như: hồi quy tuyến tính [25], Bộ lọc Kalman [26] và Hồi quy Bayes [42] được khảo sát nhằm cảỉ thiện độ chính xác của các kịch bản thử nghiệm, để đánh giá
xử lý thông tin thời gian thực và độ chính xác được mô phỏng trong python [50] Kết quả mô phỏng cho thấy thuật toán hồi quy tuyến tính đáp ứng nhu cầu dự đoán độ ẩm theo thời gian thực với những tập dữ liệu có biến đổi cường độ chậm và nhỏ, trong khi đó Bộ lọc Kalman và Hồi quy Bayes cho độ chính xác cao hơn với các trường hợp dữ liệu độ ẩm thay đổi bất thường, tuy nhiên thời gian sử dụng cho xử lý và tính toán trong các trường hợp này là chậm hơn
Trang 6Trong tương lai, chúng tôi đặt mục tiêu mở rộng và đánh giá hệ thống với nhiều thông số cho các loại cây trồng cụ thể và phân tích dữ liệu trong một số điều kiện và khu vực cụ thể Thêm vào đó, các ứng dụng phân loại bệnh của cây theo sự thay đổi của độ ẩm trong hệ thống nhà kính, dự báo thay đổi độ ẩm cho ứng dụng tự động trong tưới tiêu, và tư vấn chu kỳ sinh trưởng của cây theo thông số độ ẩm cũng được xem xét bổ sung
ABSTRACT
Vietnam is a tropical and humid country where agriculture is often dominant
To foster its active contribution to the country’s economic structure, smart and accurate agriculture is the key to increasing crop productivity In smart agriculture, the automatic collection of the parameters such as light, temperature, humidity, etc
in farms, then the real-time data analysis for the purposes of classification, forecasting, and advising will automatically and semi-automatically support the decision making in improving the efficiency of agricultural production and farming
In order to systematize the above processes, we built a system model consisting of 3 layers: the so-called nodeMCU [1] and DHT22 [2] hardwares for data collection system, the back-end block using firebase [3], and the front-end to virtualize data having analyzed for web and mobile applications[4] In this thesis, we focus on proposing real-time data analysis to support the decisions of supervising the humidity parameter, namely the alert of humidity above or below threshold that affects plant growth and development and the humidity forecasting in accordance with fast changing weather
Trang 7Due to the rapid change in terms of time and intensity of the above parameter, machine learning models as: linear regression [25], Kalman filter [26] and Bayes Regression [42] are investigated to improve the accuracy of experimental scenarios,
to evaluate real-time information processing and the accuracy simulated in python [50] The simulation results show that the linear regression algorithm meets the demand of forecasting real-time humidity by data sets with slow change of intensity, whereas Kalman filter and Bayes Regression are more accurate in case of abnormal humidity data changes However, the time used for processing and calculating in these cases is slower
In the future, we aim to expand and evaluate the system with many parameters for specific crops and analyze data in specific conditions and areas In addition, a variety of applications to classify plant diseases according to humidity changes in greenhouse system, to forecast humidity changes for automatic applications in irrigation, and to advise on plant growth cycles according to humidity parameters is also taken into consideration
Trang 8MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
TÓM TẮT iii
MỤC LỤC vi
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ ix
DANH MỤC CÁC BẢNG x
DANH MỤC TỪ VIẾT TẮT xi
MỞ ĐẦU 1
CHƯƠNG 1: GIỚI THIỆU 3
1.1 Cơ sở hình thành luận văn 3
1.2 Mục tiêu nghiên cứu 5
1.3 Phạm vi và đối tượng nghiên cứu 5
1.4 Phương pháp nghiên cứu 5
1.4.1 Mô hình toán học 7
1.4.2 Thiết bị cảm biến 7
1.4.3 Front-end, Back-end và nền tảng tính toán 8
1.5 Tính khoa học và tính mới của đề tài 10
1.5.1 Tính khoa học luận văn 10
1.5.2 Tính thực tiễn 11
1.6 Kết cấu luận văn 12
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 13
2.1 Mô hình và sơ đồ thuật toán hồi quy tuyến tính 13
2.1.1 Mô hình hồi quy tuyến tính đơn giản 13
2.1.2 Ước tính tham số 14
2.1.3 Thử nghiệm các giả thuyết 15
2.1.4 Dự đoán 17
Trang 92.1.5 Chất lượng đo lường của sự điều chỉnh 18
2.1.6 Phân tích đối tượng trong trong thuật toán hồi quy tuyến tính 20
2.2 Bộ lọc Kalman 22
2.2.1 Quá trình được ước tính 23
2.2.2 Nguồn gốc tính toán của bộ lọc 24
2.2.3 Nguồn gốc xác suất của bộ lọc 25
2.2.4 Thuật toán bộ lọc Kalman 26
2.2.5 Thông số bộ lọc và điều chỉnh 27
2.2.6 Thuật toán lọc Kalman của dự báo độ ẩm 28
2.2.6.1 Phương trình trạng thái của độ ẩm 28
2.2.6.2 Phương trình quan sát độ ẩm 29
2.2.6.3 Phân tích đối tượng nghiên cứu trong bộ lọc Kalman 29
2.3 Mô hình hồi quy Bayes 30
2.3.1 Phương pháp Bayes 30
2.3.2 Định lý Bayes 31
2.3.3 Biến ngẫu nhiên liên tục 32
2.3.4 Trung bình và phương sai 33
2.3.5 Phân phối Gaussian (chuẩn) 34
2.3.6 Phân tích Bayes của phân phối Gaussian 35
2.3.6.1 Phân phối trước chuẩn 35
2.3.6.2 Khả năng 35
2.3.6.3 Phân phối trước 36
2.3.6.4 Phân phối sau 36
2.3.6.5 Dự đoán phân phối sau 39
2.3.6.6 Thực hiện hồi quy tuyến tính Bayes 39
2.3.6.7 Phân tích đối tượng nghiên cứu trong thuật toán hồi quy Bayes 40
CHƯƠNG 3: KẾT QUẢ VÀ ĐÁNH GİÁ THỰC NGHIỆM 42
3.1 Thực hiện mô phỏng/thông số mô phỏng/giả định nghiên cứu 42
3.2 Kết quả và đánh giá thực nghiệm bằng mô phỏng 43
Trang 103.2.1 Kịch bản 1 43
3.2.2 Kịch bản 2 54
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62
4.1 Kết luận 62
4.2 Hướng phát triển 63
TÀI LIỆU THAM KHẢO 64
Trang 11DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
Hình 1.1 Hệ thống hỗ trợ quyết định quản lý thông số độ ẩm trong nông nghiệp 6
Hình 1.2 Mô hình hoạt động của hệ thống đề xuất 7
Hình 1.3 Một nút cảm biến nguyên mẫu cho nhà kính 8
Hình 1.4 Ứng dụng web để theo dõi thời gian thực 9
Hình 1.5 Ứng dụng web để kiểm soát thời gian thực 9
Hình 1.6 Dữ liệu nối tiếp về các giá trị của cảm biến trong nhà kính 10
Hình 2.1 Minh họa đồ họa của các đại lượng khác nhau được tính toán sau khi điều chỉnh một đường hồi quy với dữ liệu 19
Hình 2.2 Cập nhật tuần tự một giá trị trung bình Gaussian bắt đầu bằng một trung tâm dự đoán trước đó trên 𝜇0 = 0 Các tham số thực là 𝜇 ∗= 0.8 (chưa biết), (𝜎2) ∗ = 0.1 (đã biết) Lưu ý cách dữ liệu nhanh chóng lấn át dự đoán trước và làm thế nào dự đoán sau trở nên hẹp hơn Nguồn: Hình 2.12 (Bishop, 2006) [45] 38
Hình 3.1 Mối tương quan giữa thời gian và độ ẩm 44
Hình 3.2 Giá trị quan sát và giá trị ước tính bằng bộ lọc Kalman 46
Hình 3.3 Các sơ đồ trên hiển thị các bản phân phối cho beta_0, và sigma 47
Hình 3.4 Các sơ đồ trên đây hiển thị biểu đồ cho các phân phối sau 48
Hình 3.5 Mối tương quan giữa thời gian và độ ẩm 50
Hình 3.6 Giá trị quan sát và giá trị ước tính bằng bộ lọc Kalman 52
Hình 3.7 Các sơ đồ trên hiển thị các bản phân phối cho beta_0, và sigma 53
Hình 3.8 Các sơ đồ trên đây hiển thị biểu đồ cho các phân phối sau 53
Hình 3.9 Mối tương quan giữa thời gian và độ ẩm 55
Hình 3.10 Giá trị quan sát và giá trị ước tính bằng bộ lọc Kalman 57
Hình 3.11 Các sơ đồ trên hiển thị các bản phân phối cho beta_0, và sigma 58
Hình 3.12 Các sơ đồ trên đây hiển thị biểu đồ cho các phân phối sau 58
Hình 3.13 Giá trị quan sát và giá trị ước tính bằng bộ lọc Kalman 60
Trang 12DANH MỤC CÁC BẢNG
Bảng 2.1 Phương trình cập nhật thời gian lọc Kalman 26
Bảng 2.2 Phương trình cập nhật đo lường bộ lọc Kalman 26
Bảng 3.1 Tóm tắt mô hình của hồi quy OLS 44
Bảng 3.2 Các hệ số của hồi quy OLS 45
Bảng 3.3 Các xét nghiệm bổ sung trong Hồi quy OLS 45
Bảng 3.4: Tóm tắt đầu ra cho mô hình ước lượng Bayes 48
Bảng 3.5: Tóm tắt mô hình của hồi quy OLS 50
Bảng 3.6: Các hệ số của hồi quy OLS 51
Bảng 3.7: Các xét nghiệm bổ sung trong Hồi quy OLS 51
Bảng 3.8: Tóm tắt đầu ra cho mô hình ước lượng Bayes 53
Bảng 3.9: Tóm tắt mô hình của hồi quy OLS 55
Bảng 3.10: Các hệ số của hồi quy OLS 56
Bảng 3.11: Các xét nghiệm bổ sung trong Hồi quy OLS 56
Bảng 3.12 Tóm tắt đầu ra cho mô hình ước lượng Bayes 59
Bảng 3.13 So sánh giữa Hồi quy tuyến tính, Bộ lọc Kalmanm và Hồi quy Bayes 59 Bảng 3.14 Thời gian thực hiện của các thuật toán 61
Trang 13DANH MỤC TỪ VIẾT TẮT
OLS Bình phương nhỏ nhất
cdf Hàm phân phối tích lũy
pdf Hàm mật độ xác suất
MLE Uớc tính khả năng tối đa
PyMCMC Gói Python ước tính Bayes sử dụng chuỗi Markov Monte Carlo MAP Tối đa một phân phối sau
HPD Mật độ sau cao nhất
Trang 14MỞ ĐẦU
Trong những năm qua nhờ có sự thay đổi và đầu tư mạnh cho nông nghiệp - nông thôn, ngành nông nghiệp nước ta đã đạt nhiều kết quả vượt bậc, có nhiều điểm sáng, điểm mới; đạt thành tích xuất sắc, toàn diện trên các lĩnh vực Bên cạnh những thành tựu, chúng ta cũng phải xác định trước là cũng có rất nhiều khó khăn, thách thức và cả rủi ro Thách thức lớn nhất là hiện nay chúng ta vẫn đang duy trì một nền nông nghiệp nhỏ lẻ, manh mún, kiểu hộ gia đình (Nguyễn Xuân Sâm và Nguyễn Hồng Sơn, 2018) [5] Đa số hộ nông dân sản xuất theo kinh nghiệm, và theo cách thức truyền thống dẫn tới việc sử dụng lãng phí tài nguyên nước, tài nguyên đất, năng suất, chất lượng sản phẩm thấp
Thách thức thứ hai là biến đổi khí hậu, càng ngày ta càng thấy rõ biến đổi khí hậu tác động cực đoan đến thời tiết, khí hậu Việt Nam Trong đó, tác động tới nông nghiệp, nông dân, nông thôn ngày càng cực đoan, khốc liệt Trong nhiều năm gần đây, thiên tai liên tục đe dọa sản xuất nông nghiệp
Hiện nay, tiến bộ khoa học công nghệ cảm biến, truyền thông, cơ khí chính xác đã mở ra triển vọng ứng dụng công nghệ cao trong lĩnh vực nông nghiệp, đây là
cơ hội tốt để nông nghiệp, nông dân Việt Nam không những phát huy thế mạnh của một nước có điều kiện thuận lợi về nông/lâm nghiệp mà còn hạn chế các rủi ro do thiên nhiên gây ra như: việc quản lý theo dõi chặt chẽ diễn biến thời tiết, thiên tai; thực hiện tốt công tác ứng phó, khắc phục, không để bị động bất ngờ nếu có kết quả
dự báo tốt
Quản lý sự tăng trưởng và phát triển của thực vật liên quan đến việc điều khiển một môi trường phát triển như: ánh sáng, nhiệt độ, và độ ẩm tương đối để thúc đẩy quá trình quang hợp, tăng trưởng tổng quát và năng suất cao Tốc độ thoát hơi nước tối ưu tùy theo loại cây khác nhau, tuổi và mùa, làm cho việc kiểm soát khí hậu đối với sự phát triển của cây là cần thiết trong suốt cả năm Nhiều nhà nghiên cứu cung
Trang 15cấp các giải pháp kiểm soát khí hậu tạm thời, hoạt động kết hợp với hệ thống chiếu sáng nhà kính và hệ thống tưới tiêu để tối ưu hóa sự phát triển của cây
Các yếu tố trong môi trường đều ảnh hưởng đến cách cây phát triển, lớn lên
và sinh sản Khi trồng cây ngoài môi trường mà chúng phát triển tự nhiên, kiểm soát khí hậu cho sự phát triển của cây là điều cần thiết để tối đa hóa quá trình quang hợp Bằng cách duy trì mức độ ẩm tương đối tối ưu trong nhà kính và các môi trường phát triển khác, bạn đảm bảo thoát hơi nước tối ưu cho cây
Kiểm soát độ ẩm cho sự phát triển của thực vật là một yêu cầu thiết yếu liên quan đến quản lý dịch hại và bệnh Khi điều kiện quá ẩm, nó có thể thúc đẩy sự phát triển của nấm mốc và vi khuẩn làm cho cây bị chết và mùa màng thất bại, cũng như các điều kiện như thối rễ hoặc mục nát Điều kiện ẩm cũng gây ra sự hiện diện của sâu bệnh, chẳng hạn như nấm gnats, có ấu trùng ăn rễ cây và phát triển mạnh trong đất ẩm
Để hỗ trợ các nhà nông học theo dõi và nhận thông tin về độ ẩm chúng tôi đề
xuất: “Hệ thống hỗ trợ quyết định quản lý thông số độ ẩm trong nông nghiệp”
được thiết kế nhằm hỗ trợ người nông dân trong việc ra quyết định về tình trạng thiếu hay đủ độ ẩm trong trang trại nông nghiêp tương ứng với môi trường sống các loại thực vật, từ đó điều chỉnh các ngưỡng tự động cho hệ thống đóng/mở cung cấp nước
và độ ẩm
Trang 16CHƯƠNG 1: GIỚI THIỆU 1.1 Cơ sở hình thành luận văn
Việt Nam là một nước nằm trong vùng khí hậu nhiệt đới ẩm và nông nghiệp
là một trong những ngành đóng vai trò quan trọng nhất của nền kinh tế Việt Nam Việc áp dụng các công nghệ mới cùng các công cụ giám sát và kiểm soát dựa trên IoT cho nông nghiệp thông minh làm nền tảng cho sự phát triển của ngành nông nghiệp Khi nói về nông nghiệp và yếu tố độ ẩm, mọi người có thể nghĩ rằng càng nhiều độ ẩm xung quanh thực vật thì càng tốt Tuy nhiên, điều đó không đúng với mọi loại cây Quá nhiều độ ẩm cho một số thực vật có thể bị hư hỏng như là quá ít đối với những cây khác Bởi vì thực vật tự nhiên tạo ra độ ẩm, đây có thể là khía cạnh khó kiểm soát môi trường nhất Đó là lý do tại sao một hệ thống điều khiển độ
ẩm thông minh, tự động là cần thiết để quản lý đúng yêu cầu độ ẩm của cây trồng
Hiện nay, do tác động của biến đổi khí hậu có nhiều yếu tố liên quan đến sự phát triển của thực vật và các vấn đề về môi trường thường ảnh hưởng trực tiếp đến năng suất cây trồng Trong các giai đoạn phát triển của thực vật phụ thuộc rất nhiều vào độ ẩm không khí và các yếu tố về thời tiết, do đó, trong nghiên cứu (King và Shellie, 2016) [6] đã sử dụng mô hình Neural Net-work ước tính nhiệt độ ngưỡng thấp hơn, độ ẩm tương đối, để dự đoán nhiệt độ nước tưới của các giống nho Các công trình khác ước tính tiềm năng nước gốc [6, 7] để cung cấp hệ thống hỗ trợ quyết định tưới tiêu thông minh tự động do vị trí của các cảm biến phân tán, chúng tôi cần các hệ thống điều khiển tiên tiến liên quan đến điều kiện môi trường và hệ thống nên tích hợp với thực tế cảnh báo thời gian, khởi động sớm, khẩn cấp, hỗ trợ phản hồi, vv các mô-đun ở mọi lúc và mọi nơi Hệ thống hỗ trợ quyết định ước tính nhu cầu tưới tiêu hàng tuần của một đồn điền, trên cơ sở cả các phép đo đất và các biến khí hậu được thu thập bởi một số nút tự điều khiển được triển khai trên cánh đồng (Navarro-Hellín và các cộng sự, 2016) [7]
Việc giám sát dựa trên tham số và điều khiển các nhiệm vụ vật lý của các hệ thống cảm biến không đồng nhất thường xem xét biến độc lập duy nhất (Wold và các
Trang 17cộng sự, 1984) [8] Ví dụ: chúng tôi theo dõi độ ẩm trong nhà kính bằng cách sử dụng các thiết bị cảm biến, nếu độ ẩm thấp hơn ngưỡng, thì chúng tôi bật chế độ phun sương làm tăng độ ẩm Ngược lại nếu độ ẩm cao hơn ngưỡng, thì bật quạt hút làm mát nhà kính bằng cách hút không khí từ bên ngoài vào và trao đổi với không khí bên trong nhà kính Sử dụng quạt hút giúp giữ cho nhà kính mát mẻ hơn và làm giảm độ
ẩm Nếu chúng tôi có thể dự đoán sự thay đổi của các tham số, thì chúng tôi cũng có thể thực hiện các biện pháp kiểm soát tương ứng trước để làm cho điều kiện môi trường nhà kính phù hợp với nhu cầu tăng trưởng của thực vật
Các phân tích hồi quy tuyến tính đơn giản được nghiên cứu để tìm mối quan
hệ giữa các biến tiếp tục bằng cách sử dụng phương trình tuyến tính Nghiên cứu này
là cần thiết cho các hệ thống nhà kính thời gian thực Tuy nhiên, các công trình không xem xét hoạt động của nhà kính phụ thuộc rất nhiều vào độ ẩm không khí và sự bốc hơi nước trong điều kiện nhà kính Do đó, chúng có thể trở nên dưới mức tối ưu trong điều kiện biến đổi khí hậu Hơn nữa, có một số bộ cảm biến nhiệt độ và bộ truyền động và các thiết bị cảm biến được phân phối ở các vị trí khác nhau trong toàn bộ không gian nhà kính Dựa trên các giá trị độ ẩm phản hồi, các bộ truyền động điều khiển có thể hỗ trợ trong khu vực địa phương (Peck và các cộng sự, 2016) [9]
Một mối tương quan tích cực mạnh giữa sự bốc hơi với độ ẩm, bức xạ mặt trời được hiển thị Hơn nữa, mối quan hệ tích cực giữa bốc hơi và bức xạ mặt trời, ánh nắng mặt trời, tốc độ gió, vv… được phân tích Tuy nhiên, nó dẫn đến việc tăng tiêu thụ năng lượng và chi phí cuối cùng và làm cho hệ thống nhà kính trở nên phức tạp (Asaana và các cộng sự, 2017) [10] Trong thực tế, các nền tảng giám sát và kiểm soát dựa trên IoT sử dụng với nodeMCU [1] và DHT22 [2] không chỉ có chi phí thấp
mà còn tiết kiệm năng lượng Chúng thích hợp cho dữ liệu đo lường ở các nước nhiệt đới do độ nhạy độ ẩm Vì lý do này, chúng tôi đã chọn chúng cho nghiên cứu của chúng tôi
Trang 181.2 Mục tiêu nghiên cứu
Mục tiêu tổng quát nghiên cứu này là trích xuất, chuyển đổi dữ liệu thu thập được từ thiết bị cảm biến thành thông tin có khả năng hỗ trợ các quyết định quản lý
Hệ thống hỗ trợ quyết định hợp thành từ các khối khác nhau và thuật toán trích xuất/chuyển đổi/nạp biến đổi dữ liệu thành thông tin có khả năng dự báo
Mục tiêu cụ thể là hệ thống phải có khả năng thu thập/truyền dữ liệu độ ẩm từ nút cảm biến đến cloud hoặc máy chủ Dữ liệu này phải được chuyển đổi và huấn luyện cho phù hợp với các phương pháp nghiên cứu của luận văn, từ đó chúng tôi có thể sử dụng dạng dữ liệu này để trích xuất dự báo Các kỹ thuật hiển thị, tương tác trên nền tảng ứng dụng web/ứng dụng trên điện thoại thông minh có thể được xem xét bổ sung để tăng tính minh họa cho dự báo
1.3 Phạm vi và đối tượng nghiên cứu
Thông số vật lý độ ẩm (bên trong/bên ngoài) nhà kính được thu thập và xử lý
Dữ liệu này phải được chuyển đổi thành thông tin và gửi theo thời gian thực đến đầu cuối, hệ thống phải có khả năng hỗ trợ các quyết định cảnh báo, dự báo đến người dùng, để hỗ trợ một cách tự động hoặc bán tự động việc ra quyết định đóng mở, điều khiển hệ thống
Nhà kính với các loại cây trồng tương ứng có thể được xem xét để hiệu chỉnh các ngưỡng trên/dưới của độ ẩm phù hợp với từng loại trong việc ra quyết định tự động đóng mở hệ thống lịch trình thu thập các đối tượng dữ liệu này được mô hình hóa (bằng toán học) hoặc dưới dạng biểu đồ tuần tự thuận tiện cho việc phân tích đối tượng nghiên cứu
1.4 Phương pháp nghiên cứu
Trong đề tài này, chúng tôi đề xuất một hệ thống hỗ trợ quyết định tự động để quản lý độ ẩm trong nông nghiệp bao gồm các thiết bị cảm biến, cơ sở dữ liệu và biểu diễn dữ liệu đồ họa, trong đó một mô hình động để dự đoán độ ẩm là trung tâm của
hệ thống Trong nỗ lực khám phá và mô hình hóa mối quan hệ giữa độ ẩm bên trong
và độ ẩm bên ngoài như trong điều kiện môi trường nhà kính, chúng tôi tìm kiếm mối
Trang 19quan hệ cơ bản giữa các yếu tố dự đoán và phản hồi được đề xuất Trong mô hình, biến phản hồi là độ ẩm bên trong và độ ẩm bên ngoài như các yếu tố dự báo Dựa trên mối quan hệ trong mô hình, chúng tôi trả lời câu hỏi nghiên cứu như: dự đoán nào có tác động đến phản hồi Ngoài ra, chúng tôi đánh giá mối tương quan và trình bày mức
độ mạnh mẽ của các yếu tố dự đoán đối với phản hồi
Hình 1.1 Hệ thống hỗ trợ quyết định quản lý thông số độ ẩm trong nông nghiệp
Sơ đồ khối của hệ thống được chúng tôi nghiên cứu trong đề tài này được trình bày trong hình 1.1 [5] (Popovic và các cộng sự, 2017) [11] , bao gồm 3 lớp Lớp thứ nhất gồm các thiết bị cảm biến không dây (đo độ ẩm bên trong và bên ngoài nhà kính) hoạt động độc lập, thu thập, truyền dữ liệu đến cổng kết nối wifi (Imad Aad và C Castelluccia, 2001) [12] Lớp thứ hai bao gồm các điểm truy cập đóng vai trò là các cổng vào, ra kết nối với Internet để chuyển tiếp dữ liệu thu thập từ các thiết bị cảm biến đến trung tâm thu thập dữ liệu Dữ liệu này được lưu trữ và xử lý tại cloud hoặc máy chủ Tại đây, các thuật toán chuyển đổi, phân tích và dự báo bằng các mô hình máy học tiên tiến (Mohammadi và các cộng sự, 2018) [13], để tạo điều kiện thuận lợi cho việc học và học trong miền IoT, và đề xuất xử lý dữ liệu này để đưa ra thông tin
hỗ trợ người sử dụng xử lý các quyết định tương ứng (tự động/bán tự động) và thiết
bị theo dõi đầu cuối Lớp thứ ba gồm trung tâm quản lý dữ liệu bao gồm người quản
Trang 20lý trang trại, trung tâm tư vấn và phân tích, trung tâm hỗ trợ các dịch vụ chăm sóc cây trồng Cấu trúc ba lớp này được sử dụng phổ biến trong các nghiên cứu gần đây [5]
1.4.1 Mô hình toán học
Dựa trên khái niệm này, Hệ thống hỗ trợ quyết định quản lý thông số độ ẩm trong nông nghiệp của chúng tôi được đề xuất Để đánh giá hiệu suất và tính hợp lệ phương pháp của chúng tôi, hệ thống hỗ trợ quyết định sẽ sử dụng thông tin thu thập được và sẽ đưa ra các yêu cầu về độ ẩm cho ngày hoặc tuần kế tiếp Để thực hiện điều này, hệ thống máy học phải được đào tạo với dữ liệu lịch sử và báo cáo nhu cầu độ
ẩm của nhà nông học, sử dụng các quyết định về độ ẩm được đưa ra trong các báo cáo này làm cơ sở của hệ thống Mục đích của hệ thống là chính xác nhất có thể đối với nền tảng này Một số kỹ thuật học máy đã được áp dụng và đánh giá để đạt được hiệu suất tốt nhất Hình 1.2 trình bày sơ đồ của hệ thống
Hình 1.2 Mô hình hoạt động của hệ thống đề xuất
1.4.2 Thiết bị cảm biến
Độ ẩm và nhiệt độ là những yếu tố quan trọng không chỉ ảnh hưởng đến việc trồng cây mà còn có thể phá hủy toàn bộ cánh đồng do bệnh tật Bằng cách tìm sự
Trang 21tương quan giữa độ ẩm trung bình với thời gian khi độ ẩm tương đối tăng hoặc giảm Chúng ta có thể tìm ra điều kiện nhiệt độ và độ ẩm cần thiết cho cây (Rosenzweig và các cộng sự, 2001) [14] Mặt khác, cảm biến độ ẩm thường đo mức độ bốc hơi nước trong điều kiện nhà kính bị ảnh hưởng bởi nhiệt độ trong nhà kính Mối quan hệ có thể được mô hình hóa để ước tính đầu ra chính xác cho các hệ thống điều khiển
Để đo nhiệt độ và độ ẩm trong nhà kính, các cảm biến độ ẩm và nhiệt độ được
sử dụng với các nền tảng như Arduino (Mukhopadhyay và A Mason, 2013) [15], telosB (Gubbi và các cộng sự, 2013) [16] Các cảm biến có thể cung cấp độ chính xác
± 0,1oC và độ ẩm liên quan ± 2% Do chi phí thấp, cảm biến DHT22 [2] đã được sử dụng với nodeMCU [1] để đo độ ẩm và nhiệt độ tương đối trong nhà kính, độ chính xác của cảm biến DHT22 là ± 0,5oC đối với nhiệt độ và ± 5% đối với độ ẩm Ngoài
ra, chúng tôi cũng đã thêm Rơle, ánh sáng, còi, quạt, vv cho nodeMCU để cảm nhận
và kiểm soát các điều kiện môi trường Một nút cảm biến nguyên mẫu cho nhà kính được trình bày trong hình 1.3
Hình 1.3 Một nút cảm biến nguyên mẫu cho nhà kính
1.4.3 Front-end, Back-end và nền tảng tính toán
Để chuyển đổi dữ liệu thành biểu diễn đồ họa, các giá trị tương đối được thu thập và trình bày trong một số loại đồ thị hiển thị trực quan như đồ thị phân tán, đồ thị dòng lịch sử, ký hiệu và số nguyên thời gian thực bằng cách sử dụng chart.js (N Downie, 2015) [17], Highcharts [18] Chúng tôi đã sử dụng nodejs [19] để tương tác với ứng dụng web và chuyển đổi dữ liệu thành thông tin Để xử lý dữ liệu phát trực
Trang 22tuyến theo thời gian thực, firebase [3] và thuật toán đề xuất của chúng tôi được nhúng vào ứng dụng web [4]
Hình 1.4 Ứng dụng web để theo dõi thời gian thực
Như trong hình 1.4, phần đầu của ứng dụng web của chúng tôi có thể tương tác với giao diện người dùng, nó có thể mang dữ liệu từ cơ sở dữ liệu Dữ liệu được chuyển đổi, phân tích tại back-end và nền tảng đám mây firebase chuyển tiếp đến người dùng Để kiểm soát thủ công, chúng tôi đã thêm chức năng mở rộng hơn cho ứng dụng web để kiểm soát cảnh báo và bảo mật, ánh sáng, quạt, động cơ, v.v như trong hình 1.5
Hình 1.5 Ứng dụng web để kiểm soát thời gian thực
Trang 23Bằng cách sử dụng chart.js và Highcharts, dữ liệu nối tiếp trong cơ sở dữ liệu
có thể xuất hiện trong đồ thị đường thẳng và đồ thị hồi quy tuyến tính Như được hiển thị trong hình 1.6, dữ liệu nối tiếp về nhiệt độ, độ ẩm, ánh sáng, mực nước và giá trị
pH của cảm biến trong nhà kính được trình bày Khoảng thời gian của các mẫu dữ liệu có thể được thay đổi tùy thuộc vào việc thiết lập khoảng thời gian cho từng loại
dữ liệu trong nodeMCU Hơn nữa, hình 1.6 trình bày một hồi quy tuyến tính đơn giản
để dự đoán nhiệt độ trong nhà của hệ thống nhà kính dựa trên dữ liệu lịch sử nối tiếp của nhiệt độ
Hình 1.6 Dữ liệu nối tiếp về các giá trị của cảm biến trong nhà kính
Là một nền tảng thời gian thực, Firebase cung cấp dịch vụ back-end cho hệ thống của chúng tôi Đối với mỗi giá trị thu được của nhiệt độ và độ ẩm, các thiết bị cảm biến sẽ đẩy dữ liệu vào cơ sở dữ liệu của firebase trên internet, mỗi giá trị của nhiệt độ và độ ẩm được liên kết với một khóa duy nhất, sau đó dữ liệu được chuyển đổi và phân tích ở phần dự phòng trước khi nó được chuyển tiếp để kết thúc Do đó, firebase là công cụ quan trọng để kết nối giữa các thiết bị cảm biến và front-end theo cách thức thời gian thực
1.5 Tính khoa học và tính mới của đề tài
1.5.1 Tính khoa học luận văn
Như mô tả trong hình 1.1, luận văn hướng đến phát triển hệ thống hỗ trợ quyết định sử dụng các thuật toán Hồi quy tuyến tính, Bộ lọc Kalman và Hồi quy Bayes
Trang 24phù hợp với kiểu dữ liệu độ ẩm, dựa vào hệ thống thu thập dữ liệu là các thiết bị cảm biến được đặt tại các vị trí thu thập Các dữ liệu này được thu thập và xử lý bằng các thuật toán trên để đưa ra thông tin chuyển về hệ thống đầu cuối là các thiết bị hiển thị (có khả năng tương tác) Do vậy, đề xuất cung cấp và phân tích hệ thống hóa từ việc thu thập dữ liệu đến xử lý dữ liệu để tạo ra thông tin có khả năng hỗ trợ các quyết định trong hệ thống thông tin quản lý
Chi tiết kỹ thuật nghiên cứu trong phân tích dữ liệu lớn bằng mô hình máy học
sử dụng các bộ công cụ trích xuất (extraction mechanism), chuyển đổi (transformation mechanism), và nạp thông tin (loading mechanism) được nghiên cứu (Puerto và các cộng sự, 2013) [20] Mô hình phân tích được đánh giá và so sánh trên các tập dữ liệu khác nhau phù hợp với đặc điểm dữ liệu của thông số độ ẩm Kết quả nghiên cứu được mô phỏng trên python và chạy thử trên hệ thống thật (được mô tả trong chương 3)
có khả năng phát hiển cho các hệ thống hỗ trợ quyết định quản lý khác
Vấn đề nghiên cứu trên đang là một chủ đề thời sự và được nhiều nhóm nghiên cứu trong và ngoài nước rất quan tâm Tuy nhiên, với lời giải hiện thực dựa vào một ứng dụng cụ thể (nông nghiệp và thông số độ ẩm) với đặc điểm biến đổi thông số vật
lý của độ ẩm phù hợp với thuật toán hồi qui tuyến tính Do đó, đề xuất của chúng tôi
là phù hợp với yêu cầu cho luận văn thạc sĩ kỹ thuật
Trang 251.6 Kết cấu luận văn
Chương 1: Giới thiệu
Giới thiệu tổng quan về các công trình nghiên cứu gần đây;
Mục tiêu nghiên cứu;
Phạm vi và đối tượng nghiên cứu;
Phương pháp nghiên cứu;
Tính khoa học và tính mới của đề tài;
Chương 2: Cơ sở lý thuyết
Mô hình và sơ đồ thuật toán hồi quy tuyến tính;
Phân tích đối tượng nghiên cứu trong thuật toán hồi quy tuyến tính;
Mô hình và sơ đồ thuật toán bộ lọc Kalman;
Phân tích đối tượng nghiên cứu trong thuật toán bộ lọc Kalman;
Mô hình và sơ đồ thuật toán hồi quy Bayes;
Phân tích đối tượng nghiên cứu trong thuật toán hồi quy Bayes;
Chương 3: Kết quả và đánh giá thực nghiệm
Thực hiện mô phỏng/thông số mô phỏng/giả định nghiên cứu;
Kết quả và đánh giá thực nghiệm bằng mô phỏng;
Đánh giá và phân tích kết quả;
Chương 4: Kết luận và hướng phát triển
Kết luận;
Hướng phát triển;
Trang 26CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Mô hình và sơ đồ thuật toán hồi quy tuyến tính
Phân tích hồi quy là một kỹ thuật thống kê để kiểm tra và mô hình hóa mối quan hệ giữa các biến Các ứng dụng của hồi quy có rất nhiều và xuất hiện ở hầu hết mọi lĩnh vực, bao gồm kỹ thuật, khoa học, vật lý, hóa học, kinh tế, quản lý, khoa học đời sống sinh học, và khoa học xã hội Trong thực tế, phân tích hồi quy có thể là kỹ thuật thống kê được sử dụng rộng rãi nhất Các nghiên cứu về hồi quy tuyến như: Dựa vào kết quả điểm của các năm trước đề dự đoán số sinh viên mới trong năm tiếp theo bằng phương pháp bình phương tối thiểu (D Mulyani, 2015) [21], Dự đoán năng lượng mặt trời bằng phương pháp hồi quy tuyến tính nhỏ nhất (Suruchi Dedgaonkar
và các cộng sự, 2016) [22], Ước tính tác động của biến đổi khí hậu để hỗ trợ ra quyết định lựa chọn sử dụng năng lượng gas và điện trong các siêu thị trên khắp Vương quốc Anh (Braun và các cộng sự, 2016) [23], Dự đoán giá nhà ở thành phố Mumbai với hồi quy tuyến tính (Ghosalkar và Dhage, 2018) [24]
Trong nghiên cứu này chúng tôi bắt đầu với trường hợp đơn giản là nghiên
cứu mối quan hệ giữa biến trả lời Y và biến dự đoán 𝑋1 Vì chúng tôi chỉ có một biến
dự đoán, chúng tôi sẽ bỏ chỉ mục trong 𝑋1 và sử dụng X cho đơn giản Một mô hình
hồi quy tuyến tính đơn giản sau đó được xây dựng và các kết quả lý thuyết chính được đưa ra mà không có dẫn xuất toán học
2.1.1 Mô hình hồi quy tuyến tính đơn giản
Mối quan hệ giữa biến trả lời Y và biến dự đoán X được quy định là mô hình
tuyến tính
𝑌 = 𝛽0+ 𝛽1𝑋 + 𝜀, (2.1)
trong đó 𝛽0 và 𝛽1 là các hằng số được gọi là hệ số hồi quy mô hình hoặc tham số và
𝜀 là một lỗi hoặc nhiễu ngẫu nhiên Giả định rằng trong phạm vi của các quan sát được nghiên cứu, phương trình tuyến tính (2.1) cung cấp một xấp xỉ chấp nhận được
Trang 27cho mối quan hệ thực sự giữa Y và X Nói cách khác, Y xấp xỉ một hàm tuyến tính của X và 𝜀 đo lường sự khác biệt trong phép tính gần đúng đó Cụ thể, 𝜀 không chứa thông tin có hệ thống để xác định Y chưa được ghi trong X Hệ số 𝛽1, được gọi là độ
dốc, có thể được hiểu là sự thay đổi của Y đối với thay đổi đơn vị trong X Hệ số 𝛽0,
được gọi là hệ số không đổi hoặc đánh chặn, là giá trị dự đoán của Y khi X = 0
Phương trình (2.1), có thể được viết như:
𝑦𝑖 = 𝛽0+ 𝛽1𝑥𝑖+ 𝜀𝑖, 𝑖 = 1, 2, … , 𝑛, (2.2)
Trong đó 𝑦𝑖 đại diện cho giá trị thứ i của biến trả lời Y, 𝑥𝑖 đại diện cho giá trị
thứ i của biến dự đoán X và 𝜀𝑖 đại diện cho lỗi trong xấp xỉ của 𝑦𝑖
Phân tích hồi quy khác với một cách quan trọng từ phân tích tương quan Hệ
số tương quan là đối xứng theo nghĩa Cor (Y, X) giống với Cor (X, Y) Các biến X và
Y có tầm quan trọng như nhau Trong phân tích hồi quy, biến trả lời Y có tầm quan trọng chính Tầm quan trọng của yếu tố dự đoán X nằm ở khả năng tính đến sự biến thiên của biến trả lời Y và không phải là chính nó Do đó Y có tầm quan trọng hàng
đầu (Chatterjee và Hadi, 2012) [25]
2.1.2 Ước tính tham số
Dựa trên dữ liệu có sẵn, chúng tôi muốn ước tính các tham số 𝛽0 và 𝛽1 Điều này tương đương với việc tìm đường thẳng cho điểm phù hợp nhất (đại diện) của các điểm trong biểu đồ phân tán của trả lời so với biến dự đoán Chúng tôi ước tính các tham số bằng phương pháp bình phương tối thiểu, đưa ra đường thẳng tối thiểu hóa tổng bình phương của khoảng cách dọc từ mỗi điểm đến đường thẳng Khoảng cách dọc biểu thị các lỗi trong biến trả lời có thể thu được bằng cách viết lại (2.2) như
Trang 28𝛽̂1 = ∑(𝑦𝑖 − 𝑦̅)(𝑥𝑖 − 𝑥̅)
∑(𝑥𝑖 − 𝑥̅) 2 (2.5) 𝛽̂0 = 𝑦̅ − 𝛽̂1𝑥̅ (2.6)
Chúng tôi cung cấp công thức cho 𝛽̂1 trước công thức cho 𝛽̂0 bởi vì 𝛽̂0 sử dụng 𝛽̂1 Các ước tính, 𝛽̂0 và 𝛽̂1 được gọi là ước lượng bình phương nhỏ nhất của 𝛽0 và 𝛽1
vì chúng là giải pháp cho phương pháp bình phương nhỏ nhất, đánh chặn và độ dốc của đường có tổng bình phương nhỏ nhất có thể có của khoảng cách dọc từ mỗi điểm đến đường Vì lý do này, đường được gọi là đường hồi quy bình phương nhỏ nhất Đường hồi quy bình phương nhỏ nhất được cho bởi
𝑌̂ = 𝛽̂0+ 𝛽̂1𝑋 (2.7)
Lưu ý rằng một dòng bình phương tối thiểu luôn tồn tại bởi vì chúng ta luôn
có thể tìm thấy một dòng cho tổng bình phương tối thiểu của khoảng cách dọc Trong thực tế, trong một số trường hợp, một đường bình phương nhỏ nhất có thể không phải
là duy nhất Đối với mỗi quan sát trong dữ liệu của chúng tôi, chúng tôi có thể tính toán
có nghĩa là tổng khoảng cách trên đường bằng tổng khoảng cách bên dưới đường
2.1.3 Thử nghiệm các giả thuyết
Như đã nêu trước đó, tính hữu ích của X như một yếu tố dự đoán của Y có thể
được đo lường một cách không chính thức bằng cách kiểm tra hệ số tương quan và
Trang 29biểu đồ phân tán tương ứng của Y so với X Một cách chính thức hơn để đo tính hữu dụng của X như một yếu tố dự đoán của Y là tiến hành kiểm tra giả thuyết về tham số
hồi quy 𝛽1 Lưu ý rằng giả thuyết 𝛽1 = 0 có nghĩa là không có mối quan hệ tuyến tính
giữa Y và X Một thử nghiệm của giả thuyết này đòi hỏi giả định sau đây Đối với mỗi giá trị cố định của X, giả sử 𝜀 là các đại lượng ngẫu nhiên độc lập thường được phân
phối chuẩn với giá trị trung bình bằng 0 và phương sai chung 𝜎2 Với các giả định này, các đại lượng, 𝛽̂0 và 𝛽̂1 là các ước tính không thiên vị (Một ước tính 𝜃̂ được cho
là ước tính không thiên vị của tham số 𝜃 nếu giá trị mong đợi là 𝜃̂ bằng 𝜃) của 𝛽0 và
𝛽1, tương ứng Phương sai của chúng là
và 𝛽̂1 là chuẩn với các trung bình 𝛽0 và 𝛽1 và phương sai như được đưa ra trong (2.10)
và (2 11), tương ứng
Phương sai của 𝛽̂0 và 𝛽̂1 phụ thuộc vào tham số chưa biết 𝜎2 Vì vậy, chúng
ta cần ước tính 𝜎2 từ dữ liệu Một ước tính không thiên vị của 𝜎2 được đưa ra bởi
𝜎̂2 = ∑ 𝑒𝑖2
𝑛 − 2= ∑(𝑦𝑖 − 𝑦̂𝑖)2
𝑛− 2 , (2.12) Trong đó SSE là tổng bình phương của phần dư (lỗi) Số n - 2 trong mẫu số của (2.12) được gọi là bậc tự do (df) Nó bằng số lượng quan sát trừ đi số lượng hệ
số hồi quy ước tính
Thay thế 𝜎2 trong (2.10) và (2.11) bằng 𝜎̂2 trong (2.12), chúng tôi nhận được các ước tính không thiên vị về phương sai của 𝛽̂0 và 𝛽̂1 Ước tính độ lệch chuẩn được gọi là lỗi tiêu chuẩn (s.e.) của ước tính Do đó, các lỗi tiêu chuẩn của 𝛽̂0 và 𝛽̂1 là
Trang 30đo độ chính xác của độ dốc đã được ước tính Lỗi tiêu chuẩn càng nhỏ thì công cụ ước tính càng chính xác
2 Ước tính của trả lời trung bình 𝜇0, khi 𝑋 = 𝑥0
Trong trường hợp đầu tiên, giá trị dự đoán 𝑦0 là
Trang 31từ đó, theo đó các giới hạn tin cậy cho 𝜇0 với hệ số tin cậy (1 − 𝛼) được đưa ra bởi 𝜇̂0 ± 𝑡(𝑛−2,𝛼/2) 𝑠 𝑒 (𝜇̂0) (2.20)
Lưu ý rằng ước tính điểm của 𝜇0 giống hệt với trả lời dự đoán 𝑦̂0 Điều này có thể được nhìn thấy bằng cách so sánh (2.15) với (2.18) Tuy nhiên, lỗi tiêu chuẩn của 𝜇̂0 là nhỏ hơn lỗi tiêu chuẩn của 𝑦̂0 và có thể được nhìn thấy bằng cách so sánh (2.16) với (2.19) Theo trực giác, điều này có ý nghĩa Có sự không chắc chắn (tính biến thiên) lớn hơn trong việc dự đoán một quan sát (quan sát tiếp theo) so với ước tính đáp ứng trung bình khi 𝑋 = 𝑥0 Tính trung bình được ngụ ý trong trả lời trung bình làm giảm tính biến thiên và độ không đảm bảo liên quan đến ước tính
Để phân biệt giữa các giới hạn trong (2.17) và (2.20), các giới hạn trong (2.17) đôi khi được gọi là giới hạn dự đoán hoặc dự báo, trong khi các giới hạn được đưa ra trong (2.20) được gọi là giới hạn tin cậy
2.1.5 Chất lượng đo lường của sự điều chỉnh
Kiểm tra biểu đồ phân tán của Y so với 𝑌̂ Tập hợp các điểm với đường thẳng càng gần, mối quan hệ tuyến tính giữa Y và X càng mạnh Người ta có thể đo cường
độ của mối quan hệ tuyến tính trong biểu đồ này bằng cách tính hệ số tương quan
giữa Y và 𝑌̂, được đưa ra bởi
nhau Hai giá trị tương ứng của hệ số tương quan có liên quan theo phương trình sau: 𝐶𝑜𝑟(𝑌, 𝑌̂) = |𝐶𝑜𝑟(𝑌, 𝑋)| (2.22)
Mặc dù các biểu đồ phân tán của Y so với 𝑌̂ và 𝐶𝑜𝑟(𝑌, 𝑌̂) là dư thừa trong hồi
quy tuyến tính đơn giản, chúng cho chúng ta một dấu hiệu về chất lượng của sự phù
Trang 32hợp trong cả hồi quy đơn giản và đa biến Hơn nữa, trong cả hai hồi quy đơn giản và
đa biến, 𝐶𝑜𝑟(𝑌, 𝑌̂) có liên quan đến một thước đo hữu ích khác về chất lượng của sự phù hợp của mô hình tuyến tính với dữ liệu được quan sát Biện pháp này được phát triển như sau Sau khi chúng ta tính toán các ước lượng bình phương nhỏ nhất của các tham số của mô hình tuyến tính, chúng ta hãy tính các đại lượng sau:
Y = 𝑦̅ Lưu ý rằng với mỗi điểm (𝑥𝑖, 𝑦𝑖), có hai điểm, (𝑥𝑖, 𝑦̂𝑖), nằm trên đường phù hợp và (𝑥𝑖, 𝑦̅) nằm trên đường thẳng Y = 𝑦̅
Một đẳng thức cơ bản, trong cả hai hồi quy đơn giản và đa biến, được đưa ra bởi 𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸 (2.24)
Hình 2.1 Minh họa đồ họa của các đại lượng khác nhau được tính toán sau khi điều chỉnh một đường hồi quy với dữ liệu
Trang 33Theo đó, tổng số độ lệch bình phương trong Y có thể được phân tách thành tổng của hai đại lượng, SSR thứ nhất, đo lường chất lượng của X như một công cụ dự đoán của Y và thứ hai, SSE đo lường sai số trong dự đoán này Do đó, tỷ lệ 𝑅2 =
SSR/SST có thể được hiểu là tỷ lệ của tổng biến thể trong Y được tính bởi biến dự đoán X Sử dụng (2.24), chúng ta có thể viết lại 𝑅2 như
𝑅2 = 𝑆𝑆𝑅
𝑆𝑆𝑇 = 1 − 𝑆𝑆𝐸
𝑆𝑆𝑇 (2.25) Ngoài ra, nó có thể được hiển thị rằng
[𝐶𝑜𝑟(𝑌, 𝑋)]2 = [𝐶𝑜𝑟(𝑌, 𝑌̂)]2 = 𝑅2 (2.26)
Trong hồi quy tuyến tính đơn giản, 𝑅2 bằng bình phương của hệ số tương quan
giữa biến trả lời Y và yếu tố dự đoán X hoặc bình phương của hệ số tương quan giữa biến trả lời Y và giá trị phù hợp 𝑌̂ Định nghĩa được đưa ra trong (2.25) cung cấp cho
chúng tôi một cách giải thích khác về các hệ số tương quan bình phương Chỉ số mức
độ phù hợp, 𝑅2, có thể được hiểu là tỷ lệ của tổng biến thiên trong biến trả lời Y được tính bởi biến dự đoán X Lưu ý rằng 0 ≤ 𝑅2 ≤ 1 bởi vì SSE ≤ SST Nếu 𝑅2 ở gần 1,
thì X giái thích một phần lớn của biến thể trong Y Vì lý do này, 𝑅2 được gọi là hệ số
xác định vì nó cho chúng ta biết về cách biến dự đoán X đánh giá (xác định) biến trả lời Y
2.1.6 Phân tích đối tượng trong trong thuật toán hồi quy tuyến tính
Độ ẩm thay đổi là thường xuyên, theo từng giờ trong một ngày, mức thay đổi phụ thuộc các mùa của từng vùng khí hậu trong một năm Nếu có thông tin liên quan đến độ ẩm trong tương lai, các nhà nông nghiệp có thể thay đổi và điều chỉnh chiến lược kinh doanh của họ để tránh rủi ro hoạt động càng nhiều càng tốt và các chuyên gia có thể dự đoán các đặc điểm thay đổi của độ ẩm để hình thành chính sách cho ngành nông nghiệp một cách hiệu quả Dữ liệu yêu cầu cho nghiên cứu là dữ liệu độ
ẩm trung bình trong một ngày theo thời gian thực, được thu thập từ các cảm biến trong hệ thống nghiên cứu của chúng tôi
Trang 34Mục tiêu của của mô hình hồi quy tuyến tính là tìm mối quan hệ giữa thông số
độ ẩm và thời gian trong bảng dữ liệu, để đưa ra dự đoán về độ ẩm trong những ngày sắp tới
Giả sử ta chọn x là vectơ đặc trưng, (x = 𝑥1, 𝑥2, , 𝑥𝑛) các biến 𝑥𝑖 tương ứng thời gian một ngày y là vectơ phản hồi y = (𝑦1, 𝑦2, , 𝑦𝑛) các biến 𝑦𝑖 tương ứng độ
ẩm trung bình trong một ngày
Bây giờ, nhiệm vụ là tìm một đường phù hợp nhất trong biểu đồ phân tán để chúng ta có thể dự đoán đáp ứng cho bất kỳ giá trị độ ẩm của ngày mới nào (ví dụ một giá trị của ngày không có trong dữ liệu) Đường đó gọi là đường hồi quy
Phương trình của đường hồi quy được biểu diễn là:
f(𝑥𝑖) = 𝛽0 + 𝛽1𝑥𝑖
- f(𝑥𝑖): đại diện cho giá trị dự đoán độ ẩm của ngày thứ i
- 𝛽0 và 𝛽1: đại diện cho hệ số hồi quy và đại diện cho điểm chặn y và độ dốc tương ứng của đường hồi quy
Để tạo mô hình chúng tôi phải đào tạo hay ước tính các giá trị của các hệ số hồi quy 𝛽0 và 𝛽1 Và sau đó chúng tôi có thể sử dụng mô hình để dự đoán các giá trị
độ ẩm của các ngày sau đó không có trong bộ dữ liệu
Trong luận văn này, chúng tôi sẽ sử dụng kỹ thuật Ordinary Least Squares (OLS) Bây giờ chúng tôi tính:
𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖 = f(𝑥𝑖) + 𝜀𝑖 ⇒ 𝜀𝑖 = 𝑦𝑖− f(𝑥𝑖)
Ở đây, 𝜀𝑖 là lỗi dư trong quan sát thứ i
Vì vậy, mục tiêu của chúng tôi là giảm thiểu tổng số lỗi còn lại
Chúng tôi xác định lỗi bình phương hoặc hàm chi phí, J là:
Trang 35và nhiệm vụ của chúng tôi là tìm giá trị của 𝛽0 và 𝛽1 mà J(𝛽0, 𝛽1) là tối thiểu Theo lý thuyết đã trình bày ở phần trước, chúng tôi trình bày kết quả ở đây:
𝛽1 = 𝑆𝑥𝑦
𝑆𝑥𝑥
𝛽0 = 𝑦 ̅ − 𝛽1𝑥 ̅
𝑥 ̅ giá trị trung bình của thời gian
𝑦 ̅ giá trị trung bình của độ ẩm
Trong đó 𝑆𝑥𝑦 là tổng độ lệch chéo của y và x:
mô tả một giải pháp đệ quy cho vấn đề lọc dữ liệu tuyến tính rời rạc (Kalman, 1960) [27] Giới thiệu về ý tưởng chung của bộ lọc Kalman được cung cấp trong Chương 1 của (Maybeck, 1979) [28] Một cuộc thảo luận giới thiệu đầy đủ hơn có thể được tìm thấy trong (Sorenson, 1970) [29], trong đó cũng có một số nội dung thú vị Các tài liệu tham khảo sâu rộng hơn bao gồm (Gelb, 1974) [30]; (Maybeck, 1979) [28]; (Lewis, 2008) [31]; (Brown và Hwang, 2012) [32]; (Grewal và Andrews, 2015) [33]
Bộ lọc Kalman về cơ bản là một tập hợp các phương trình toán học thực hiện một công cụ ước lượng loại dự đoán-hiệu chỉnh tối ưu theo nghĩa là nó giảm thiểu
Trang 36hiệp phương sai lỗi ước tính khi một số điều kiện giả định được đáp ứng Kể từ thời điểm ra mắt, bộ lọc Kalman đã trở thành chủ đề của nghiên cứu và ứng dụng rộng rãi, đặc biệt là trong khu vực tự điều khiển hoặc hỗ trợ điều hướng Điều này có thể phần lớn là do những tiến bộ trong điện toán số làm cho việc sử dụng bộ lọc trở nên thiết thực, nhưng cũng do tính đơn giản tương đối và bản chất mạnh mẽ của chính bộ lọc Hiếm khi làm điều kiện cần thiết cho sự tối ưu, và bộ lọc rõ ràng hoạt động tốt cho nhiều ứng dụng
Bộ lọc Kalman sử dụng sự đổi mới bao gồm sự khác biệt giữa các giá trị được quan sát và dự đoán và cho phép tìm được giá trị ước tính tối ưu của giá than cốc (Meifeng và Guohao, 2015) [34], Sử dụng lý thuyết Kalman để dự đoán lưu lượng giao thông đường bộ và cập nhật thời gian thực của tín hiệu giao thông (Xu Yuanxin
và các cộng sự, 2015) [35], Phương pháp ước tính hiệp phương sai dự đoán của bộ lọc Kalman, phù hợp các quy trình thay đổi từng bước: Ứng dụng vào ước tính trạng thái hệ thống điện (Lorenzo Zanni và các cộng sự, 2016) [36], Sử dụng dữ liệu lịch
sử và dữ liệu thời gian thực về lưu lượng giao thông để dự đoán các điều kiện giao thông trong tương lai (Kumar, 2017) [37]
2.2.1 Quá trình được ước tính
Bộ lọc Kalman giải quyết vấn đề chung là cố gắng ước tính trạng thái của một
quá trình x ∈ 𝑅𝑛 được kiểm soát thời gian rời rạc được điều chỉnh bởi phương trình phương sai ngẫu nhiên tuyến tính
p(w) ~ N(0, Q), (2.28)
p(v) ~ N(0, R), (2.29)
Trang 37Trong thực tế, ma trận hiệp phương sai quá trình Q và ma trận hiệp phương sai đo R có thể thay đổi theo từng bước thời gian hoặc phép đo, tuy nhiên ở đây tác
giả giả sử chúng là hằng số [26]
Ma trận A n x n trong phương trình (2.26) liên quan trạng thái ở bước thời gian trước với trạng thái ở bước k-1 hiện tại, trong trường hợp không có chức năng điều khiển hoặc xử lý tiếng ồn Lưu ý rằng trong thực tế A có thể thay đổi theo từng bước thời gian, nhưng ở đây tác giả giả sử nó là hằng số Ma trận B n x 1 liên quan đến đầu vào điều khiển u ∈ 𝑅𝑙 tùy chọn với trạng thái x Ma trận H m x n trong phương trình
đo (2.27) liên quan với trạng thái đo 𝑧𝒌 Trong thực tế H có thể thay đổi theo từng
bước thời gian hoặc phép đo, nhưng ở đây giả sử nó là hằng số
2.2.2 Nguồn gốc tính toán của bộ lọc
Xác định 𝑥̂𝒌− ∈ 𝑅𝑛 là ước tính trạng thái trước của chúng tôi ở bước k được cung cấp kiến thức về quy trình trước bước k và 𝑥̂𝑘 ∈ 𝑅𝑛 là ước tính trạng thái sau ở
bước k cho phép đo 𝑧𝑘 Sau đó, ta có thể định nghĩa các lỗi ước tính trước và ước tính sau
𝑥̂𝑘 = x̂𝒌−+ K(𝑧𝑘 − 𝐻x̂𝒌−) (2.32)
Sự khác biệt (𝑧𝑘 − 𝐻x̂𝒌−) trong phương trình (2.32) được gọi là sự đổi mới đo lường, hoặc phần dư Phần dư phản ánh sự khác biệt giữa phép đo dự đoán 𝐻x̂𝒌− và phép đo thực tế 𝑧𝑘 Phần dư bằng 0 có nghĩa là hai phép đo bằng nhau
Ma trận K (n x m) trong phương trình (2.32) được chọn là hệ số khuếch đại
hoặc pha trộn để giảm thiểu lỗi hậu nghiệm phương trình hiệp phương sai (2.31) Việc
Trang 38giảm thiểu này có thể được thực hiện bằng phương trình thay thế đầu tiên (2.32) thành
định nghĩa trên cho 𝑒𝑘, thay thế phương trình đó thành phương trình (2.31), thực hiện
các kỳ vọng đã chỉ định, thực hiện đạo hàm dấu vết của kết quả đối với K, đặt kết quả
đó bằng 0 và sau đó giải cho K Tất cả các phương trình lọc Kalman có thể được thao
tác đại số thành nhiều dạng Phương trình (2.33) thể hiện hệ số khuếch đại Kalman ở
từ phương trình (2.33), chúng ta thấy rằng khi hiệp phương sai sai số đo R bằng 0, hệ
số khuếch đại K làm cho phần dư còn lại nặng hơn Đặc biệt,
lim
𝑅𝑘→0𝐾𝑘 = 𝐻−𝟏
Mặt khác, khi ước lượng sai số ước tính hiệp phương sai 𝑃𝒌− bằng 0, hệ số khuếch đại
K làm giảm trọng lượng còn lại ít hơn
lim
𝑃𝒌−→0𝐾𝑘 = 0
Một cách nghĩ khác về trọng số của K là khi sai số đo lường hiệp phương sai
R bằng 0, phép đo 𝑧𝑘 thực tế được tin tưởng nhiều hơn, trong khi phép đo dự đoán
𝐻x̂𝒌− được tin tưởng ngày càng ít Mặt khác, khi ước lượng sai số ước tính hiệp
phương sai 𝑃𝒌− tiến đến 0, phép đo 𝑧𝑘 thực tế được tin cậy ngày càng ít, trong khi phép
đo dự đoán 𝐻x̂𝒌− được tin tưởng ngày càng nhiều
2.2.3 Nguồn gốc xác suất của bộ lọc
Chứng minh cho phương trình (2.32) bắt nguồn từ xác suất của ước lượng tiên
nghiệm x̂𝒌− dựa trên tất cả các phép đo trước đó 𝑧𝑘 (quy tắc Bayes) Bộ lọc Kalman
duy trì hai thời điểm đầu tiên của phân phối trạng thái, E[𝐾𝑘] = 𝑥̂𝑘, E [(𝑥𝑘 −
𝑥̂𝑘)(𝑥𝑘− 𝑥̂𝑘)𝑇] = 𝑃𝑘
Phương trình ước lượng trạng thái hậu nghiệm (2.32) phản ánh giá trị trung
bình (thời điểm đầu tiên) của phân phối trạng thái, nó được phân phối bình thường
nếu các điều kiện của phương trình (2.28) và phương trình (2.29) được đáp ứng
Phương trình hiệp phương sai sai ước tính hậu nghiệm (2.31) phản ánh phương sai
của phân bố trạng thái (thời điểm không trung tâm thứ hai) Nói cách khác, P(𝑥𝑘|𝑧𝑘) ~ N(E[𝑥𝑘], E[(𝑥𝑘 − 𝑥̂𝑘)(𝑥𝑘 − 𝑥̂𝑘)𝑇]) = N(𝑥̂𝑘, 𝑃𝑘)
Trang 392.2.4 Thuật toán bộ lọc Kalman
Bộ lọc Kalman ước tính một quy trình bằng cách sử dụng một hình thức kiểm
soát phản hồi: bộ lọc ước tính trạng thái quy trình tại một thời điểm và sau đó nhận
được phản hồi dưới hình thức các phép đo (nhiễu) Như vậy, các phương trình cho bộ
lọc Kalman được đưa vào hai nhóm: phương trình cập nhật thời gian và phương trình
cập nhật đo lường Các phương trình cập nhật thời gian chịu trách nhiệm dự đoán
trước (trong thời gian) các ước tính hiệp phương sai và trạng thái hiện tại để có được
ước tính tiên nghiệm cho bước tiếp theo Các phương trình cập nhật đo lường chịu
trách nhiệm cho phản hồi của việc kết hợp một phép đo mới vào một ước tính tiên
nghiệm để có được một ước tính hậu nghiệm được cải thiện Các phương trình cập
nhật thời gian cũng có thể được coi là phương trình dự đoán, trong khi phương trình
cập nhật đo lường có thể được coi là phương trình hiệu chỉnh
Các phương trình cụ thể cho cập nhật thời gian và đo lường được trình bày dưới đây
trong bảng 2.1 và bảng 2.2
Bảng 2.1 Phương trình cập nhật thời gian lọc Kalman
x̂𝒌− = Ax̂𝒌−𝟏 + B𝑢𝑘 (2.34)
𝑃𝒌− = 𝑨𝑃𝑘−1𝐴𝑇 + 𝑄 (2.35)
Một lần nữa lưu ý cách các phương trình cập nhật thời gian trong bảng 2.1 dự
đoán trạng thái và hiệp phương sai ước tính chuyển từ bước k - 1 sang bước k A và
B là từ phương trình (2.26), trong khi 𝑄 từ phương trình (2.28)
Bảng 2.2 Phương trình cập nhật đo lường bộ lọc Kalman
𝐾𝑘 = 𝑃𝒌−𝐻𝑇(𝐻𝑃𝒌−𝐻𝑇 + 𝑅)−1 (2.36)
𝑥̂𝑘 = x̂𝒌−+ 𝐾𝑘(𝑧𝑘 − 𝐻x̂𝒌−) (2.37)
𝑃𝑘 = (I − 𝐾𝑘𝐻)𝑃𝒌− (2.38)
Nhiệm vụ đầu tiên trong quá trình cập nhật đo lường là tính toán hệ số khuếch
đại Kalman 𝐾𝑘 Bước tiếp theo là quá trình đo lường thực sự để có được 𝑧𝑘, và sau