Và bên cạnh đó Box-mô hình Arima kết hợp mạng nơron để tăng độ chính xác của dự báo như thế nào, đó là lí do tôi tìm hiểu về đề tài: “ Xây dựng mô hình kết hợp Arima và mạng nơron cho
Trang 1LÊ HOÀNG QUANG
XÂY DỰNG MÔ HÌNH KẾT HỢP ARIMA
VÀ MẠNG NƠRON CHO BÀI TOÁN DỰ BÁO
Chuyên ngành: Khoa học máy tính
Người hướng dẫn: TS LÊ XUÂN VIỆT
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 2Mọi tài liệu tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng tác giả, tên công trình, thời gian, địa điểm công bố và số liệu thu thập hoàn toàn trung thực
Mọi sao chép không hợp lệ, vi phạm quy chế em xin chịu hoàn toàn trách nhiệm
Bình Định, ngày 17 tháng 10 năm 2020
Học viên
` Lê Hoàng Quang
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 3Trường Đại học Quy Nhơn đã truyền đạt kiến thức, hỗ trợ em trong suốt quá trình học tập vừa qua
Em cũng xin chân thành cảm ơn bạn bè đồng nghiệp, gia đình và những người thân đã động viên, chia sẻ và tạo mọi điều kiện thuận lợi để em hoàn thành nhiệm vụ học tập và bản luận văn này
Bản thân đã nỗ lực rất nhiều, nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, tồn tại, em rất mong nhận được sự cảm thông, chỉ dẫn, và đóng góp
ý kiến của quý thầy cô, cũng như các bạn đồng nghiệp
Bình Định, ngày 17 tháng 10 năm 2020
Học viên
Lê Hoàng Quang
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 4DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2.Tổng quan tài liệu và tình hình nghiên cứu đề tài 1
3 Mục đích nghiên cứu 2
4 Đối tượng và phạm vi nghiên cứu 2
5 Phương pháp nghiên cứu 2
6 Ý nghĩa khoa học và thực tiễn của luận văn 2
7 Bố cục luận văn 2
CHƯƠNG 1 DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN 4
1.1 Lịch sử của quá trình dự báo 4
1.2 Khái niệm dự báo 4
1.3 Mục đích dự báo 4
1.4 Các phương pháp dự báo 5
1.5 Những thách thức trong phân tích dự báo 5
1.6 Một số mô hình ứng dụng 6
1.6.1 Mô hình tuyến tính 6
1.6.2 Mô hình phi tuyến tính 8
1.7 Quy trình thực hiện dự báo 9
1.8 Kết luận chương 1 12
CHƯƠNG 2 MÔ HÌNH DỰ BÁO KẾT HỢP ARIMA VÀ MẠNG NƠRON 13 luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 52.2.4 Mạng truyền thẳng và thuật toán lan truyền ngược 17
2.3 Tổng quan FFNN 21
2.4 Mô hình dự báo kết hợp giữa Arima và mạng nơron 23
2.5 Kết luận chương 2 25
CHƯƠNG 3 ỨNG DỤNG VÀO BÀI TOÁN 26
3.1 Giới thiệu về các sông tỉnh Bình Định 26
3.2 Phát biểu bài toán 28
3.3 Công cụ mô phỏng bài toán 29
3.4 Thử nghiệm chương trình 30
3.4.1 Tập dữ liệu thực nghiệm 30
3.4.2 Đánh giá các mô hình dự báo 31
3.4.3 Dự báo bằng mô hình Arima 31
3.4.4 Dự báo bằng mô hình FFNN 35
3.4.5 Kết quả kết hợp mô hình Arima và FFNN 42
3.5 Kết luận Chương 3 44
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45
DANH MỤC TÀI LIỆU THAM KHẢO 46 PHỤ LỤC
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (bản sao) luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 6DANH MỤC CHỮ VIẾT TẮT, CÁC KÍ HIỆU
Stt Tên Viết Tắt Tên đầy đủ Diễn giải
1 ANN Artificial Neural Network Mạng nơron nhân tạo
3 BP Back Propagation Lan truyền ngược
4 HIDDENNODE Hidden Node Số nơron lớp ẩn
5 DSP Digital Signal Processing Xử lý tín hiệu số
6 MAE Mean Absolute Error Sai số tuyệt đối
7 MSE Mean Square Error Sai số trung bình
8 MFNN MultiFeedforward Neural
Network
Mạng truyền thẳng nhiều lớp
9 MLP MultilayerNeural Network Mạng nơron nhiều lớp
10 RNN Recurrent neural network Mạng hồi quy
11 OUTPUTNODE Output Node Số nơron lớp ra
12 INPUTNODE Input Node Số nơron lớp vào
13 HMM Hidden Markov Model Mô hình Markov ẩn
14 AR Autoregressive Tự hồi quy
15 MA Moving Average Trung bình trượt
16 ARMA Autoregressive-Moving
Average
Tự hồi quy và trung bình trượt
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 7DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Các dạng đồ thị của mô hình ARIMA 14
Bảng 3.1 Độ lỗi dự báo của mô hình ARIMA 35
Bảng 3.2 Độ lỗi dự báo của mô hình FFNN 42
Bảng 3.3 Bảng so sánh độ lỗi dự báo của mô hình A-FFNN 43
Bảng 3.4 Bảng so sánh độ lỗi dự báo của các mô hình 43
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 8DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Quy trình thực hiện dự báo 10
Hình 2.1 Mạng nơron truyền thẳng nhiều lớp (Feed-forward neural network) 16
Hình 2.2 Mạng nơron hồi quy (Recurrent neural network) 17
Hình 2.3 Mạng nơron truyền thẳng nhiều lớp 18
Hình 2.4 Mạng nơron truyền thẳng nhiều lớp FFNN 22
Hình 3.1 Hệ thống sông ngòi Bình Định (thuộc Chi cục thủy lợi Bình Định) 28
Hình 3.2 Mực nước sông năm 2016, 2017, 2018, 2019 29
Hình 3.3 Dữ liệu mực nước sông 30
Hình 3.4 Hàm ACF xác định giá trị p, q 32
Hình 3.5 Hàm PACF xác định giá trị p, q 33
Hình 3.6 Chạy nơ ron 1 lớp 1 node 35
Hình 3.7 Chạy nơ ron 1 lớp 2 node 36
Hình 3.8 Chạy nơ ron 1 lớp 3 node 37
Hình 3.9 Chạy nơ ron 1 lớp 4 node 38
Hình 3.10 Chạy nơ ron 1 lớp 5 node 39 luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 9số liệu đó Phương pháp chủ yếu để phân tích chuỗi thời gian là sử dụng các công cụ của thống kê như hồi quy, phân tích Fourie và một vài công cụ khác
Nhưng hiệu quả nhất có lẽ là phương pháp sử dụng mô hình Arima của Jenkins Mô hình này đã cho một kết quả khá tốt trong phân tích dữ liệu và đang được sử dụng rất rộng rãi trong các ứng dụng thực tế Và bên cạnh đó
Box-mô hình Arima kết hợp mạng nơron để tăng độ chính xác của dự báo như thế nào, đó là lí do tôi tìm hiểu về đề tài:
“ Xây dựng mô hình kết hợp Arima và mạng nơron cho bài toán dự báo.”
2.TỔNG QUAN TÀI LIỆU VÀ TÌNH HÌNH NGHIÊN CỨU ĐỀ TÀI 2.1 Tổng quan về tài liệu nghiên cứu
Nguồn tài liệu chính để nghiên cứu về luận văn này bao gồm: các bài luận văn, luận án, báo khoa học, tạp chí khoa học và công nghệ trong nước
và nước ngoài liên quan đến mô hình Arima, mạng nơron và các mô hình
dự báo chuỗi thời gian khác
2.2 Tình hình nghiên cứu đề tài
Mô hình kết hợp giữa Arima và mạng nơron được đề xuất với kì vọng giúp tăng độ chính xác của dự báo trong các ứng dụng thực tế, ý tưởng của
mô hình dựa trên việc xem xét dữ liệu chuỗi thời gian là sự kết hợp giữa thành phần tuyến tính và phi tuyến tính Kết quả thực nghiệm cho thấy các
mô hình kết hợp có độ lỗi dự báo ít hơn đáng kể so với từng mô hình luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 10dự báo trong các bài toán thực tế
4 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
- Đối tượng nghiên cứu: Mô hình Arima, hệ thống mạng nơron và sự kết
hợp giữa Arima và mạng nơron trong dự báo
- Phạm vi nghiên cứu: Sự kết hợp giữa Arima và mạng nơron trong dự báo
5 PHƯƠNG PHÁP NGHIÊN CỨU
- Tiếp cận theo hướng lý thuyết:
+ Tìm hiểu, thu thập và phân tích các tài liệu và thông tin có liên quan đến luận văn
+ Phân tích, thiết kế hệ thống chương trình
+ Kiểm thử và đưa ra nhận xét và đánh giá kết quả
- Tiếp cận theo hướng thực nghiệm:
+ Nghiên cứu xây dựng hệ thống cho bài toán dự báo
+ Cài đặt, chạy, thử nghiệm và so sánh với các mô hình dự báo độc lập khác
6 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA LUẬN VĂN
Luận văn chỉ ra sự kết hợp giữa mạng nơron và Arima trong bài toán
dự báo để thấy được độ chuẩn xác khi kết hợp giữa hai phương pháp này và
cụ thể hơn là bài toán dự báo mực nước trạm sông An Hòa tỉnh Bình Định
7 BỐ CỤC LUẬN VĂN
Nội dung bài luận văn được chia làm 3 chương cụ thể như sau:
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 11Chương 1: Tổng quan về dự báo dữ liệu chuỗi thời gian: Giới thiệu về dự báo
dữ liệu chuỗi thời gian, một số mô hình và đặc điểm của ứng dụng và phương pháp để áp dụng cho bài toán dự báo mực nước sông ở tỉnh Bình Định
Chương 2: Mô hình dự báo kết hợp mạng Arima và nơron: Tìm hiểu mô hình
Arima, tổng quan về mạng nơron nhân tạo, cấu tạo và phương thức làm việc 2 mạng này khi được kết hợp với nhau
Chương 3: Cài đặt và thử nghiệm: Ứng dụng sự kết hợp giữa Arima và mạng
nơron để giải quyết bài toán dự báo mực nước sông An Hoà thuộc sông Bình Định Chương này giới thiệu về số liệu thu thập được, các phương pháp đánh giá kết quả dự báo và tiến tới thử nghiệm, từ
đó đánh giá khả năng ứng dụng phương pháp này vào dự báo chuỗi thời gian tối ưu hơn so với các phương pháp riêng lẻ
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 12CHƯƠNG 1 DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN
1.1 LỊCH SỬ CỦA QUÁ TRÌNH DỰ BÁO
Nhu cầu dự báo về một sự việc sẽ diễn tiến thế nào trong tương lai đã
có từ nhiều thế kỷ trước Những dự báo đầu tiên là dự báo về các hiện tượng
tự nhiên, các hiện tượng xã hội và hiện tượng về đời sống xã hội
Ban đầu dự báo chỉ dựa vào những kinh nghiệm của người dự báo, dần dần
dự báo đã được hỗ trợ bởi công nghệ giúp cho kết quả dự báo chính xác hơn
Có rất nhiều các phương pháp dự báo đã được nghiên cứu và cho ra đời: Phương pháp hồi quy bội, phương pháp Delphi, phương pháp Cross Impact Matrices, phương pháp ARIMA (kết hợp của AR – Autoregressive và
MA – Moving Average) [2]…
Có rất nhiều cách phân loại dự báo như:
Dựa vào thời gian dự báo phân làm ba loại là: Dự báo dài hạn, dự báo trung hạn và dự báo ngắn hạn
Theo phương pháp dự báo lại được phân thành: Dự báo bằng phương pháp chuyên gia, dự báo theo phương trình hồi quy, dự báo dựa vào dãy số thời gian…
1.2 KHÁI NIỆM DỰ BÁO
Dự báo là sự tiên đoán có căn cứ khoa học, mang tính chất xác suất về mức độ, nội dung, các mối quan hệ, trạng thái, xu hướng phát triển của đối tượng nghiên cứu hoặc về cách thức và thời hạn đạt được các mục tiêu nhất định đã đề ra trong tương lai
1.3 MỤC ĐÍCH DỰ BÁO
Phân tích dự báo cung cấp thông tin chi tiết về đối tượng dự báo, từ đó
sẽ đưa ra được hành động chiến lược Phân tích dự báo được thực hiện liên tục và cho kết quả đáng tin cậy nhờ có sự hỗ trợ của kỹ thuật Các quyết định luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 13sẽ được đưa ra một cách nhất quán, công bằng
Dự báo sẽ trả lời các câu hỏi phức tạp và xử lý chúng với độ chính xác cao trong khoảng thời gian ngắn nhất Có những quyết định trước đây phải mất vài ngày hoặc hàng giờ thì nhờ có sự hỗ trợ của khoa học chỉ còn vài phút hoặc vài giây
Giảm được chi phí do giảm rủi ro
1.4 CÁC PHƯƠNG PHÁP DỰ BÁO
Phương pháp định tính: Phương pháp này được sử dụng khi dữ liệu
không có sẵn hoặc có sẵn nhưng không đầy đủ để phân tích và đánh giá Phương pháp này thường được sử dụng khi đối tượng dự báo bị tác động bởi những yếu tố không thể lượng hóa được Nguyên tắc của phương pháp này là sử dụng ý kiến đánh giá của một hay nhiều chuyên gia trong lĩnh vực liên quan Do đó, để đảm bảo tính chính xác của dự báo thì phải loại trừ ý kiến chủ quan của người dự báo
Phương pháp định lượng: Sử dụng dữ liệu từ quá khứ hoặc thu thập
số liệu của các đối tượng ở hiện tại để dự báo Với phương pháp định lượng sẽ cho kết quả dự báo nhanh và có thể đo được độ chính xác cao của dự báo Tuy nhiên, phương pháp này chỉ áp dụng cho dự báo ngắn hạn và trung hạn
Phương pháp hồi quy tương quan: Các phương pháp dự báo trình
bày trên đây đều xem xét sự biến động của đại lượng cần dự báo theo thời gian thông qua dãy số thời gian thống kê được trong quá khứ Mô hình hồi quy tương quan được sử dụng phổ biến nhất trong dự báo là
mô hình hồi quy tương quan tuyến tính [4]
1.5 NHỮNG THÁCH THỨC TRONG PHÂN TÍCH DỰ BÁO
Mục đích của dự báo là để giúp cải tiến về hiệu quả Tuy nhiên, không phải lúc nào dự báo cũng chính xác, một số yếu tố ảnh hưởng đến độ chính luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 14Những trở ngại về dữ liệu Các mô hình thường yêu cầu dữ liệu dưới dạng một bảng hoặc bảng có chứa hàng và cột (dữ liệu hai chiều) Nếu dữ liệu được lưu trữ trong các cơ sở dữ liệu thì cần phải kết nối các cơ sở dữ liệu để tạo ra một bảng
Trở ngại trong việc xây dựng mô hình Trở ngại lớn nhất là quá tải, tức
là mô hình quá phức tạp và yêu cầu phải ghi nhớ dữ liệu huấn luyện Hai trở ngại với mô hình là: Thứ nhất mô hình thực hiện kém với dữ liệu mới và việc giải thích mô hình không đáng tin cậy Thứ hai, các nhà xây dựng mô hình quá tham vọng vào mô hình được xây dựng trên dữ liệu có sẵn trong khoảng thời gian nhất định Cách tốt nhất để khắc phục là xây dựng một mô hình đơn giản sau đó có thể được cải tiến sau khi chạy thử nghiệm
Trở ngại trong triển khai mô hình Thông thường các mô hình không quá phức tạp về mặt tính toán Tuy nhiên, các mô hình phải được kiểm tra bởi
hệ thống hoạt động và đưa ra dự đoán phù hợp với hệ thống đó
1.6 MỘT SỐ MÔ HÌNH ỨNG DỤNG 1.6.1 Mô hình tuyến tính
Đối với các hệ thống tuyến tính (Linear systems), thuộc phạm vi nghiên cứu của lĩnh vực xử lý tín hiệu số (Digital Signal Processing - DSP) DSP quan tâm đến các thao tác tuyến tính, chuyển dịch trạng thái trên dòng dữ liệu Các thao tác này được thực hiện bởi các bộ lọc Việc phân tích, thiết kế các bộ lọc một cách hiệu quả là cốt lõi của lĩnh vực này
Các mô hình tuyến tính biểu diễn chuỗi thời gian như một tổ hợp tuyến luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 15tính của các biến thời gian trễ và có thể có hoặc không có việc kết hợp thêm một đại lượng khác là tổ hợp tuyến tính của các số hạng của quá trình nhiễu
trắng (white noise) Các mô hình tuyến tính tiêu biểu bao gồm: AR (auto
regressive – tự hồi quy), MA (moving average – trung bình trượt) và ARMA (autoregressive-moving average – Tự hồi quy và trung bình trượt) [8]
a Mô hình tự hồi quy (AR)
Trong mô hình tự hồi quy, chuỗi thời gian {X t } được mô tả bởi phương trình sau:
Xt = ø1Xt–1 + ø2Xt–2 +⋯ + øpXt–p + Ɛ t (1-1) Trong đó:
ø i::1→p là các tham số của mô hình
Ɛ t: nhiễu trắng (white noise) Phương trình này được gọi là phương trình biểu diễn của mô hình tự hồi quy bậc p (AR(p))
b Mô hình trung bình di động (MA)
Chuỗi thời gian {X t } được gọi là quá trình trung bình di động bậc q (MA(q)) nếu như mỗi quan sát X t của quá trình MA(q) được viết dưới
dạng như sau:
Xt = Ɛ t + Ɵ 1Ɛ t–1 + Ɵ 2st–2 +⋯ + Ɵ q Ɛ t–q (1-2) Với {Ɛ t} là một quá trình nhiễu trắng (white noise) với trung bình bằng
0, Ɵ i: 1→q là các tham số của mô hình
Phương trình trên cho thấy mô hình MA hoạt động mà không cần thông tin phản hồi Có nhiều chuỗi thời gian được làm khớp dựa hoàn toàn trên các thông tin phản hồi, điều này được thực hiện thông qua mô hình
tự hồi quy AR
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 16c Mô hình tự hồi quy và trung bình trượt (ARMA)
Các chuỗi thời gian đôi khi không thể mô hình hóa được bằng MA hay AR do chúng có đặc tính của cả hai quá trình này Khi đó, để biểu diễn, người ta sử dụng mô hình ARMA, là sự kết hợp của cả hai mô hình MA và AR [1][10]
Khi đó, quá trình ARMA(p,q) được mô tả như sau:
X t = ø 1 X t–1 +⋯ + ø p X t–p + Ɛ t + Ɵ 1 Ɛ t–1 +⋯ + Ɵ q Ɛ t–q (1-3)
Lúc này, việc dự báo có thể thực hiện được nhờ xác định p và q
Việc xác định này được thực hiện bởi người thực hiện dự báo thông qua
kinh nghiệm Trong đó, p được xác định dựa trên việc vẽ các hàm tự tương quan một phần (partial autocorrelation functions), đồng thời q được
xác định thông qua các hàm tự tương quan (autocorrelation functions) Điều quan trọng là các mô hình này có thể giải thích được kết quả dự báo thông qua các công cụ trình diễn trên máy tính Bài luận văn sẽ phân tích kĩ hơn ở chương 2
1.6.2 Mô hình phi tuyến tính
a Mô hình Markov ẩn (Hidden Markov Model)
Mô hình Markov ẩn (HMM) cũng được sử dụng để dự báo dữ liệu chuỗi thời gian Tuy vậy, mô hình này không thích hợp để giải quyết các vấn
đề liên quan đến dữ liệu liên tục Do vậy, các mô hình HMM đã được hiệu chỉnh để sử dụng trong giải quyết bài toán dự báo chuỗi thời gian Theo đó,
mô hình toán học của nó trở nên quá phức tạp để áp dụng thuật toán backward xác định các tham số, độ phức tạp của giải thuật này là O(N2), nên rất khó mở rộng cho các tập dữ liệu kích thước lớn [9]
forward-b Mạng nơron nhân tạo
Việc sử dụng mạng nơron nhân tạo để dự báo chuỗi thời gian đã được nghiên cứu nhiều, do đặc điểm rất phù hợp với các dữ liệu phi tuyến tính luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 17Người ta sẽ xây dựng tập dữ liệu huấn luyện mạng bằng phương pháp như sau:
Chuẩn hóa dữ liệu
Xác định khoảng dự báo (horizon of prediction) s
Chia tập dữ liệu ban đầu thành các tập: huấn luyện (training) (> 50% số mẫu), kiểm tra (test) (1 % -> 30% số mẫu) và tập kiểm định (validation)
Xây dựng tập dữ liệu với mẫu đầu tiên có đầu ra là x[s], các đầu vào là các x[s-1], x[s-2],…, x[1]
Xây dựng mô hình mạng nơ ron áp dụng cho dự báo Việc xác định cấu trúc tối ưu cần quá trình thử-sai
Huấn luyện mạng với các thông số khởi tạo trên các tập dữ liệu training, xác định lỗi với tập dữ liệu test để xác định khả năng tổng quát hóa
Sau khi huấn luyện, thực hiện kiểm định độ chính xác của
mô hình với tập validation [3][6]
1.7 QUY TRÌNH THỰC HIỆN DỰ BÁO
Dự báo là một quá trình phức tạp nhưng về cơ bản quy trình có thể thực hiện theo các bước sau:
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 18Bước 2: Xác định nội dung dự báo
Xác định chính xác dự báo cái gì Luận văn xây dựng hệ thống thử nghiệm dự báo mực nước sông hàng năm với các thông số đầu vào là số liệu thu mực nước sông của các năm trước đó
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 19Bước 3: Xác định khía cạnh thời gian
Xác định độ dài của dự báo như: Dự báo dài hạn hay dự báo ngắn hạn
và dự báo có tính cấp thiết như thế nào
Bước 4: Xem xét dữ liệu
Xem xét dữ liệu là xem xét đến các yếu tố của dữ liệu như: Nguồn cung cấp, các bước phân loại, đánh giá, xử lý dữ liệu trước khi sử dụng Trong luận văn này sử dụng nguồn dữ liệu thu thập được từ Chi cục thủy lợi Bình Định
Vì vậy, dữ liệu là chính xác và đáng tin cậy
Bước 5: Lựa chọn mô hình
Để lựa chọn mô hình thích hợp cho dự báo cần xem xét các yếu tố như:
Dữ liệu đầu vào, các yêu cầu về thời gian, yêu cầu về kết quả đầu ra, tài nguyên sẵn có…
Quy trình lựa chọn mô hình dự báo có thể được lựa chọn dựa trên một
số chiến lược dự báo như sau:
Tiền định: Dựa trên mối quan hệ mật thiết giữa hiện tại và tương lai
Triệu chứng: Dựa trên những dấu hiệu hiện tại để dự báo cho tương lai
Hệ thống: Tức là cho rằng xu hướng phát triển trong tương lai sẽ tuân thủ theo một quy tắc nào đó, chẳng hạn các lý thuyết về giáo dục
Bước 6: Đánh giá mô hình
Với phương pháp dự báo định tính thì cần quan tâm đến việc đánh giá
mô hình nhưng với phương pháp định lượng thì phải đánh giá mức độ phù hợp của mô hình và độ chính xác của dự báo Nếu mô hình không phù hợp thì quay lại bước 5.
Để đánh giá độ phù hợp của mô hình luận văn sử dụng 2 tiêu chí MRSE và MAPE
Bước 7: Chuẩn bị dự báo
Chuẩn bị các số liệu để phục vụ cho việc dự báo
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 20Bước 8: Trình bày kết quả dự báo
Khi trình bày dự báo phải đảm bảo tính ngắn gọn, rõ ràng, chỉ ra được
độ tin cậy cảu dự báo Có rất nhiều cách để trình bày kết quả dự báo: Bảng biểu, đồ thị hay hình ảnh minh họa và có thể trình bày ở dạng viết hoặc dạng nói
Bước 9: Theo dõi kết quả dự báo
Sau khi dự báo phải xem xét kết quả dự báo tức xem xét độ lệch giữa giá trị dự báo và giá trị thực Mục tiêu của việc theo dõi kết quả để tìm ra lý
do tại sao lại có các sai số và xác định độ lớn của các sai số, qua đó bảo trì và nâng cấp hệ thống dự báo
1.8 KẾT LUẬN CHƯƠNG 1
Dự báo dữ liệu chuỗi thời gian là một bài toán gặp rất nhiều trong thực
tế Làm chủ các kỹ thuật phân tích và giải quyết các bài toán dự báo chuỗi thời gian sử dụng mạng nơron và Arima là sự kết hợp tốt dựa trên thực tế rằng các dạng dữ liệu chuỗi thời gian thường khó có thể nhận biết chúng có các đặc điểm quá trình là tuyến tính hay phi tuyến tính, đặc biệt đối với các dữ liệu lớn, phức tạp
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 21Bước 1: Nhận dạng mô hình
Để sử dụng mô hình ARIMA (p,d,q) là tìm các giá trị thích hợp của p,
d, q, với d là bậc sai phân của chuỗi thời gian được khảo sát, p là bậc tự hồi qui và q là bậc trung bình trượt, trong dự báo cần nhận dạng ba thành phần p,
d, q của mô hình Thành phần d của mô hình được nhận dạng thông qua kiểm định tính dừng của chuỗi thời gian Nếu chuỗi thời gian dừng ở bậc 0 ta ký hiệu I(d=0),nếu sai phân bậc 1 của chuỗi dừng ta ký hiệu I(d=1), nếu sai phân bậc 2 của chuỗi dừng ta ký hiệu I(d=2), Để kiểm định tính dừng của chuỗi, luận văn sử dụng kiểm định nghiệm đơn vị Dickey–Fuller cải biên (ADF) và kiểm định Phillips-Perron [4]:
∆Y t = β 0 + β 1 t + πY t−1 + (2-1)
Kiểm định giả thuyết sử dụng thống kê student (ký hiệu t)
Sau khi kiểm định tính dừng, ta sẽ xác định bậc của quy trình tự hồi quy (AR) và quy trình trung bình trượt (MA) thông qua biểu đồ tự tương quan (ACF) và biểu đồ tự tương quan riêng phần (PACF)
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 22Y t = Ө + α 1 Y t−1 + α 2 Y t−2 + · · · + α p Y t−p + β 0 u t + β 1 u t−1 + β 2 u t−2 + · · · + β q u t−q (2-4) Việc xác định p và q sẽ phụ thuộc vào các đồ thị PACF và ACF, chi tiết được thể hiện ở Bảng 2
Bảng 2.1 Các dạng đồ thị của mô hình ARIMA
Loại mô hình Dạng đồ thị ACF Dạng đồ thị PACF
AR(p) Giảm nhanh theo hàm mũ
hoặc dạng hình sin, hoặc cả
hai
Có đỉnh ở trễ thứ p
ARMA(p, q) Giảm nhanh theo hàm mũ Giảm nhanh theo hàm
mũ (Nguồn: Gujarati et al., [2])
Bước 2: Uớc lượng các tham số và lựa chọn mô hình
Quá trình lựa chọn mô hình là quá trình thực nghiệm và so sánh các tiêu chí R 2 hiệu chỉnh, AIC và Schwarz cho đến khi ta chọn được mô hình tốt nhất cho việc dự báo
Bước 3: Kiểm định mô hình
Để đảm bảo mô hình là phù hợp, sai số của mô hình phải là nhiễu trắng
Ta có thể sử dụng biểu đồ tự tương quan ACF hoặc kiểm định Godfrey kiểm tra tính tự tương quan của sai số
Breusch-Bên cạnh đó để đánh giá độ tin cậy của mô hình dự báo, nghiên cứu sử dụng chỉ số MAPE Theo Lewis (1983) thì MAPE lớn hơn hoặc bằng 50% thì luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 23dự báo không chính xác, 20% - 50% là hợp lệ, 10%-20% là dự báo tốt, dưới 10% là dự báo hoàn hảo [5] Chỉ số MAPE được định nghĩa như sau [6]:
(2-5) trong đó x t , là giá trị thật và giá trị dự báo ở thời điểm t, n là tổng số dự báo
Bước 4: Dự báo
Sau khi kiểm định sai số của các mô hình dự báo, nếu phù hợp sẽ được
sử dụng vào việc dự báo
Như vậy mô hình Arima đầu tiên sẽ tìm các giá trị thích hợp của p và q thông qua PACF và ACF, sau đó dựa vào dữ liệu chuỗi thời gian để tìm các tham số của mô hình tự hồi quy và trung bình trượt Tiếp theo kiểm định mô hình và cuối cùng là dự báo chuỗi thời gian (sử dụng mô hình vừa tìm được
để dự báo giá trị các thời điểm t trong tương lai của chuỗi thời gian) Tất cả sẽ được thể hiện trong chương 3
2.2.TỔNG QUAN VỀ MẠNG NƠRON NHÂN TẠO 2.2.1 Mạng nơron nhân tạo
Mạng nơron nhân tạo (Artifical Neural Networks) mô phỏng lại mạng nơron sinh học là một cấu trúc khối gồm các đơn vị tính toán đơn giản được liên kết chặt chẽ với nhau, trong đó các liên kết giữa các nơron quyết định chức năng của mạng
2.2.2 Đặc trưng cơ bản của mạng nơron
Gồm một tập các đơn vị xử lý (các nơron nhân tạo)
Trạng thái kích hoạt hay đầu ra của đơn vị xử lý
Liên kết giữa các đơn vị Xét tổng quát, mỗi liên kết được định nghĩa bởi một trọng số W jk cho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn vị k
Một luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 24từ đầu vào của nó
Một hàm kích hoạt, hay hàm chuyển (activation function, transfer function), xác định mức độ kích hoạt khác dựa trên mức độ kích hoạt hiện tại
Một đơn vị điều chỉnh (độ lệch) (bias, offset) của mỗi đơn vị
Phương pháp thu thập thông tin (luật học - learning rule)
Môi trường hệ thống có thể hoạt động
2.2.3 Các hình trạng của mạng nơron
Mạng truyền thẳng (Feed-forward neural network):
Dòng dữ liệu từ đơn vị đầu vào đến đơn vị đầu ra chỉ được truyền thẳng Việc xử lý dữ liệu có thể mở rộng ra nhiều lớp, nhưng không có các liên kết phản hồi Nghĩa là, các liên kết mở rộng từ các đơn
vị đầu ra tới các đơn vị đầu vào trong cùng một lớp hay các lớp trước đó
là không cho phép
Lớp đầu vào Lớp ẩn Lớp đầu ra
Hình 2.1 – Mạng nơron truyền thẳng nhiều lớp (Feed-forward neural network)
Mạng hồi quy (Recurrent neural network):
Có chứa các liên kết ngược Khác với mạng truyền thẳng, các thuộc tính động của mạng mới quan trọng Trong một số trường hợp, các luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 25Lớp đầu vào Lớp ẩn Lớp đầu ra
Hình 2.2 Mạng nơron hồi quy (Recurrent neural network)
2.2.4 Mạng truyền thẳng và thuật toán lan truyền ngược
Mạng truyền thẳng MLP
Một mạng truyền thẳng nhiều lớp bao gồm một lớp vào, một lớp ra và một hoặc nhiều lớp ẩn Các nơron đầu vào thực chất không phải các nơron theo đúng nghĩa, bởi lẽ chúng không thực hiện bất kỳ một tính toán nào trên
dữ liệu vào, đơn giản nó chỉ tiếp nhận các dữ liệu vào và chuyển cho các lớp
kế tiếp Các nơron ở lớp ẩn và lớp ra mới thực sự thực hiện các tính toán, kết quả được định dạng bởi hàm đầu ra (hàm chuyển) Cụm từ “truyền thẳng” (feed forward) (không phải là trái nghĩa của lan truyền ngược) liên quan đến một thực tế là tất cả các nơron chỉ có thể được kết nối với nhau theo một hướng: tới một hay nhiều các nơron khác trong lớp kế tiếp (loại trừ các nơron
ở lớp ra)
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 26Hình 2.3 Mạng nơron truyền thẳng nhiều lớp
Trong đó:
P: Vector đầu vào (vector cột)
W i : Ma trận trọng số của các nơron lớp thứ i (S i xR i : S hàng (nơron) - R cột (số đầu vào))
b i : Vector độ lệch (bias) của lớp thứ i (S i x1: cho S nơron)
vì đầu ra của lớp hiện tại tạo ra đầu vào của lớp kế tiếp Khi tất cả các nơron
đã thực hiện tính toán thì kết quả được trả lại bởi các nơron đầu ra Tuy nhiên,
có thể là chưa đúng yêu cầu, khi đó một thuật toán huấn luyện cần được áp dụng để điều chỉnh các tham số của mạng [5]
Xét trường hợp mạng có hai lớp như hình 3, công thức tính toán cho đầu luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 27ra như sau:
(2-6)
Thuật toán lan truyền ngược (Back-Propagation)
Thuật toán lan truyền ngược là dạng tổng quát của thuật toán trung bình bình phương tối thiểu (Least Means Square-LMS) Thuật toán này thuộc dạng thuật toán xấp xỉ để tìm các điểm mà tại đó hiệu năng của mạng là tối ưu Chỉ số tối ưu (performance index) thường được xác định bởi một hàm số của ma trận trọng số
và các đầu vào nào đó mà trong quá trình tìm hiểu bài toán đặt ra
Bước 1: Lan truyền xuôi các tính toán trong mạng truyền thẳng
Khi đó, đầu ra của một lớp trở thành đầu vào của lớp kế tiếp Phương trình thể hiện hoạt động này như sau (trong đó M là
số lớp trong mạng) :
Các nơron trong lớp thứ nhất nhận các tín hiệu từ bên ngoài (với p chính là điểm bắt đầu của phương trình hình 3.)
Đầu ra của lớp cuối cùng được xem là đầu ra của mạng:
Bước 2: Lan truyền lỗi (hay độ nhạy cảm) ngược lại qua mạng
Thuật toán lan truyền ngược sử dụng chỉ số hiệu năng là trung bình bình phương lỗi của đầu ra so với giá trị đích Đầu vào của thuật toán chính là tập các cặp mô tả hoạt động đúng của mạng:
Trong đó p i là một đầu vào và t i là đầu ra mong muốn tương ứng, với
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 28đã học để cho ra tín hiệu ra tương ứng Quá trình huấn luyện thực chất là việc điều chỉnh các trọng số kết nối của mạng Trong quá trình huấn luyện, các trọng số được điều chỉnh đến khi đạt được các giá trị sao cho với mỗi tín hiệu đầu vào thì mạng sẽ cho ra tín hiệu đầu ra gần với giá trị đầu ra mục tiêu nhất; nói cách khác, sai số giữa giá trị đầu ra của mạng và giá trị đầu ra mục tiêu là nhỏ nhất
Hàm truyền
Hàm truyền hay còn gọi là hàm kích hoạt là một thành phần không thể thiếu trong mô hình mạng thần kinh Hàm truyền giúp cho thông tin được truyền từ nơ-ron này đến các nơ-ron khác, và kết quả của hàm truyền là thông tin đầu ra của mỗi lớp ẩn và lớp đầu ra
Phần mềm cho mô hình ANN đều có sẵn các loại hàm truyền, hoặc là dạng hàm truyền tuyến tính, hoặc là dạng hàm phi tuyến để xây dựng mô hình nhưng được phân hóa thành các dạng cụ thể như hàm HyperTanh, Tanh, TanhAxon, LinearTanh, LinearSigmoid, Arctan, Arcotan, sin, cos…
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 292.3 TỔNG QUAN FFNN
Một mạng truyền thẳng là một mạng lưới thần kinh nhân tạo trong đó các kết nối giữa các nút làm không tạo chu kỳ Như vậy, nó khác với hậu duệ của nó: mạng lưới thần kinh tái phát Mạng thần kinh feedforward là loại mạng thần kinh nhân tạo đầu tiên và đơn giản nhất được phát minh Trong mạng này, thông tin chỉ di chuyển theo một hướng, chuyển tiếp, từ các nút đầu vào, thông qua các nút ẩn (nếu có) và đến các nút đầu ra Không có chu
kỳ hoặc vòng lặp trong mạng
Trong những năm gần đây, nhiều nghiên cứu đã áp dụng các mô hình mạng nơron nhân tạo trong dự báo chuỗi thời gian và đạt được một số kết quả nhất định Bogdan Oancea đã cài đặt mô hình mạng nơron với hai kiến trúc mạng là FFNN (Feedforward Neural Network) và RNN (Recurrent Neural Network) cho việc dự báo chuỗi thời gian Tác giả chạy thực nghiệm trên tập
dữ liệu tỷ giá hối đoái giữa đồng EUR/RON và USD/RON Đầu tiên, tác giả chuẩn hóa dữ liệu bằng công thức logarit tự nhiên để nâng cao độ chính xác
dự báo Sau đó, mô hình FFNN được xây dựng với 20 nơron ở lớp đầu vào (input layer), 40 nơron ở lớp ẩn (hidden layer) và 1 nơron ở lớp đầu ra (output layer) là giá trị dự báo cho thời gian tiếp theo t +1 Tác giả chia tập dữ liệu với 80% cho huấn luyện (training) và 20% cho thử nghiệm (testing) Kế tiếp, mạng RNN được cài đặt với 20 nơron ở lớp đầu vào, 10 nơron trong lớp ẩn hồi quy và 1 nơron ở lớp đầu ra Sau khi thực nghiệm, tác giả khẳng định mô hình RNN cho kết quả dự báo tốt hơn FFNN trên tập dữ liệu tỷ giá hối đoái luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 30Hình 2.4 Mạng nơron truyền thẳng nhiều lớp FFNN
M Raeesi sử dụng mạng nơron FFNN để dự báo dữ liệu giao thông ở thành phố Monroe, bang Louisiana, Hoa Kỳ Nghiên cứu này đề xuất một mạng nơron sử dụng dữ liệu giao thông của ngày hôm nay, ngày hôm qua, tuần trước, hai tuần trước, ba tuần trước và một tháng trước để làm đầu vào cho dự báo lưu lượng giao thông của ngày mai Kết quả thực nghiệm cho thấy
mô hình mạng nơron đã xây dựng có thể được sử dụng cho dự báo giao thông tại thành phố Monroe Tuy nhiên, một vài trường hợp có kết quả dự báo với sai số lớn do những yếu tố bất thường tác động như tai nạn, thời tiết xấu,… Kumar Abhishek cũng sử dụng mạng nơron FFNN với giải thuật lan truyền ngược (back-propagation) trong dự báo chứng khoán trên tập dữ liệu của tập đoàn Microsoft từ 1/1/2011 đến 31/12/2011 gồm 2 lớp đơn giản trong mạng (10 nơron lớp đầu vào, 1 nơron lớp đầu ra), độ chính xác dự báo lên đến 99%
Mô hình mạng nơron FFNN sử dụng đặc trưng cho lớp đầu vào là các luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 31giá trị ở những điểm thời gian trước điểm thời gian dự báo Mối liên hệ giữa giá trị đầu ra (y t ) và các giá trị đầu vào (y t-1 , y t-2 , …, y t-p ) được mô hình bởi phương trình :
trong đó, (j=0, 1, 2, …, q) và (i=0, 1, 2, …, p, j=1, 2, …, q) là các tham
số của mô hình, p là số nơron lớp đầu vào và q là số nơron lớp ẩn, là sai số Hàm kích hoạt được sử dụng trong các nơron lớp ẩn như hàm sigmoid:
Do đó, mô hình mạng nơron FFNN trong dự báo chuỗi thời gian là một
mô hình phi tuyến mô tả mối quan hệ giữa các giá trị trong quá khứ (y t-1 , y
t-2 , …, y t-p ) và giá trị tương lai (y t ):
y t = f(y t-1 , y t-2 , …, y t-p , w) + (2-9) với w là một vector chứa tất cả các tham số của mô hình FFNN, f là một hàm
số được xác định bởi cấu trúc mạng và các tham số
Việc chọn số nơron đầu vào p và số nơron của lớp ẩn q phụ thuộc vào tập dữ liệu huấn luyện Mỗi tập dữ liệu chuỗi thời gian khi huấn luyện với mô hình mạng nơron sẽ có p, q khác nhau Chọn p, q để tìm được mô hình dự báo chuỗi thời gian tốt nhất phải qua thực nghiệm và so sánh giữa các mô hình Như vậy việc đầu tiên là cần xác định các biến đầu vào và các biến đầu
ra cho mô hình, số lượng biến đầu vào được xác định dựa trên thực nghiệm
để tìm ra giá trị phù hợp Việc kế tiếp là xác định số lớp ẩn vầ số nơron trong từng lớp ẩn và chạy huấn luyện dữ liệu trên 1 lớp ẩn chạy lần lượt đến node thứ 5, cuối cùng ta được những kết quả thử nghiệm Qua chương 3 ta sẽ thấy
rõ hơn về điều đó
2.4 Mô hình dự báo kết hợp giữa Arima và mạng nơron
Mô hình Arima và mô hình mạng nơron là những kĩ thuật được sử dụng luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 32Việc đưa ra ý tưởng của mô hình này là sự kết hợp giữa thành phần tuyến tính và phi tuyến tính Hai thành phần này được biểu diễn qua phương trình như sau:
(2-10) Trong đó: y t là giá trị của chuỗi thời gian
Mô hình mạng nơron được dùng để dự báo giá trị còn lại e t sau khi dự báo bằng mô hình Arima sẽ được mô hình hóa bởi một hàm số:
(2-12) Trong đó: f là một hàm phi tuyến được xác định bằng mạng nơron luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 33là giá trị ngẫu nhiên tại thời điểm t
Ký hiệu là giá trị dự báo cho thành phần phi tuyến tính Kết quả giá trị dự báo tại thời điểm t ( được tính bởi phương trình [12]:
(2-13)
Mô hình kết hợp Arima và mạng nơron theo hướng tiếp cận xây dựng
mô hình kết hợp ARIMA_FFNN Mô hình kết hợp này giống với ý tưởng của
G Peter Zhang đề xuất, tức là áp dụng mô hình ARIMA để dự báo thành phần tuyến tính, sau đó sử dụng mô hình mạng nơron dự báo lỗi của mô hình (thành phần phi tuyến) Kết quả thực nghiệm trên các tập dữ liệu cho kết quả
đều có độ lỗi dự báo thấp hơn mô hình độc lập
2.5 KẾT LUẬN CHƯƠNG 2
Trong chương này tìm hiểu tổng quan về mô hình mạng Arima và mạng nơron, các đặc trưng cơ bản cũng như các hình trạng của chúng, và cuối cùng đưa ra mô hình dự báo kết hợp giữa Arima và mạng nơron với kỳ vọng
sẽ cho độ chính xác cao hơn và ít lỗi hơn so với từng mô hình riêng lẻ Tính hiệu quả của mô hình kết hợp sẽ được kiểm chứng trong Chương 3
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 34CHƯƠNG 3 ỨNG DỤNG VÀO BÀI TOÁN
3.1 GIỚI THIỆU VỀ CÁC SÔNG TỈNH BÌNH ĐỊNH
Các sông trong tỉnh đều bắt nguồn từ những vùng núi cao của sườn phía đông dãy Trường Sơn Các sông ngòi không lớn, độ dốc cao, ngắn, hàm lượng phù sa thấp, tổng trữ lượng nước 5,2 tỷ m³, tiềm năng thuỷ điện 182,4 triệu kw Ở thượng lưu có nhiều dãy núi bám sát bờ sông nên độ dốc rất lớn,
lũ lên xuống rất nhanh, thời gian truyền lũ ngắn Ở đoạn đồng bằng lòng sông rộng và nông có nhiều luồng lạch, mùa kiệt nguồn nước rất nghèo nàn; nhưng khi lũ lớn nước tràn ngập mênh mông vùng hạ lưu gây ngập úng dài ngày vì các cửa sông nhỏ và các công trình che chắn nên thoát lũ kém Trong tỉnh có bốn con sông lớn là sông Côn ( bắt nguồn từ phía bắc xã An Toàn huyện An
Lão, chảy về hướng tây nam rồi nam, và hợp lưu với sông Say ở rìa bắc
xã Vĩnh Sơn huyện Vĩnh Thạnh Sau đó sông chảy theo hướng đông nam qua huyện Vĩnh Thạnh nơi có hồ Vĩnh Sơn, thủy điện Vĩnh Sơn, hồ Định Bình, huyện Tây Sơn để rồi gặp các nhánh nhỏ bắt nguồn từ An Khê và Vân Canh tạo thành dòng lớn hơn), Lại Giang ( được hình thành từ sự hợp nhất của hai dòng sông là An Lão và Kim Sơn ) , La Tinh ( Sông La Tinh bắt nguồn từ hồ Hội Sơn thuộc vùng núi phía Tây huyện Phù Cát Nhiều suối nhỏ khởi nguồn
từ các dãy núi thuộc hai xã Cát Sơn và Cát Lâm đã tập hợp tạo nên thượng nguồn sông La Tinh ) và Hà Thanh ( Sông Hà Thanh bắt nguồn từ miền núi phía Tây Nam huyện Vân Canh , tỉnh Bình Định ở độ cao 500 m so với mực nước biển , chảy theo hướng Tây Nam – Đông Bắc) cùng các sông nhỏ như Châu Trúc hay Tam Quan Ngoài các sông đáng kể nói trên còn lại là hệ thống các suối nhỏ chằng chịt thường chỉ có nước chảy về mùa lũ và mạng lưới các sông suối ở miền núi tạo điều kiện cho phát triển thuỷ lợi và thuỷ điện Độ che phủ của rừng đến nay chỉ còn khoảng trên 40% nên hàng năm luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 35số liệu hiện tại ở lưu vực các sông này, nên các phương pháp thống kê như phân tích hồi quy nhiều biến thường được dùng Ngoài việc sử dụng phương pháp nói trên, nghiên cứu đã tiến hành ứng dụng mạng nơron thần kinh, là một phương pháp mới để xây dựng các phương án dự báo cho sông An Hòa ở tỉnh Bình Định Đây là các phương pháp đơn giản nhưng tận dụng triệt để các thông tin (dữ liệu đo đạc) hiện có trên lưu vực và đặc biệt rất thuận tiện cho việc dự báo tác nghiệp [7].
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 36Hình 3.1 Hệ thống sông ngòi Bình Định (thuộc Chi cục thủy lợi Bình Định)
3.2 PHÁT BIỂU BÀI TOÁN
Bài toán được đặt ra là lấy số liệu cụ thể về mực nước tại trạm sông An
Hòa vào lúc 7 giờ 00 các ngày trong tháng 9, tháng 10, tháng 11, tháng 12 của những năm 2016, năm 2017, năm 2018, năm 2019 và dự đoán cho những tháng mưa tiếp theo của năm 2020
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 37Tập dữ liệu huấn luyện được chia thành những khoảng dữ liệu thời gian, những khoảng thời gian đầu được dùng làm huấn luyện cho mô hình Arima (chạy huấn luyện Arima chọn mô hình phù hợp (tìm p,d,q)) Dữ liệu thuộc khoảng thời gian còn lại sẽ được chạy huấn luyện dữ liệu với mô hình FFNN để dự báo lỗi cho
mô hình Arima vừa xây dựng Sử dụng Arima đã huấn luyện để dự báo giá trị cho các điểm thời gian trong tập dữ liệu thử nghiệm và mô hình nơron cũng được sử dụng để dự báo lỗi cho mô hình Arima trong tập dữ liệu thử nghiệm
Kết quả sẽ là giá trị tổng hợp của 2 mô hình Arima và nơron
Bảng dữ liệu gồm các giờ trong ngày, mực nước tại trạm An Hòa H(m), của các tháng 9, tháng 10, tháng 11, tháng 12 của các năm 2016, 2017, 2018 và
2019 được thể hiện ở bảng sau:
Hình 3.2 Mực nước sông năm 2016, 2017, 2018, 2019
3.3 CÔNG CỤ MÔ PHỎNG BÀI TOÁN
R là một công cụ rất mạnh cho học máy, thống kê và phân tích dữ liệu Đây là một ngôn ngữ lập trình, cho phép chúng ta tương tác với nhiều nguồn
dữ liệu và các gói thống kê (SAS, SPSS), ngôn ngữ này rất phù hợp cho việc
mô phỏng dữ liệu qua bảng biểu một vài tính năng thống kê nổi bật của R như
Basic Statistics , Static graphics, Probability distributions,…
Những điểm mạnh của R:
những ý tưởng mới thường xuất hiện đầu tiên trên R
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 38việc gì, kể cả bán các sản phẩm từ R theo điều kiện của giấy phép
triển package mới
3.4 THỬ NGHIỆM CHƯƠNG TRÌNH 3.4.1 Tập dữ liệu thực nghiệm
Trong bài luận văn này, các mô hình dự báo chuỗi thời gian sẽ được cài đặt
và thực nghiệm trên tập dữ liệu mực nước sông tại trạm An Hòa (thuộc hệ thống sông Bình Định) được thu thập từ các ngày trong tháng 9, tháng 10, tháng 11, tháng 12 của các năm 2016, năm 2017, năm 2018, năm 2019 (31/12/2019, 487 ngày) dựa trên số liệu thống kê của Chi cục thủy lợi phòng chống thiên tai Bình Định: https://pcttbinhdinh.gov.vn/chi-cuc-thuy-loi/ Tập dữ liệu thực nghiệm
sẽ được chia thành hai phần: 80% các điểm thời gian được sử dụng để huấn luyện, 20% các điểm thời gian còn lại sẽ được sử dụng cho thử nghiệm mô hình
Hình 3.3 Dữ liệu mực nước sông
Dòng thể hiện tổng các ngày trong những năm 2016, 2017, 2018, 2019
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 393.4.2 Đánh giá các mô hình dự báo
Để đánh giá chất lượng dự báo, bài luận văn sử dụng các độ đo lỗi RMSE (Root Mean Square Error) và MAPE (Mean Absolute Percentage Error):
với n là số điểm thời gian thử nghiệm
là giá trị thực tế
là giá trị dự báo từ mô hình
Để đánh giá hiệu quả của phương pháp kết hợp, sau đây tôi thực hiện việc dự báo cho bài toán trên bằng các mô hình độc lập Arima, mạng nơron và cuối cùng là phương pháp kết hợp hai dạng trên
3.4.3 Dự báo bằng mô hình Arima
Sử dụng hàm ACF, PACF để xác định các giá trị q, p thích hợp cho mô hình Kết quả từ chuỗi dữ liệu cho thấy q có thể nhận các giá trị 2, 1, 1 và p
có thể nhận các giá trị 3, 1, 1 Chúng ta cần tìm ra một mô hình Arima phù hợp để dự báo mực nước sông
Kết nối dữ liệu:
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si
Trang 40Dữ liệu được kết nối như sau:
Lấy thông số Arima:
Thông số Arima được thể hiện hai biểu đồ bên dưới
Hình 3.4 Hàm ACF xác định giá trị p, q
luan van tot nghiep download luanvanfull moi nhat z z @gmail.com Luan van thac si