DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮTCác ký hiệu: ??? Hàm thuộc của phần tử ? vào tập mờ ? ???? Miền ngôn ngữ của biến ngôn ngữ ? ?+??? Hàm dấu của từ ngôn ngữ ? ?? Độ đo tính mờ của từ n
Trang 1HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-NGUYỄN DUY HIẾU
MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
HÀ NỘI – 2022
Trang 2Nguyễn Duy Hiếu
MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ
Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS TSKH Nguyễn Cát Hồ
2 TS Vũ Như Lân
Hà Nội – Năm 2022
Trang 3Tác giả luận án cam đoan các kết quả nghiên cứu là của riêng tác giả ngoạitrừ các nghiên cứu đã được trích dẫn trong luận án Các kết quả được viết chungvới các tác giả khác đều được sự đồng ý của đồng tác giả trước khi được đưavào luận án Các kết quả trình bày trong luận án là trung thực và chưa từng đượccông bố trong bất kỳ công trình nào khác.
Tác giả
Nguyễn Duy Hiếu
Trang 4Trong quá trình thực hiện nghiên cứu, tác giả đã nhận được sự chỉ bảo tậntình, chu đáo của PGS TSKH Nguyễn Cát Hồ và TS Vũ Như Lân Lời đầutiên, tác giả xin bày tỏ lòng kính trọng và biết ơn sâu sắc nhất tới hai thầy.
Tác giả trân trọng cảm ơn Ban Lãnh đạo: Viện Công nghệ thông tin, KhoaCông nghệ thông tin và Truyền thông - Học viện Khoa học và Công nghệ, ViệnHàn lâm Khoa học và Công nghệ Việt Nam đã giúp đỡ, tạo điều kiện thuận lợicho tác giả trong quá trình học tập, nghiên cứu và hoàn thiện luận án
Tác giả cũng xin trân trọng cảm ơn lãnh đạo Trường Đại học Tây Bắc, BanChủ nhiệm Khoa Khoa học Tự nhiên - Công nghệ, lãnh đạo Phòng Tổ chức -Hành chính, Phòng Bảo đảm chất lượng và Thanh tra Pháp chế đã quan tâm, tạođiều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu.Tác giả xin gửi lời cảm ơn chân thành tới các đồng nghiệp thuộc KhoaKhoa học Tự nhiên - Công nghệ, Trường Đại học Tây Bắc, các anh chị trongNhóm nghiên cứu Đại số gia tử đã động viên, khích lệ, trao đổi những kiến thức
và kinh nghiệm nghiên cứu
Cuối cùng, tác giả xin gửi lời cảm ơn chân thành tới bố mẹ hai bên, anh chị
em, người thân, bạn bè đặc biệt là vợ và các con đã luôn dành cho tác giả nhữngtình cảm, chia sẻ những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡtác giả trong quá trình nghiên cứu Luận án này cũng là món quà mang ý nghĩatinh thần mà tác giả trân trọng gửi đến các thành viên trong gia đình
Trang 5LỜI CAM ĐOAN iii
1.2 Thông tin và cấu trúc toán học của miền ngôn ngữ tự nhiên 211.2.1 Cấu trúc đại số trong miền ngôn ngữ tự nhiên 231.2.2 Lượng hóa cấu trúc ngữ nghĩa của ngôn ngữ bằng phương pháp tiên
CHƯƠNG 2 CHUỖI THỜI GIAN NGÔN NGỮ VÀ MÔ HÌNH DỰ BÁO 372.1 Mô hình dự báo chuỗi thời gian mờ dựa trên ngữ nghĩa ngôn ngữ 382.2 Mô hình dự báo chuỗi thời gian ngôn ngữ (LTS-FM) 45
2.2.2 Quan hệ lô-gic ngôn ngữ và nhóm quan hệ lô-gic ngôn ngữ 47
Trang 62.2.3 Mô hình dự báo LTS-FM 482.2.4 Một số kết quả thử nghiệm và thảo luận 52CHƯƠNG 3 MỘT SỐ NGHIÊN CỨU MỞ RỘNG MÔ HÌNH DỰ BÁO
3.2 Mở rộng không gian trong mô hình dự báo chuỗi thời gian ngôn ngữ 703.3 Tính toán tối ưu trong mô hình dự báo LTS-FM 753.3.1 Tối ưu tham số của mô hình dự báo LTS-FM 753.3.2 Tối ưu tham số kết hợp tối ưu việc lựa chọn các hạng từ trong mô
3.4 Mô hình dự báo chuỗi thời gian ngôn ngữ bậc cao 87
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Các ký hiệu:
𝜇𝑋(𝑥) Hàm thuộc của phần tử 𝑥 vào tập mờ 𝐴
𝐷𝑜𝑚(𝑌) Miền ngôn ngữ của biến ngôn ngữ 𝑌
𝑠+𝑔𝑛(𝑥) Hàm dấu của từ ngôn ngữ 𝑥
𝗆(𝑥) Độ đo tính mờ của từ ngôn ngữ 𝑥
ℑ𝗆(𝑥) Khoảng tính mờ của từ ngôn ngữ 𝑥
𝐿(𝑥) Chiều dài của từ ngôn ngữ 𝑥
𝜇(ℎ) Độ đo tính mờ của gia tử ℎ
𝑣(𝑥) Giá trị ngữ nghĩa định lượng của từ ngôn ngữ 𝑥
3 3 = 𝗆(𝑐#), độ đo tính mờ của phần tử sinh âm 𝑐#
𝛼 𝛼 = ∑#𝑞&$&#' 𝜇(ℎ$), tổng độ đo tính mờ của các gia tử âm
𝛽 𝛽 = ∑'&$&𝑝 𝜇(ℎ$), tổng độ đo tính mờ của các gia tử dương
Các chữ viết tắt:
FTS Fuzzy Time Series (chuỗi thời gian mờ)
FTS-FM Fuzzy Time Series Forecasting Model (mô hình dự báo
chuỗi thời gian mờ)
AI Artificial Intelligence (trí thông minh nhân tạo, trí tuệ
nhân tạo)FLR Fuzzy Logic Relationship (quan hệ lô-gic mờ)
FLRG Fuzzy Logic Relationship Group (nhóm quan hệ lô-gic
mờ)EUA Enrollment of University of Alabama (bộ dữ liệu số sinh
viên nhập học Đại học Alabama từ 1971 đến 1992)MSE Mean Squared Error (giá trị sai số trung bình bình
phương)RMSE Root Mean Squared Error (giá trị khai căn của sai số
trung bình bình phương)MAPE Mean Absolute Percentage Error (giá trị sai số trung bình
phần trăm tuyệt đối)ĐSGT Đại số gia tử
HA Hedge Algebras (đại số gia tử)
Trang 8LTS-FM Linguistic Time Series Forecasting Model (mô hình dự
báo chuỗi thời gian ngôn ngữ)
FMWeighted Linguistic Time Series
WLTS-Forecasting Model (mô hình dự báochuỗi thời gian ngôn ngữ có trọng số)
LLR Linguistic Logical Relationship (quan hệ lô-gic ngôn
ngữ) LLRG Linguistic Logical Relationship Group (nhóm quan
hệ
lô-gic ngôn ngữ)PSO Particle Swarm Optimization (giải thuật tối ưu bầy đàn)
Linguistic Time Series Particle Swarm Optimization (giải
LTSPSO
LTSPSCOthuật tối ưu tham số sử dụng
giải thuật bầy đàn của mô hình
dự báo chuỗi thời gian ngôn
ngữ)Linguistic Time Series ParticleSwarm Co-Optimization (giảithuật đồng tối ưu, kết hợp tối
ưu tham số và bộ từ sử dụnggiải thuật bầy đàn của mô hình
dự báo chuỗi thời gian ngônngữ)
HO-LTS High-Order Linguistic Time Series (chuỗi thời gian ngôn
ngữ bậc cao)
Trang 9Bảng 1.1 Các tiêu chuẩn đánh giá độ chính xác dự báo 20
Bảng 1.2 Quan hệ dấu giữa gia tử trên các hàng đối với gia tử trên các cột 28
Bảng 2.2 Các khoảng giải nghĩa cho dữ liệu EUA theo các năm dự báo 43
Bảng 2.3 Bảng tổng hợp thông tin làm cơ sở cho tính toán dự báo 44
Bảng 2.4 Số liệu sinh viên nhập học EUA và chuỗi thời gian ngôn ngữ tương
Bảng 2.5 Các nhóm quan hệ lô-gic ngôn ngữ của chuỗi thời gian tuyển sinh 55 Bảng 2.6 So sánh kết quả dự báo tuyển sinh Alabama 56
Bảng 2.8 Các LLRG của chuỗi thời gian độ biến thiên tuyển sinh 59
Bảng 2.9 Kết quả dự báo EUA dựa trên số liệu biến thiên. 60
Bảng 2.10 Các nhóm quan hệ LLRG của chuỗi thời gian nhiệt độ 62
Bảng 2.11 Kết quả dự báo nhiệt độ bằng mô hình FTS-FM 63
Bảng 3.1 Giá trị 7 điểm ngữ nghĩa thực trên không gian nền 68
Bảng 3.2 Chuỗi thời gian ngôn ngữ EUA và nhóm quan hệ LLRG có trọng số
68
Bảng 3.4 Chuỗi thời gian ngôn ngữ trong mô hình 9, 17, 33 và 65 hạng từ 72
Bảng 3.5 Các nhóm quan hệ lô-gic ngôn ngữ với bộ 9 và 17 từ 73
Bảng 3.6 Các nhóm quan hệ lô-gic ngôn ngữ với bộ 33 và 65 từ 73
Bảng 3.7 Kết quả dự báo với bộ 9, 17, 33 và 65 hạng từ 74
Bảng 3.8 Chuỗi thời gian ngôn ngữ của dữ liệu EUA sử dụng 9 hạng từ 91
Bảng 3.9 Nhóm quan hệ lô-gic ngôn ngữ bậc hai sử dụng 9 hạng từ 92
Bảng 3.10 Nhóm quan hệ lô-gic ngôn ngữ bậc ba sử dụng 9 hạng từ 92
Bảng 3.11 So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO-
Trang 10Bảng 3.13 So sánh MSE kết quả dự báo số liệu EUA 94
Bảng 3.14 So sánh MAPE kết quả dự báo số liệu EUA 95
Bảng 3.15 Giá trị tham số tính mờ tương ứng với các bộ từ 95
Bảng 3.16 So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO-
Bảng 3.17 So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO-
Bảng 3.18 Chuỗi thời gian ngôn ngữ năng suất nông sản Lahi 97
Bảng 3.19 So sánh sai số dự báo nông sản Lahi của các mô hình dự báo 97
Trang 11Hình 1.1 Dữ liệu chỉ số chứng khoán NASDAQ 6 tháng đầu năm 2021. 8
Hình 1.3 Khoảng tính mờ của các từ ngôn ngữ của biến ENROLLMENT 31
Hình 2.1 Kết quả dự báo dữ liệu sinh viên nhập học EUA bằng mô hình dự báo
Hình 2.2 Mô hình dự báo chuỗi thời gian ngôn ngữ 49
Hình 2.3 Đồ thị so sánh kết quả dự báo giữa các phương pháp 57
Hình 2.4 So sánh độ chính xác dự báo bằng MSE giữa các phương pháp 57
Hình 2.5 So sánh độ chính xác dự báo bằng MAPE giữa các phương pháp 61
Hình 2.6 So sánh sai số MAPE của các phương pháp dự báo 64
Hình 3.1 Đường ngữ nghĩa biểu diễn chuỗi thời gian ngôn ngữ được xây dựng
bởi 9, 17, 33 và 65 từ ngôn ngữ trên bộ dữ liệu EUA 71
Hình 3.2 So sánh sai số MSE của kết quả dự báo dữ liệu EUA 79
Hình 3.3 So sánh sai số MSE của dự báo với bộ 17, 33 và 65 từ sử dụng LTSPSO
Trang 12MỞ ĐẦU
1 Tính cấp thiết
Trong suốt quá trình hình thành, phát triển của loài người, dự báo trướcđược các sự việc có thể xảy ra trong tương lai luôn là vấn đề nhận được nhiều sựchú ý, quan tâm của nhân loại Dự báo tốt giúp con người chuẩn bị và lập kếhoạch tốt hơn các công việc của mình, để từ đó giảm bớt công sức, thời gian vànâng cao hiệu quả trong công việc hàng ngày
Dự báo chuỗi thời gian bao gồm các kỹ thuật tính toán dự báo dựa trênphân tích dữ liệu lịch sử được thu thập, quan sát được theo trình tự thời gian.Trong vài chục năm trở lại đây, nhiều nghiên cứu trong nước cũng như ngoàinước được đề xuất để giải quyết vấn đề dự báo nói chung và dự báo đối với dữliệu chuỗi thời gian nói riêng Những nghiên cứu thường hướng tới việc nângcao độ chính xác của mô hình dự báo và giảm độ phức tạp của phương pháp tínhtoán dự báo
Bài toán dự báo là bài toán xử lý dữ liệu có tính chất không chắc chắn Kếtquả dự báo thường có độ chắc chắn không cao và không thể xây dựng được một
mô hình dự báo toàn năng đối với mọi loại dữ liệu Do đó, người ta nghiên cứuphát triển các loại mô hình dự báo khác nhau và tiến hành thực nghiệm để tìm ranhững loại mô hình phù hợp nhất trong từng trường hợp cụ thể Thêm vào đó,nhiều dữ liệu thu thập được cũng có độ chắc chắn không cao như có hiện tượngthiếu hụt dữ liệu, biên độ dao động lớn, dữ liệu lịch sử ngắn hay các dữ liệu thuthập không rõ ràng về số liệu mà chỉ biểu diễn dạng ngôn ngữ… Những điềunày gây nhiều khó khăn đối với các kỹ thuật dự báo chuỗi thời gian bằngphương pháp hồi quy, thống kê toán học truyền thống vốn đã được quan tâmnghiên cứu trong lĩnh vực kinh tế Những phương pháp tính toán dự báo theothống kê, hồi quy cũng chỉ tỏ ra hữu hiệu, chính xác cao khi số lượng quan sátlớn, chuỗi thời gian là chuỗi dừng, không có nhiễu và ít biến động trong thờigian ngắn
Năm 1993, Song & Chissom lần đầu tiên giới thiệu mô hình dự báo chuỗi
Trang 13thời gian mờ (FTS-FM) [1–3] Đây là mô hình đặc biệt hữu dụng khi dữ liệuquan sát lịch sử có độ chắc chắn thấp hay biên độ dao động lớn như đã đề cập ởbên
Trang 14trên Hơn nữa, mô hình dự báo FTS-FM còn có khả năng dự báo trên dữ liệuchuỗi thời gian dưới dạng ngôn ngữ Năm 1996, Chen giới thiệu mô hình dự báoFTS- FM cải tiến [4] với phương pháp tính toán số học hiệu quả hơn so với các
mô hình đề xuất ban đầu Đó là các nghiên cứu cơ bản, đặt nền móng cho nhữngnghiên cứu sau này về FTS với nhiều mô hình được đề xuất Đã có nhiều nghiêncứu về chuỗi thời gian mờ được công bố trên các tạp chí khoa học và hội nghịchuyên ngành uy tín trong khoảng ba mươi năm trở lại đây Trong nghiên cứu[5], Bose và Mali đã nghiên cứu và bình phẩm gần 200 bài báo công bố trên cáctạp chí khoa học và hội nghị chuyên ngành uy tín về phương pháp dự báo FTS
từ năm 1993 đến 2018 Đây chỉ là một con số nhỏ so với lượng công bố khoahọc khá lớn về lĩnh vực này
Có hai loại mô hình dự báo FTS-FM là mô hình phụ thuộc thời gian variant) và mô hình không phụ thuộc thời gian (time-invariant) Có khá nhiềunghiên cứu về mô hình không phụ thuộc thời gian nhưng nghiên cứu về mô hìnhphụ thuộc thời gian không đáng kể [3], [6–9] Mô hình dự báo FTS-FM cũngđược chia thành hai nhóm là mô hình dự báo bậc nhất và mô hình dự báo bậccao Nếu quan hệ lô-gic mờ có một thành phần ở vế trái thì đó là mô hình bậcnhất [4], ngược lại đó là mô hình bậc cao khi dữ liệu dự báo liên quan tới nhiều
(time-dữ liệu quá khứ [10–24] Chuỗi thời gian có thể là đơn nhân tố hoặc đa nhân tố[15], [25–36], tùy thuộc vào số lượng các quan sát sử dụng trong mô hình tínhtoán Thông thường, các quan hệ lô-gic mờ được thiết lập và bổ sung vào cácnhóm mà không quan tâm tới việc lặp lại Tức là, các phương pháp dự báothường chỉ thêm các quan hệ chưa có vào nhóm quan hệ lô-gic mờ Tuy nhiên,cũng có những nghiên cứu quan tâm tới việc lặp lại của các quan hệ bằng cáchgán trọng số cho việc lặp lại của các quan hệ này [37–45]
Việc xác định không gian nền cho mô hình dự báo FTS-FM có thể dựa trựctiếp trên dữ liệu quan sát lịch sử hoặc lấy sai phân của dữ liệu [9], [22] Trong
đó, các nghiên cứu dùng các tập mờ đại diện cho các từ ngôn ngữ, được sắp xếptrong một phân hoạch mờ trên không gian nền Việc phân hoạch tập nền có haicách là chia thành các đoạn bằng nhau và không bằng nhau, trong đó Huarng
Trang 15[46], [47]
Trang 16đã đề xuất mô hình heuristic cho FTS và thảo luận về việc lựa chọn khoảng chiatốt nhất trên không gian nền Việc phân hoạch cũng có thể được thực hiện bằng
mô hình toán học hoặc bằng các kỹ thuật tính toán mềm Trong hơn mười nămtrở lại đây, nhiều mô hình lai giữa FTS và các kỹ thuật tính toán hiện đại được
đề xuất, như việc dùng các kỹ thuật tính toán tối ưu [12], [27], [30], [33], [48–54],
phân cụm [25], [55–65] hay mô hình mạng nơ-ron nhân tạo [11], [20], [51], [66–76]
Việc mờ hóa dữ liệu thường dùng số mờ tam giác, nhưng cũng có một sốnghiên cứu dùng số mờ hình thang [37], [43], [77], [78] Ngoài ra, việc sử dụngtập thô [79–82], tập mờ trực cảm [17], [39], [72], [83–90] hay tập mờ ảnh [74],[91], [92] cũng là những hướng nghiên cứu mới được đề xuất trong lĩnh vực dựbáo FTS
Ở Việt Nam, việc nghiên cứu về dự báo FTS cũng đã được quan tâm Cóthể kể đến các công bố của các nhà nghiên cứu thuộc Viện Hàn lâm Khoa học vàCông nghệ Việt Nam [93–97] hay nghiên cứu của các tác giả tại Đại học TônĐức Thắng và Đại học Cần Thơ [98–101] Ngoài ra, các tác giả trong nước cũngkết hợp với các tác giả nước ngoài để nghiên cứu đề xuất cải tiến cho mô hình
dự báo [27], [102] Nghiên cứu của các tác giả trong nước về bài toán dự báođặc biệt là dự báo FTS còn ít và chưa nhiều công bố đáng chú ý
Các nghiên cứu [98–101] cải tiến phương pháp dự báo FTS và áp dụng vàomột số bộ dữ liệu như sản lượng ngũ cốc, độ ngập mặn của đồng bằng sông CửuLong Các tác giả sử dụng các kỹ thuật tính toán tiến hóa sai phân, phân cụm đểcải tiến các mô hình dự báo FTS Gần đây, các nghiên cứu đáng chú ý trong[94– 96] sử dụng các mô hình dự báo FTS phụ thuộc thời gian (time-variant) vàcác cải tiến khi áp dụng các mô hình lai với các kỹ thuật tính toán tiên tiến nhưtối ưu bầy đàn (PSO), phân cụm Các tác giả cũng đã thử nghiệm các mô hình
dự báo FTS-FM bậc cao và cho các kết quả dự báo khá tốt trên cơ sở phươngpháp tính toán mờ
Trang 17Trong [93], các tác giả đã áp dụng những kết quả đạt được trong việc ứngdụng đại số gia tử (ĐSGT) vào lĩnh vực điều khiển học, từ đó đề xuất mô hìnhdự
Trang 18báo FTS-FM bằng việc phân hoạch không gian bài toán thành các khoảng tươngứng với các khoảng tính mờ của từ ngôn ngữ Các tác giả Hoàng Tùng, Vũ MinhLộc trong các nghiên cứu [103–107] cũng đã ứng dụng lý thuyết ĐSGT vào bàitoán dự báo FTS Trong các nghiên cứu này, tác giả đã sử dụng lý thuyết ĐSGT
để phân hoạch một cách hợp lý trên không gian nền nhằm nâng cao độ chính xáccủa kết quả dự báo Tuy nhiên, các nghiên cứu này chưa thực hiện tính toán dựbáo trực tiếp trên giá trị ngữ nghĩa định lượng của các giá trị ngôn ngữ và cònmang đậm triết lý phương pháp dự báo FTS khi còn dựa chủ yếu trên việc chiakhoảng và thiết lập các tập mờ đại diện trên đó
Trong khoa học máy tính, việc xây dựng các thuật toán giúp máy tính tưduy giống con người, được gọi là trí tuệ nhân tạo (AI), là một lĩnh vực hấp dẫncác nhà nghiên cứu và mang lại nhiều ứng dụng thiết thực Con người thườngxuyên xử lý những từ ngôn ngữ để đem đến quyết định phù hợp với thực tế Khixét tới cấu trúc của thông tin, giữa các từ ngôn ngữ đều tồn tại quan hệ thứ tựvốn có dựa trên ngữ nghĩa của chúng Chính những ngữ nghĩa này giúp conngười tư duy, đưa ra các so sánh giúp họ ra quyết định trong công việc và sinhhoạt hàng ngày Xuất phát từ những điều đó, N.C Hồ và W Wechler đã đề xuấtkhái niệm ĐSGT [108], [109] Đây là một lý thuyết cho phép mô hình hóa bằngtoán học các từ ngôn ngữ tự nhiên bên cạnh lý thuyết tập mờ Trong mô hìnhĐSGT, các từ ngôn ngữ đều có các đặc tính mờ và giá trị ngữ nghĩa có thể đượclượng hóa được trong các mối quan hệ ngữ nghĩa trên một miền ngôn ngữ cụthể Và trong các ứng dụng thực tế, những tham số này có thể giúp thiết lập các
mô hình tính toán trên ngôn ngữ một cách hiệu quả ĐSGT đã được nghiên cứuứng dụng thành công trong nhiều lĩnh vực như điều khiển học [110–124], phânlớp và hồi quy [125–128], tóm tắt ngôn ngữ [129], [130], xử lý ảnh [131], hỗ trợ
ra quyết định [132], [133], mạng máy tính [134], [135], công nghệ rô-bốt [136–139] và nhiều lĩnh vực khác
Do đó, động lực nghiên cứu của luận án là nhằm đề xuất một hướng nghiêncứu mới đối với bài toán dự báo chuỗi thời gian bằng việc ứng dụng lý thuyếtĐSGT trong đó chú trọng tới các giá trị ngữ nghĩa định lượng của các từ ngôn
Trang 19ngữ Điểm khác biệt của các mô hình dự báo chuỗi thời gian ngôn ngữ FM)
Trang 20(LTS-được đề xuất trong luận án là phương pháp tính toán dự báo (LTS-được thực hiện trựctiếp trên ngữ nghĩa định lượng của các từ ngôn ngữ được sử dụng trong mô hình.Tức là phương pháp đề xuất không thực hiện chia khoảng không gian nền, màdựa trực tiếp trên các điểm ngữ nghĩa của các từ ngôn ngữ Đây là điểm khácbiệt so với các phương pháp dự báo FTS hay các phương pháp dự báo dựa trên
lý thuyết ĐSGT khác đã được đề cập ở trên Khi dữ liệu lịch sử có thể biểu diễndưới dạng ngôn ngữ thì vấn đề ngữ nghĩa của chúng quyết định kết quả dự báo
sẽ là một phương pháp tính toán một cách tự nhiên, mô phỏng sát với phươngpháp tư duy ngôn ngữ của con người Điều này mang tới nhiều thuận lợi trongviệc xây dựng mô hình, giúp đơn giản hóa việc tính toán, nâng cao độ chính dựbáo cũng như tạo điều kiện thuận lợi cho việc cải tiến mô hình
2 Mục tiêu nghiên cứu
Mục tiêu tổng quát: Xây dựng và đề xuất được các mô hình dự báo chuỗi
thời gian ngôn ngữ trên cơ sở lý thuyết ĐSGT
Mục tiêu cụ thể:
- Nghiên cứu, đề xuất mô hình dự báo chuỗi thời gian ngôn ngữ
- Đề xuất một số mở rộng cho mô hình dự báo chuỗi thời gian ngôn ngữ
3 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Các mô hình dự báo chuỗi thời gian ngôn ngữ.
- Phạm vi nghiên cứu: Nghiên cứu đề xuất mô hình dự báo chuỗi thời gian
ngôn ngữ và một số mở rộng cho mô hình dự báo chuỗi thời gian ngôn ngữ
4 Phương pháp nghiên cứu
- Nghiên cứu lý thuyết: Tổng hợp và nghiên cứu về các mô hình dự báo
chuỗi thời gian, đặc biệt là FTS Nghiên cứu cơ sở lý thuyết ĐSGT làm nềntảng, cơ sở toán học cho các phương pháp dự báo được đề xuất
- Nghiên cứu thực nghiệm: Các mô hình được xây dựng, thử nghiệm để so
sánh, đánh giá với các mô hình dự báo khác trên các bộ dữ liệu được sử dụngphổ biến trong lĩnh vực dự báo chuỗi thời gian mờ nhằm chứng minh những
Trang 21điểm mới và tính hiệu quả của các mô hình đề xuất.
Trang 225 Điểm mới của luận án
Luận án nghiên cứu ứng dụng lý thuyết ĐSGT vào bài toán dự báo chuỗithời gian bằng cách đề xuất các mô hình dự báo chuỗi thời gian ngôn ngữ trong
đó giá trị ngữ nghĩa định lượng của các giá trị ngôn ngữ được sử dụng trong môhình với vai trò là thành tố chính trong mô hình tính toán Nếu như phương pháp
dự báo FTS thực hiện phân hoạch không gian nền thành các khoảng để từ đó xácđịnh các tập mờ biểu diễn cho các giá trị ngôn ngữ thì phương pháp dự báochuỗi thời gian ngôn ngữ thực hiện tính toán trực tiếp trên giá trị ngữ nghĩa địnhlượng của các từ ngôn ngữ mà không thực hiện việc chia khoảng không giannền
Thực hiện các mục tiêu nghiên cứu đã đặt ra, luận án đóng góp các kết quảquan trọng sau:
1) Đề xuất khái niệm chuỗi thời gian ngôn ngữ (LTS) cùng với định nghĩa
về quan hệ lô-gic ngôn ngữ (LLR) và nhóm quan hệ lô-gic ngôn ngữ(LLRG)
2) Đề xuất mô hình dự báo mô hình dự báo chuỗi thời gian ngôn ngữ(LTS- FM), trong đó ngữ nghĩa định lượng của các từ ngôn ngữ được
sử dụng làm công cụ tính toán chính của mô hình trên cơ sở thiết lậpcác luật dự báo LLR và các nhóm quan hệ LLRG của chúng
3) Đề xuất nghiên cứu mở rộng mô hình dự báo chuỗi thời gian ngôn ngữbằng việc đề xuất mô hình WLTS-FM trong đó các luật dự báo có trọng
số và việc mở rộng không gian ngôn ngữ của mô hình dự báo; đề xuấtcác mô hình dự báo tối ưu LTS-PSO, LTS-PSCO và mô hình dự báochuỗi thời gian ngôn ngữ bậc cao HO-LTS
Đây là lần đầu tiên, khái niệm LTS được đề cập một cách có hệ thống dựatrên ngữ nghĩa ngôn ngữ được dùng để biểu diễn các giá trị khác nhau của dữliệu quan sát lịch sử Luận án đóng góp một cách tiếp cận mới trong việc nghiêncứu bài toán dự báo chuỗi thời gian và cũng gợi mở các nghiên cứu mở rộng môhình dự báo chuỗi thời gian ngôn ngữ Luận án cũng góp phần khẳng định tínhđúng đắn, ưu việt của ĐSGT đồng thời góp phần mở rộng khả năng ứng dụng
Trang 23của lý thuyết ĐSGT.
Trang 247 Bố cục của luận án
Luận án được bố cục bao gồm các phần: phần mở đầu, ba chương nội dungchính của luận án, phần kết luận và danh mục tài liệu tham khảo Nội dung củacác chương cụ thể như sau:
Chương 1 tóm tắt các khái niệm cơ bản về chuỗi thời gian, chuỗi thời gian
mờ (FTS) và các mô hình dự báo FTS-FM Chương tập trung trình bày cácphương pháp dự báo chuỗi thời gian mờ, các xu hướng nghiên cứu, các kết quảchính trong bài toán dự báo FTS Chương này cũng sẽ trình bày lý thuyết ĐSGTtrên cơ sở xem xét mối quan hệ giữa thông tin và cấu trúc của thông tin, từ đókhám phá mô hình toán học ẩn chứa trong cấu trúc của thông tin Theo đó, chínhcấu trúc thông tin trong miền ngôn ngữ sinh ra ngữ nghĩa, và ngữ nghĩa nàyđược sử dụng trong mô hình dự báo LTS-FM
Chương 2 đề xuất mô hình dự báo LTS-FM, trong đó các khái niệm về
chuỗi thời gian ngôn ngữ (LTS), quan hệ lô-gic ngôn ngữ (LLR), nhóm quan hệlô-gic ngôn ngữ (LLRG) sẽ được đề xuất Các thực nghiệm trên dữ liệu số sinhviên nhập học của Đại học Alabama (EUA) cùng hai phương pháp dự báo cũng
sẽ được tiến hành nhằm chỉ ra những khác biệt và ưu điểm của mô hình đề xuất
Chương 3 sẽ đề xuất một số nghiên cứu mở rộng về mô hình dự báo đối
với chuỗi thời gian ngôn ngữ Trong chương này, mô hình dự báo với luật ngônngữ có trọng số, việc mở rộng không gian ngôn ngữ, tối ưu các tham số, tối ưuviệc chọn các từ ngôn ngữ sẽ được trình bày Bên cạnh đó, chương này cũng đềxuất mô hình dự báo LTS bậc cao và gợi ý các hướng nghiên cứu cải tiến, mởrộng mô hình dự báo
Trang 25CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
1.1 Dự báo chuỗi thời gian mờ
1.1.1 Khái niệm về chuỗi thời gian
Chuỗi thời gian là một dãy các giá trị quan sát 9 được sắp xếp theo thứ tựthời gian của một biến quan sát được biểu diễn như sau:
9 = {𝑥1, 𝑥), … , 𝑥𝑛}trong đó, 𝑥$ là giá trị quan sát tại thời điểm + với + = 1 … 𝑛
Thông thường, chuỗi thời gian là tập hợp các dữ liệu được thu thập theocác khoảng thời gian liên tiếp, cách đều nhau Khi đó, dữ liệu này có thể đượccoi là dữ liệu chuỗi thời gian rời rạc
Trong cuộc sống hàng ngày, nhiều dữ liệu chuỗi thời gian có thể được bắtgặp như: nhiệt độ trung bình của một địa điểm cụ thể theo ngày, chỉ số chứngkhoán theo các phiên làm việc, giá vàng, tỉ giá ngoại tệ cuối ngày,
Hình 1.1 Dữ liệu chỉ số chứng khoán NASDAQ 6 tháng đầu năm 2021.
(Nguồn: https://finance.yahoo.com, truy cập 29/7/2021)
Phân tích chuỗi thời gian là một khái niệm bao gồm nhiều phương phápkhác nhau nhằm phân tích, trích xuất các thông tin có ý nghĩa từ dữ liệu chuỗithời gian đã thu thập được Trong đó, dự báo chuỗi thời gian là một phương
Trang 26pháp tính toán
Trang 27nhằm dự báo giá trị tương lai của biến quan sát dựa trên các giá trị lịch sử đã ghinhận được tại các thời điểm trước đó
Nói chung, bài toán dự báo là một bài toán xử lý dữ liệu không chắc chắn
và kết quả dự báo có tính chất bất định cao Có thể nói không nghiên cứu nào cóthể đề xuất mô hình dự báo đảm bảo sự chính xác tuyệt đối Vì tính chất đó củabài toán dự báo, việc sử dụng các phương pháp tính toán đối với dữ liệu khôngchắc chắn trong những năm trở lại đây được nghiên cứu khá nhiều Trong đó,các mô hình dự báo FTS-FM được trình bày dưới đây là một trong những hướngnghiên cứu như vậy
1.1.2 Mô hình dự báo FTS-FM
1.1.2.1 Tập mờ và khả năng mô hình toán học miền ngôn ngữ
Khái niệm về tập mờ được Zadeh đề xuất trong [140], trên cơ sở phân biệtvới khái niệm tập hợp của lý thuyết tập hợp kinh điển Lý thuyết tập mờ biểu
diễn các khái niệm mang tính trừu tượng của thông tin nhứ ‘trẻ’, ‘già’, ‘nhiều’,
‘ít’… bằng các cấu trúc toán học.
Gọi 𝑈 là không gian nền (hay còn gọi là tập nền) của bài toán đang xét, màtrên đó xác định một tập hợp các đối tượng Cho 9 là một tập rõ thuộc 𝑈, khi đóxác định một hàm thuộc 𝜇 như sau:
𝜇 (𝑥) = @1, 𝑛ế𝑢 𝑥 ∈ 9
0, 𝑛ế𝑢 𝑥 ∉ 9Tuy nhiên, trên thực tế không phải lúc nào cũng có thể xác định được quan
hệ thuộc này một cách chính xác tuyệt đối Ví dụ, nếu phân loại người thành
‘già’ và ‘trẻ’ dựa theo tuổi của họ thì khó có thể nói chính xác một người 45 tuổi
là ‘già’ hay ‘trẻ’ Suy luận của con người thường mang tính ước lượng nhiều
hơn so với tính chất rõ ràng tuyệt đối như đa số lý thuyết số học truyền thống.Trong lý thuyết tập mờ, mối quan hệ giữa các phần tử và tập mờ là một
hàm số Hàm số đó được gọi là hàm thuộc (membership function) chỉ ra mức độ
thuộc tập mờ của các phần tử
Trang 28Giả sử 𝐴 là một tập mờ được xác định trên 𝑈 Với mỗi phần tử 𝑥 ∈ 𝑈, hàmthuộc 𝜇+(𝑥) là một ánh xạ cho tương ứng từ 𝑈 vào đoạn [0,1] chỉ ra mức độthuộc của 𝑥 vào 𝐴 Khi đó, tập mờ 𝐴 được kí hiệu như sau:
𝐴 = IJ𝑥, 𝜇+(𝑥)K L 𝑥 ∈ 𝑈}, 𝜇+(𝑥) ∈ [0,1]
Như vậy, mối quan hệ phụ thuộc giữa phần tử 𝑥 vào tập mờ 𝐴 không chỉ cótính chất tuyệt đối, tức là giá trị của 𝜇+(𝑥) bằng 0 hay 1, mà mức độ thuộc cònnhận các giá trị khác như 0,15; 0,32; 0,8; … Trường hợp nếu 𝜇+(𝑥) = 0 ta nói
𝑥 không thuộc 𝐴 và tương tự nếu 𝜇+(𝑥) = 1 ta nói 𝑥 hoàn toàn thuộc 𝐴 Hai
trường hợp này giống với quan hệ phần tử - tập hợp của tập hợp kinh điển 1.1.2.2 Chuỗi thời gian mờ
Như đã đề cập, dữ liệu chuỗi thời gian là một dãy dữ liệu về một sự vậthoặc hiện tượng xác định thu thập được theo thứ tự thời gian Một số bài toán dựbáo chuỗi thời gian kinh điển có thể kể đến như dự báo thời tiết, chỉ số chứngkhoán, dân số, tăng trưởng kinh tế Trong các bài toán này, tri thức là khôngchắc chắn hay nói cách khác khó biết trước những sự kiện xảy ra một cách chắcchắn Bởi vì bản chất của dự báo là không chắc chắn, đôi khi số lượng dữ liệuthu thập ít, không rõ ràng thì các mô hình thống kê, hồi quy trở nên kém phùhợp và hiệu quả [141] Ví dụ, tỉ giá chứng khoán có thể đột ngột tăng lên hoặcgiảm xuống, nhiệt độ có thể bất chợt lên cao hoặc xuống thấp, lượng mưa có thểbiến đổi lớn phụ thuộc tác động môi trường Đó đều là những hiện tượngkhông chắc chắn Các đặc tính của những loại dữ liệu này đều không thể đoánbiết một cách chắc chắn được Do tính chất đó, các mô hình toán học truyềnthống hay các mô hình thống kê xử lý các dữ liệu này một cách kém hiệu quảhơn
Dự báo trạng thái tương lai của sự vật, hiện tượng dựa theo dữ liệu chuỗithời gian là một chủ đề thu hút giới nghiên cứu Dự báo với độ chính xác 100%dường như bất khả thi Tuy nhiên, độ chính xác dự báo và tốc độ xử lý của môhình dự báo là những vấn đề có thể cải thiện được Do đó, Song và Chisssom đãphát triển và giới thiệu mô hình dự báo để xử lý tính bất định và không chắcchắn của tri thức tồn tại trong chuỗi thời gian vào năm 1993 [1–3] Đây là những
Trang 29nghiên
Trang 30cứu đầu tiên áp dụng các khái niệm về tập mờ để diễn tả tính bất định của dữliệu với tên gọi đề xuất là chuỗi thời gian mờ (Fuzzy Time Series).
Ban đầu, các mô hình dự báo FTS-FM thường được thực nghiệm với các
dữ liệu chuỗi thời gian ngắn hạn Trong những năm trở lại đây, việc ứng dụng
mô hình dự báo này vào các dữ liệu dài hạn cũng đã được quan tâm Ngoài ra,việc phát triển các mô hình tính toán lai (hybrid models) với mạng nơ-ron nhântạo, tập thô hay tối ưu bằng tính toán tiến hóa, phân cụm cũng được nhiều tácgiả quan tâm nghiên cứu
1.1.2.3 Một số khái niệm về FTS
Trong phần này, một số khái niệm cơ bản về FTS và mô hình dự báo củachúng với những đề xuất của Song & Chissom [1–3] sẽ được trình bày Đây lànhững đề xuất đầu tiên và quan trọng, làm cở sở cho các nghiên cứu sau nàynhằm cải tiến các phương pháp dự báo mờ
Trong [1], Song & Chissom đã lấy các ví dụ về FTS có thể ghi nhận được
từ các quan sát trong thế giới thực:
Ví dụ 1 Quan sát thời tiết tại một vị trí cụ thể ở Bắc Mỹ từ đầu năm đến
cuối năm Thay vì sử dụng các số để biểu diễn nhiệt độ (oC hay oF), người ta có
thể dùng các từ ngôn ngữ để đánh giá về thời tiết như: tốt, khá tốt, rất tốt, mát, khá mát, rất mát, nóng, rất nóng, lạnh, rất lạnh, rất rất lạnh, Con người nói
chung thường dùng cảm nhận để ước lượng nhiệt độ bằng các từ ngôn ngữ vàkinh nghiệm thực tế của riêng mình Trong ví dụ trên, nếu như một người nào đóquan sát thời tiết và ghi nhận thông qua ngôn ngữ, các giá trị thu nhận là các từngôn ngữ thì các phương pháp dự báo theo thống kê truyền thống khó có thểđược áp dụng với loại dữ liệu này
Ví dụ 2 Quan sát tâm trạng của một người trong điều kiện tâm lý bình
thường theo trình tự thời gian Khi đó, tâm trạng của một người có thể thay đổi
theo các cảm giác của anh ta và có thể biểu đạt bằng các từ như tốt, khá tốt, rất tốt, khá tốt, tệ, khá tệ, rất tệ, Nếu tiến hành quan sát sự thay đổi tâm trạng này
theo các khoảng thời gian khác nhau ta sẽ được một chuỗi dữ liệu mà chuỗi giátrị thu được
Trang 31là các giá trị ngôn ngữ Các phương pháp dự báo bằng toán học, thống kê truyềnthống không thể sử dụng để tính toán dự báo cho dữ liệu này.
Các ví dụ trên đều có các đặc điểm tương đồng là các quan sát với dữ liệuthu thập được là các từ ngôn ngữ mà các phương pháp dự báo truyền thốngkhông thể giải quyết được Bằng cách biểu diễn các từ ngôn ngữ dưới dạng cáctập mờ, vấn đề dự báo FTS có thể được giải quyết dựa trên việc thiết lập cácquan hệ mờ của dữ liệu lịch sử
Định nghĩa 1.1: (FTS) [1] Cho 𝑌(𝑡)(𝑡 = 0,1,2, … ) là một tập con của tập
số thực ℝ, trên đó xác định các tập mờ U$(𝑡)(+ = 1,2, … ) Nếu 𝐹(𝑡) là một tậphợp của các U$(𝑡) thì 𝐹(𝑡) được gọi là một chuỗi thời gian mờ trên 𝑌(𝑡)(𝑡 =0,1,2, … ) Trong định nghĩa trên, 𝐹(𝑡) được hiểu là một biến ngôn ngữ và
U$(𝑡)(+ = 1,2, … ) là các giá trị ngôn ngữ của 𝐹(𝑡) Tại mỗi thời điểm khácnhau, giá trị của 𝐹(𝑡) có thể là các tập mờ khác nhau Do đó, 𝐹(𝑡) là một hàmphụ thuộc thời gian và 𝑌(𝑡) cũng là một không gian nền tại thời điểm 𝑡 nhất địnhnào đó
Định nghĩa 1.2: [1] Nếu với mọi tập mờ U,(𝑡) ∈ 𝐹(𝑡), W ∈ 𝐽, tồn tại tập mờ
U$(𝑡 − 1) ∈ 𝐹(𝑡 − 1), + ∈ 𝐼 và quan hệ mờ 𝑅$,(𝑡, 𝑡 − 1) sao cho U,(𝑡) =
U$(𝑡 − 1)°𝑅$,(𝑡, 𝑡 − 1) trong đó ‘°’ là phép toán max-min, thì khi đó 𝐹(𝑡) đượcgọi là sinh ra bởi 𝐹(𝑡 − 1) và kí hiệu 𝐹(𝑡 − 1) ⟶ 𝐹(𝑡) Trong đó, 𝐼 và 𝐽 là cáctập chỉ số tương ứng của các tập mờ 𝐹(𝑡 − 1) và 𝐹(𝑡)
Trong định nghĩa trên của Song & Chissom, phép toán trên chỉ ra quan hệgiữa giá trị tại thời điểm đang xét và giá trị tại thời điểm trước đó là phép toánmax-min, nhưng trong nhiều mô hình dự báo FTS khác thì phép toán này làphép toán quan hệ và được cụ thể hóa bằng các phương pháp tính toán khácnhau
Định nghĩa 1.3: (Quan hệ mờ) [1] Nếu với mọi U,(𝑡) ∈ 𝐹(𝑡), W ∈ 𝐽, tồn tại
U$(𝑡 − 1) ∈ 𝐹(𝑡 − 1), + ∈ 𝐼 và một quan hệ mờ 𝑅$,(𝑡, 𝑡 − 1) sao cho U,(𝑡)
= U$(𝑡 − 1)°𝑅$,(𝑡, 𝑡 − 1) Xét 𝑅(𝑡, 𝑡 − 1) = ⋃$,, 𝑅$,(𝑡, 𝑡 − 1) trong đó ‘𝖴’ làphép toán hợp Khi đó, 𝑅(𝑡, 𝑡 − 1) được gọi là quan hệ mờ giữa 𝐹(𝑡) và 𝐹(𝑡 −
Trang 321) và định nghĩa như sau:
𝐹(𝑡) = 𝐹(𝑡 − 1)°𝑅(𝑡, 𝑡 − 1)
Trang 33Dựa trên các quan hệ mờ của dữ liệu chuỗi thời gian, Song & Chissom trong[1] đã đề xuất mô hình dự báo FTS-FM với 7 bước, bao gồm:
● Bước 1: Xác định không gian nền, trên đó thiết lập các tập mờ;
● Bước 2: Thu thập dữ liệu quan sát (dạng ngôn ngữ);
● Bước 3: Định nghĩa các tập mờ trên không gian nền;
● Bước 4: Xây dựng các quan hệ mờ của dữ liệu;
● Bước 5: Tổng hợp tất cả các quan hệ mờ ở bước 4;
● Bước 6: Tính toán kết quả dự báo;
● Bước 7: Giải mờ để tính toán kết quả dự báo (nếu cần).
Nếu với mọi điểm thời gian 𝑡, một chuỗi thời gian mờ có chung quan hệ dựbáo thì mô hình dự báo đó được gọi là FTS độc lập thời gian (time-invariant),ngược lại đó là FTS phụ thuộc thời gian (time-variant) Trong cả hai trường hợpnày, mô hình dự báo bậc nhất (first-order) có thể được biểu diễn như sau:
𝐹(𝑡) = 𝐹(𝑡 − 1)°𝑅(𝑡, 𝑡 − 1)trong đó ‘°’ là phép toán max-min và 𝑅(𝑡, 𝑡 − 1) là hợp của tất cả các quan hệ
mờ giữa bất cứ U,(𝑡 − 1) ∈ 𝐹(𝑡 − 1) với bất cứ U$(𝑡) ∈ 𝐹(𝑡) Khi áp dụng FTStrong dự báo, ta luôn giả sử biến dự báo là 𝐹(𝑡) Do đó, có thể thấy rằng quan hệ𝑅(𝑡, 𝑡 − 1) là một phép ngoại suy từ 𝐹(𝑡 − 1) tới 𝐹(𝑡) nên quan hệ này được gọi
là phép ngoại suy
Nếu với một thời điểm 𝑡 nhất định, mô hình dự báo FTS-FM có thể cho cácgiá trị 𝑅(𝑡, 𝑡 − 1) khác nhau thì mô hình dự báo đó được gọi là phụ thuộc thờigian Mô hình FTS-FM phụ thuộc thời gian được đề xuất trong [3] như sau:
● Bước 1: Xác định không gian nền 𝑈, trên đó thiết lập các tập mờ;
● Bước 2: Phân hoạch 𝑈 thành các đoạn có chiều dài như nhau;
● Bước 3: Định nghĩa các tập mờ trên 𝑈;
● Bước 4: Nếu dữ liệu lịch sử là các từ ngôn ngữ thì chuyển đến bước
5, nếu không thì mờ hóa dữ liệu lịch sử;
● Bước 5: Chọn tham số 𝑤, xác định các quan hệ 𝑅𝖶(𝑡, 𝑡 − 1) và tính toán kết quả dự báo;
Trang 34● Bước 6: Giải mờ (nếu cần thiết).
Điểm khác biệt cơ bản của mô hình dự báo FTS-FM phụ thuộc thời gian là
mô hình này không xem xét toàn bộ dữ liệu lịch sử mà chỉ xem xét trên mộtđoạn dữ liệu nhất định Thêm vào đó, bước 6 của mô hình trong [2] cũng đượcgộp với bước 5 nên mô hình dự báo chỉ còn tổng cộng 6 bước
1.1.2.4 Mô hình dự báo của Chen
Trong các mô hình dự báo được đề xuất bởi Song & Chissom [1–3], cácquan hệ mờ được xác lập, tính toán bởi các phép toán hợp, max-min khá phứctạp và tốn thời gian thực hiện nên hiệu quả tính toán không cao Do đó, Chentrong nghiên cứu [4] đã đề xuất một phương pháp dự báo mới dựa trên chuỗithời gian mờ Đây là nghiên cứu khá tiêu biểu về FTS với hàng trăm lượt tríchdẫn Tính đến tháng 8 năm 2021, nghiên cứu này đã được trích dẫn gần 800 lượt
(theo ScienceDirect).
Để hiểu hơn về phương pháp tính toán dự báo được đề xuất bởi Chen [4],một số khái niệm về quan hệ mờ cũng như nhóm quan hệ mờ được ông đề xuất
sẽ được xem xét dưới đây
Định nghĩa 1.4: (Quan hệ lô-gic mờ) [4] Trong định nghĩa 1.3, nếu đặt
𝐹(𝑡 − 1) = 𝐿$ và F(𝑡) = 𝐿j thì quan hệ giữa 𝐹(𝑡) và 𝐹(𝑡 − 1) được gọi là quan
hệ lô-gic mờ (FLR - Fuzzy Logical Relationship) và kí hiệu như sau:
𝐿$ ⟶ 𝐿j,trong đó 𝐿$ và 𝐿j là các nhãn ngôn ngữ tương ứng là vế trái và vế phải của quan
hệ lô-gic mờ
Định nghĩa 1.5: (Nhóm quan hệ gic mờ) [4] Nếu tồn tại các quan hệ
lô-gic mờ như sau:
𝐿$ ⟶ 𝐿/1,
𝐿$ ⟶ 𝐿/),
⋯
𝐿$ ⟶ 𝐿/𝑚.Khi đó, có thể nhóm các quan hệ lô-gic mờ có cùng vế trái thành một nhóm
Trang 35và gọi là nhóm quan hệ lô-gic mờ (FLRG - Fuzzy Logical Relationship Group).
Trang 36Các quan hệ lô-gic mờ ở trên có thể được nhóm thành một nhóm quan hệ lô-gic
mờ kí hiệu như sau:
,
�
�
/ )
,
⋯,
● Bước 6: Tính toán kết quả dự báo.
Mỗi khoảng 𝑢$ được phân hoạch trên tập nền sẽ được gán tương ứng với
nhãn 𝐿$ được biểu diễn bởi một tập mờ trên đó Trong bước 6, Chen đã sử dụngcác luật dự báo để tính toán kết quả Giả sử tại thời điểm 𝑡 dữ liệu chuỗi thờigian có nhãn là 𝐿j, khi đó giá trị dự báo cho thời điểm 𝑡 + 1 được tính như sau:
(1) Nếu tồn tại quan hệ một - nhiều, 𝐿j ⟶ 𝐿/1, 𝐿/), … , 𝐿/𝑛, và độ thuộc caonhất của 𝐿/1, 𝐿/), … , 𝐿/𝑛 tương ứng tại các đoạn 𝑢/1, 𝑢/) , … , 𝑢/𝑛, thì giá trị dự báođược tính bằng trung bình cộng của các trung điểm 𝑐/1, 𝑐/), … , 𝑐/𝑛 của
Trang 37𝑢/1, 𝑢/), … , 𝑢/𝑛, tức là (𝑐/1 + 𝑐/) + ⋯ + 𝑐/𝑛)/𝑛.
(2) Nếu tồn tại quan hệ một - một đối với của 𝐿j, ký hiệu là 𝐿j ⟶ 𝐿/, vàmức độ thuộc cao nhất của 𝐿/ tại khoảng 𝑢/, thì giá trị dự báo của 𝐹(𝑡) là trungđiểm của 𝑢/
(3) Nếu 𝐿/ là trống, tức là 𝐿j ⟶ ∅ và 𝐿j có độ thuộc cao nhất tại 𝑢j, thì giátrị dự báo là trung điểm của 𝑢j
Rõ ràng, phương pháp dự báo do Chen [4] đề xuất hoàn toàn dùng các phéptoán số học dựa trên các nhóm quan hệ lô-gic mờ thu thập được từ chuỗi dữ liệulịch sử Kết quả thực nghiệm bởi Chen [4] cũng cho thấy mô hình trên cho kếtquả dự báo với sai số dự báo nhỏ hơn mô hình của Song & Chissom [2] Rấtnhiều
Trang 38nghiên cứu về chuỗi thời gian mờ sau này sử dụng phương pháp tính toán dựbáo được đề xuất bởi Chen [4].
Trong các nghiên cứu cải tiến mô hình dự báo FTS-FM gần đây, các nhànghiên cứu cũng đã dùng một số khái niệm về quan hệ lô-gic mờ bậc cao hayFTS đa nhân tố Phần dưới đây sẽ tóm tắt lại các khái niệm này
Định nghĩa 1.6: (Quan hệ lô-gic mờ bậc cao) [142] Giả sử 𝐹(𝑡) được sinh
ra bởi 𝐹(𝑡 − 1), 𝐹(𝑡 − 2), … , 𝐹(𝑡 − 𝑛), (𝑛 > 1) Khi đó, quan hệ lô-gic mờđược biểu diễn như sau:
𝐹(𝑡 − 𝑛), … , 𝐹(𝑡 − 2), 𝐹(𝑡 − 1) ⟶ 𝐹(𝑡)được gọi là quan hệ lô-gic mờ bậc 𝑛
Định nghĩa 1.7: (Chuỗi thời gian mờ đa nhân tố) [30] Cho các chuỗi thời
gian mờ 𝐿1(𝑡), 𝐿)(𝑡), 𝐿1(𝑡), … , 𝐿2(𝑡) là các nhân tố (quan sát) của bài toán dựbáo Nếu chỉ sử dụng 𝐿1(𝑡) làm dữ liệu để tính toán dự báo thì ta gọi đó làphương pháp dự báo chuỗi thời gian mờ một nhân tố hay gọi đơn giản là chuỗithời gian mờ Nếu sử dụng các quan sát 𝐿)(𝑡), 𝐿1(𝑡), … , 𝐿2(𝑡) cùng với 𝐿1(𝑡) đểtính toán dự báo thì khi đó ta có phương pháp dự báo chuỗi thời gian mờ đanhân tố (M nhân tố)
1.1.2.5 Một số xu hướng nghiên cứu cải tiến mô hình dự báo FTS-FM
Một vài năm trở lại đây, nhiều kỹ thuật tính toán mềm đã được ứng dụngvào bài toán dự báo chuỗi FTS Các xu hướng chính của ứng dụng tính toánmềm vào bài toán dự báo có thể kể đến như mạng rơ-ron nhân tạo, tập thô haytính toán tiến hóa Mỗi kỹ thuật tính toán đó cung cấp các công cụ hiệu quả đểgiải quyết các bài toán dự báo cụ thể Khi sử dụng các kỹ thuật này cùng với môhình dự báo FTS-FM có thể tạo ra các kỹ thuật tính toán dự báo lai (hybrid) hiệuquả Tuy nhiên, cũng cần chú ý rằng các phương pháp tính toán lai thường đòihỏi sự phức tạp tính toán lớn hơn
Về cơ bản, các kỹ thuật tính toán đều có thể kết hợp với mô hình dự báochuỗi thời gian nói chung để tạo ra các mô hình lai linh hoạt và hiệu quả Môhình dự báo cũng có thể được cải tiến khi kết hợp với các kỹ thuật tính toán
Trang 39trong những bước thực hiện nhất định Phần tiếp theo sẽ trình bày về tính toántiến hóa
Trang 40với giải thuật tối ưu bầy đàn (PSO) Giải thuật này sẽ được dùng để cải tiến môhình dự báo chuỗi thời gian ngôn ngữ khi tối ưu tham số và bộ từ ngôn ngữtrong mô hình dự báo.
Trong khoa học máy tính, tính toán tiến hóa là một họ các thuật toán tối ưutoàn cục dựa trên các nghiên cứu, quan sát về tiến hóa sinh học Tính toán tiếnhóa là một nhánh nghiên cứu của trí tuệ nhân tạo và tính toán mềm Các kỹ thuậttính toán tiến hóa tiêu biểu có thể kể đến như: giải thuật di truyền (geneticalgorithm), lập trình di truyền (genetic programming), giải thuật tối ưu bầy đàn(particle swarm optimization), giải thuật tối ưu đàn kiến (ant colonyoptimization), trí tuệ bầy đàn (swarm intelligence),… và nhiều giải thuật khác.Phần dưới đây sẽ giới thiệu khái quát về giải thuật tối ưu bầy đàn (PSO) để làm
cơ sở tối ưu mô hình dự báo chuỗi thời gian ngôn ngữ sẽ được đề xuất trong
Chương 3.
Giải thuật tối ưu bầy đàn được giới thiệu lần đầu bởi Eberhart & Kennedy[143] Đây là một kỹ thuật tính toán tiến hóa được lấy cảm hứng từ hành vi, thóiquen của quần thể các loài động vật như đàn chim, bầy cá và cuộc sống bầy đànnói chung Giải thuật PSO có thể được áp dụng để giải quyết nhiều bài toántương tự với giải thuật di truyền Để xử lý các bài toán dự báo tối ưu phức tạp,gần đây nhiều nhà nghiên cứu cũng đã lai tạo các phương pháp tính toán tối ưubằng PSO với cách tiếp cận dự báo chuỗi thời gian mờ
Giải thuật tối ưu bầy đàn xem xét một tập hợp các cá thể mà mỗi cá thểđược gán một vận tốc di chuyển ngẫu nhiên Mỗi cá thể sau đó có thể được dichuyển trong phạm vi không gian của bài toán Ở mỗi bước di chuyển, mỗi cáthể lưu lại giá trị phương án tối ưu riêng của nó và giá trị phương án tối ưu củacác cá thể cạnh nó Giá trị đó được gọi là “p-best” Mỗi cá thể sau đó di chuyển
để tìm giá trị tối ưu toàn cục là giá trị tối ưu của toàn bộ các cá thể và vị trí của
nó Giá trị tối ưu toàn cục của hàm mục tiêu được gọi là “g-best”
Ở mỗi bước tối ưu, vận tốc của
mỗi cá thể được điều chỉnh linh động
theo kinh nghiệm cá nhân và các cá thểcạnh nó theo công thức sau: