Kỹ thuật dự báo dựa theo hồi quy vectơ hỗ trợ và thử nghiệm áp dụng dự báo thành tích vận động viên
Trang 184
Kỹ thuật dự báo dựa theo hồi quy vectơ hỗ trợ và thử nghiệm áp dụng dự báo thành tích vận động viên
Hoàng Thị Tuyết
Trường Đại học Quốc gia Hà Nội; Trường Đại học Công nghệ Chuyên ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS TS Hà Quang Thụy
Năm bảo vệ: 2012
Abstract Chương 1: Phương pháp hồi quy vector hỗ trợ: Chương này trình bày một số kiến thức
cơ sở cho Support Vector Regression (SVR), lý thuyết về SVR và một số ứng dụng của SVR Chương 2: dự báo dựa trên hồi quy vector hỗ trợ Chương này trình bày lý thuyết về dự báo, dự báo dựa trên SVR và kỹ thuật sử dụng giải thuật di truyền để tối ưu hóa tham số cho SVR Chương 3: thử nghiệm áp dụng SVR dự báo thành tích VĐV Chương này trình bày về bài toán dự báo thành tích chạy cự ly 100m của VĐV nữ, các phương pháp đánh giá kết quả dự báo thành tích chạy 100m của VĐV Từ đó đánh giá khả năng ứng dụng phương pháp vào dự báo thành tích chạy 100m của VĐV
Keywords: Toán tin; Công nghệ thông tin; Phương pháp hồi quy vector; Thuật toán di truyền Content
MỞ ĐẦU
Đạt thành tích cao ở trình độ Đông nam Á, Châu Á, khu vực và quốc tế của thể thao Việt Nam nói chung và của Điền kinh Việt Nam nói riêng là mục tiêu cần vươn tới của thể dục thể thao Việt Nam Chính
vì vậy, các nhà khoa học thể dục thể thao luôn cố gắng tìm tòi và xây dựng quy trình đào tạo vận động viên (VĐV) ở tất cả các môn thể thao Trong đó, hệ thống tuyển chọn tài năng thể thao đóng một vai trò quan trọng
Bài toán dự báo thành tích thể thao nói chung và bài toán dự báo thành tích chạy ngắn cự ly 100m của VĐV nói riêng có ý nghĩa quan trọng trong lĩnh vực tuyển chọn tài năng thể thao Dự báo chính xác thành tích của VĐV cho phép nâng cao chất lượng và hiệu quả của quá trình đào tạo VĐV
Yêu cầu chung của bài toán dự báo thành tích thể thao là làm cách nào để có thể phân tích và sử dụng chuỗi dữ liệu trong quá khứ để dự đoán được thành tích trong tương lai
Ở Việt Nam, nghiên cứu về tuyển chọn và dự báo thể thao còn nhiều hạn chế Cho đến nay, mới chỉ
có một vài nghiên cứu của tác giả: Đàm Công Chính (2000) và Bùi Quang Hải (2008) Cả hai tác giả trên đều sử dụng mô hình hồi quy tuyến tính cho mô hình dự báo trong nghiên cứu của mình
Trên thế giới, thời gian gần đây, có một số công trình nghiên cứu đã sử dụng kỹ thuật khai phá dữ liệu trong lĩnh vự dự báo thể thao Tuy nhiên, các nghiên cứu này chủ yếu tập trung vào dự đoán xếp hạng của các đội tuyển thể thao môn Bóng đá, Bóng rổ
Trang 285
Dự báo thành tích thể thao thuộc lớp bài toán dự báo hồi quy Trên thế giới, xu hướng nghiên cứu nổi bật về dự báo hồi quy và dự báo chuỗi thời gian trong thời gian gần đây là sử dụng kỹ thuật dự báo dựa vào hồi quy vector hỗ trợ (Support Vector Regression (SVR))
Từ những lý do trên và được sự giúp đỡ, đồng ý của giáo viên hướng dẫn PGS.TS Hà Quang Thụy,
tác giả quyết định lựa chọn nghiên cứu đề tài: “Kỹ thuật dự báo dựa theo hồi quy vectơ hỗ trợ và áp dụng
thử nghiệm dự báo thành tích vận động viên”
Luận văn này tập trung vào nghiên cứu thực hiện kết hợp SVR với giải thuật di truyền để tối ưu hóa các tham số của SVR và ứng dụng vào bài toán dự báo thành tích chạy ngắn cự ly 100m của vận động viên (VĐV) nữ nhằm tăng độ chính xác dự báo
Nội dung của luận văn được tổ chức thành ba chương, được mô tả sơ bộ như sau:
Chương 1: phương pháp hồi quy vector hỗ trợ Chương này trình bày một số kiến thức cơ sở cho
SVR, lý thuyết về SVR và một số ứng dụng của SVR
Chương 2: dự báo dựa trên hồi quy vector hỗ trợ Chương này trình bày lý thuyết về dự báo, dự
báo dựa trên SVR và kỹ thuật sử dụng giải thuật di truyền để tối ưu hóa tham số cho SVR
Chương 3: thử nghiệm áp dụng SVR dự báo thành tích VĐV Chương này trình bày về bài toán
dự báo thành tích chạy cự ly 100m của VĐV nữ, các phương pháp đánh giá kết quả dự báo thành tích chạy 100m của VĐV Từ đó đánh giá khả năng ứng dụng phương pháp vào dự báo thành tích chạy 100m của VĐV
CHƯƠNG 1 PHƯƠNG PHÁP HỒI QUY VECTOR HỖ TRỢ 1.1 Một số kiến thức cơ sở cho hồi quy vector hỗ trợ
1.1.1 Lý thuyết học thống kê
Theo Alexander J Smola và Bernhard Schölkopf (2004) hồi quy vector hỗ trợ dựa trên lý thuyết học thống
kê Cho một tập dữ liệu huấn luyện: (x1, y1), …, (xl, yl) RnxR được lấy theo một phân bố xác suất P(x,y)
và hàm tổn thất L(y, f(x, )) Tim hàm f để tối thiểu hóa lỗi trung bình, còn gọi là rủi ro kỳ vọng:
R( ) L(y, f(x)) dP(x, y)
1.1.2 Nguyên tắc tối thiểu hóa rủi ro thực nghiệm
Thay vì đi tìm cực tiểu của hàm rủi ro kỳ vọng
R()Q(z,)dP(z) Trong đó, z = (xi, yi), Q(z, ) = L(y,f(x)) Nguyên tắc tối thiểu hóa rủi ro thực nghiệm đi tìm cực tiểu hàm rủi ro thực nghiệm:
i i
l R
1
2
)) , ( ( 1 ) (
Việc tìm ra i ứng với Remp() nhỏ nhất được gọi là nguyên tắc tối tiểu hóa rủi ro thực nghiệm
Trang 386
1.1.3 Nguyên tắc tối thiểu hóa rủi ro cấu trúc
Nguyên tắc tối thiểu hóa rủi ro cấu trúc là nguyên tắc cho phép giải quyết các bài toán có tập dữ liệu huấn luyện nhỏ
Hình 1: tối thiểu hóa rủi ro cấu trúc (SRM)
1.1.4 Lý thuyết đối ngẫu
Tương ứng với mỗi bài toán tối ưu (gọi là bài toán gốc) có một bài toán tối ưu khác liên quan chặt chẽ với bài toán đó (gọi là bài toán đối ngẫu) Bài toán gốc và bài toán đỗi ngẫu của nó lập thành một cặp bài toán tối ưu, tính chất của bài toán này có thể được khảo sát thông qua bài toán kia Với một vài giả thiết
về tính lồi, bài toán gốc và bài toán đối ngẫu có cùng tập nghiệm (cực tiểu của bài toán gốc bằng với cực đại của bài toán đối ngẫu) Vì vậy, từ nghiệm của bài toán đối ngẫu, ta có thể suy ra nghiệm của bài toán gốc và ngược lại
1.1.5 Điều kiện Karush – Kuhn – Tucker
Cho phép tìm cực tiểu của một hàm lồi
1.2 Khái niệm về hồi quy vector hỗ trợ
1.2.1 Hồi quy
Mục đích của phân tích hồi quy là có thể xây dựng được mô hình (hàm số) biểu diễn được mối quan
hệ giữa biến phụ thuộc với các biến độc lập Mô hình hồi quy có dạng:
1.2.2 Hồi quy vector hỗ trợ
Ý tưởng cơ bản của máy vector hỗ trợ cho hàm hồi quy và dự đoán như sau:
Giả sử có tập dữ liệu huấn luyện {(x1, y1), …, (xl, yl)} X x R, trong đó, X là không gian đầu vào (ví
dụ X=Rd) Trong hồi quy ε – SV, mục đích là tìm một hàm f(x) có sai số nhỏ nhất ε so với mục tiêu thực sự thu được yi Alexander J Smola và Bernhard Schölkopf tiến hành xét một hàm f(x) tuyến tính có dạng sau:
Rủi ro ràng buộc Khoảng tin cậy Rủi ro thực nghiệm
S1
h
1
n
S* S n
Trang 487
f(x) = wT(x)+b
Trong đó w Rn, (x) biểu thị số một hàm phi tuyến được chuyển từ không gian Rn vào không gian nhiều chiều Mục đích ở đây là cần tìm w và b để giá trị x có thể được xác định bằng cách tối thiểu hóa rủi
ro hồi quy Cần tối thiểu hóa hàm
l
i
i i
C w
Min
1
* 2
) (
2
1
Với điều kiện:
0 , , ,
*
*
i i
i i
i
i i
i
y b x w
b x w y
Hình 2: tổn thất lề mềm thiết đặt cho SVM tuyến tính
Ứng dụng lý thuyết đối ngẫu cho bài toán cực tiểu, cuối cùng ta được hàm f(x) như sau:
*
1
l
i i i i
f x x x b
1.3 Ứng dụng của phương pháp hồi quy vector hỗ trợ
Một số ví dụ ứng dụng phương pháp hồi quy vector hỗ trợ điển hình
Dự báo chuỗi thời gian tài chính sử dụng mạng hồi quy vector hỗ trợ của tác giả Boyang Li và cộng
sự
Bảng 1: kết quả thử nghiệm mô hình đề xuất mạng SVR
Trang 588
Dự báo tương lai Chỉ số dự báo
Tỷ giá hối đoái (Currency exchange rate (USD/JPY))
Trung bình trượt dữ liệu của tỷ giá hối đoái (Moving average data of
exchange rate)
Network SVR SVR Network
Dự báo ngày tiếp theo
(t+1)
SSE MAE
CP
CD
47.3925 0.6172 76.8116 79.4118
36.2098 0.1471 77.8468 79.8039
42.5252 0.1586 76.8116 78.4736
35.1087 0.1451 77.2257 80.4305
Dự báo ngày tiếp theo
(t+5)
SSE MAE
CP
CD
60.5918 0.1877 76.7635 78.3465
38.4611 0.1520 79.6680 79.3307
56.3304 0.1820 77.8468 77.9528
37.6336 0.1498 79.5031 79.3307
Dự báo hai tuần tiếp
theo
(t+10)
SSE MAE
CP
CD
71.5295 0.2052 77.4530 78.9370
39.7972 0.1544 80.1670 79.9213
67.7718 0.1998 77.0833 78.3465
40.3541 0.1548 80.4167 80.1181
Dự báo phụ tải điện hàng năm sử dụng máy hồi quy vector hỗ trợ của Zhiyong Li và cộng sự, 2010
Bảng 2: so sánh phương pháp đề xuất với phương pháp khác
Năm Phụ tải điện
thực
Phương pháp phù hợp đường Conic (Conic fitting method)
Phương pháp đề xuất Giá trị dự báo Lỗi Giá trị dự báo Lỗi
2004 2387.14 2047.1 -14.24% 2269.0 -4.95%
2005 2673.56 2394.3 -10.45% 2711.5 1.42%
2007 3394.00 3118.9 -8.11% 3350.6 -1.28%
2008 3506.78 3525.1 0.52% 3654.8 4.22%
Dự báo thời gian du lịch với hồi quy vector hỗ trợ của tác giả Chun-Hsin Wu, Chia-Chen Wei,
Ming-Hua Chang, Da-Chun Su and Jan-Ming Ho [12]
Bảng 3: kết quả thực nghiệm sử dụng SVR trong dự báo thời gian du lịch [12]
RME Phương pháp dự báo hiện
tại
Phương pháp dự báo trước đây
Phương pháp dự báo với SVR
45 km (Taipei – Chungli) 10.53% 14.31% 4.42%
161 km (Taipei – Taichung) 5.85% 7.81% 2.38%
Trang 689
Kaohsiung)
RMSE Phương pháp dự báo hiện
tại
Phương pháp dự báo trước đây
Phương pháp dự báo với SVR
45 km (Taipei – Chungli) 32.19% 17.55% 7.35%
161 km (Taipei – Taichung) 13.81% 9% 3.26%
45 km (Taipei – Chungli) 10.29% 5.66% 1.63%
1.4 Kết luận chương 1
Trong chương này, chúng ta đã tìm hiểu các khái niệm cơ sở cho hồi quy vector hỗ trợ, mô hình hồi quy vector hỗ trợ và một số ứng dụng của hồi quy vector hỗ trợ Luận văn đã trình bày chi tiết về khái niệm hồi quy vector hỗ trợ tuyến tính Hồi quy vector hỗ trợ là một kỹ thuật mạnh ứng dụng trong lớp bài toán
dự báo hồi quy
CHƯƠNG 2
DỰ BÁO DỰA TRÊN HỒI QUY VECTOR HỖ TRỢ 2.1 Giới thiệu sơ bộ về dự báo
Theo J Scott Armstrong (2001) [18], dự báo có vai trò quan trọng trong rất nhiều lĩnh vực của đời
sống
Các bước thực hiện dự báo được thể hiện ở hình 3
Hình 3: các bước thực hiện dự báo [18]
2.2 Dự báo hồi quy vector hỗ trợ với hàm nhân
Định nghĩa hàm nhân Kernel
Cho X – không gian vector tuyến tính, H – không gian Hilbert có tích vô hướng Một hàm đối xứng liên tục K: X X R được gọi là nhân trên X nếu tồn tại một ánh xạ : X H với:
K(x, z)=<(x), (z)>, x, z X
Mô hình hồi quy vector hỗ trợ với hàm nhân
*
1
l
i i i i
f x k x x b
Trang 790
2.3 Dự báo dựa trên hồi quy vector hỗ trợ và thuật toán di truyền 2.3.1 Giải thuật di truyền
Lưu đồ thuật toán của giải thuật di truyền được thể hiện ở hình 4
Hình 4: lưu đồ thuật toán giải thuật di truyền
Kết thúc
N
Tạo giá trị hàm mục tiêu của các chuỗi nhiễm sắc thể
Tạo các chuỗi nhiêm sắc thể bằng cách sinh
sản từ các chuỗi nhiễm sắc thể hiện tại (Có xét
đến ghép chéo và đột biến xảy ra)
Tính toán các giá trị mục tiêu của các chuỗi
nhiễm sắc thể mới và đưa nó vào quần thể mới
Kiểm tra điều kiện dừng
Tạo quần thể ban đầu của các chuỗi nhiễm sắc thể
Y
Trang 891
2.3.2 Ứng dụng giải thuật di truyền tối ưu hóa tham số của SVR
Hình 5: lưu đồ thuật toán tối ưu mô hình SVR dựa trên giải thuật GA
2.4 Kết luận chương 2
Trong chương 2, luận văn tập trung nghiên cứu giải thuật di truyền, cách thức tiến hành thực hiện một bài toán với giải thuật di truyền Giải thuật di truyền được biết đến như giải thuật tìm kiếm dựa theo học thuyết tiến hóa và nó cho phép đạt tới tối ưu toàn cục Vì vậy, ứng dụng giải thuật di truyền vào việc tối ưu tham số của SVR là cách tiếp cận tốt Chương tiếp theo, luận văn sẽ thi hành thử nghiệm áp dụng Hồi quy vector hỗ trợ và Hồi quy vector hỗ trợ kết hợp với giải thuật di truyền để dự báo thành tích chạy 100m của vận động viên
CHƯƠNG 3 THỬ NGHIỆM ÁP DỤNG HỒI QUY VECTOR HỖ TRỢ
DỰ BÁO THÀNH TÍCH VẬN ĐỘNG VIÊN 3.1 Bài toán dự báo dãy thành tích vận động viên
3.1.1 Dự báo thành tích thành tích chạy 100m
Môn chạy 100m thuộc môn học chạy cự ly ngắn Về mặt chuyên môn, thành tích chạy 100m của đối tượng nghiên cứu ảnh hưởng ở mức độ khác nhau của 5 yếu tố: chạy 30m xuất phát cao (XPC), chạy 30m tốc độ cao (TĐC), chạy 60m XPC, bật xa tại chỗ, bật xa ba bước Vì vậy, để nâng cao thành tích chạy 100m, các VĐV cần tập luyện để nâng cao thành tích ở các test chuyên môn trên
Trang 992
3.1.2 Dữ liệu
Tập dữ liệu thực tác giả có được chỉ gồm dãy thành tích 5 test chuyên môn ở các lứa tuổi 12, 13, 14,
15, 16 và thành tích chạy 100m ở lứa tuổi 16 của 60 VĐV tuổi Vì vậy, để thử nghiệm mô hình SVR cho
dự báo thành tích thể thao của VĐV, tác giả sử dụng thêm một tập dữ liệu do tác giả sinh tự động để so sánh với tập dữ liệu thực
3.1.3 Phân tích dữ liệu
Bảng 4: mối tương quan giữa thành tích các test chuyên môn và thành tích chạy 100m
Chạy
30m
XPC
Chạy 60m XPC
Chạy 30m TĐC
Bật xa tại chỗ
Bật xa
ba bước
Chạy 100m
Chạy
30m
XPC
1 0.887729 0.907628 -0.90381 -0.9119 0.837806
Chạy
60m
XPC
0.887729 1 0.785835 -0.8217 -0.79026 0.821112
Chạy
30m
TĐC
0.907628 0.785835 1 -0.85397 -0.8196 0.953633
Bật xa tại
chỗ -0.90381 -0.8217 -0.85397 1 0.793605 -0.73785
Bật xa ba
bước -0.9119 -0.79026 -0.8196 0.793605 1 -0.71156
Chạy
100m 0.837806 0.821112 0.953633 -0.73785 -0.71156 1
Hình 6 thể hiện sự ảnh hưởng của các yếu tố đầu vào tới thành tích chạy 100m
Hình 6: sự ảnh hưởng của các yếu tố đầu vào tới thành tích chạy 100m
Trang 1093
3.2 Áp dụng phương pháp hồi quy vector hỗ trợ dự báo thành tích vận động viên
3.2.1 Môi trường thực nghiệm
Phần cứng: máy tính Lenovo M 330, Core i3, 2.13 GHz, RAM 2GB
Phần mềm: sử dụng bộ công cụ Weka phiên bản 3.7.5 [22, 26] được phát triển bởi nhóm nghiên cứu trường đại học Waikato Hamilton, New Zealan Bộ công cụ này có thể được tải về tại địa chỉ:
http://nchc.dl.sourceforge.net/project/weka/weka-3-7-windows/3.7.5/
3.2.2 Quy trình thực nghiệm
Tác giả tiến hành thực nghiệm trên hai tập dữ liệu: dữ liệu thực và dữ liệu sinh tự động
Sử dụng phương thức k - fold
Mỗi tập dữ liệu, tác giả sử dụng phương thức k – fold, chia tập dữ liệu làm 10 fold, sau đó tiến hành huấn luyện với 10 lần lặp Mỗi lần, sử dụng 9 – fold dữ liệu làm tập huấn luyện mô hình, fold còn lại làm tập test
Mô hình thực nghiệm
Luận văn mới chỉ thực hiện thực nghiệm với mô hình SVR đơn Do điều kiện về thời gian nên việc thực hiện thực nghiệm với mô hình SVR có kết hợp giải thuật di truyền chưa được hoàn thiện Vì vậy trong luận văn này, tác giả chưa trình bày phần thực nghiệm với mô hình SVR có kết hợp giải thuật di truyền Tác giả lựa chọn 2 hàm nhân chính cho SVR là nhân Radial Basis Functions (RBF) và nhân đa thức (Polynomial - Poly) để ánh xạ dữ liệu như là các biến đầu vào xi trong mô hình SVR Thử nghiệm thực hiện với giải thuật smoreg cho mô hình hồi quy vector hỗ trợ
Đầu vào của mô hình bao gồm thành tích các test chuyên môn: chạy 30m XPC, chạy 30m TDC, chạy 60m XPC, bật xa tại chỗ, bật xa ba bước ở các lứa tuổi 12, 13, 14, 15, 16
Đầu ra của mô hình là thành tích chạy 100m ở lứa tuổi 16
Bảng 5: Lựa chọn giá trị các tham số cho mô hình thực nghiệm
Tham số Dữ liệu thực Dữ liệu sinh tự động Hàm nhân đa thức
(bậc = 1)
0.0001 0.0001 Hàm nhân RBF
(Gama = 0.01)
0.0001 0.0001
Phương pháp đánh giá mô hình