Một trong những phươngpháp giao dịch theo thuật toán là lựa chọn danh mục đầu tư trực tuyến sử dụngcác công cụ thống kê và học máy để tối đa hóa lợi tức đầu tư trong dài hạn,bằng cách hư
Trang 1LUẬN VĂN THẠC SĨ
Một thuật toán lựa chọn danh mục đầu tư trực tuyến sử dụng phương pháp phân nhóm và xem xét chi phí giao dịch
NGUYỄN VĂN KIÊNKien.nv202266M@sis.hust.edu.vn
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
.
Nguyễn Văn Kiên
Một thuật toán lựa chọn danh mục
đầu tư trực tuyến sử dụng phương pháp phân nhóm và xem xét chi phí giao dịch
Chuyên ngành: Toán Tin
LUẬN VĂN THẠC SỸ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYỄN THỊ THU THỦY
HÀ NỘI–4/2023
Trang 3Lời cam đoan
Tôi xin cam đoan nội dung trình bày trong luận văn này là trung thực Tôicũng xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã đượccảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc
Hà Nội, ngày 08 tháng 04 năm 2023
Học viên
Nguyễn Văn Kiên
PGS.TS NGUYỄN THỊ THU THỦY
Trang 4Lời cảm ơn
Kính gửi cô Nguyễn Thị Thu Thủy,
Em xin gửi lời cảm ơn chân thành nhất đến cô về sự hướng dẫn nhiệt tình vàtâm huyết của cô trong quá trình em thực hiện luận văn tại Viện Toán ứngdụng và Tin học - Đại học Bách Khoa Hà Nội Cô đã luôn sẵn sàng trợ giúp
và giải đáp mọi thắc mắc của em trong suốt quá trình nghiên cứu, giúp em cóđược một cách tiếp cận khoa học hơn với đề tài của mình Cô đã giúp em xácđịnh vấn đề nghiên cứu, tìm kiếm tài liệu và đưa ra phương pháp nghiên cứucũng như hỗ trợ em trong quá trình viết và chỉnh sửa bản thảo Qua sự hướngdẫn của cô, em đã học được rất nhiều kinh nghiệm quý báu không chỉ về nghiêncứu khoa học mà còn cả cách quản lý và tổ chức thời gian hợp lý, hiệu quả Emtin rằng những kiến thức và kinh nghiệm này sẽ là nền tảng để em phát triểntrong tương lai Một lần nữa, em xin bày tỏ lòng biết ơn chân thành đế cô vì
sự hướng dẫn tận tình và cảm hứng cô đã truyền cho em trong suốt quá trìnhnghiên cứu và viết luận văn Em chúc Cô luôn khỏe mạnh và thành công trongquá trình giảng dạy! Em xin phép gửi tặng Cô bài thơ ngắn, gói gém chút tìnhcảm của em dành cho Cô cô nhé:
Cô Thủy ơi, người thầy tuyệt vời
Nhiệt tình hướng dẫn, tâm huyết truyền đời
Khoa học, kiến thức cùng cảm xúc
Cô là nguồn động lực cho những bước chân trẻ trung
Bàn tay cô vẽ đường nghiên cứu
Cùng học trò bước qua những khó khăn thử thách
Trang 5Một trí tuệ đầy mơ ước, những ngày đêm cần cù
Sáng tạo đưa đến tương lai rạng rỡ
Cô Thủy ơi, em biết cảm ơn
Vì sự hi sinh của cô vì giáo dục
Nói lời cảm ơn không đủ cao vọng
Nhưng trong lòng học trò mãi cảm kích
Cô Thủy ơi, người Thầy dạy tận tình
Hướng dẫn em vượt qua những khó khăn
Khiến em tin tưởng vào khả năng chính mình
Và trưởng thành dưới bàn tay tâm huyết của Cô
Cô là nguồn cảm hứng đưa em đến đây
Với tình yêu giáo dục mãnh liệt trong tim
Cô dạy em không chỉ kiến thức mà còn là cách sống
Cùng với những giá trị vô giá không thể tìm thấy bất cứ nơi nàoBao nhiêu lần em gặp khó khăn, bế tác,
Cô luôn bên cạnh, động viên em tiếp tục đi
Và khi em đạt mục tiêu, niềm vui tràn ngập
Cô là người đầu tiên em muốn chia sẻ
Cô Thủy ơi, bài học của cô
Sẽ luôn ở trong em suốt cuộc đời
Cảm ơn cô vì những gì đã dạy em
Một giảng viên tuyệt vời, một tấm gương sáng trong lòng em!
Học viên
Nguyễn Văn Kiên
Trang 6Mục lục
Chương 1 Lựa chọn danh mục trực tuyến và nguyên tắc đối sánh
1.1 Lựa chọn danh mục trực tuyến 7
1.1.1 Lựa chọn danh mục trực tuyến là gì? 7
1.1.2 Nguyên lý và lý thuyết lựa chọn danh mục 8
1.1.3 Tầm quan trọng của lựa chọn danh mục 10
1.1.4 Cách tiếp cận để xây dựng thuật toán 11
1.2 Nguyên tắc đối sánh mẫu 13
1.2.1 Mục đích 13
1.2.2 Kỹ thuật chọn mẫu 14
Trang 71.2.3 Kỹ thuật tối ưu danh mục đầu tư 15
1.2.4 Một vài sự kết hợp 17
Chương 2 Thuật toán lựa chọn danh mục đầu tư trực tuyến 19 2.1 Bài toán lựa chọn danh mục đầu tư 19
2.2 Thuật toán lựa chọn danh mục đầu tư 22
2.2.1 Một số giả thiết 22
2.2.2 Mô tả thuật toán 25
2.3 Giải thích thủ tục thuật toán và sơ đồ khối 26
2.3.1 Giải thích thủ tục thuật toán 26
2.3.2 Sơ đồ khối 32
Chương 3 Kết quả thực nghiệm và đánh giá hiệu suất 36 3.1 Mô tả dữ liệu 36
3.2 Xử lý dữ liệu 40
3.3 Thực hiện chương trình 40
3.4 Tiêu chí đánh giá 42
3.5 Tham số của thuật toán 48
3.6 Hiệu suất của thuật toán 48
3.6.1 Hiệu suất của các thuật toán chạy trên Tập dữ liệu 1 50
3.6.2 Hiệu suất của các thuật toán chạy trên Tập dữ liệu 2 51
Trang 8Danh mục ký hiệu, chữ viết tắt
OLP S Online Portfolio Selection: Lựa chọn danh mục đầu tư
trực tuyến
P AM R Passive-aggressive mean reversion: Đảo ngược trung
bình tích cực thụ động
OLM AR Online moving average reversion: Đảo ngược trung bình
di chuyển trực tuyến
Trang 9Danh sách bảng
1.1 Các thuật toán đối sánh mẫu 18
3.1 Bảng danh mục mã chứng khoán Bất động sản 38
3.2 Bảng danh mục mã chứng khoán ngành Ngân hàng 39
3.3 Kết quả triển khai thuật toán trên Tập dữ liệu 1 50
3.4 Kết quả triển khai thuật toán trên Tập dữ liệu 2 52
Trang 10Mở đầu
Trong tài chính, hầu hết các hướng tiếp cận đầu tư có thể được phân loạithành phân tích cơ bản và phân tích kỹ thuật Phân tích cơ bản nhằm dự đoánlợi nhuận kỳ vọng của một cổ phiếu bằng việc đo lường chính giá trị nội tại dựatrên yếu tố kinh tế, tài chính và đo lường chất lượng, chẳng hạn như báo cáo tàichính, báo cáo thường niên, tin tức chính trị, tin tức thị trường v.v Thay vàoviệc đo lường giá trị nội tại của cổ phiếu, phân tích kỹ thuật lại tiếp cận theohướng đặt niềm tin vào các thể hiện trong quá khứ của cổ phiếu và thị trường
là các chỉ số đo lường hiệu quả cho tương lai của chúng, thường áp dụng cácbiểu đồ, chỉ số kỹ thuật và công cụ khác để xác định các đối tác (partern) mà
có thể giúp cho việc dự đoán giá cổ phiếu tương lai hoặc gợi ý các hành độngcho tương lai
Ngày nay, các tổ chức tài chính bao gồm quỹ tương hỗ, quỹ hưu trí và cácnhà đầu tư cá nhân có xu hướng đầu tư vào thị trường tài chính và hình thànhdanh mục đầu tư để tăng vốn của họ Để làm được điều này, họ thường áp dụngcác phân tích kỹ thuật và phân tích cơ bản cũng như các công cụ khác nhau
để tìm kiếm các cơ hội đầu tư sinh lời Những phân tích này thường được thựchiện thủ công và chỉ cho một cổ phiếu và do đó, các cơ hội đầu tư được pháthiện chậm Các nhà phân tích cơ bản tính toán giá trị nội tại của cổ phiếu dựatrên các báo cáo tài chính và các tỷ lệ và so sánh giá trị được tính toán với giá
cổ phiếu và theo đó, quyết định mua hoặc bán cổ phiếu đó Tuy nhiên, các nhà
Trang 11phân tích kỹ thuật tin rằng hiệu suất trong quá khứ của mỗi cổ phiếu là mộtthước đo đủ để dự đoán hoạt động trong tương lai của nó, thay vì tính toán giátrị nội tại của cổ phiếu Do đó, các nhà phân tích kỹ thuật được hưởng lợi từ cácbiểu đồ và chỉ báo để xác định các mẫu nhằm dự đoán giá trong tương lai Nóichung, các công cụ cơ bản và kỹ thuật phân tích và đánh giá cho một cổ phiếu.Tuy nhiên, các nhà đầu tư thích hình thành một danh mục gồm các tài sản tàichính đa dạng và phân tích một tập hợp các tài sản Mặt khác, tốc độ của cáccông cụ phân tích kỹ thuật và cơ sở là chậm so với tốc độ và tần suất của cácgiao dịch trong thị trường tài chính và do đó, các phương pháp này không thểthỏa mãn nhu cầu của họ Do đó, việc áp dụng giao dịch theo thuật toán trênthị trường tài chính dường như không thể tránh khỏi Một trong những phươngpháp giao dịch theo thuật toán là lựa chọn danh mục đầu tư trực tuyến sử dụngcác công cụ thống kê và học máy để tối đa hóa lợi tức đầu tư trong dài hạn,bằng cách hưởng lợi từ sự kết hợp của các công cụ và lý thuyết kinh tế như vậy.Những năm gần đây, khoa học đã chứng kiến việc máy học được sử dụngtăng lên trong việc ứng dụng kinh doanh Nhiều đề tài nghiên cứu trong lĩnhvực này đã sử dụng kỹ thuật máy học cho lựa chọn danh mục đầu tư Ngườitiên phong trong việc lựa chọn danh mục đầu tư là Markoviz (năm 1952) vớimục tiêu là tối đa các chỉ số đánh giá liên quan, như là tổng tài sản, lợi ích kinh
tế hoặc sự cân bằng lợi nhuận - rủi ro, với việc đầu tư sinh lời vào thị trườngtài chính trong một thời gian dài Từ đó, bài toán này đã được nghiên cứu rộngrãi trong lĩnh vực tính toán tài chính, thống kê và lý thuyết thông tin Gầnđây, mảng phát triển này cũng đã được sự quan tâm ngày càng tăng từ cộngđồng học máy, khai phá dữ liệu và trí tuệ nhân tạo Trong luận văn này, tácgiã sẽ giới thiệu về bài toán lựa chọn danh mục đầu tư trực tuyến; trình bàymột số kiến thức cơ bản về lựa chọn danh mục đầu tư trực tuyến cùng một sốnguyên lý, lý thuyết lựa chọn danh mục đầu tư; giới thiệu nguyên tắc đối sánh
Trang 12mẫu và một số kỹ thuật chọn mẫu và tối ưu danh mục đầu tư Tiếp đó, tác giảtrình bày thuật toán lựa chọn danh mục đầu theo các bước sau: phát biểu bàitoán, đưa ra giải thuật, sơ đồ khối thuật toán và giải thích chi tiết từng bướcthực hiện trong thuật toán Cuối cùng, tác giả áp dụng thuật toán trong bộ dữliệu chứng khoán Việt Nam cho danh mục chứng khoán Bất động sản và chứngkhoán danh mục Ngân hàng tại Việt Nam thông qua các bước: mô tả dữ liệu,xây dựng tool lấy dữ liệu tự động từ website, mô tả cách làm sạch dữ liệu, tiêuchí đánh giá, tham số của thuật toán; phân tích kết quả hiệu suất chương trình,đánh giá sự phù hợp của thuật toán với các bộ dữ liệu được sử dụng.
Nội dung của luận văn được trình bày trong 3 chương
• Chương 1: Lựa chọn danh mục đầu tư trực tuyến và nguyên tắc đối sánhmẫu;
• Chương 2: Thuật toán lựa chọn danh mục đầu tư trực tuyến;
• Chương 3: Kết quả thực nghiệm và đánh giá hiệu suất
Trang 13Chương 1
Lựa chọn danh mục trực tuyến và
nguyên tắc đối sánh mẫu
Chương này tác giả sẽ tập trung làm rõ hai chủ đề quan trọng trong lĩnh vựcđầu tư trực tuyến là lựa chọn danh mục đầu tư và nguyên tắc đối sánh mẫu.Trong bối cảnh kinh tế toàn cầu ngày càng phát triển, đầu tư trực tuyến đãtrở thành một lựa chọn phổ biến cho những người muốn tăng cường thu nhập
và đầu tư vào tương lai của mình Tuy nhiên, để đạt được kết quả đầu tư tốt,việc lựa chọn danh mục đầu tư phù hợp là vô cùng quan trọng Chương này
sẽ trình bày các yếu tố quan trọng cần xem xét khi chọn danh mục đầu tư, từtính thanh khoản đến mức độ rủi ro và tiềm năng sinh lời Ngoài ra, chươngnày cũng giải thích về nguyên tắc đối sánh mẫu, một nguyên tắc quan trọngtrong lĩnh vực đầu tư trực tuyến Nguyên tắc này giúp các nhà đầu tư so sánhhiệu quả giữa các quỹ đầu tư và chọn ra những quỹ phù hợp nhất với mục tiêuđầu tư của họ Nội dung của chương được viết trên cơ sở tài liệu [3, 16] và một
số tài liệu được trích dẫn trong đó
Trang 141.1 Lựa chọn danh mục trực tuyến
1.1.1 Lựa chọn danh mục trực tuyến là gì?
Lựa chọn danh mục trực tuyến "Online Portfolio Selection", viết tắt là OLPS,
là phân bố nguồn vốn một cách tuần tự trong tập các tài sản nhằm mục đíchtối đa hóa lợi nhuận sau cùng trong một thời gian dài OLPS đóng vai trò quantrọng trong hàng loạt các ứng dụng về đầu tư tài chính, ví dụ như quản lý tàisản tự động, quản lý quỹ đầu cơ và giao dịch định lượng Sau đây là một ví dụ
cụ thể về ứng dụng OLPS trong đời thực Giả sử A có số vốn là 10.000 USD
ở tuổi 30 và anh ta muốn tăng vốn lên 1.000.000 USD khi anh ta nghỉ hưu ởtuổi 60, để anh ta có thể duy trì mức sống hiện tại của mình Giả sử rằng Akhông có thêm thu nhập và hoàn toàn dựa vào số vốn ban đầu A muốn đạtđược mục tiêu này thông qua các khoản đầu tư vào thị trường tài chính Giả sửthêm rằng, khoản đầu tư của anh ấy bao gồm 3 tài sản là: Microsoft (cổ phiếu,
ký hiệu là MSFT), Goldman Sachs (cổ phiếu, ký hiệu là GS) và tín phiếu khobạc Tất cả các hồ sơ lịch sử về ba tài sản, chủ yếu là về bảng giá, đều đượccông bố rộng rãi Sau đó, hàng tháng, A nhận được thông tin cập nhật về cả batài sản và phải đối mặt với một thách thức quan trọng trong việc đưa ra quyếtđịnh, đó là, “làm sao để phân bố (cân đối lại) vốn của anh ấy trong số ba tàisản hàng tháng sao cho nguồn vốn sẽ có nhiều khả năng tăng trong tương lai?”
Ý tưởng của việc sử dụng kỹ thuật OLPS là giúp A tự động hóa trình tự phânbố/tái cân bằng để tối đa hóa lợi nhuận đầu tư của mình trong thời gian dài.Việc lựa chọn danh mục đầu tư trực tuyến sử dụng dữ liệu lịch sử cho mụcđích ra quyết định và do đó, nó tương tự như phân tích kỹ thuật Tuy nhiên,cần lưu ý rằng trong phân tích kỹ thuật, các kỹ thuật tìm kiếm (heuristic) được
áp dụng và giá tốt nhất được xác định để mua hoặc bán một cổ phiếu bằngcách sử dụng các biểu đồ và chỉ báo, trong khi đó, với lựa chọn danh mục đầu
Trang 15tư trực tuyến, vấn đề được xây dựng và danh mục đầu tư được sửa đổi vào đầumỗi kỳ.
OLPS cho bài toán giao dịch trong thế giới thực là một thách thức khi màthông tin thị trường (chủ yếu là dữ liệu thị trường) được cập nhật một cáchtuần tự và người quản lý các danh mục đầu tư phải đưa ra quyết định ngay lậptức dựa trên thông tin đã biết và các biến nội sinh xảy ra khi mô hình tươngtác với thị trường Có hai loại phương pháp học máy (ML) đã được khám phá
để thiết kế các chiến lược cho bài toán này
Phương pháp đầu tiên là học theo cụm (batch learning), trong đó mô hình
đã được huấn luyện từ nhiều tập huấn luyện trước Bằng cách này, chúng ta giả
sử tất cả các thông tin về giá (và có thể là thông tin khác) đều hoàn chỉnh tạimột thời điểm quyết định, và do đó người ta có thể triển khai phương pháp họctheo cụm để tìm danh mục đầu tư Trong phương pháp này, mỗi một quyết địnhluôn không liên quan đến các quyết định trước đó Đặc biệt, ta áp dụng cáchthức như vậy trong thuật toán được đề xuất, triển khai phương pháp học phitham số (nonparametric learning), hoặc là học dựa trên ví dụ (instance-basedlearning), hoặc là học dựa trên tình huống cơ bản (case-based learning) [Aha1991; Aha và cộng sự 1991 [3]; Cherkassy và Mulier 1998 [8]] Với một nguyên
lý giao dịch hiệu quả, một cách thức như vậy có thể đạt được mục tiêu của dự
án đề ra
Phương pháp thứ hai là học trực tuyến (online learning), hoặc là học tăngcường (inenforced learning), trong đó mô hình đã được huấn luyện từ một trườnghợp đơn theo cách thức tuần tự Học trực tuyến (online learning) là quá trìnhgiải quyết một chuỗi các vấn đề, đưa ra (có thể một phần) các giải pháp chocác vấn đề trước đó và có thể bổ sung thêm thông tin phụ
1.1.2 Nguyên lý và lý thuyết lựa chọn danh mục
Có hai trường phái chính về nguyên lý và lý thuyết lựa chọn danh mục:
Trang 161 Lý thuyết trung bình phương sai của Markowitz [18], nói về sự đánh đổigiữa lợi nhuận mong muốn (trung bình) và rủi ro (phương sai) của mộtdanh mục đầu tư, điều này phù hợp cho lựa chọn danh mục đầu tư cho mộtkỳ.
2 Lý thuyết tăng trưởng vốn đầu tư (hoặc là lý thuyết đầu tư của Kelly) [14]nhằm mục đích tối đa hóa lợi nhuận kỳ vọng dạng logarit của một danhmục đầu tư và giải quyết một cách tự nhiên việc đầu tư dài hạn (nhiều kỳ)
Do tính chất tuần tự của nhiệm vụ lựa chọn danh mục đầu tư, nhiều kỹ thuậtOLPS gần đây thường thiết kế các thuật toán dựa vào nguyên lý và lý thuyếtthứ hai
Cách tiếp cận đầu tiên về lựa chọn danh mục đầu tư trực tuyến tuân theonguyên tắc chiến thắng follow the winner được giới thiệu bởi Cover [7] vào năm
1991 Các thuật toán follow the winner phân bổ nhiều trọng số hơn cho một cổphiếu đã minh họa hiệu suất tốt hơn trong quá khứ và họ tin tưởng mạnh mẽrằng nếu cổ phiếu đã chứng minh hiệu suất trong quá khứ, họ cũng sẽ mang lạilợi nhuận tuyệt vời trong tương lai Cover [7] đã phát triển thuật toán universalportfolios mà trong đó, một phần vốn được phân bổ cho một expert và theo
đó, một expert có thể áp dụng chiến lược và cuối cùng thu được lợi nhuận.Năm 1996, Cover và Ordentlich [7] đã cải tiến thuật toán thành một danh mụcphổ quát có trọng số µ (µ-weighted universal portfolio) Năm 1998, Cover vàOrdentlich [8] đã thêm bán khống và ký quỹ vào mô hình Năm 1999, Blum vàKalai [4] cũng nâng cấp mô hình bằng cách giới thiệu chi phí giao dịch Cáchtiếp cận follow the loser đã được Borodin và Vincent [6] đưa ra vào năm 2004,trong đó, trọng số đầu tư được chuyển từ một cổ phiếu có hoạt động tốt hơntrong quá khứ sang một cổ phiếu có hoạt động không thuận lợi, vì phương pháptiếp cận cho rằng một cổ phiếu có hiệu suất không mong muốn trong quá khứ
có thể mang lại lợi nhuận đáng mơ ước trong tương lai Borodin và Vincent đã
Trang 17phát triển một thuật toán anti-correlation là thuật toán đầu tiên trong nguyêntắc này.
Đảo ngược trung bình tích cực thụ động (PAMR) được trình bày bởi Li, Zhao,Hoi và Gopalkrishnan vào năm 2012 [22] khai thác tính chất đảo ngược trungbình Sau đó, năm 2013, Li, Hoi, Zhao và Gopalkrishnan [23] đã trình bày sựđảo ngược trung bình có trọng số tin cậy (CWMR) sử dụng phương sai củatrọng số danh mục đầu tư Năm 2015, Li, Hoi, Sahoo và Liu [21] đã cải tiếnthuật toán Đảo ngược trung bình tích cực thụ động thành Đảo ngược trung bình
di chuyển trực tuyến (OLMAR)
Cách tiếp cận thứ ba dựa trên đối sánh mẫu pattern matching sử dụng dữliệu quá khứ để quyết định danh mục đầu tư trong giai đoạn hiện tại Cách tiếpcận này tìm kiếm các pattern trong quá khứ tương tự như pattern hiện tại.Một cách tiếp cận khác trong lựa chọn danh mục đầu tư trực tuyến là cáchtiếp cận meta-learning, liên quan chặt chẽ đến expert learning trong học máy.Phương pháp tiếp cận meta-learning giả định một số chuyên gia cơ sở, từ cùngmột lớp chiến lược hoặc các lớp khác nhau Mỗi véctơ tạo ra danh mục đầu
tư cho chu kỳ tiếp theo và các thuật toán meta-learning kết hợp các danh mụcđầu tư này để tạo thành một danh mục cuối cùng, được sử dụng để cho việc táicân bằng kỳ tiếp theo Ví dụ, năm 2017, Zhang và Yang [25] đã đề xuất mộtthuật toán khác dựa trên thuật toán Weak Aggregating Algorithm (WAA) đưa
ra quyết định bằng cách xem xét tất cả lời khuyên của các chuyên gia và trọng
số của chuyên gia dựa trên hiệu suất trong các chu kỳ trước đó
1.1.3 Tầm quan trọng của lựa chọn danh mục
Khai thác dữ liệu là một nỗ lực nhằm thu thập thông tin có giá trị thôngqua dữ liệu và có vẻ như sự tăng trưởng dữ liệu không đều trên toàn cầu đãnhấn mạnh tầm quan trọng của nó Trên thực tế, có những kỹ thuật khác nhautrong khai thác dữ liệu bao gồm khai thác quy tắc kết hợp, phân loại dữ liệu
Trang 18và phân cụm trong đó mỗi kỹ thuật dẫn đến các mẫu khác nhau Trong số cácphương pháp khai thác dữ liệu khác nhau, phân cụm được áp dụng để phân loại
dữ liệu trong một số cụm, trong đó, các thành viên của mỗi cụm giống nhau vềmột đặc điểm cụ thể trong khi chúng khác với các thành viên trong các nhómkhác Một tiêu chí tương đồng phổ biến là khoảng cách, trong đó, có nhiều loạithước đo khoảng cách khác nhau bao gồm khoảng cách Euclid, khoảng cách cityblock, khoảng cách Chebyshev và khoảng cách Canberra Thuật toán phân cụmđược coi là một loại phân tích dữ liệu không được giám sát và nó có nghĩa là dữliệu được phân tích mà không cần biết nhãn lớp của các quan sát Trong luậnvăn này, chúng tôi phân tích một thuật toán lựa chọn danh mục đầu tư trựctuyến dựa trên nguyên tắc đối sánh mẫu trong [15] Trong thuật toán này, cácmẫu lịch sử tương tự như mẫu hiện tại được xác định bằng cách sử dụng các
kỹ thuật phân nhóm khác nhau và theo đó, danh mục đầu tư tối ưu của từngthời kỳ được xác định Chúng tôi cũng thử nghiệm trên bộ dữ liệu danh mụcchứng khoán bất động sản tại Việt Nam
1.1.4 Cách tiếp cận để xây dựng thuật toán
Trong số các kỹ thuật học máy khác nhau, các phương pháp học tập không
có giám sát là những phương pháp được sử dụng để tìm ra các cấu trúc thốngtrị và các mẫu trong dữ liệu không có nhãn
Việc xem xét hành vi phức tạp của chuỗi thời gian giá trên thị trường tàichính sẽ rất khó để xây dựng một mô hình có thể bao gồm tất cả các thuộctính ảnh hưởng đến hành vi tức là những loại dữ liệu này Phương pháp phânnhóm như một phương pháp không giám sát được sử dụng cho mục đích này,trong đó, bốn thuật toán phân cụm được sử dụng để khám phá các cửa sổ thờigian giả lập đến cửa sổ thời gian gần đây Phân cụm là nhiệm vụ chia dân sốhoặc điểm dữ liệu thành một số nhóm sao cho các điểm dữ liệu trong các nhómgiống nhau hơn và khác với các điểm dữ liệu trong các nhóm khác Một vấn đề
Trang 19khác là kích thước cửa sổ thời gian, trong tất cả các thuật toán đã trình bày,được xác định là một trong những yếu tố đầu vào, trong đó, kích thước cửa
sổ thời gian không phù hợp có thể dẫn đến hiệu quả thấp và hiệu suất khôngmong muốn của thuật toán Ở đây, kích thước tối ưu của cửa sổ thời gian đượcxác định cho thuật toán và chi phí giao dịch được tổng hợp vào hàm mục tiêu
để có được độ chính xác hơn cho các kết quả
Dựa trên chiến lược Danh mục đầu tư tái cân bằng (CRP) liên tục, trongmỗi thời kỳ, danh mục đầu tư được cân đối lại thành danh mục đầu tư cố định
b Theo đó, sau n kỳ, tài sản tích lũy của danh mục đầu tư được định nghĩa là:
Sn(BCRP ) = max
b∈∆mSn(CRP (b)) = Sn(CRP (b∗)) Lưu ý rằng chiến lược BCRP là một chiến lược nhận thức sâu sắc, chỉ có thểđược tính toán với các chuỗi thị trường hoàn chỉnh (xem Li và Hoi [19])
Cần lưu ý rằng tính phổ quát là một kết quả lý thuyết mong muốn cho cácthuật toán lựa chọn danh mục đầu tư trực tuyến (Cover, 1991; Li & Hoi, 2014)trong đó, tính phổ biến của thuật toán Alg được định nghĩa là:
Trang 20và thuật toán lựa chọn danh mục đầu tư trực tuyến là phổ biến nếu độ tiếctrung bình của nó tiếp cận 0 khi n tiến đến vô cùng Về vấn đề này, trong cáctrường hợp thực tế, một thuật toán cho thấy hiệu suất tốt nếu kết quả của nógần với kết quả của thuật toán BCRP.
1.2 Nguyên tắc đối sánh mẫu
Theo nguyên tắc khớp mẫu, dữ liệu lịch sử được sử dụng để đưa ra quyếtđịnh về danh mục đầu tư của giai đoạn hiện tại Trên thực tế, nó đang tìm kiếmcác mẫu lịch sử tương tự như mẫu hiện tại Các loại thuật toán này có thể đảmbảo tăng trưởng vốn tối ưu bằng cách đặt ra số lượng giả định ít nhất trên thịtrường, nghĩa là tính ổn định và tính đúng đắn của chuỗi thời gian tài chính
1.2.1 Mục đích
Thuật toán đối sánh mẫu pattern matching nhằm dự đoán nhiều tình huống
mà tương đồng với véctơ giá tương đối tiếp theo Xi, i ∈ C với phân phối xácsuất đều |C|1 , ở đây C là ký hiệu tập tương đồng và |C| là ký hiệu số lượng phần
tử của tập C Sau đó, thuật toán này cố gắng làm cực đại hóa lợi nhuận kỳvọng dạng log thông qua tập tương đồng Thông thường, các thuật toán đốisánh mẫu pattern matching [9] bao gồm hai giai đoạn:
1 Lựa chọn mẫu
2 Tối ưu hóa danh mục đầu tư
Mục đích là chúng ta sẽ chọn một danh mục đầu tư ở thời điểm t + 1 Đầu tiên,bước chọn mẫu sẽ chọn ra tập Ct các chỉ số quá khứ tương tự, giá tương đốitương ứng đó sẽ được dùng để dự đoán ngày tiếp theo Sau đó, mỗi véctơ giátương đối Xi, i ∈ Ct được gán với một xác suất Pi = |Ct|1 Thứ hai, bước tối ưu
Trang 21danh mục sẽ tìm ra danh mục đầu tư tối ưu dựa trên tập nghiệm chọn từ
bt+1 = arg max
b∈∆mU (b; Ct),trong đó, U (.) là hàm tính tổng lợi nhuận thu được Tại thời điểm bắt đầu củathời điểm t, một khoản đầu tư được xác định bởi một véctơ danh mục đầu tư,véctơ bt, t = 1, 2, , n, tức là b = {b1, b2, , bn}, ∆m = b : b ≥ 0, bT1 = 1 ,
ở đây, 1 là vectơ m chiều của 1 Trong thực tế, b được coi là đại lượng chưa biếtcủa bài toán tối ưu trên Trong trường hợp tập Ct là tập rỗng, danh mục đầu
tư sẽ được chia đều cho tất cả các tài sản Hàm tính lợi nhuận cụ thể là
• Chọn mẫu phi tham số dựa trên histogram;
• Chọn mẫu phi tham số dựa trên nhân;
• Chọn mẫu phi tham số dựa trên hàng xóm gần nhất v.v
Giả sử ta đang xác định vị trí véctơ các giá tương đối tương đồng với véctơtiếp theo xt+1 Quá trình cơ bản là lặp qua tất cả các véctơ giá tương đối xi,
i = w + 1, , t và coi xi như một véctơ tương đồng, nếu cửa sổ thị trường trước
đó xi−1i−w tương đồng với cửa sổ thị trường gần nhất xtt−w+1 Tập Ct chứa các chỉ
số các giá tương đối tương đồng Chú ý rằng, cửa sổ thị trường (Time Window)
là một ma trận cỡ w × m và sự tương quan thường được tính toán dựa trên cácvéctơ cỡ w × m
Trang 221.2.3 Kỹ thuật tối ưu danh mục đầu tư
Bước tiếp theo của pattern matching dựa trên việc xây dựng một danh mụcđầu tư tối ưu cho tập mẫu Ct Hai nguyên lý chính được áp dụng là lý thuyếttăng trưởng vốn của Kelly [14] và cân bằng lợi nhuận rủi ro danh mục củaMarkowitz [17]
Gy¨orfi và các cộng sự [9] đã đề xuất một hàm tính tổng lợi nhuận có dạnglogarit có tên là Log-optimal, dựa trên các sự tương đồng của giá tương đối,theo lý thuyết tăng trưởng vốn Khi cho một tập mẫu Ct, hàm tối đa hóa lợinhuận dạng logarit cho bởi công thức
đó Hàm tựa loggarithm để tính toán lợi nhuận được cho bởi công thức
Trang 23Gy¨orfi [10] đã đưa phân phối xác suất đều cho Pi, do đó (1.3) tương đương với
UM (b, Ct) =E {b · x | xi, i ∈ Ct} − λ Var {b · x | xi, i ∈ Ct}
= E {b · x | xi, i ∈ Ct} − λ Var(b · x)2 | xi, i ∈ Ct
+ λ (E {b · x | xi, i ∈ Ct})2,
(1.5)
ở đó, λ là một tham số thể hiện sự bù trừ Đặc biệt, các phép biến đổi số đơngiản cho thấy hàm tựa logarithm tính toán lợi nhuận chỉ là trường hợp đặc biệtcủa dạng hàm (1.5)
Để tìm được nghiệm với chi phí giao dịch (transaction costs), Gy¨orfi và Vajda[11] đã đề xuất một dạng hàm tính lợi nhuận có tên là GV -type, bằng việc kếthợp cả chi phí giao dịch vào hàm tính lợi nhuận
Trang 241.2.4 Một vài sự kết hợp
Gy¨orfi và Schafer [9] đã phát triển chiến lược BH bằng kết hợp hai phươngpháp biểu đồ của bước đầu tiên và tối ưu hóa nhật ký của bước thứ hai Gy¨orfi,Lugosi và Udina [9] đã giới thiệu chiến lược BK bao gồm các phương phápKernel từ bước đầu tiên và log-tối ưu từ bước thứ hai Sau đó, Gy¨orfi, Udina
và Walk [11] đã trình bày chiến lược BN N là kết quả của việc kết hợp hai cáchtiếp cận là nearest neighbor và log-optimum Sau đó, Li, Hoi và Gopalkrishnan[20] đã giới thiệu chiến lược CORN, trong đó, theo kinh nghiệm đã chỉ ra rằngchiến lược này hoạt động hiệu quả hơn ba thuật toán khác trước đó Ngoài ra,Gy¨orfi, Urbán và Vajda [10] đã cung cấp chiến lược BS để đơn giản hóa cácphép tính bằng cách sử dụng semi-log-optimum Ottucsák và Vajda [24] đã sửdụng phương pháp Markowitz để cân bằng giữa giá trị trung bình (lợi nhuận)
và phương sai (rủi ro) để trình bày một chiến lược BM kết hợp giữa phươngpháp Kernel và hàm Markowitz Hơn nữa, Gy¨orfi và Vajda [12] đã thêm chi phígiao dịch vào trong quá trình tính toán và nó được gọi là chiến lược BGV Abdi
và Najafi [3] đã áp dụng thuật toán phân cụm để tìm kiếm các mẫu tương tự ởquá trình lựa chọn mẫu Theo như một đánh giá được thực hiện bởi Henrique,Sobreiro và Kimura [13], chuỗi thời gian giá trên thị trường tài chính biến động,hỗn loạn, náo nhiệt và bị ảnh hưởng bởi nền kinh tế chung, đặc biệt là cácngành công nghiệp, chính trị và tâm lý của các nhà đầu tư Xây dựng một môhình dựa trên các loại dữ liệu như thế thì rất là phức tạp làm cho quá trình
dự đoán trở nên khó khăn Do đó, các kỹ thuật sử dụng đến Trí tuệ nhân tạo
đã và đang trở thành một lĩnh vực nghiên cứu đầy hứa hẹn trong dự báo chuỗithời gian, mục đích chủ yếu là để giải quyết dữ liệu hỗn loạn, ngẫu nhiên và phituyến
Nhìn chung, mục đích chính của nguyên lý pattern matching là tìm ra tậptương đồng với cửa sổ thị trường tại thời điểm xét Sau đó, tối ưu danh mục
Trang 25Bảng 1.1: Các thuật toán đối sánh mẫu
Portfolio Optimization Sample Selection
Trang 26tư tối ưu cho mỗi chu kỳ, phân tích các giả thiết cần thiết cho thuật toán Mụcthứ ba phân tích thủ tục của thuật toán và trình bày sơ đồ khối của thuật toán.Kiến thức của chương được viết dựa trên tài liệu [15, 16] và một số tài liệu đượctrích dẫn trong đó.
2.1 Bài toán lựa chọn danh mục đầu tư
Các tham số và biến số của lựa chọn danh mục đầu tư trực tuyến được trìnhbày dưới đây
• m ≥ 2: Số lượng tài sản (cổ phiếu) trong danh mục đầu tư Số lượng và loại
cổ phiếu hình thành danh mục đầu tư được xác định từ đầu kỳ đầu tư và
Trang 27không đổi cho đến cuối kỳ đầu tư.
• n ≥ 1: Chu kỳ đầu tư Ví dụ, nếu quyết định được đưa ra trong khoảngthời gian hàng ngày, thời gian đầu tư sẽ bằng n ngày
• pt: Ở chu kỳ thứ t (t = 1, 2, , n), giá đóng cửa của các tài sản được biểudiễn bằng một véctơ pt = (pt,1, pt,2, , pt,m) ∈ Rm+ và mỗi phần tử pt,i,
i = 1, 2, , m biểu diễn giá đóng cửa của tài sản thứ i
• xt: Sự thay đổi về giá của các tài sản được biểu diễn bằng véctơ giá tươngđối xt = (xt,1, xt,2, , xt,m) ∈ Rm+, ở đó mỗi thành phần là tỷ số giữa giáđóng cửa thứ t với giá đóng cửa ngay trước đó xt,i = pt−1,ipt,i
• xn
1: xn1 = (x1, x2, , xn) là dãy véctơ giá tương đối trong n chu kỳ
• bt: bt = (bt,1, , bt,m) là vec-tơ biểu thị cho tỷ lệ đầu tư m cổ phiếu ở đầu
kỳ thứ t Nếu bán khống không hợp phép thì tất cả các thành phần sẽdương và phương trình Pm
i=1bt,i = 1, ∀t, sẽ được thực hiện
• bn
1: bn1 = b1, b2, , bn là một chiến lược ra quyết định trong n giai đoạn, làđâu ra của thuật toán lựa chọn danh mục đầu tư trực tuyến
• St: giá trị nhận được cuối kỳ thứ tth, St = btxt = Pm
i=1bt,ixt,i
• Sn(bn1, xn1):Nếu bn1 được sử dụng như một khoảng thời gian chiến lược vàcác vect-tơ giá tương đối được biểu thị bằng xn1 thì Sn được minh họa tổnglợi tức đầu tư tại thời điểm két thúc giai đoạn đầu tư được biểu thị bằng
Sn(bn1, xn1) = S0Qnt=1btxt = S0Qnt=1Pmi=1bt,ixt,i
• wn(bn1): cho biết cấp độ tăng trưởng theo cấp số nhân của chiến lược bn1trong đó wn(bn1) = n1 log Sn(bn1) = 1nPn
t=1log btxt
Giả sử một nhà đầu tư muốn đầu tư nguồn vốn của anh ta vào một số hữuhạn m tài sản (cổ phiếu) đầu tư trong một số hữu hạn n chu kỳ đầu tư Một
Trang 28sự đầu tư vào thị trường trong chu kỳ thứ t được xác định bởi một véctơ danhmục bt = (bt,1, bt,2, , bt,m), ở đây, bt,i biểu diễn phần được phân bổ đầu tưvào tài sản thứ i tại thời điểm bắt đầu của chu kỳ thứ t Thông thường, danhmục đầu tư sẽ chỉ sử dụng nguồn vốn đầu vào từ ban đầu, đồng thời khôngcho phép sử dụng các công cụ đòn bẩy tài chính và bán khống, do đó, mỗithành phần trong một danh mục sẽ không âm và cộng lại bằng 1, nghĩa là,
bt ∈ ∆m := {bt | bt ≥ 0,Pm
i=1bt,i = 1} Quá trình đầu tư được biểu thị bởi mộtchiến lược danh mục, đó là b1 = 1/m, 1/m, , 1/m và dãy các ánh xạ
bt : Rm(t−1)+ → ∆m, t = 2, 3,
ở đây, bt = bt(xt−11 ) là danh mục được xác định ở thời điểm bắt đầu chu
kỳ thứ t dựa trên việc quan sát các hành vi của thị trường trong quá khứ
bn1 = (b1, b2, , bn) là chiến lược cho n chu kỳ, là đầu ra đạt được của chiếnlược OLPS
Ở chu kỳ thứ t, một danh mục bt tạo ra một lượng lợi nhuận theo chu kỳ
là st Ví dụ, nhà đầu tư A mua mã X với 50% số vốn của mình (ứng với 5.000USD), mua mã Y với 30% số vốn (3.000 USD) và mã Z với 20% số vỗn cònlại (2.000 USD) Nếu mã X đi lên với tỷ lệ là 2, mã Y đi xuống với tỷ lệ là0,5 và mã Z giữ nguyên 1 thì số vốn của nhà đầu tư A sẽ tăng lên với tỷ lệ
0, 5 × 2 + 0, 3 × 0, 5 + 0, 2 × 1 = 1, 35 hay tăng lên 35%
Vì ta tái đầu tư và áp dụng giá tương đối, tài sản sẽ gia tăng theo hệ số nhân
Do đó, sau n chu kỳ, một chiến lược danh mục bn1 sẽ tạo ra một tài sản tích lũy
là Sn(xn1, bn1) tăng lên so với tài sản ban đầu một lượng bằng Πnt=1btxt, ở đây
S0 là ký hiệu lượng tài sản ban đầu (thường đặt là 1 USD cho thuận tiện).Như vậy, ta xét bài toán đầu tư: Mục tiêu của người quản lý danh mục làtạo ra một chiến lược danh mục bn1 dựa trên giá tương đối của thị trường xn1
để thực hiện các mục đích nào đó Người quản lý tính toán các tỷ trọng danhmục đầu tư một cách tuần tự Trong mỗi chu kỳ t người quản lý sử dụng dãy
Trang 29các véctơ giá tương đối trong quá khứ xt−11 Người quản lý tính ra một danhmục mới bt cho véctơ giá tương đối tiếp theo xt, nhờ vậy mỗi người quản lý cóthể đưa ra các quyết định khác nhau Sau đó, người quản lý sẽ tái cân bằng lạidanh mục đầu tư mới, thông qua việc mua và bán các cổ phiếu Kết thúc ngàygiao dịch, thị trường sẽ cho biết thông tin xt Danh mục bt sẽ được chấm điểmdựa trên lợi nhuận st Quá trình này cứ lặp lại cho đến chu kỳ cuối, và chiếnlược danh mục sẽ được chấm điểm bởi lượng tài sản tích lũy của nó Sn.
2.2 Thuật toán lựa chọn danh mục đầu tư
Trong mục này ta sẽ mô tả chi tiết thuật toán cho việc lựa chọn danh mụcđầu tư trực tuyến Trong thuật toán này, trước hết ta hình thành một danhmục đầu tư và sau đó, đưa ra quyết định về trọng lượng của các cổ phiếu thuộcdanh mục đầu tư vào đầu mỗi kỳ và theo đó giao dịch được tiến hành Về lâudài, tổng doanh thu đạt được vào cuối kỳ đầu tư cuối cùng được coi là sản lượngchính Thuật toán tuân theo nguyên tắc đối sánh mẫu và bao gồm hai bước làchọn mẫu và tối ưu hóa danh mục đầu tư Trong thuật toán này, ta sử dụngphương pháp phân cụm k-mean, k-medoids, phổ và thứ bậc trong bước chọnmẫu Trong bước đầu tiên của thuật toán, khoảng thời gian tốt nhất được xácđịnh dựa trên kết quả của các giai đoạn trước đó và ngoài ra, việc phân cụmđược thực hiện nhiều lần để tăng độ chính xác của kết quả Thứ hai, trong bướctối ưu hóa danh mục đầu tư, chức năng tối ưu hóa nhật ký đã được sửa đổi vàcải thiện bằng cách xem xét chi phí giao dịch để làm cho thuật toán trở nênthực tế hơn
2.2.1 Một số giả thiết
Để xây dựng thuật toán, ta cần các giả thiết sau đây
(A1) Tính thanh khoản của thị trường
Trang 30Giả thiết đầu tiên là thị trường có tính thanh khoản Để đơn giản, giả sửrằng tại bất kỳ thời điểm nào, cổ phiếu có thể được bán hoặc thanh toántheo mức giá mà thuật toán đề xuất (giá niêm yết).
Trên thực tế, thanh khoản thị trường thấp thường có nghĩa là có chênh lệchlớn giữa giá mua và giá bán Do đó, việc thực hiện các lệnh có thể phát sinh
sự chênh lệch giữa các mức giá được gửi bởi các thuật toán và giá thực sựđược thực hiện Hơn nữa, cổ phiếu thường được giao dịch theo nhiều lots(là đơn vị giao dịch tiêu chuẩn chứa một số lượng cổ phiếu) Trong tìnhhuống này, số lượng cổ phiếu có thể không được phân chia tùy ý Trongnhiều kết quả nghiên cứu, nhiều tác giả đã cố gắng giảm thiểu ảnh hưởngcủa tính thanh khoản thị trường bằng cách chọn các cổ phiếu có vốn hóathị trường lớn, thường có giá trị nhỏ chênh lệch giá thầu - giá bán và sựkhác biệt, do đó có tính thanh khoản cao trên thị trường
(A2) Ảnh hưởng thị trường
Bất kỳ chiến lược lựa chọn danh mục nào sẽ không ảnh hưởng đến thịtrường hoặc giá của các chứng khoán
Giả thiết thứ hai là chiến lược danh mục đầu tư sẽ không ảnh hưởng đếnthị trường, tức là thị trường chứng khoán sẽ không bị ảnh hưởng bởi bất kỳthuật toán giao dịch nào Trong thực tế, tác động có thể bị bỏ qua nếu vốnhóa thị trường của một danh mục đầu tư không quá lớn Tuy nhiên, nhưkết quả thử nghiệm cho thấy, tổng tài sản trong danh mục đầu tư được tạo
ra bởi các thuật toán tăng rất nhanh, điều này chắc chắn sẽ tác động đếnthị trường Một cách đơn giản để xử lý vấn đề này là giảm quy mô danhmục đầu tư, ví dụ như có thể sử dụng nhiều quỹ khác nhau Hơn nữa, sựphát triển của các thuật toán sell – side algorithmic trading, giúp phân táchmột lệnh lớn thành nhiều lệnh nhỏ hơn và lên lịch cho những lệnh này đểgiảm thiểu tác động thị trường của chúng, từ đó có thể giảm đáng kể tác
Trang 31động thị trường của các thuật toán được đề xuất.
(A3) Giá đóng cửa
Giá đóng cửa được sử dụng trong tất cả các phép tính giá cổ phiếu Cónghĩa là, giả thiết rằng mỗi cổ phiếu sẽ được mua hoặc bán ở mức giá đóngcửa Ngoài ra, trong tập dữ liệu đào tạo, giá đóng cửa của các cổ phiếu hìnhthành danh mục đầu tư được giới thiệu là dữ liệu lịch sử
(A4) Chi phí giao dịch
Chi phí giao dịch mà nhà đầu tư phải trả phụ thuộc vào khối lượng giaodịch, giá cổ phiếu, ngành liên quan, v.v Vì có những tính toán phức tạp
để có được chi phí giao dịch của giao dịch trên thị trường thực, để cho đơngiản, giả thiết đầu tiên là ta xem xét chi phí giao dịch như một tỷ lệ khôngđổi của khối lượng giao dịch
Trong nhiều kết quả nghiên cứu trên thế giới đã kiểm tra tác động của cácchi phí giao dịch khác nhau và kết quả cho thấy mô hình đề xuất có thểchịu được chi phí giao dịch vừa phải trong hầu hết các trường hợp Hiệnnay, với sự phổ biến rộng rãi của các mạng điện tử và các cơ sở giao dịch
đa phương trên thị trường tài chính, các nhà môi giới giao dịch trực tuyếnkhác nhau tính tỷ lệ chi phí giao dịch rất nhỏ, đặc biệt đối với các nhàđầu tư tổ chức lớn Họ cũng sử dụng một flat rate, dựa trên khối lượng đạtđược Các biện pháp như vậy có thể tạo điều kiện cho các nhà quản lý danhmục đầu tư giảm tỷ lệ chi phí giao dịch của họ
(A5) Mối tương quan
Mối tương quan đã được sử dụng làm tiêu chí khoảng cách trong tất cả cácphương pháp phân cụm Li, Hoi và Gopalkrishnan [20] cho thấy rằng mốitương quan như một tiêu chí khoảng cách trong các thuật toán lựa chọndanh mục đầu tư trực tuyến hoạt động hiệu quả hơn các thước đo khoảng
Trang 32• Các quyết định được thực hiện bằng thuật toán về trọng số Danh mục đầu
tư trong mỗi giai đoạn = Stage;
• Thời gian chạy của thuật toán;
• Sai số phần trăm tuyệt đối trung bình (MAPE) như một phép đo độ chínhxác của dự đoán;
Quy trình thuật toán
Bước 1 Nhập ma trận P vào thuật toán
Bước 2 Xây dựng ma trận giá tương đối
Bước 3 Xây dựng ma trận trainning và ma trận test
Vòng lặp số 1: Các bước từ 4 đến 12 được thực hiện cho tất cả các ngàythử nghiệm; nghĩa là, k = 1 : M (M là số ngày thử nghiệm)
Vòng lặp số 2: các bước từ 4 đến 9 được thực hiện cho các timewindow từ
2 đến 10; nghĩa là T W = 2 : 10
Bước 4 Xây dựng ma trận con dựa trên T W
Trang 33Bước 5 Phép biến đổi ma trận thành véctơ.
Bước 6 Phân cụm các ma trận đã biến đổi
Bước 7 Xác định các mẫu tương tự với mẫu gần đây
Bước 8 Tối ưu hóa danh mục đầu tư
Bước 9 Thu thập các danh mục đầu tư tối ưu tiềm năng và xác định lợi nhuậntrong kỳ và tổng lợi nhuận liên quan đến tập dữ liệu thử nghiệm
Kết thúc của Vòng lặp số 2
Bước 10 Đưa ra quyết định về danh mục đầu tư tối ưu của giai đoạn hiện tại
Bước 11 Tính toán lợi nhuận thực tế trong kỳ và tổng lợi nhuận thực tế vàocuối kỳ hiện tại liên quan đến danh mục đầu tư đã chọn tối ưu
Bước 12 Chuyển dữ liệu giá trong ngày từ tập dữ liệu kiểm tra sang tập dữliệu đào tạo
Kết thúc của Vòng số 1
Bước 13 Tính toán cuối cùng
2.3 Giải thích thủ tục thuật toán và sơ đồ khối
2.3.1 Giải thích thủ tục thuật toán
Bước 1 Nhập ma trận P vào thuật toán
Ma trận P được đưa vào thuật toán như sơ đồ khối dưới đây Ma trận đánhdấu giá của một số cổ phiếu được chọn, trong một khoảng thời gian tươngđối dài một hoặc hai năm Các hàng của ma trận đại diện cho các cổ phiếu
và các cột đại diện cho các ngày khác nhau trong kỳ
Bước 2 Hình thành ma trận giá tương đối
Trang 34Ma trận giá tương đối của X thu được bằng cách chia giá cổ phiếu trongngày cho giá của ngày hôm trước Trên thực tế, ma trận này cho thấy lợinhuận hàng ngày của mỗi cổ phiếu.
Xt,i = Pt,i
Pt−1,i
, t = 1, 2, N, i = 1, 2, m
Bước 3 Hình thành ma trận huấn luyện và ma trận kiểm tra
Train Ratio là một tỷ lệ phần trăm được xác định như một đầu vào thuậttoán được sử dụng để tách tập dữ liệu huấn luyện và kiểm tra Theo TrainRatio, một phần trăm dữ liệu từ phần đầu tiên của ma trận X được chuyểnsang ma trận huấn luyện, và dữ liệu còn lại được chuyển sang ma trận kiểmtra
Vòng lặp số 1 : Các bước từ 4 đến 12 được thực hiện cho tất cả các ngàythử nghiệm; nghĩa là, k = 1 : M (M là số ngày thử nghiệm)
Vòng lặp số 2: Các bước từ 4 đến 9 được thực hiện cho các T W từ 2 đến
10 ; đó là T W = 2 : 10
Bước 4 Hình thành ma trận con liên quan đến T W
Theo T W , ma trận huấn luyện có thể được chia thành các ma trận con
N − T W + 1 (N là số ngày huấn luyện) Vì vậy, ma trận con đầu tiên bắtđầu từ ngày đầu tiên và tiếp tục cho đến ngày T W và ma trận con thứ haibắt đầu từ ngày thứ hai và tiếp tục cho đến ngày T W + 1 Về cơ bản, quátrình tiếp tục từ ngày T W − N + 1 cho đến ngày N (ngày cuối cùng tồntại trong ma trận)
Ma trận con cuối cùng được gọi là ma trận con gần đây
Bước 5 Phép biến đổi ma trận thành vectơ
Để phân cụm các ma trận con, các ma trận con đã tạo ở bước trước đượcbiến đổi thành các véctơ Do đó, mỗi ma trận con không được bao bọc và
Trang 35cuối cùng được thay đổi thành một vectơ.
Bước 6 Phân cụm các ma trận đã biến đổi
Đầu tiên, số lượng cụm tối ưu cần được phát hiện để phân cụm các ma trận
đã biến đổi Theo đó, số lượng các cụm nằm trong khoảng từ hai đến cănbậc hai của số ma trận con Đối với mỗi số cụm, mỗi cụm được hình thànhcho các lần Lặp lại trong đó, giá trị Lặp lại được xác định như một đầu vàothuật toán Sự phân nhóm được đánh giá bằng tiêu chí hình bóng trongmỗi lần lặp lại và giá trị trung bình của giá trị hình bóng và số lượng cụmtối ưu được xác định dựa trên giá trị trung bình của phép đo hình bóng
Bước 7 Xác định các mẫu tương tự với mẫu gần đây
Các ma trận con diễn ra trong cùng một cụm với ma trận con gần đây cho
ít nhất 80% số lần lặp được coi là ma trận con tương tự như ma trận congần đây Khi đó, sự tương quan tỷ lệ giữa các ma trận con tương tự và matrận con gần đây được tính toán và sau khi chuẩn hóa, trọng số của mỗi
ma trận con được xác định dựa trên mối tương quan của nó với ma trậncon gần đây, trong đó, trọng số được thu thập trong vectơ W Cuối cùng,phép nhân của C và W thu được mỗi ngày và mỗi T W Giá trị CW thực
sự sẽ đại diện cho giá trị tương đối được dự đoán mỗi ma trận con tương
tự, được thu thập trong ma trận C dưới dạng giá véc tơ cho ngày hôm sau
Bước 8 Tối ưu hóa danh mục đầu tư
Bước hiện tại thực sự được coi là bước thứ hai của các thuật toán so khớpmẫu Ma trận C đại diện cho các mẫu tương tự và ma trận W đại diện chocác trọng số được coi là đầu vào cho việc tối ưu hóa danh mục đầu tư
Có những trường hợp khác nhau dựa vào ngày mà chúng tôi đang kiểm tra
và cũng xem xét liệu ngày tương tự có được tìm thấy hay không
Trang 36(1) Nếu ma trận C trống, điều đó có nghĩa là không thể tìm thấy ngàytương tự nào trong các bước trước:
(1a) Nếu chúng ta đang ở ngày đầu tiên triển khai và thử nghiệm, danhmục đầu tư đồng nhất sẽ được chọn là danh mục đầu tư tối ưu
(1b) Nếu chúng ta không ở trong ngày đầu tiên thực hiện và thử nghiệm,thì không có thay đổi nào được thực hiện trên danh mục đầu tư của ngàyhôm trước Do đó, sẽ không có giao dịch nào được thực hiện và danh mụcđầu tư của ngày hôm sau sẽ bằng với danh mục đầu tư đã điều chỉnh vàocuối ngày ngày hôm trước
Danh muc đầu tư đã điều chỉnh Badj: Mỗi cổ phiếu của danh mục đầu tư
có một trọng lượng cụ thể, vào đầu ngày Trong ngày, do sự thay đổi củagiá cả, trọng lượng của cổ phiếu sẽ có giá trị mới, dựa trên giá mới Trọng
số mới được gọi là danh mục đầu tư đã điều chỉnh Trên thực tế, tỷ trọngcủa cổ phiếu chỉ thay đổi khi có sự thay đổi của giá cả Danh mục đầu tưđiều chỉnh thu được như sau:
Badj(t) = B
∗(t) ⊙ x(t)
B∗(t)x(t)trong đó ⊙ là là tích phần tử
(2) Nếu ma trận C không trống, điều đó có nghĩa là ngày tương tự đã đượctìm thấy trong các bước trước đó Trong trường hợp này, có những ngàytương tự như ngày gần đây và có khả năng đạt được danh mục đầu tư tối
ưu cho ngày tiếp theo bằng cách tối ưu hóa mô hình sau:
thỏa mãn P bi = 1 và l ≤ bi ≤ u với mọi i, trong đó, ma trận C và véctơ
W thu được ở bước trước đó và véctơ T C, được gọi là tỷ lệ chi phí giao