+ Có thể sử dụng các chiến lược đầu tư bằng cách sử dụng các thuật toán học máy để xây dựng danh mục đầu tư vượt trội so với thị trường hoặc một chỉ số đầu tư?. + Jim Simons: ông là “Ông
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN HOÀNG TUẤN ANH
DÙNG HỌC MÁY XẾP HẠNG CỔ PHIẾU BẰNG CÁC CHỈ SỐ TÀI CHÍNH
TRONG QUÁ KHỨ
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN QUẢN LÝ
LUẬN VAN THẠC SĨ
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS TS Đặng Trần Khánh
Cán bộ chấm nhận xét 1 : PGS TS Nguyễn Tuấn Đăng
Cán bộ chấm nhận xét 2 : TS Lê Lam Sơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCMngày03 tháng 07 năm 2019
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 PGS TS Nguyễn Thanh Bình
2 TS Phan Trọng Nhân
3 PGS TS Nguyễn Tuấn Đăng
4 TS Lê Lam Sơn
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên : Trần Hoàng Tuấn Anh MSHV: 1670459
Ngày, tháng, năm sinh : 01/02/1985 Nơi sinh: Khánh Hòa Chuyên ngành : Hệ Thống Thông Tin Quản Lý Mã số : 60.34.04.05
I TÊN ĐỀ TÀI:
Dùng Học Máy xếp Hạng Cổ Phiếu Bằng Các Chỉ số Tài Chính Trong Quá Khứ
II NHIỆM VỤ VÀ NỘI DUNG:
Kết hợp phương pháp Học máy và Phân tích tài chính để xếp hạng cổ phiếu bằng các chí số tài chính trong quá khứ
III NGÀY GIAO NHIỆM VỤ: 01/02/2019
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019
V CÁN Bộ HƯỚNG DẪN: PGS TS Đặng Trần Khánh
CÁN Bộ HƯỚNG DẪN
(Họ tên và chữ ký)
Tp HCM, ngày tháng năm 2019 CHỦ NHIỆM Bộ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA
(Họ tên và chữ ký)
Trang 3
Trang 4LỜI CÁM ƠN
Sau thời gian học tập, nghiên cứu và để hoàn thành luận văn này, tôi xin bày tỏ
sự kính trọng và lòng biết on sâu sắc tới:
- Thầy giáo trực tiếp huớng dẫn: PGS.TS Đặng Trần Khánh - Khoa Công Nghệ Thông Tin, Truờng Đại Học Bách Khoa Thành phố Hồ Chí Minh đã tận tĩnh chỉ bảo, huớng dẫn và giúp đỡ trong suốt quá trình tôi thực hiện đề tài nghiên cứu khoa học này
- Lãnh đạo công ty chứng khoán VNDirect và các phòng ban trong công ty đã luôn quan tâm, động viên và tạo điều kiện cho tôi trong quá trình nghiên cứu
- Bên cạnh đó sự giúp đỡ của gia đĩnh, bạn bè và nguời thân đã luôn ủng hộ và tạo điều kiện tốt nhất để tôi có thể tập trung nghiên cứu và hoàn thành đề tài này
Do về mặt kiến thức và thời gian còn hạn chế, luận văn còn nhiều khiếm khuyết Tôi mong đuợc sự đóng góp ý kiến của các thầy, cô và mọi nguời để luận văn hoàn thiện hơn
Trang 5+ Khả năng dự đoán của các thuật toán học máy khi phân biệt giữa các cổ phiếu hoạt động kém hiệu quả và hiệu quả?
+ Có thể sử dụng các chiến lược đầu tư bằng cách sử dụng các thuật toán học máy để xây dựng danh mục đầu tư vượt trội so với thị trường hoặc một chỉ số đầu tư?
+ Các thuật toán học máy có thể đóng góp vào việc lựa chọn cổ phiếu tốt hơn
so với một công cụ chọn cổ phiếu ngẫu nhiên?
+ Có bằng chứng đáng kể nào về mối liên hệ giữa khả năng dự đoán của các thuật toán học máy và lợi nhuận danh mục đầu tư được tạo từ việc dự báo này?
Trong thế giói của học máy, có rất nhiều thuật toán học máy có thể được sử dụng
để trả lời vấn đề trong luận văn này Một lựa chọn trong số chúng được nghiên cứu trong luận văn này: Naive Bayes, Logistic Regrssion, Random Forest, Support Vector Machine (SVM)
Ket quả nghiên cứu của luận văn đã cho thấy giải thuật Randomforest cho kết quả tốt hơn các giải thuật khác khi áp dụng với bộ dự liệu của thị trường chứng khoán Việt Nam từ năm 2010 đến 2018 Mặc dù khả năng dự báo chỉ đạt mức trung bĩnh, nhưng kết quả từ giải thuật học máy đã giúp tạo thành các danh mục có hiệu quả hơn chỉ số tham chiếu VNindex và VN30
Việc xây dựng và ứng dụng được hệ thống kết hợp trên sẽ là căn cứ để phát triển các phần tiếp theo: Mô hình xếp hạng theo ngành, mô hình xếp hạng rủi ro và dự báo
Trang 6Abstracts
The combination of Information Technology and Financial Analysis reduces analysis time, increases accuracy and reduces dependence entirely on analysts This combination has been applied a lot in the world and created opportunities for fund managers to manage billions of dollars of assets
The overall research question in this dissertation is whether the application of machine learning algorithms could make a valuable contribution in distinguishing efficient stocks to build a portfolio that outperforms VNIndex or another investment indicators such as VN30, HNXindex To answer this question, the following sub-questions will be studied:
+ Predictability of machine learning algorithms when distinguishing between inefficient and efficient stocks?
+ Could we use investment strategies by using machine learning algorithms
to build an outstanding portfolio against the market or an investment index?
+ Could machine learning algorithms contribute to stock selection better than
a random stock picking tool?
+ Is there any significant evidence of the link between predictability of machine learning algorithms and portfolio returns generated from this prediction?
In the world of machine learning, there are many machine learning algorithms that can be used to answer the problem in this thesis One of them is studied in this thesis: Naive Bayes, Logistic Regrssion, Random Forest, Support Vector Machine (SVM)
The results of the thesis show that the Randomforest algorithm gives better results than other algorithms when applied to the data set of Vietnam stock market from
2010 to 2018 Although the forecasting ability is only achieved average, but the results from machine learning algorithms have helped to create more effective categories of VNindex and VN30 reference index
The construction and application of the above-mentioned combined system will
be the basis for developing the following sections: Sector ranking model, risk ranking model and forecast
Trang 7Lời cam đoan của tác giả Luận văn
Tôi xin cam đoan : Luận văn thạc sĩ với đề tài “DÙNG HỌC MÁY XẾP HẠNG CỔ PHIẾU BẰNG CẮC CHỈ SÓ TÀI CHÍNH TRONG QUÁ KHỨ” là công trình nghiên cứu của cá nhân tôi, không sao chép của bất cứ ai
Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình!
TP.HỒ Chí Minh, ngày
Người cam đoan
Trang 8MỤC LỤC
1 Tóm tắt 5
2 Giới Thiệu 9
3 Phương Pháp xếp Hạng cổ Phiếu Trong Đầu Tư Chứng Khoán: 13
4 Học Máy 22
5 Dùng Học Máy xếp Hạng cổ Phiếu: 44
6 Thí Nghiệm Và Đánh Giá Kết Quả: 54
7 Kết Luận 66
8 Danh Mục Các Tài Liệu Tham Khảo: 68
Trang 92 Giới Thiệu
2.1 Động lực và bối cảnh:
- xếp hạng cổ phiếu (Scoring Rating) là phuơng pháp chấm điểm cổ phiếu dựa trên các chỉ số tài chính của cổ phiếu Hiện tại trong tổ chức của tôi đang sử dụng phuơng pháp chuyên gia để xác định trọng số cho các chỉ số tài chính trong mô hĩnh Phuơng pháp chuyên gia có một số điểm yếu chính:
+ Chua xác định đuợc mức độ hiệu quả của mô hĩnh (độ chính xác của mô hĩnh, độ chính xác cho từng hạng đuợc đánh giá )
+ Phụ thuộc hoàn toàn vào chuyên gia (kiến thức, trải nghiệm, cảm xúc) trong việc xác định trọng số
- Việc xác định xếp hạng hợp lý của cổ phiếu sẽ giúp nhà đầu tu lựa chọn đuợc các cổ phiếu tốt và gia tăng hiệu quả đầu tu:
+ David Harding: ông làm cho quỹ Winton Capital (30 tỷ Đô la) từ 1997 Ông
sử dụng phuơng pháp Nắm bắt xu huớng (Trend Following) và mô hĩnh thống kê để đầu tu chứng khoán và công cụ phái sinh
+ Jim Simons: ông là “Ông vua định luợng”, nhà toán học và là nguời sáng lập quỹ Renaissance Technologies (11 tỷ Đô la - một quỹ đầu tu sử dụng giải thuật máy tính để phân tích và đầu tu chứng khoán)
- Trên thế giới, việc nghiên cứu và áp dụng các mô hĩnh định luợng trong đầu
tu đã phát triển từ rất lâu Thời gian gần đây, việc áp dụng công nghệ thông tin trong đầu tu bùng nổ ở các nuớc châu Á Tuy nhiên, ở Việt Nam, việc áp dụng này vẫn chua phổ biến, và hiện tại chỉ có 1 quỹ mở định luợng VFA hoạt động Có 2 lý do chính:
+ Việc áp dụng công nghệ thông tin vào tài chính chỉ mới phát triển ở Việt Nam vài năm gần đây
+ Các phuơng pháp xếp hạng cổ phiếu ở Việt Nam phần lớn theo phuơng pháp chuyên gia
Việc nghiên cứu và áp dụng công nghệ thông tin, định luợng trong tài chính
để xây dựng hệ thống xếp hạng cổ phiếu đuợc kỳ vọng giúp khắc phục các điểm yếu của phuơng pháp chuyên gia và gia tăng hiệu quả đầu tu Hệ thống
dự kiến sẽ đáp ứng các mục tiêu sau:
+ Dùng Học máy xây dựng mô hình xếp hạng cố phiếu
+ So sánh mô hĩnh này với mô hĩnh theo phuơng pháp chuyên gia để đánh giá mức độ hiệu quả của mô hĩnh
2.2 Xây dựng bài toán:
Câu hỏi nghiên cứu tống thể trong luận văn này là liệu việc áp dụng các thuật toán học máy có thể đóng góp giá trị trong việc phân biệt các cố phiếu hoạt động hiệu quả để xây dựng danh mục đầu tu vuợt trội hơn
Trang 10VNIndex hoặc một chỉ số đầu tư khác như VN30, HNXindex Để trả lời câu hỏi này, các câu hỏi con sau đây sẽ được nghiên cứu:
+ Khả năng dự đoán của các thuật toán học máy khi phân biệt giữa các cổ phiếu hoạt động kém hiệu quả và hiệu quả?
+ Có thể sử dụng các chiến lược đầu tư bằng cách sử dụng các thuật toán học máy để xây dựng danh mục đầu tư vượt trội so với thị trường hoặc một chỉ số đầu tư?
+ Các thuật toán học máy có thể đóng góp vào việc lựa chọn cổ phiếu tốt hơn
so với một công cụ chọn cổ phiếu ngẫu nhiên?
+ Có bằng chứng đáng kể nào về mối liên hệ giữa khả năng dự đoán của các thuật toán học máy và lợi nhuận danh mục đầu tư được tạo từ việc dự báo này?
2.3 Phạm vi và hạn chế:
- Mặc dù có rất nhiều cách và phương pháp có thể được sử dụng để trả lời các câu hỏi được nghiên cứu trong luận văn này, tuy nhiên, tôi xin phép được xác định rõ một số giới hạn nhất định trong phạm vi của một luận văn thạc sĩ
2.3.1 Thuật toán học tập:
- Trong thế giới của học máy, có rất nhiều thuật toán học máy có thể được sử dụng để trả lời vấn đề trong luận văn này Một lựa chọn trong số chúng được nghiên cứu trong luận văn này:
- Có một số cách tiếp cận để phân tích các chỉ số tài chính của một cố phiếu trên
cơ sở dữ liệu khác nhau Tuy nhiên, trong phạm vi của luận văn này, tôi sử dụng 23 chỉ số tài chính được tính toán từ báo cáo tài chính đã được kiểm toán của các công ty niêm yết trên sàn giao dịch chứng khoán Hồ Chí Minh và Hà Nội Những số liệu này được liệt kê trong phần 5.2
2.3.3 VNindex và HNXindex:
- Danh mục đầu tư từ các thuật toán học máy và danh mục tham chiếu sẽ được xây dựng từ các cổ phiếu trong 2 chỉ số thị trường chứng khoán chính của Việt Nam là VNIndex của Sở giao dịch chứng khoán thành phố
Trang 11Hồ Chí Minh và HNXindex của Sở giao dịch chứng khoán Hà Nội, trong giai đoạn từ tháng 1 năm 2010 đến tháng 12 năm 2018
2.3.4 Chiến lược đầu tư:
- Chiến lược đầu tư được đánh giá trong luận văn này chỉ giới hạn ở chiến lược
“Mua và nắm giữ” Điều này dẫn đến chiến lược chỉ được hưởng lợi từ việc tăng giá và không thể thu được lợi nhuận từ việc giảm giá cổ phiếu Ưu điểm của các chiến lược này là dễ áp dụng trong cả lý thuyết và thực tế
Chương này khám phá lý thuyết về học máy được áp dụng trong luận văn Phần đầu tiên giới thiệu ý tưởng chung về học máy bằng cách mô tả các loại vấn đề học tập khác nhau và giải thích vấn đề liên quan đến overfitting Phần thứ hai thảo luận về các thuật toán học máy sẽ được nghiên cứu trong luận văn này Phần cuối cùng mô tả các vấn đề thường gặp và các phương pháp xử lý trong quá trĩnh tiền xử lý dữ liệu, đánh giá
và lựa chọn mô hĩnh phù hợp
+ Chương 5 - Phương pháp luận
Chương này tập trung vào tất cả các phương pháp được nghiên cứu để trả lời vấn đề trong luận văn này Thứ nhất, các phương pháp xây dựng danh mục đầu tư và lấy dữ liệu cần thiết được trĩnh bày Thứ hai, quá trình gán nhãn để phân biệt giữa các cổ phiếu hiệu quả và kém hiệu quả được giới thiệu Chương này cũng trĩnh bày cách thức để sử dụng các thuật toán học máy để xếp hạng, lựa chọn cố phiếu và xây dựng danh mục đầu tư Các số liệu được sử dụng để đánh giá hiệu suất của danh mục đầu tư được trình bày và cuối cùng là sự lựa chọn danh mục tham chiếu được thảo luận + Chương 6 - Thí nghiệm & Kết quả
Trang 12Chương này cung cấp các kết quả thí nghiệm áp dụng trên dữ liệu lịch sử cho từng thuật toán học máy Các kết quả về hiệu suất dự đoán sẽ được phân tích cho từng thuật toán và so sánh chúng với nhau để tim ra được giải thuật phù hợp nhất cho việc xếp hạng cổ phiếu và bộ dữ liệu của thị trường chứng khoán Việt Nam Giải thuật này sau đó được dùng để thiết lập danh mục đầu tư và so sánh với danh mục tham chiếu để khám phá các câu hỏi con được nghiên cứu trong luận văn
+ Chương 7 - Kết luận
Chương này tóm tắt lại toàn bộ luận văn bằng cách trả lời các câu hỏi chính và phụ được xây dựng trước đó Phần tiếp theo chỉ ra các hạn chế của luận văn, từ đó đưa ra hướng phát triển tiếp theo
Trang 133 Phương Pháp xếp Hạng cỗ Phiếu Trong Đầu Tư Chứng Khoán:
3.1 Dự báo giá chứng khoán:
- Không có cách nào dự đoán được giá cổ phiếu, chứng khoán trong vài ngày hoặc vài tuần tới Tuy nhiên, việc dự đoán ở tầm dài hạn hon là điều có thể làm được, ví dụ dự đoán giá trong ba hay năm năm tới Viện Hàn lâm Khoa học Thụy Điển tìm thấy kết luận trên - vốn rất đáng ngạc nhiên và nghe có vẻ mâu thuẫn - trong nghiên cứu của ba nhà khoa học Laureates, Eugene Fama, Lars Peter Hansen và Robert Shiller
- Bắt đầu từ những năm 1960, Eugene Fama và một số cộng sự đã chứng minh rằng giá chứng khoán rất khó đoán trong ngắn hạn, và rằng tin tức mới có ảnh hưởng cực kỳ nhanh chóng tới giá cả Những nghiên cứu này không chỉ làm tác động nền đến những nghiên cứu về sau, mà còn có những thay đổi đáng
kể tới thị trường Những quỹ đầu tư theo chỉ số (Index Fund) đang ngày một
nở rộ trên thị trường chứng khoán toàn cầu hiện nay là một trong những ví dụ tiêu biểu
- Neu giá cả hầu như không thể đoán được trong phạm vi vài ngày hay vài tuần, liệu chúng có trở nên càng khó đoán trong vòng vài năm Câu trả lời là không, như Robert Shiller từng khám phá ra vào đầu những năm 1980 Ông phát hiện
ra rằng giá chứng khoán dao động nhiều hon cổ tức các công ty, và rằng tỷ lệ giữa giá và cổ tức có xu hướng đi xuống khi cổ tức cao, và có xu hướng tăng khi cổ tức giảm Công thức này không chỉ đúng với chứng khoán, mà còn đúng với trái phiếu và các loại tài sản khác
- Lợi nhuận cao trong tưcmg lai được xem là khoản bù đắp cho việc nắm giữ tài sản rủi ro trong những thời điểm rủi ro bất thường Nhà khoa học thứ ba trong Giải thưởng lần này, ông Lars Peter Hansen đã phát triển một phương pháp thống kê có thể phù hợp với việc thử nghiệm công thức tỷ lệ trên vào việc định giá tài sản trên thực tế
3.2 Phân tích cơ bản trong đầu tư chứng khoán:
Phân tích cơ bản là một chiến lược phân tích đầu tư cố phiếu hoặc chứng khoán bằng cách xác định giá trị nội tại của nó Một thành phần rất quan trọng của phương pháp này là phải xem xét tình trạng tài chính của một công ty Các khía cạnh khác như quản lý, xu hướng công nghiệp, và điều kiện tống thể của nền kinh tế cũng được tính đến Mục tiêu chính là ước tính một giá trị nhất định cho công ty để có thể được sử dụng làm cơ sở quyết định Neu dữ liệu và thông tin hướng tới giá trị cao hơn giá trị hiện tại đang được đưa ra trên thị trường, giá trị hiện tại của cố phiếu được coi là bị định giá thấp Nói cách khác, các nhà đầu tư có thể thu lời từ khoảng trống phát triển trong giá trị của nó Ngược lại, nếu giá trị thấp hơn so với giá ngắn hạn hiện tại, công
ty được coi là định giá quá cao, và giá sẽ có xu hướng giảm dài hạn
Trong phân tích cơ bản, biện pháp chủ yếu được các nhà phân tích sử dụng để lựa chọn đầu tư vào cố phiếu là các nguyên tắc cơ bản của nó Phạm vi của nó khá rộng vì nó bao gồm sức mạnh tài chính, lãnh đạo ngành và việc
Trang 14quản lý chất lượng tốt Những người sử dụng phương pháp cơ bản tim kiếm những giá trị bị đánh giá thấp, có khả năng sinh lợi cao và tăng doanh thu từ các hoạt động kinh doanh cốt lõi, có khả năng trả nợ và có một dòng tiền tự
do đáng kể bao gồm khả năng đưa vào sử dụng hiệu quả Các chỉ số tài chính
mà các nhà đầu tư quan tâm bao gồm thu nhập trên mỗi cổ phiếu (EPS), hệ số thị giá và thu nhập cổ phiếu (PE), tỷ lệ giá hay giá trị ghi sổ (tỷ số p / B), tỷ suất lợi nhuận ròng và hệ thống thu nhập trên vốn cổ phần ROE)
- EPS là thước đo lợi nhuận Ví dụ: hai công ty có cùng thu nhập trên mỗi cổ phần, công ty nào có thể tạo ra cùng một khoản thu nhập sử dụng số vốn đầu
tư tương đối thấp là công ty kinh doanh hiệu quả hơn Trong khi đó, tỷ số P/E
là số tiền mà các nhà đầu tư sẵn sàng chi trả cho mỗi đồng đô la thu nhập Tỷ
số P/E cao cho thấy các nhà đầu tư có định giá cao cho công ty đó nhưng nó cũng có thể chỉ ra rằng cổ phiếu đang được định giá quá cao Ngoài P/E, các nhà đầu tư cũng sử dụng tỷ lệ PEG, cũng là 1 loại chỉ số P/E nhưng được dùng
để điều chỉnh sự tăng trưởng Những người sử dụng phương pháp cơ bản cũng
sử dụng tỷ số P/B, tỷ số cho thấy kỳ vọng của thị trường đối với thu nhập trong tương lai của công ty Nó thường được sử dụng kết hợp với lợi nhuận trên vốn chủ sở hữu, một biện pháp cho khả năng sinh lời
3.3 Phương pháp chuyên gia:
- Khung phân tích cơ bản bao gồm:
+ Phân tích hoạt động kinh doanh trong quá khứ
+ Phân tích rủi ro
+ Phân tích hoạt động kinh doanh trong tương lai
- Tương ứng với từng thành phần của khung phân tích, các chuyên gia đã đưa
ra các phương pháp phân tích Sau đây, với mỗi thành phần, tôi xin giới thiệu một phương pháp chuyên gia điển hĩnh:
3.3.1 F-Score của Piotroski:
- Mục tiêu là tìm kiếm những doanh nghiệp đạt 7 đến 9 điểm dựa trên Bảng điểm Piotroski F-Score
- Bảng điểm Piotroski F-Score được Joseph D Piotroski - Giáo sư toán tại trường đại học Chicago (hiện ông đang giảng dạy ở Đại học Standfod) - phát triển và giới thiệu ra công chúng lần đầu vào năm 2000
Ông đã phát triển một bộ quy tắc nhằm tìm kiếm những doanh nghiệp có sức khỏe tài chính về tỷ suất lợi nhuận, cơ cấu vốn, tính thanh khoản và hiệu quả hoạt động
- Đe sàng lọc những doanh nghiệp này, Piotroski sử dụng 1 danh sách (checklist) và cho điểm thưởng đối với mỗi chỉ tiêu của doanh nghiệp đáp ứng được tiêu chí trong checklist này
Trang 15- Điểm mạnh của Bảng điểm Piotroski F-Score là:
+ Khá đơn giản, dễ sử dụng: các tiêu chí Piotroski F-Score ở ngay trong BCTC của doanh nghiệp, việc cần làm chỉ là so sánh các tiêu chí đó và cho điểm; + Bảng điểm Piotroski F-Score có thể đuợc sử dụng nhu 1
bộ lọc cổ phiếu, giúp chúng ta tim ra những doanh nghiệp có tình hĩnh tài chính lành mạnh;
+ Lợi nhuận bĩnh quân gia tăng +23%/năm khi sử dụng Bảng điểm Piotroski F-Score (theo bài nghiên cứu nổi tiếng của J.D.Piotroski vào năm 2000)
- Cách xác định Piotroski F-Score: Chúng ta sẽ xác định 9 hệ số tài chính của BCTC tuơng ứng với thang điểm từ 0 đến 9, bao gồm:
3.3.1.1 Khả năng sinh lòi:
- Piotroski F-Score giành đến 4 điểm cho lợi nhuận Bao gồm:
+ 01 điểm cho những cải thiện về lợi nhuận của doanh nghiệp;
+ 01 điểm cho dòng tiền tích cực từ hoạt động kinh doanh;
+ 01 điểm cho sự trở lại tích cực của tỷ suất lợi nhuận;
+ Và 01 điểm khi dòng tiền hoạt động kinh doanh vuợt quá lợi nhuận ròng của doanh nghiệp
Đây là những chỉ tiêu khá đơn giản và dễ tính toán, đây cũng chính là
những yêu cầu cơ bản khi bạn muốn đánh giá tình hĩnh tài chính của
doanh nghiệp
- Lợi nhuận sau thuế (Net income):
+ Đây là chỉ tiêu quan trọng trên Báo cáo kết quả hoạt động kinh doanh của doanh nghiệp, là chỉ tiêu dùng để đánh giá hiệu quả kinh doanh theo thời gian
+ Neu lợi nhuận của doanh nghiệp luôn > 0 (và tăng theo thời gian), doanh nghiệp sẽ đuợc 1 điểm
+ Nguợc lại, nếu lợi nhuận của doanh nghiệp < 0 (thậm chí là giảm dần theo thời gian), doanh nghiệp sẽ không đuợc cộng điểm
Dòng tiền thuần từ hoạt động kinh doanh (Net Operating Cash flow):
+ Chỉ tiêu này dễ dàng đuợc tìm thấy trên Báo cáo lưu chuyển tiền tệ Dòng tiền thuần từ hoạt động kinh doanh đo lường số tiền được tạo ra bởi hoạt động kinh doanh thông thường của doanh nghiệp
+ Dòng tiền thuần từ hoạt động kinh doanh xem xét các yếu tố như tiền thu được từ các khoản phải thu (bán hàng và CCDV ), tiền phát sinh để phục
vụ sản xuất (trả nhà cung cấp ), chi phí lao động, thuế và trả lãi vay
Trang 16+ Dòng tiền thuần từ hoạt động kinh doanh > 0 có nghĩa là doanh nghiệp có thể tạo ra đủ tiền mặt để hoạt động liên tục mà không cần huy động thêm tiền
+ Neu doanh nghiệp có dòng tiền thuần từ hoạt động kinh doanh > 0 thi sẽ đuợc cộng 1 điểm
+ Nguợc lại, nếu dòng tiền thuần từ hoạt động kinh doanh <0, doanh nghiệp
sẽ không đuợc cộng điểm
- Tỷ suất lợi nhuận của tài sản (ROA):
+ Chỉ tiêu này đo luờng khả năng sinh lời của tài sản: Với 1 đồng tài sản thi doanh nghiệp tạo ra bao nhiêu đồng lợi nhuận sau thuế
+ ROA cao thể hiện các tài sản đang đuợc sử dụng và quản lý tốt
+ Neu doanh nghiệp có ROA năm nay cao hơn ROA năm liền kề thi sẽ đuợc cộng 1 điểm
+ Nguợc lại, ROA năm nay thấp hơn ROA năm liền kề, doanh nghiệp sẽ không đuợc cộng điểm
- Chất luợng lợi nhuận (Quality of Earnings):
+ Chỉ tiêu này khá đặc biệt, mục tiêu của chỉ tiêu này là giảm thiểu các nguy
cơ doanh nghiệp sử dụng các thủ thuật kế toán nhằm làm đẹp BCTC, ví
dụ nhu ghi nhận sớm doanh thu, hay ghi nhận thiếu chi phí
+ Khi tính Piotroski F-Score, nếu doanh nghiệp có Dòng tiền thuần từ hoạt động kinh doanh > Lợi nhuận sau thuế thi sẽ đuợc cộng 1 điểm
+ Nguợc lại, nếu Dòng tiền thuần từ hoạt động kinh doanh của doanh nghiệp
< Lợi nhuận sau thuế, doanh nghiệp sẽ không đuợc cộng điểm
3.3.1.2 Cơ cấu nguồn vốn, tính thanh khoản:
- Piotroski F-Score giành 3 điểm cho cơ cấu nguồn vốn và khả năng đáp ứng các nghĩa vụ nợ trong tuơng lai của doanh nghiệp Bao gồm:
+ 01 điểm cho tỷ lệ nợ dài hạn trên tài sản giảm trong năm;
+ 01 điểm cho khả năng thanh toán nợ ngắn hạn đuợc cải thiện trong năm; + Và 01 điểm cho việc doanh nghiệp không phát hành thêm cố phiếu để huy động vốn
- Piotroski F-Score giả định rằng: việc gia tăng đòn bấy tài chính, sự suy giảm khả năng thanh toán hay việc phải huy động các nguồn tài chính từ bên ngoài là dấu hiệu của rủi ro tài chính
- Hệ số nợ dài hạn trên tống tài sản (Long-term Debt to Assets):
+ Chỉ tiêu này phản ánh tài sản của doanh nghiệp đuợc tài trợ từ bao nhiêu phần là nợ dài hạn Việc sử dụng các khoản nợ một cách hợp lý sẽ giúp doanh nghiệp mở rộng hoạt động, gia tăng lợi nhuận
Trang 17+ Chỉ tiêu này được so sánh qua các năm để xem xét khả năng tăng trưởng của nợ dài hạn có cao hơn tốc độ tăng trưởng tổng tài sản của doanh nghiệp hay không và nguy cơ dẫn đến mất khả năng thanh toán của doanh nghiệp khi gặp khó khăn
+ Doanh nghiệp có hệ số nợ dài hạn trên tài sản năm nay nhỏ hơn các năm trước (hoặc = 0) thì được cộng 1 điểm
+ Ngược lại, hệ số nợ dài hạn trên tài sản năm nay lớn hơn các năm trước thi doanh nghiệp sẽ không được cộng điểm
+ Tương tự, ta có thể điều chỉnh tính toán dựa trên tỷ lệ nợ trên vốn chủ sở hữu, miễn là ta thấy được có sự cải thiện trong năm tài chính (tức là, hệ số
nợ dài hạn trên vốn chủ sở hữu năm nay thấp hơn năm trước)
- Hệ số khả năng thanh toán nợ ngắn hạn (Current Ratio):
+ Chỉ tiêu phản ánh khả năng thanh toán các khoản nợ ngắn hạn của doanh nghiệp bằng việc chuyển đổi tài sản ngắn hạn thành tiền (Nợ ngắn hạn là các khoản nợ dưới 1 năm mà doanh nghiệp phải thanh toán)
+ Chỉ tiêu này càng cao thể hiện khả năng thanh toán các khoản nợ ngắn hạn của doanh nghiệp càng tốt, ít gặp rủi ro trong thanh toán
+ Khi tính Piotroski F-Score, doanh nghiệp có hệ số này năm nay cao hơn năm trước (thể hiện khả năng thanh toán nợ được cải thiện) thi được cộng
1 điểm
+ Ngược lại, hệ số khả năng thanh toán nợ ngắn hạn năm nay thấp hơn năm trước, doanh nghiệp sẽ không được cộng điểm
- Số lượng cổ phiếu phổ thông đang lưu hành:
+ Giống như việc gia tăng nợ dài hạn, việc một doanh nghiệp phát hành quá nhiều cổ phiếu (huy động thêm vốn từ bên ngoài) có thể chỉ ra rằng, doanh nghiệp hiện không tạo ra đủ lượng tiền mặt để duy trĩ hoạt động
+ Neu doanh nghiệp trong kỳ phát hành nhiều cố phiếu sẽ dẫn đến Lợi nhuận trên một cố phần (EPS) bị pha loãng, EPS giảm Bạn cũng cần đánh giá xem, việc gia tăng số lượng cố phiếu (khiến cho EPS giảm trong ngắn hạn)
có tương xứng với thu nhập sẽ thu lại được trong tương lai hay không? + Khi tính Piotroski F-Score, số lượng cố phiếu lưu hành năm hiện tại nhỏ hơn hoặc bằng số cố phiếu lưu hành năm trước cộng thêm 2% số lượng cổ phiếu lưu hành năm đó, thì doanh nghiệp sẽ được cộng 1 điểm
3.3.1.3 Hiệu quả hoạt động:
- 2 yếu tố cuối cần xem xét trong Bảng điểm Piotroski F-Score đó là các thay đổi trong hiệu quả hoạt động của doanh nghiệp, đến từ:
Trang 18+ 01 điểm cho việc gia tăng biên lợi nhuận gộp;
+ 01 điểm cho doanh thu trên tài sản tăng qua các năm
- Biên lợi nhuận gộp (Gross margin):
+ Lợi nhuận gộp là chỉ tiêu tài chính đo luờng khả năng sinh lời và sức cạnh tranh của doanh nghiệp Nó là sự chênh lệch giữa giá bán và chi phí làm
ra sản phẩm, dịch vụ (giá vốn hàng bán) của doanh nghiệp
+ Biên lợi nhuận gộp lớn hơn và doanh thu ổn định theo thời gian, sẽ tạo ra nhiều lợi nhuận dự kiến hơn cho doanh nghiệp Tuy nhiên, xu huớng cần phải theo dõi vì nó có liên quan đến yếu tố thị truờng (ví dụ giá nguyên vật liệu ) và yếu tố cạnh tranh thị truờng
+ Việc biên lợi nhuận gộp đuợc cải thiện là tín hiệu tốt cho sự cải thiện về chi phí sản xuất, hay việc tăng giá bán sản phẩm của doanh nghiệp
+ Doanh nghiệp có Biên lợi nhuận gộp năm nay cao hơn năm truớc thì cộng thêm 1 điểm
- Vòng quay tài sản (Assets Turnover):
+ Chỉ tiêu này phản ánh tình hình sử dụng tài sản của doanh nghiệp
+ Doanh nghiệp có số vòng quay tài sản năm nay cao hơn năm truớc sẽ đuợc cộng 1 điểm
3.3.2 M-Score của Beneish:
- Messod Daniel Beneish lấy học vị tiến sĩ tại Đại học Chicago vào năm 1987 Sau đó, ông tiếp tục nghiên cứu và giảng dạy tại Đại học Indiana từ năm 1996
- Giáo su Messod Daniel Beneish phát triển các lý thuyết nền tảng và xây dựng
Mô hình M-Score từ năm 1999 để kiểm định báo cáo tài chính của các công
ty niêm yết Đây cũng là một trong những mô hình định luợng đuợc sử dụng rộng rãi nhất trên thế giới
Trong các tài liệu của CFA cũng nhu những chuông trình học chuyên sâu về phân tích tài chính khác hầu hết đều có đề cập đến mô hĩnh này Công thức của M-Score đuợc xác định nhu sau:
M-Score = -4.84 + 0.0920 x DSRI + 0.528 x GMI + 0.404 x AQI + 0.892 x SGI + 0.115 X DEPI - 0.172 x SGAI + 4.679 x TATA - 0.327 X LVGI
Ta có thể dễ dàng nhận thấy đây là mô hình 8 biến Trong mô hĩnh này có sự phân chia khá rõ nét thành hai nhóm:
+ Nhóm 1 gồm các biến số giúp nhận diện gian lận: DSRI, AQI, DEPI, và TATA
+ Nhóm 2 gồm các biến số giúp phản ánh động cơ gian lận: GMI, SGI, SGAIvàLVGI
- Sau đây là tên gọi cụ thể của từng biến số:
Trang 19+ DSRI (Days Sales Receivable Index): Chỉ số phải thu khách hàng so với doanh thu
+ GMI (Gross Margin Index): Chỉ số tỷ lệ lãi gộp
+ AQI (Asset Quality Index): Chỉ số chất luợng tài sản
+ SGI (Sales Growth Index): Chỉ so tăng truởng doanh thu bán hàng
+ DEPI (Depreciation Index): Chỉ số tỷ lệ khấu hao
+ SGAI (Sales, General and Administration Expense Index): Chỉ so chi phí bán hàng và quản lý doanh nghiệp
+ TATA (Total Accrual on Total Assets): Chỉ số biến dồn tích so với tổng tài sản
+ LVGI (Leverage Index): Chỉ số đòn bẩy tài chính - Cách tính từng chỉ số: + DSRI: Chỉ số phải thu khách hàng so với doanh thu
DSRI =(Khoản phải thut / Doanh thu thuầnt) / (Khoản phải thut-1 /Doanh thu thuần t-1)
+ Chỉ số tăng truởng doanh thu bán hàng (SGI)
SGI = Salest / Salest-1
+ Chỉ số tỷ lệ khấu hao (DEPI)
DEPI = [Depreciationt-l/(PP&Et-l + Depreciationt- l)]/[Depreciationư(PP&Et +Depreciationt)]
+ Chỉ số chi phí bán hàng và quản lý doanh nghiệp (SGAI)
SGAI = (SG&A Expenset / Salest) / (SG&A Expenset-1 / Salest-1) + Chỉ số đòn bẩy tài chính (LVGI)
LVGI = [(Current Liabilitiest + Total Long Term Debtt) / Total
Assetst] / [(Current Liabilitiest-1 + Total Long Term Debtt-1) / Total Assetst-1]
+ Chỉ so biến don tích accruals so với tong tài sản (TATA)
TATA = (Net Incomet - Cash Flows from Operationst) / Total Assetst
Trang 20Tám biến của mô hình Beneish được chia thành hai nhóm: một nhóm các biến giúp nhận diện gian lận và nhóm còn lại phản ánh động cơ gian lận
Các biến nhận diện khả năng gian lận gồm DSRI, AQI, DEPI, và TATA Các biến nhận diện động cơ gian lận gồm GMI, SGI, SGAI, LVGI
Mặt khác, M-score là một biến phân phối ngẫn nhiên có giá trị trung bĩnh bằng 0 và độ lệch chuẩn bằng 1 Do đó, khả năng có thao túng và quản trị lợi nhuận trong báo cáo tài chính có thể được tính toán bằng chỉ số M- Score thông qua chức năng trả về hàm phân phối chuẩn NORMSDIST trong ứng dụng Microsoft Excel
Giáo sư Beneish cho rằng M-Score nên duy trĩ dưới -1.78
Trang 224 Học Máy:
Chương này bắt đầu với phần giới thiệu về học máy và các giải thuật học máy khác nhau, vấn đề phân loại có giám sát được mô tả kỹ hon và các vấn đề overfitting được thảo luận cũng với các cách để tránh nó Phần thứ hai thảo luận
về các thuật toán học máy sẽ được nghiên cứu trong luận văn này Phần cuối cùng
mô tả các vấn đề thường gặp và các phương pháp xử lý trong quá trình tiền xử lý
dữ liệu, đánh giá và lựa chọn mô hình phù họp
4.1 Giới thiệu về Học máy:
- Những năm gần đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), và cụ thể hơn là Machine Learning (Học Máy hoặc Máy Học) nổi lên như một bằng chứng của cuộc cách mạng công nghiệp lần thứ tư (1 - động cơ hơi nước, 2 - năng lượng điện, 3 - công nghệ thông tin) Trí Tuệ Nhân Tạo đang len lỏi vào mọi lĩnh vực trong đời sống mà có thể chúng ta không nhận ra Xe tự hành của Google và Tesla, hệ thống tự tag khuôn mặt trong ảnh của Facebook, trợ
lý ảo Siri của Apple, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi ý phim của Netflix, máy chơi cờ vây AlphaGo của Google DeepMind, , chỉ là một vài trong vô vàn những ứng dụng của AI/Machine Learning
- Học máy là một tập con của Trí tuệ nhân tạo Theo định nghĩa của Wikipedia, Machine learning is the subfield of computer science that “gives computers the ability to leam without being explicitly programmed” Nói đơn giản, Học máy là một lĩnh vực nhỏ của Khoa Học Máy Tính, nó có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể
- Những năm gần đây, khi mà khả năng tính toán của các máy tính được nâng lên một tầm cao mới và lượng dữ liệu khổng lồ được thu thập bởi các hãng công nghệ lớn, Học máy đã tiến thêm một bước dài và một lĩnh vực mới được
ra đời gọi là Deep Learning (Học Sâu) Học sâu đã giúp máy tính thực thi những việc tưởng chừng như không thể vào 10 năm trước: phân loại cả ngàn vật thể khác nhau trong các bức ảnh, tự tạo chú thích cho ảnh, bắt chước giọng nói và chữ viết của con người, giao tiếp với con người, hay thậm chí cả sáng tác văn hay âm nhạc
>950's 1960 s 1970‘s 1980 s 1990's 2000 - S 2010 s
Hĩnh 1: Tóm tắt sự phát triển của Học máy
Trang 234.1.1 Phân loại các thuật toán học máy:
Theo phưong thức học, các thuật toán Học máy thường được chia làm 4 nhóm: Supervise learning, Unsupervised learning, Semi-supervised lerning và Reinforcement learning Có một so cách phân nhóm không có Semi- supervised learning hoặc Reinforcement learning
- Supervised Learning (Học có giám sát)
Học có giám sát là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Học có giám sát là nhóm phổ biến nhất trong các thuật toán Học máy
Một cách toán học, Học có giám sát là khi chúng ra có một tập hợp biến đầu vào X={xl,x2, ,xN} và một tập hợp nhãn tưong ứng Y={yl,y2, ,yN}, trong
đó xi,yi là các vector Các cặp dữ liệu biết trước (xi,yi)eXxY được gọi là tập training data (dữ liệu huấn luyện) Từ tập traing data này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) tưong ứng của tập Y: yi~f(xi), Vi=l,2, ,N Mục đích là xấp xỉ hàm số f thật tốt để khi có một dữ liệu X mới, chúng ta có thể tính được nhãn tưong ứng của nó y=f(x)
Ví dụ 1: trong nhận dạng chữ viết tay, ta có ảnh của hàng nghìn ví dụ của mỗi chữ số được viết bởi nhiều người khác nhau Chúng ta đưa các bức ảnh này vào trong một thuật toán và chỉ cho nó biết mỗi bức ảnh tưong ứng với chữ
số nào Sau khi thuật toán tạo ra (sau khi học) một mô hình, tức một hàm số
mà đầu vào là một bức ảnh và đầu ra là một chữ số, khi nhận được một bức ảnh mới mà mô hình chưa nhìn thấy bao giờ, nó sẽ dự đoán bức ảnh đó chứa chữ số nào
Ví dụ này khá giống với cách học của con người khi còn nhỏ Ta đưa bảng chữ cái cho một đứa trẻ và chỉ cho chúng đây là chữ A, đây là chữ B Sau một vài lần được dạy thì trẻ có thể nhận biết được đâu là chữ A, đâu là chữ B trong một cuốn sách mà chúng chưa nhìn thấy bao giờ
Ví dụ 2: Thuật toán dò các khuôn mặt trong một bức ảnh đã được phát triển
từ rất lâu Thòi gian đầu, facebook sử dụng thuật toán này để chỉ ra các khuôn mặt trong một bức ảnh và yêu cầu người dùng tag friends - tức gán nhãn cho mỗi khuôn mặt Số lượng cặp dữ liệu (khuôn mặt, tên người) càng lớn, độ chính xác ở những lần tự động tag tiếp theo sẽ càng lớn
Ví dụ 3: Bản thân thuật toán dò tìm các khuôn mặt trong 1 bức ảnh cũng là một thuật toán Học có giám sát với training data (dữ liệu học) là hàng ngàn cặp (ảnh, mặt người) và (ảnh, không phải mặt người) được đưa vào Chú ý là
dữ liệu này chỉ phân biệt mặt người và không phải mặt người mà không phân biệt khuôn mặt của những người khác nhau
Thuật toán Học có giám sát còn được tiếp tục chia nhỏ ra thành hai loại chính: + Classification (Phân loại)
Trang 24Một bài toán được gọi là Phân loại nếu các nhãn của dữ liệu đầu vào được chia thành một số hữu hạn nhóm Ví dụ: Gmail xác định xem một email
có phải là spam hay không; các hãng tín dụng xác định xem một khách hàng có khả năng thanh toán nợ hay không Ba ví dụ phía trên được chia vào loại này
+ Regression (Hồi quy)
Nếu nhãn không được chia thành các nhóm mà là một giá trị thực cụ thể
Ví dụ: một căn nhà rộng X m2, có y phòng ngủ và cách trung tâm thành phố z km sẽ có giá là bao nhiêu?
Gần đây Microsoft có một ứng dụng dự đoán giới tính và tuổi dựa trên khuôn mặt Phần dự đoán giới tính có thể coi là thuật toán Phân loại, phần
dự đoán tuổi có thể coi là thuật toán Hồi quy Chú ý rằng phần dự đoán tuổi cũng có thể coi là Phân loại nếu ta coi tuổi là một số nguyên dương không lớn hơn 150, chúng ta sẽ có 150 class (lóp) khác nhau
- Unsupervised Learning (Học không giám sát)
Trong thuật toán này, chúng ta không biết được kết quả hay nhãn mà chỉ có
dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán
Một cách toán học, Học không giám sát là khi chúng ta chỉ có dữ liệu vào X
mà không biết nhãn Y tương ứng
Những thuật toán loại này được gọi là Học không giám sát vĩ không giống như Học có giám sát, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu vào Giống như khi ta học, không có thầy cô giáo nào chỉ cho ta biết
đó là chữ A hay chữ B Cụm không giám sát được đặt tên theo nghĩa này Các bài toán Học không giám sát được tiếp tục chia nhỏ thành hai loại: + Clustering (phân nhóm)
Một bài toán phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựa trên
sự liên quan giữa các dữ liệu trong mỗi nhóm Ví dụ: phân nhóm khách hàng dựa trên hành vi mua hàng Điều này cũng giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau,
ví dụ tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm Mặc dù không cho trẻ biết mảnh nào tương ứng với hình nào hoặc màu nào, nhiều khả năng chúng vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng
+ Association
Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều
dữ liệu cho trước Ví dụ: những khách hàng nam mua quần áo thường có
xu hướng mua thêm đồng hồ hoặc thắt lưng; những khán giả xem phim Spider Man thường có xu hướng xem thêm phim Bat Man,
Trang 25dựa vào đó tạo ra một hệ thống gợi ý khách hàng (Recommendation System), thúc đẩy nhu cầu mua sắm
- Semi-Supervised Learning (Học bán giám sát)
Các bài toán khi chúng ta có một lượng lớn dữ liệu X nhưng chỉ một phần trong chúng được gán nhãn được gọi là Học bán giám sát Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên
Một ví dụ điển hĩnh của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập
từ internet Thực tế cho thấy rất nhiều các bài toán Học máy thuộc vào nhóm này vĩ việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet
- Reinforcement Learning (Học Củng cố)
Học củng cố là các bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất Hiện tại, học củng cố chủ yếu được áp dụng vào Lý Thuyết Trò Chơi, các thuật toán cần xác định nước
đi tiếp theo để đạt được điểm số cao nhất
4.1.2 Hàm mất mát và tham số mô hình:
- Mỗi mô hĩnh học máy được mô tả bởi các tham số mô hĩnh (model parameters) Công việc của một thuật toán học máy là đi tim các tham số mô hĩnh phù hợp với mỗi bài toán Việc đi tim tham số mô hĩnh có liên quan mật thiết đến các phép đánh giá Mục đích của chúng ta là đi tim các tham số mô hĩnh sao cho các phép đánh giá cho kết quả tốt nhất Trong bài toán phân lớp, kết quả tốt
có thể được hiểu là ít điểm dữ liệu được phân lóp sai nhất Trong bài toán hồi quy, kết quả tốt là khi sự sai lệch giữa đầu ra dự đoán và đầu ra thực sự là ít nhất
Quan hệ giữa một phép đánh gía và các tham số mô hĩnh thường được mô tả thông qua một hàm số được gọi là hàm mất mát (loss function, hay cost function) Hàm mat mát này thường có giá trị nhỏ khi phép đánh giá cho kết quả tốt và ngược lại Việc đi tìm các tham số mô hĩnh sao cho phép đánh giá trả về kết quả tốt tương đương với việc tối thiểu hàm mất mát Như vậy, việc xây dựng một mô hĩnh học máy chính là việc đi giải một bài toán tối ưu Quá trình đó có thể được coi là quá trình học của máy
4.1.3 Over- và underfitting
- Mỗi khi thảo luận về một mô hĩnh dự đoán, điều quan trọng nhất cần quan tâm
là các dự đoán bị sai lệch so với thực tế (bias và variance) Có một sự đánh đối khi cần tối thiểu hóa 2 đại lượng này Hiểu được mối quan hệ đó, thay vĩ chỉ quan tâm đến accuracy, chúng ta sẽ tránh được hiện tượng overfitting hoặc
Trang 26Bias là gì? Bias là sự sai khác giữa trung bĩnh dự đoán của mô hĩnh chúng ta xây dựng với giá trị chính xác đang cố gắng để dự đoán Một mô hĩnh với trị
so bias cao đồng nghĩa với việc mô hĩnh đó không quan tâm nhiều tới dữ liệu huấn luyện, khiến cho mô hĩnh trở nên đơn giản quá Nó thường dẫn đến việc
mô hĩnh có mức độ lỗi cao cả trên tập huấn luyện và tập kiểm thử
Variance là gĩ? Variance đặc trưng cho mức độ tản mát của giá trị dự đoán cho điểm dữ liệu Mô hĩnh với mức độ variance cao tập trung chú ý nhiều vào
dữ liệu huấn luyện và không mang được tính tổng quát trên dữ liệu chưa gặp bao giờ Từ đó dẫn đến mô hĩnh đạt được kết quả cực kĩ tốt trên tập dữ liệu huấn luyện, tuy nhiên kết quả rất tệ với tập dữ liệu kiểm thử
Dưới góc nhìn toán học Cho biến ngẫu nhiên cần dự đoán là Y tuân theo biến ngẫu nhiên X nào đó Giả sử rằng có một mối quan hệ giữa chúng dưới dạng: Y=f(X)+e Với e là phần lỗi tuân theo phân phối chuẩn và có giá trị kĩ vọng bằng 0
Chúng ta tiến hành xây dựng mô hĩnh fA(X) của f(X) bằng hồi quy tuyến tính hay bất kĩ thuật toán nào khác Khi đó, kĩ vọng của bĩnh phương sai số tại điểm dữ liệu X bất kĩ sẽ được biểu diễn bằng:
Phần lỗi không giảm được là phần lỗi không thể giảm bằng cách tạo ra một
mô hĩnh tốt Nó được đo bằng lượng dữ liệu nhiễu trong tập dữ liệu Điều này chỉ ra rằng bất kể cố gắng làm tốt thế nào khi xây dựng mô hĩnh, luôn có những sai lệch chúng ta không thể kiểm soát được do dữ liệu luôn tồn tại những điểm nhiễu khó dự đoán trước
Một ví dụ trực quan về bias và variance:
Hình 2: Mối quan hệ giữa bias và variance
Trang 27- Trong hình trên, điểm trung tâm là điểm dự đoán tối ưu, cũng là giá trị chính xác mà chúng ta đang hướng tới
- Trong học có giám sát, underfitting xảy ra khi mô hĩnh không thể mô tả được các mẫu cơ bản của dữ liệu Các mô hĩnh này thường có bias cao và variance thấp Hiện tượng này dễ xảy ra khi lượng dữ liệu huấn luyện quá ít hoặc người phân tích dữ liệu cố gắng mô tả các dữ liệu phức tạp bằng các mô hĩnh đơn giản như hồi quy tuyến tính hay hồi quy logistic
- Ngược lại, overfitting xảy ra khi mô hĩnh biểu diễn cả dữ liệu nhiễu bên cạnh
dữ liệu biểu diễn quy luật (có thể coi là dữ liệu sạch) Nó xảy ra khi train mô hĩnh với rất nhiều dữ liệu bị nhiễu Mô hĩnh bị quá phức tạp so với mức độ cần thiết, bị lệ thuộc nhiều vào dữ liệu huấn luyện, thường có bias nhỏ và variance lớn Model phức tạp kiểu như decision tree thường dễ bị overfitting
Hình 3: Minh họa Overfitting, Underfitting và Good Balance
- Tại sao nói bias và variance có mối quan hệ đánh đổi Neu mô hĩnh quá đơn giản, khi đó nó sẽ gặp vấn đề bias lớn và variance thấp Mặt khác, nếu model
có một lượng lớn tham số thi nó sẽ có variance lớn và bias nhỏ Do đó, chúng
ta cần tim ra điểm tối ưu mà cân bằng được 2 đại lượng này, tránh việc xảy ra overfitting hay underfitting
- Sự đánh đổi của mức độ phức tạp trong mô hĩnh chính là sự đánh đổi của bias
và variance Một mô hĩnh không thể nào vừa đơn giản, lại vừa phức tạp Trong quá trình tối ưu hàm chi phí, việc cân bang bias và variance đồng nghĩa với việc xây dựng mô hĩnh tối ưu
Total Error = Bias A 2 + Variance + Irreducible Error
Hình 4: Mối quan hệ giữa Lỗi (Error) và Mức độ phục tạp của giải thuật (Algo
Trang 28Điểm cân bằng của bias và variance sẽ không bao giờ bị overfitting hoặc underfitting Do vậy, hiểu đuợc mối quan hệ giữa 2 đại luợng là cực kì quan trong trong việc đánh giá đuợc các mô hình dự đoán sau này
4.2 Các giải thuật học máy:
- Trong những thập kỷ gần đây, nhiều thuật toán có thể đuợc sử dụng trong học
có giám sát đã đuợc giới thiệu trong lĩnh vực học máy Thông thuờng nguời
ta không biết thuật toán nào hoạt động tốt hơn cho từng vấn đề hoặc ứng dụng học tập cụ thể (Caruana, 2006) Tuy nhiên, có một số thuật toán đuợc sử dụng phổ biến hơn các thuật toán khác Một số thuật toán trong các thuật toán phổ biến đuợc đuợc thực hiện trong luận văn này, đó là:
- Naive Bayes là một thuật toán áp dụng các giả định Bayes đơn giản để tạo ra một mô hĩnh phi tuyến tính, nhanh và chua đuợc chứng minh là mạnh mẽ trong nhiều ứng dụng học tập có giám sát (Friedman et al., 2001) Mặc dù chỉ
có một vài truờng hợp triển khai dự đoán cổ phiếu có thể đuợc tim thấy trong tài liệu, Imandoust và Bolandraftar (2014) đã cho thấy kết quả đầy hứa hẹn cho việc sử dụng thuật toán phân loại chứng khoán trong việc sử dụng thuật toán
- Random Forest về cơ bản là một nhóm các cây quyết định, cố gắng giảm các phuơng sai mô hĩnh trong khi cũng xây dựng các loại cây khác nhau cho phép tạo ra một mô hĩnh mạnh mẽ hơn Trong những năm gần đây, thuật toán này ngày càng phố biến và đuợc nhiều nguời chứng minh là một trong những thuật toán học máy tốt nhất hiện có Một nghiên cứu của Brofos (2014), đã chỉ ra rằng việc học tập nhu Rừng ngẫu nhiên có thể cho một số lĩnh vực tài chính đóng góp vào hiệu suất dự đoán cao hơn so với SVM
SVM trong những năm gần đây đã làm sáng tỏ hầu hết mọi loại vấn đề học tập có giám sát Đây cũng là truờng hợp cho các ứng dụng khác nhau về dữ liệu tài chính và hầu hết các tài liệu dự đoán cố phiếu học máy trong những năm gần đây chỉ áp dụng SVM để dự đoán mô hình chứng khoán, làm cho nó trở thành một lựa chọn tự nhiên để nghiên cứu trong luận văn này
Mạng nơ-ron nhân tạo cố gắng bắt chuớc khả năng học tập của não cũng là một thuật toán học phố biến trong những năm sau đó và thuờng đuợc áp dụng cho việc học thích ứng và có thể học các huớng dẫn rất phức tạp 'VÀ', 'HOẶC', 'VÀ KHÔNG' giải thích các mối quan hệ trong dữ liệu Quỹ
Trang 29tương hỗ AI do Maj Invest ra mắt, đã thực hiện thuật toán này với thành công nhỏ vào năm 2012 nhưng đã phải đóng cửa vào năm 2014 (Kara, 2012; BENTOW, 2014) Mặc dù thuật toán này cũng sẽ phục vụ như một ứng cử viên thú vị để nghiên cứu trong luận văn này, nó vẫn nằm ngoài phạm vi của luận văn
- Các thuật toán học máy được nghiên cứu trong luận văn này được trình bày
và rút ra trong các phần phụ sau Do sự phổ biến và các buổi biểu diễn sau đó, một trọng tâm bổ sung được đưa vào để khám phá và giải thích sự phát sinh của SVM
Hình 5: Minh họa một số hàm kích hoạt (activation)
- Đường màu đỏ (chỉ khác với activation function của PLA ở chỗ hai class là 0
và 1 thay vì -1 và 1) cũng thuộc dạng ngưỡng cứng (hard threshold) PLA không hoạt động trong bài toán này vì dữ liệu đã cho không linearly separable
- Các đường màu xanh lam và xanh lục phù hợp với bài toán của chúng ta hơn Chúng có một vài tính chất quan trọng sau:
+ Là hàm số liên tục nhận giá trị thực, bị chặn trong khoảng (0,1)(0,1) + Neu coi điểm có tung độ là 1/2 làm điểm phân chia thì các điểm càng xa điểm này về phía bên trái có giá trị càng gần 0 Ngược lại, các điểm càng
xa điểm này về phía phải có giá trị càng gần 1 Điều này khớp với nhận xét rằng học càng nhiều thì xác suất đỗ càng cao và ngược lại
+ Mượt (smooth) nên có đạo hàm mọi nơi, có thể được lợi trong việc tối ưu Trong số các hàm số có 3 tính chất nói trên thì hàm sigmoid:
Trang 30Đặc biệt hơn nữa:
1 + e_* 1 + e~‘
= <r(s)(l - ơ-(s))
- Công thức đạo hàm đon giản thế này giúp hàm số này được sử dụng rộng rãi
Ở phần sau, tôi sẽ lý giải việc người ta đã tìm ra hàm số đặc biệt này như thế nào
- Ngoài ra, hàm tanh cũng hay được sử dụng:
e* —
e~ s tanh(,s) = - —
Hàm số này nhận giá trị trong khoảng (-1,1) nhưng có thể dễ dàng đưa nó về khoảng (0,1)
4.2.2 The Naive Bayes classifier
- Xét bài toán Phân loại với c classes l,2, ,c Giả sử có một điểm dữ liệu xeRd Hãy tính xác suất để điểm dữ liệu này rơi vào class c Nói cách khác, hãy tính:
p{y — c l x ) (1)
hoặc viết gọn thành p(c|x) Tức tính xác suất để đầu ra là class c biết rằng đầu vào là vector X.
- Biểu thức này, nếu tính được, sẽ giúp chúng ta xác định được xác suất để điểm
dữ liệu rơi vào mỗi class Từ đó có thể giúp xác định class của điểm dữ liệu
đó bằng cách chọn ra class có xác suất cao nhất:
Trang 31Thành phần còn lạip(x|c), tức phân phối của các điểm dữ liệu trong class c, thường rất khó tính toán vì X là một biến ngẫu nhiên nhiều chiều, cần rất nhiều
dữ liệu training để có thể xây dựng được phân phối đó Để giúp cho việc tính toán được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các thành phần của biến ngẫu nhiên X là độc lập với nhau, nếu biết c (given c) Tức là:
d p(x|c) = p(x u X 2 , ,x d \c) = Yịp(Xi\c) (6)
i=l
Giả thiết các chiều của dữ liệu độc lập với nhau, nếu biết cc, là quá chặt và ít khi tim được dữ liệu mà các thành phần hoàn toàn độc lập với nhau Tuy nhiên, giả thiết ngây ngô này lại mang lại những kết quả tốt bất ngờ Giả thiết
về sự độc lập của các chiều dữ liệu này được gọi là Naive Bayes Cách xác định class của dữ liệu dựa trên giả thiết này có tên là Naive Bayes Classifier (NBC)
NBC, nhờ vào tính đơn giản một cách ngây thơ, có tốc độ training và test rất nhanh Việc này giúp nó mang lại hiệu quả cao trong các bài toán large-scale
Ở bước training, các phân phối p(c) và p(xi|c),i=l, ,d sẽ được xác định dựa vào training data Việc xác định các giá trị này có thể dựa vào Maximum Likelihood Estimation hoặc Maximum A Posteriori
Ở bước test, với một điểm dữ liệu mới XX, class của nó sẽ được xác đinh bởi:
d
c = arg max p(c)T7p(íCi|c) (7)
Khi d lớn và các xác suất nhỏ, biểu thức ở vế phải của (7) sẽ là một số rất nhỏ, khi tính toán có thể gặp sai số Đe giải quyết việc này, (7) thường được viết lại dưới dạng tương đương bằng cách lấy log của vế phải:
d
c - arg max = log(p(c)) + Ỵ' log(p(ar, |c)) (7.1)
Việc này không ảnh hưởng tới kết quả vĩ log là một hàm đồng biến trên tập các số dương
Mặc dù giả thiết mà Naive Bayes Classifiers sử dụng là quá phi thực tế, chúng vẫn hoạt động khá hiệu quả trong nhiều bài toán thực tế, đặc biệt là trong các bài toán phân loại văn bản, ví dụ như lọc tin nhắn rác hay lọc email spam Trong phần sau của bài viết, chúng ta cùng xây dựng một bộ lọc email spam tiếng Anh đơn giản
Cả việc training và test của NBC là cực kỳ nhanh khi so với các phương pháp Phân loại phức tạp khác Việc giả sử các thành phần trong dữ liệu là độc lập với nhau, nếu biết class, khiến cho việc tính toán mỗi phân phối p(xilc) trở nên cực kỳ nhanh
Trang 32- Mỗi giá trịp(c), c=l, 2, , c, có thể được xác định như là tần suất xuất hiện của
class cc trong training data
- Việc tính toán p(xilc) phụ thuộc vào loại dữ liệu Có ba loại được sử dụng phổ biến là: Gaussian Naive Bayes, Multinomial Naive Bayes, và Bernoulli Naive
4.2.3 Support Vector Machine
- Giả sử rằng các cặp dữ liệu của training set là (xl,yl), (x2,y2), , (xN,yN) với vector xieRd thể hiện đầu vào của một điểm dữ liệu và yi là nhãn của điểm
dữ liệu đó d là số chiều của dữ liệu và N là số điểm dữ liệu Giả sử rằng nhãn của mỗi điểm dữ liệu được xác định bởi yi=l (class 1) hoặc yi=—1 (class 2) giống như trong PLA.Đe dễ hĩnh dung, chúng ta cùng xét trường hợp trong không gian hai chiều dưới đây
Hình 6: Minh họa bài giải thuật SVM trong không gian 2 chiều
- Giả sử rằng các điểm vuông xanh thuộc class 1, các điểm tròn đỏ thuộc class -1 và mặt wTx+b=wlxl+w2x2+b=0 là mặt phân chia giữa hai classes (Hĩnh 3) Hon nữa, class 1 nằm về phía dưong, class -1 nằm về phía âm của mặt phân chia Neu ngược lại, ta chỉ cần đổi dấu của w và b Chú ý rằng chúng ta cần đi tìm các hệ so w và b
Ta quan sát thấy một điểm quan trọng sau đây: với cặp dữ liệu (xn,yn) bất kỳ, khoảng cách từ điểm đó tới mặt phân chia là:
J/ n (w r x„ + 6)
IMIa Điều này có thể dễ nhận thấy vĩ theo giả sử ở trên, yn luôn cùng dấu với phía của xn Từ đó suy ra yn cùng dấu với (wTxn+b), và tử số luôn là 1 số không
Trang 33(w,i)
Bài toán tối ưu trong SVM chính là bài toán tìm w và b sao
cho margin này đạt giá trị lớn nhất:
Nhận xét quan trọng nhất là nếu ta thay vector hệ
so w bởi kw và b bởi kb trong đó k là một hằng số dương thi mặt phân chia không thay đổi, tức khoảng cách từ từng điểm đến mặt phân chia không đổi, tức margin không đổi Dựa trên tính chất này, ta có thể giả sử:
y n ( w T x n+ b) = 1
với những điểm nằm gần mặt phân chia nhất như Hĩnh 4 dưới đây:
Hình 7: Minh họa bài giải thuật SVM trong không gian 2 chiều Như vậy, với mọi n, ta có:
y n (w r x n + ò) > 1
Vậy bài toán tối ưu (1) có thể đưa về bài toán tối ưu có ràng buộc sau đây:
(w,6) =argmax—!—
wb IMIỉ subject to: 2/„(wrx„ +ỉ>) > l,Vn= l,2, ,iV (2)
Bằng 1 biến đối đơn giản, ta có thể đưa bài toán này về bài toán dưới đây:
(w,ỉ>) = arg min 11 w| I2
subject to: 1 — j/ n (w rx„ + b) < 0, Vn = 1 , 2 , , N ( 3 )
Ở đây, chúng ta đã lấy nghịch đảo hàm mục tiêu, bĩnh phương nó để được một hàm khả vi, và nhân với 1/2 để biểu thức đạo hàm đẹp hơn
Trang 34- Xác định class cho một điểm dữ liệu mới: Sau khi tim đuợc mặt phân cách wTx+b=0, class của bất kỳ một điểm nào sẽ đuợc xác định đơn giản bằng cách:
class(x) = sgn(w7’x + b)
- Trong đó hàm sgn là hàm xác định dấu, nhận giá trị 1 nếu đối số là không âm
và -1 nếu nguợc lại
4.2.4 Random Forest
- Rừng ngẫu nhiên là một tập hợp của cây quyết định Nó đuợc Breiman (2001) giới thiệu để giảm sự mất ổn định của cây quyết định do những thay đổi nhỏ trong bộ dữ liệu Nhu đã thảo luận truớc đó, sự không ổn định nhu vậy dẫn đến sai số cao của lỗi tổng quát hóa và do đó lỗi dự đoán cao hơn Theo đề xuất của Friedman et al (2001), một cách để giảm phuơng sai này có thể đuợc thực hiện thông qua việc sử dụng đóng bao, viết tắt của tập hợp bootstrap Breiman (2001) đã sử dụng một mô-đun đóng gói nhu một cách để giảm phuơng sai trong các cây quyết định tạo ra Khu rừng ngẫu nhiên
- Khu rừng ngẫu nhiên là một nhóm gồm những nguời phân loại cây B, tất cả đuợc đào tạo độc lập trên một tập hợp con ngẫu nhiên của dữ liệu đào tạo, tất
cả đều bỏ phiếu cho phân loại cuối cùng Một phân loại của mẫu sau đó đuợc đua ra bằng cách bỏ phiếu đa số của tất cả các cây đuợc đào tạo Đối với mỗi cây b B, tập mẫu bootstrap z của N mẫu đuợc rút ra từ tập huấn luyện ban đầu Với tập mẫu này z, cây quyết định T đuợc phát triển đầy đủ bằng cách chọn đệ quy một tập hợp con của các tính năng đầu vào ngẫu nhiên đuợc đánh giá tại mỗi nút trong cây cho đến khi đạt đuợc tiêu chí dừng nhu mô tả trong phần 3.2.2 Mỗi cây sẽ không đuợc cắt tỉa tạo ra phuơng sai cao hơn Tuy nhiên, do kết quả của Luật số lớn, tập hợp nhiều cây sẽ làm giảm phuơng sai này và do đó làm giảm phuơng sai lỗi tông quát hóa
Kích thuớc N của bộ mẫu bootstrap z có thể khác nhau trong nhiều ứng dụng, tuy nhiên, trong luận văn này đuợc sử dụng cùng kích thuớc nhu đề xuất của Breiman (2001), bằng 2/3 dữ liệu đào tạo ban đầu để tạo mỗi cây Breiman (2001) cũng đề nghị đặt số luợng tính năng ngẫu nhiên làm ứng cử viên ở mỗi lần phân chia thành m = căn hộ cho các vấn đề cation classi Tuy nhiên, nhu đuợc xây dựng bởi (Friedman et al., 2001), tham số này phải đuợc coi là một tham số siêu phải đuợc điều chỉnh cho mỗi ứng dụng Rừng ngẫu nhiên cũng
có thể đua ra các dấu hiệu về tầm quan trọng của tính năng và phát hiện ngoại
lệ, tuy nhiên các nghiên cứu sâu hơn không nằm trong phạm vi của luận văn này
Hiệu suất của Rừng ngẫu nhiên trong cation phân loại ngang bằng với các phân loại tốt nhất ngoài kia (Diaz-Uriarte và De Andres, 2006), tuy nhiên, việc đào tạo cũng chậm hơn nhiều so với cây quyết định thông thuờng khi B lớn Hơn nữa, nó đã đuợc chứng minh là hoạt động kém với các bộ dữ liệu có phân phối lớp bị lệch hoặc mất cân bằng (Chen et al., 2004) Một
Trang 35phương pháp được gọi là Rừng ngẫu nhiên cân bằng cố gắng khắc phục vấn
đề này Nó sử dụng lợi thế của việc trở thành một nhóm hòa đồng để tạo ra một mẫu ngẫu nhiên của lớp đa số khi chọn mẫu bootstrap z trước khi huấn luyện từng cây trong Khu rừng ngẫu nhiên (Chen et al., 2004)
4.3 Tiền xử lý dữ liệu:
4.3.1 Xử lý dữ liệu bị thiếu:
- Có rất nhiều phương pháp để xử lý dữ liệu bị thiếu, hĩnh sau đây giới thiệu một
số phương pháp điển hĩnh để xử lý dữ liệu bị thiếu
Hình 8: Các phương pháp thông dụng xử lý dữ liệu bị thiếu
- Dữ liệu trong luận văn là dữ liệu liên tục Trong đó, phương pháp Khoảng cách cục bộ được xem xét như phương pháp chính để xử lý dữ liệu bị thiếu Sau đây, tôi giới thiệu chi tiết hơn về phương pháp này
4.3.1.1 Khoảng cách cục bộ (K-NN):
- Phương pháp khoảng cách cục bộ sử dụng giải thuật K lân cận gần nhất NN) để thay thế các giá trị bị thiếu Các giá trị còn thiếu của mỗi mẫu được xác định bằng cách sử dụng các giá trị từ k mẫu lân cận gần nhất được tim thấy trong tập huấn luyện Lưu ý rằng nếu một mẫu bị thiếu nhiều hơn biến, thi mẫu đó có thể có nhiều nhóm k mẫu lân cận gần nhất, tùy thuộc vào tính năng cụ thể
(K Mỗi tính năng bị thiếu sau đó được thay thế bằng giá trị trung bình, có trọng
số hoặc không trọng số, của các mẫu lân cận này Tất nhiên, tống số mẫu trong tập huấn luyện luôn lớn hơn hoặc bằng số lượng lân cận gần nhất, tùy thuộc vào cả cỡ mẫu tống thể cũng như số lượng mẫu được loại trừ khỏi tính toán lân cận gần nhất vĩ quá nhiều tính năng bị
4.3.2 Phát hiện và xử lý dữ liệu bất thường:
Có rất nhiều giải thuật có thể chỉ ra liệu một quan sát mới có thuộc cùng phân phối như các quan sát hiện có hay không hoặc nên được coi là một ngoại lệ Các giải thuật này được sử dụng để làm sạch các tập dữ liệu và được chia thành 2 loại chính:
+ Phát hiện ngoại lệ: Dữ liệu huấn luyện chứa các ngoại lệ được xác định là các quan sát khác xa so với các dữ liệu khác Do đó, các công cụ ước