Còn đối với các doanh nghiệp DN và các nhà đầu tư thì việc đánh giá phân tích được kết quả hoạt động sản xuất kinh doanh, phân tích và dự đoán tình hình tài chính của doanh nghiệp, giúp
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS NGUYỄN HÀ NAM
HÀ NỘI – 2009
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan những kết quả đạt đƣợc trong luận văn này là do tôi nghiên cứu, tổng hợp và thực hiện Toàn bộ những điều đƣợc trình bày trong luận văn là của
cá nhân hoặc đƣợc tham khảo và tổng hợp từ các nguồn tài liệu khác nhau Tất cả các tài liệu tham khảo, tổng hợp đều đƣợc trích dẫn với nguồn gốc rõ ràng
Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình Nếu có gì sai trái, tôi xin chịu mọi hình thức kỷ luật theo qui đinh
Hà Nội, tháng 5 năm 2008
Học viên
Hà Văn Sang
Trang 3Tôi cũng xin chân thành cảm ơn cơ quan, bạn bè, đồng nghiệp, gia đình và những người thân đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi hoàn thành nhiệm vụ học tập và cuốn luận văn này
Hà nội, tháng 5 năm 2009
Học viên
Hà Văn Sang
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT v
DANH MỤC HÌNH VẼ vi
DANH MỤC BẢNG BIỂU vii
MỞ ĐẦU 1
1 Đặt vấn đề 1
2 Mục tiêu của nghiên cứu 2
3 Cấu trúc của luận văn 2
Chương 1 - MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH 3
1.1 Một số khái niệm tài chính 3
1.1.1 Phân tích tài chính 3
1.1.2 Báo cáo tài chính 4
1.1.3 Phương pháp phân tích tài chính 5
1.1.4 Dự báo tình hình tài chính 6
1.2 Rủi ro tài chính 7
1.2.1 Khái niệm 7
1.2.2 Nguồn gốc của rủi ro tài chính 7
1.2.3 Quy trình quản trị rủi ro tài chính 8
1.2.3 Quản trị rủi ro trong đầu tư chứng khoán 10
1.3 Phân tích kỹ thuật trong dự báo thị trường chứng khoán 11
1.3.1 Khái niệm 11
1.3.2 Ứng dụng của phân tích kỹ thuật 12
1.3.3 Các công cụ cơ bản sử dụng trong Phân tích kỹ thuật 12
1.3.4 Các chỉ dẫn kỹ thuật cơ bản 14
Chương 2 - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 16
2.1 Giới thiệu về khai phá dữ liệu (Data Mining) 16
2.2 Phân lớp 18
2.2.1 Giới thiệu về phân lớp 18
2.2.2 Các phương pháp phân lớp 20
2.3 Mạng Nơron 24
2.4 Hệ mờ (Fuzzy System) 28
2.4.1 Định nghĩa tập mờ 29
2.4.2 Phép suy diễn mờ 30
2.4.3 Phép hợp mờ 32
2.4.4 Giải mờ 34
2.4.5 Hệ suy diễn mờ 36
Chương 3 - MÔ HÌNH PHÂN TÍCH RỦI RO TÀI CHÍNH 38
Trang 52.1 Sơ lược về mô hình 38
2.2 Phân lớp dữ liệu - Thiết kế mạng nơron 39
2.2.1 Chọn loại dữ liệu đầu vào 39
2.2.2 Thu thập dữ liệu 39
2.2.3 Tiền xử lý dữ liệu 40
2.2.4 Phân hoạch dữ liệu 41
2.2.5 Thiết kế và huấn luyện mạng Nơron 41
2.2.6 Phân tích dữ liệu 41
2.3 Xây dựng tập luật từ phân tích kỹ thuật 42
2.3.1 Phân kỳ và hội tụ của đường trung bình di động 42
2.3.2 Chỉ số kênh giá hàng hoá - The Commodity Channel Index (CCI) 43
2.3.3 Chỉ số cường độ tương đối - Relative Strength Index (RSI) 43
2.3.4 Dải băng Bollinger 44
2.4 Kết hợp phân tích kỹ thuật với logic mờ và mạng nơron 44
2.4.1 Mô đun chỉ số kỹ thuật 45
2.4.2 Mô đun hội tụ 46
2.4.3 Mô đun hệ suy diễn mờ (FIS) 46
2.4.4 Luật cơ sở 47
Chương 4 - THỰC NGHIỆM VÀ ĐÁNH GIÁ 49
4.1 Dữ liệu dùng trong thực nghiệm 49
4.2 Thiết lập tham số cho thực nghiệm 50
4.2.1 Các tham số của mạng nơron 50
4.2.2 Các tham số của hệ hỗ trợ quyết định 51
4.3 Kết quả mẫu 54
4.3.1 Kết quả việc đánh giá và dự báo trong tương lai 54
4.3.2 Kết quả việc hỗ trợ quyết định 58
4.4 Đánh giá và phân tích 59
4.5 Kết luận 63
KẾT LUẬN 64
TÀI LIỆU THAM KHẢO 65
PHỤ LỤC 66
Phụ lục A – Giới thiệu về phần mềm FRPredictor 66
Phụ lục B – Cấu trúc các bảng cơ sở dữ liệu tài chính 69
Phụ lục B – Dữ liệu dùng trong thực nghiệm 72
Trang 6DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
Từ viết tắt Tiếng Anh Tiếng Việt
CCI The Commodity Channel Index Chỉ số kênh giá hàng hoá
Trang 7DANH MỤC HÌNH VẼ
Hình 1-1 Biểu đồ dạng đường 12
Hình 1-2 Biểu đồ dạng then chắn 13
Hình 1-3 Biểu đồ dạng cây nến 13
Hình 2-1 Mô hình phân lớp tiêu chuẩn 19
Hình 2-2 Mô hình một nơron perceptron 24
Hình 2-3 Mô hình mạng perceptron 3 lớp(MLP) 26
Hình 2-4 Các dạng hàm thuộc 30
Hình 2-5 Giải mờ bằng phương pháp cực đại 35
Hình 2-6 Giải mờ bằng phương pháp điểm trọng tâm 35
Hình 2-7 Hệ suy diễn mờ 36
Hình 3-1 Mô hình đề xuất 38
Hình 3-2 Mồ hình thực thể liên kết 40
Hình 3-3 Hệ suy diễn mờ 45
Hình 3-4 Miền giá trị của đầu ra 47
Hình 4-1 Kết quả huấn luyện và kiểm tra 55
Hình 4-2 Kết quả thực hiện phân tích 57
Hình 4-3 Dự đoán Sp500 58
Hình 4-4 Hỗ trợ quyết định cho công ty IBM 58
Hình 4-5 Tỷ lệ chính xác 61
Hình 4-6 Tỷ lệ chính xác theo quý 61
Hình 4-7 So sánh tỷ lệ chính xác 62
Trang 8i
DANH MỤC BẢNG BIỂU
Bảng 2-1 Ma trận hỗn hợp trong phân lớp 20
Bảng 3-1 Miền giá trị của các tham số 46
Bảng 4-1 Thiết lập tham số mạng 51
Bảng 4-2 Các chỉ số kỹ thuật và luật mờ tương ứng 52
Bảng 4-3 Kết hợp Hạng, các chỉ số và luật mờ tương ứng 53
Bảng 4-4 Mẫu dữ liệu huấn luyện 54
Bảng 4-5 Dữ liệu phân tích 56
Bảng 4-6 Kết quả phân tích và dự báo 57
Bảng 4-7 Hỗ trợ quyết định cho các công ty 59
Bảng 4-8 Kết quả so sánh giữa quyết định từ MACD, mô hình và thực tế 60
Bảng 4-9 So sánh việc ba chỉ số với hệ thống 62
Trang 9MỞ ĐẦU
1 Đặt vấn đề
Thế giới ngày càng trở nên bất ổn hơn, những bất ổn trong giá cả hàng hoá và các biến số tài chính thay đổi theo những chiều hướng khó có thể dự báo trước được Trước khi ban quản trị có thể đưa ra bất kỳ một quyết định nào về phòng ngừa rủi ro, trước tiên họ cần phải nhận diện được tất cả các rủi ro mà công ty có thể gặp phải Hầu hết các tổ chức tài chính đều phải đối mặt với những rủi ro kinh doanh, là rủi ro thuộc
về bản chất của các hoạt động kinh doanh Trên thế giới đã có nhiều nghiên cứu về vấn
đề này và đã có một số mô hình cũng như phần mềm hỗ trợ việc đánh giá, dự báo rủi
ro tài chính Tuy nhiên ở Việt nam, các tổ chức tài chính cũng như các công ty doanh nghiệp chưa chú ý nhiều tới rủi ro tài chính Một số doanh nghiệp có thể tự đánh giá,
dự báo rủi ro hoặc đi thuê chuyên gia cố vấn tài chính Cách làm này tương đối thủ công và tốn kém về mặt nhân lực cũng như kinh phí
Trong các lĩnh vực nghiên cứu của khoa học máy tính thì khai phá dữ liệu là lĩnh vực đang phát triển mạnh mẽ và có nhiều ứng dụng thực tiễn Khai phá dữ liệu kết hợp giữa học máy, công nghệ cơ sở dữ liệu và các chuyên ngành khác để tìm ra tri thức từ những cơ sở dữ liệu rất lớn Từ những tri thức này, ta có thể sử dụng để xây dựng mô hình để đánh giá, dự báo
Mục tiêu của luận văn là tìm hiểu về rủi ro tài chính và xây dựng mô hình nhằm đánh giá, dự báo rủi ro tài chính Tuy nhiên, vấn đề rủi ro tài chính là tương đối lớn và rộng nên phạm vi của luận văn chỉ dừng lại ở việc xây dựng mô hình đánh giá, dự báo rủi ro trong lĩnh vực đầu tư, kinh doanh chứng khoán Luận văn tập trung vào việc tìm hiểu một số mô hình học máy tiên tiến và phân tích kỹ thuật trong lĩnh vực chứng khoán Phân tích kỹ thuật là một khoa học rất mới, nó đang phát triển mạnh mẽ và có những kết quả khả quan Trong luận văn, tôi đã thực hiện việc kết hợp phương pháp học máy sử dụng mạng nơron nhân tạo, phân tích kỹ thuật, hệ suy diễn mờ và ứng dụng xây dựng mô hình đánh giá, hỗ trợ quyết định mua hoặc bán một mã cổ phiếu cụ thể nào đó Tôi đã hoàn thành phần mềm thử nghiệm và tiến hành thực nghiệm trên bộ
dữ liệu thực tế thu thập từ các sàn giao dịch chứng khoán trong và ngoài nước Trong luận văn này, tôi đã tìm hiểu, kết hợp và tìm cách ứng dụng phương pháp khai phá dữ liệu nhằm phân tích và đánh giá rủi ro trong lĩnh vực tài chính Các kết quả thực nghiệm của phần mềm tuy chưa thực sự cao nhưng cũng đủ để cung cấp thông tin và định hướng ban đầu cho các nghiên cứu tiếp theo của chúng tôi
Trang 102 Mục tiêu của nghiên cứu
Nghiên cứu của luận văn hướng tới các mục tiêu sau:
- Giúp đỡ ban quản trị doanh nghiệp đánh giá rủi ro trong lĩnh vực tài chính
- Giúp người kinh doanh và đầu tư chứng khoán trong việc dự báo, đưa ra quyết định mua bán chứng khoán
3 Cấu trúc của luận văn
Luận văn được chia thành 6 phần với các nội dung như sau:
Chương I trình bày các nội dung lý thuyết về lĩnh vực tài chính Các khái niệm
liên quan tới tài chính, rủi ro tài chính, chứng khoán, phân tích dự báo trong đầu tư chứng khoán đã được giới thiệu ngắn gọn nhằm mang lại những kiến thức căn bản trong lĩnh vực tài chính
Chương II giới thiệu về khai phá dữ liệu, sau đó chúng tôi giới thiệu chi tiết về
vấn đề phân lớp, mạng nơron, logic mờ Các kỹ thuật được trình bày trong chương này
sẽ là cơ sở lý thuyết cho phương pháp giải quyết của chúng tôi ở các chương tiếp theo
Chương III tập trung vào xây dựng mô hình nhằm giải quyết bài toán đã đặt ra
Trong chương này chúng tôi đưa ra phương pháp sử dụng logic mờ, mạng nơ ron và phân tích kỹ thuật nhằm xây dựng hệ hỗ trợ ra quyết định cho bài toán dự báo dự đoán rủi ro tài chính
Chương IV mô tả và phân tích những kết quả mà chúng tôi đã tiến hành thực
nghiệm Mô hình được huấn luyện bởi dữ liệu giao dịch chứng khoán trong quá khứ, sau đó mô hình sẽ được sử dụng để dự đoán độ rủi ro của doanh nghiệp tương ứng nhằm kiểm chứng khả năng dự đoán của mô hình Đồng thời các kết quả này cũng được so sánh với các mô hình khác nhằm tìm ra điểm mạnh, yếu của mô hình so với các mô hình đã được xây dựng
Phần kết luận tổng kết những kết quả đạt được của luận văn và hướng nghiên
cứu tiếp theo
Phần phụ lục giới thiệu về phần mềm dự báo rủi ro và hỗ trợ quyết định, đồng
thời hướng dẫn cách thức cơ bản sử dụng phần mềm
Trang 11Chương 1 - MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI
CHÍNH
Chương này cung cấp các kiến thức cơ sở về lĩnh vực tài chính Đầu tiên sẽ là các khái niệm chính về tài chính, rủi ro tài chính, các phương pháp dự báo, đánh giá rủi ro Mục tiếp theo sẽ giới thiệu về phân tích kỹ thuật trong việc đầu tư, kinh doanh chứng khoán
1.1 Một số khái niệm tài chính
1.1.1 Phân tích tài chính
Phân tích tài chính công cụ quản lý vĩ mô của Nhà nước để đánh giá tình hình kinh tế của đất nước, của từng ngành, từng địa phương mà trên cơ sở đó xác định được nhu cầu vốn của xã hội Còn đối với các doanh nghiệp (DN) và các nhà đầu tư thì việc đánh giá phân tích được kết quả hoạt động sản xuất kinh doanh, phân tích và dự đoán tình hình tài chính của doanh nghiệp, giúp họ đưa ra những phương hướng, những quyết định đúng đắn về hoạt động sản xuất cũng như hoạt động tài chính nhằm làm doanh nghiệp tồn tại, phát triển và bảo đảm trạng thái cân bằng tài chính của mình
Có nhiều khái niệm về phân tích tài chính doanh nghiệp, nhưng khái niệm hay dùng nhất là:
Phân tích hoạt động tài chính doanh nghiệp là quá trình thu thập, xử lý các thông tin kế toán, nhằm xem xét, kiểm tra, đối chiếu, so sánh tài chính hiện hành với quá khứ, giúp người sử dụng thông tin có thể đánh giá tình hình tài chính DN, đánh giá
về tiềm năng, hiệu quả kinh doanh cũng như rủi ro trong tương lai
- Ý nghĩa:
Mỗi đối tượng quan tâm đến tình hình tài chính của DN với một góc độ khác nhau Đối với chủ DN và các nhà quản trị DN mối quan tâm hàng đầu của họ là tìm kiếm lợi nhuận và khả năng tài trợ Đối với chủ ngân hàng và các nhà cho vay tín dụng, mối quan tâm chủ yếu của họ là khả năng trả nợ hiện tại và sắp tới của DN Đối với nhà đầu tư mối quan tâm của họ là các yếu tố rủi ro, thời gian hoàn vốn, mức sinh lãi và khả năng thanh toán vốn Nhìn chung họ đều quan tâm đến khả năng tạo ra dòng tiền mặt, khả năng sinh lời, khả năng thanh toán và mức sinh lời tối đa
- Yêu cầu:
Trang 12+ Phân tích hoạt động tài chính DN phải cung cấp đầy đủ thông tin hữu ích cho các nhà đầu tư, các tín chủ và những người sử dụng thông tin khác nhau để giúp họ có quyết định đúng đắn khi ra các quyết định đầu tư, quyết định cho vay, quyết định sản xuất
+ Phân tích hoạt động tài chính DN phải cung cấp thông tin cho các DN, các nhà đầu tư, các nhà cho vay và những nhà sử dụng thông tin khác nhau trong việc đánh giá khả năng và tính chắc chắn của các dòng tiền mặt vào, ra và hiệu quả sử dụng vốn kinh doanh, tình hình, khả năng thanh toán của DN
Như vậy, có thể khẳng định, ý nghĩa tối cao và quan trọng nhất của phân tích tài chính DN là giúp cho những người ra quyết định lựa chọn phương án kinh doanh tối
ưu và đánh giá chính xác thực trạng, tiềm năng của DN
- Tài liệu phục vụ báo cáo tài chính
Phân tích tài chính sử dụng mọi nguồn thông tin có khả năng làm rõ mục tiêu
dự đoán tài chính Từ khi pháp lệnh kế toán tài chính được ban hành, hệ thống các báo cáo tài chính đã được thống nhất và là tài liệu cơ sở, quan trọng cho các nhà phân tích tài chính
1.1.2 Báo cáo tài chính
Ở nước ta chủ yếu sử dụng hệ thống báo cáo tài chính gồm:
Bảng cân đối kế toán: là báo cáo tổng hợp cho biết tình hình tài chính của đơn
vị tại những thời điểm nhất định dưới hình thái tiền tệ Đây là một báo cáo tài chính có
ý nghĩa rất quan trọng đối với mọi đối tượng có quan hệ sở hữu, quan hệ kinh doanh với DN
Bảng cân đối kế toán phản ánh hai nội dung cơ bản là nguồn vốn tài sản Nguồn vốn phản ánh nguồn vốn được huy động vào sản xuất kinh doanh Về mặt pháp lý, nguồn vốn cho thấy trách nhiệm của DN về tổng số vốn đã đăng ký kinh doanh với Nhà nước, số tài sản đã hình thành bằng nguồn vốn vay ngân hàng, vay đối tượng khác, cũng như trách nhiệm phải thanh toán với người người lao động, cổ đông, nhà cung cấp, trái chủ, ngân sách Phần tài sản phản ánh quy mô và cơ cấu các loại tài sản hiện có đến thời điểm lập báo cáo thuộc quyền quản lý, sử dụng của DN, năng lực và trình độ sử dụng tài sản Về mặt pháp lý, phần tài sản thể hiện tiềm lực mà DN có quyền quản lý, sử dụng lâu dài, gắn với mục đích thu được các khoản lợi nhuận
Bảng cân đối kế toán là tài liệu quan trọng bậc nhất giúp cho nhà phân tích nghiên cứu đánh giá một cách khái quát tình hình và kết quả kinh doanh, khả năng cân bằng tài chính, trình độ sử dụng vốn và những triển vọng tài chính của DN
Báo cáo kết quả hoạt động kinh doanh: Là báo cáo tài chính tổng hợp cho biết
tình hình tài chính của DN trong từng thời kỳ nhất định, phản ánh tóm lược các khoản thu, chi phí, kết quả hoạt động sản xuất kinh doanh của toàn DN, kết quả hoạt động
Trang 13sản xuất kinh doanh theo từng hoạt động kinh doanh (sản xuất kinh doanh, đầu tư tài chính, hoạt động bất thường)
Dựa vào số liệu trên báo cáo kết quả kinh doanh, người sử dụng thông tin có thể kiểm tra, phân tích, đánh giá kết quả hoạt động kinh doanh của DN trong kỳ, so sánh với kỳ trước và với DN khác để nhận biết khái quát hoạt động trong kỳ và xu hướng vận động
Báo cáo lưu chuyển tiền tệ: là báo cáo liên quan đến luồng tiền ra vào trong
DN, tình hình trả nợ, đầu tư bằng tiền của DN trong từng thời kỳ
Báo cáo lưu chuyển tiền tệ cung cấp những thông tin về những luồng vào, ra của tiền và coi như tiền, những khoản đầu tư ngắn hạn có tính lưu động cao, có thể nhanh chóng và sẵn sàng chuyển đổi thành một khoản tiền biết trước ít chịu rủi ro lỗ
về giá trị do những sự thay đổi về lãi suất Những luồng vào ra của tiền và những khoản coi như tiền được tổng hợp thành ba nhóm: lưu chuyển tiền tệ từ hoạt động kinh doanh, lưu chuyển tiền tệ từ hoạt động đầu tư, lưu chuyển tiền tệ từ hoạt động tài chính
và lập theo phương pháp trực tiếp, gián tiếp
Thuyết minh các báo cáo tài chính: nhằm cung cấp các thông tin về tình hình
sản xuất kinh doanh chưa có trong hệ thống các báo cáo tài chính, đồng thời giải thích một số chỉ tiêu mà trong các báo cáo tài chính chưa được trình bày, giải thích thêm một cách cụ thể, rõ ràng
Các báo cáo tài chính trong DN có mối quan hệ mật thiết với nhau, mỗi sự thay đổi của một chỉ tiêu trong báo cáo này trực tiếp hay gián tiếp ảnh hưởng đến các báo cáo kia, trình tự đọc hiểu được các báo cáo tài chính, qua đó họ nhận biết được và tập trung vào các chỉ tiêu tài chính liên quan trực tiếp tới mục tiêu phân tích của họ
1.1.3 Phương pháp phân tích tài chính
Để tiến hành phân tích hoạt động kinh doanh cũng như phân tích hoạt động tài chính người ta không dùng riêng lẻ một phương pháp phân tích nào mà sử dụng kết hợp các phương pháp phân tích với nhau để đánh giá tình hình DN một cách xác thực nhất, nhanh nhất
Phương pháp chủ yếu là phương pháp so sánh và phân tích tỷ lệ
Phương pháp so sánh: Để áp dụng được phương pháp này cần phải đảm bảo
các điều kiện có thể so sánh được của các chỉ tiêu (phải thống nhất về nội dung, phương pháp, thời gian và đơn vị tính toán của các chỉ tiêu so sánh) và theo mục đích phân tích mà xác định gốc so sánh Gốc so sánh có thể chọn là gốc về mặt thời gian hoặc không gian Kỳ (điểm) được chọn để phân tích gọi là kỳ phân tích (hoặc điểm phân tích) Các trị số của chỉ tiêu tính ra ở từng kỳ tương ứng gọi là trị số chỉ tiêu kỳ gốc, kỳ phân tích Và để phục vụ mục đích phân tích người ta có thể so sánh bằng các cách: so sánh bằng số tuyệt đối, so sánh bằng số tương đối, so sánh bằng số bình quân
Trang 14Phương pháp so sánh sử dụng trong phân tích tài chính DN là:
- So sánh giữa số thực hiện kỳ này với số thực hiện kỳ trước để thấy rõ xu hướng thay đổi về tài chính của DN, thấy được sự cải thiện hay xấu đi như thế nào để
có biện pháp khắc phục trong kỳ tới
- So sánh giữa số thực hiện với số kế hoạch để thấy mức độ phấn đấu của Doanh nghiệp
- So sánh giữa số thực hiện kỳ này với mức trung bình của ngành để thấy được tình hình tài chính của DN đang ở tình trạng tốt hay xấu, được hay chưa được so với các DN cùng ngành
- So sánh theo chiều dọc để thấy được tỷ trọng của từng loại trong tổng hợp ở mỗi bản báo cáo So sánh theo chiều ngang để thấy được sự biến đổi về cả số tương đối và số tuyệt đối của một khoản mục nào đó qua niên độ kế toán liên tiếp
Phương pháp phân tích tỷ lệ: là phương pháp truyền thống, được sử dụng phổ
biến trong phân tích tài chính Đây là phương pháp có tính hiện thực cao với các điều kiện áp dụng ngày càng được bổ sung và hoàn thiện Bởi lẽ:
Thứ nhất, nguồn thông tin kế toán và tài chính được cải tiến và được cung cấp đầy đủ hơn Đó là cơ sở hình thành các chỉ tiêu tham chiếu tin cậy cho việc đánh giá một tỷ lệ tài chính của DN
Thứ hai, việc áp dụng công nghệ tin học cho phép tích luỹ dữ liệu và thúc đẩy nhanh quá trình tính toán hàng loạt các tỷ lệ
Thứ ba, phương pháp phân tích này giúp cho nhà phân tích khai thác có hiệu quả các số liệu và phân tích một cách có hệ thống hàng loạt tỷ lệ theo chuỗi thời gian liên tục hoặc theo từng giai đoạn
Phương pháp này dựa trên ý nghĩa chuẩn mực các tỷ lệ của đại lượng tài chính trong các quan hệ tài chính Về nguyên tắc, phương pháp tỷ lệ yêu cầu phải xác định được các ngưỡng, các định mức để nhận xét đánh giá tình hình tài chính DN, trên cơ
sở so sánh các tỷ lệ của DN với các tỷ lệ tham chiếu
Trong phân tích tài chính Dn, các tỷ lệ tài chính được phân thành các nhóm tỷ
lệ đặc trưng, phản ánh nội dung cơ bản theo mục tiêu hoạt động của DN Đó là các nhóm tỷ lệ về nội dung thanh toán, nhóm tỷ lệ về cơ cấu vốn và nguồn vốn, nhóm các
tỷ lệ về năng lực hoạt động, nhóm các tỷ lệ về khả năng sinh lời
Trang 15các trường hợp khác, nhà dự báo tài chính có thể sử dụng các phương pháp thống kê trong việc phân tích và dự tính các chuỗi thời gian
Nội dung dự kiến bao gồm:
Phân tích các lựa chọn về tài trợ và đầu tư của DN
Dự tính các hiệu ứng tương lai của của các quyết định hiện tại
Quyết định thực hiện phương án nào
So sánh các kết quả hoạt động và các mục tiêu lập ra ban đầu
Để làm được điều này, cần phải sử dụng các nhóm chỉ tiêu tài chính đặc trưng của DN trong quá khứ để làm căn cứ, cơ sở khoa học cho việc xây dựng một hệ thống các báo cáo tài chính dự kiến
Các dự báo tổng hợp có tính nhất quán về doanh thu, luồng tiền, thu nhập và các dự báo khác là rất phức tạp và tốn nhiều thời gian Tuy nhiên, nhiều tính toán cần thiết có thể được thực hiện một cách tự động bởi mô hình kế hoạch Bằng cách đó, sản phẩm của nhà phân tích tài chính trong hoạch định tài chính sẽ là một hệ thống các bảng cân đối tài sản, báo cáo thu nhập và báo cáo luồng tiền dự tính Số liệu trong dự báo có thể là con số trung gian nào đó giữa số dự báo thực và số thực tế kỳ vọng đạt tới
1.2 Rủi ro tài chính
1.2.1 Khái niệm
Rủi ro chính là các khả năng gây ra tổn thất hay thiệt hại Thông thường, các rủi
ro không đứng riêng lẻ một mình mà chúng tiềm tàng trong mối quan hệ có tính tương tác lẫn nhau khiến cho việc dự đoán rủi ro càng trở nên khó khăn hơn
1.2.2 Nguồn gốc của rủi ro tài chính
Rủi ro tài chính bắt nguồn từ vô số các giao dịch liên quan trực tiếp đến tài chính như mua bán, đầu tư, vay nợ và một số hoạt động kinh doanh khác hoặc là hệ quả gián tiếp của các chính sách thay đổi trong quản lý, trong cạnh tranh, trong các quan hệ quốc tế và thậm chí có thể chỉ do sự thay đổi của thời tiết hay khí hậu Nếu quan sát kỹ các biến động về tài chính, có thể nhận ra được 3 nguồn chính gây ra rủi ro
về tài chính bao gồm:
Rủi ro phát sinh từ sự thay đổi bên ngoài về giá cả trên thị trường như lãi suất,
tỷ giá hay giá của các loại hàng hoá khác
Trang 16Rủi ro phát sinh từ các hoạt động hay giao dịch với các đối tác trong kinh doanh như nhà cung cấp, khách hàng, các đối tác trong các giao dịch phát sinh hoặc trong các liên doanh góp vốn đầu tư
Rủi ro phát sinh từ ngay chính nội bộ doanh nghiệp, những thay đổi từ bên trong liên quan đến nhân sự, cơ cấu tổ chức hoặc quy trình sản xuất kinh doanh
1.2.3 Quy trình quản trị rủi ro tài chính
Rủi ro tài chính thường có tác động dây chuyền và cộng hưởng Do đó, doanh nghiệp phải chủ động xây dựng cho mình quy trình đánh giá và quản trị rủi ro tài chính phù hợp, nhằm tự vệ trước biến động khôn lường của thị trường tài chính
Đôi lúc thiếu hợp lý, nhưng với một sức hấp dẫn đặc biệt, thị trường tài chính vẫn đang sống với quy luật chung và riêng của nó, phát triển nhanh hơn mọi dự đoán
và phát sinh những tình huống hoàn toàn chưa được đề cập đến trong bất kỳ lý thuyết nào Tồn tại như một cơ chế đáp ứng những nhu cầu đa dạng về cung cấp và sử dụng vốn, thị trường tài chính luôn ẩn chứa nhiều rủi ro ảnh hưởng đến sự sống còn của các doanh nghiệp tham gia vào thị trường này Với xu hướng toàn cầu hoá tài chính, rủi ro
có thể đang tiềm ẩn tại những thị trường tuy xa về khoảng cách địa lý nhưng có khả năng gây ra những biến động nghiêm trọng đối với thị trường tài chính trong nước, gây nên thiệt hại khôn lường đối với hoạt động kinh doanh của doanh nghiệp
Do những đổi thay không ngừng trên thị trường mà việc quản trị rủi ro cũng trở thành một quá trình biến hoá liên tục các phương pháp phòng chống rủi ro, dựa trên dự báo về mức độ biến động của giá cả, môi trường kinh doanh, điều kiện chính trị, kinh
tế xã hội trong nước và quốc tế Mặc dù vậy, quy trình quản trị rủi ro không thể bỏ qua những bước căn bản sau đây:
1 Nhận diện và phân loại rủi ro
Mọi rủi ro trên thị trường đều xuất phát từ những thay đổi về giá cả thị trường như lãi suất, tỷ giá cũng như giá của các loại hàng hoá khác Ngoài ra còn có một số rủi ro khác ảnh hưởng đến tài chính doanh nghiệp như rủi ro về tín dụng, rủi ro trong hoạt động sản xuất, rủi ro trong thanh khoản và rủi ro mang tính hệ thống tác động chung lên toàn thị trường Những rủi ro trên đều có tính liên kết và tác động qua lại lẫn nhau nên khi thị trường đi xuống, sự cộng hưởng của chúng sẽ gây nên tổn thất khôn lường đối với doanh nghiệp
2 Tính toán và cân nhắc các mức độ rủi ro và mức độ chịu đựng tổn thất khi rủi
ro xảy ra
Đo lường rủi ro là một quá trình gồm 2 bước Bước đầu tiên là tính toán mức thu lợi có thể đạt được hoặc quan trọng hơn cả trong quản trị rủi ro là tính toán mức tổn thất có thể chấp nhận được trong trường hợp xảy ra biến động xấu về giá cả trên thị trường Nói cách khác, đo lường rủi ro chính là việc trả lời cho câu hỏi "Doanh
Trang 17nghiệp có thể chấp nhận tổn thất đến mức độ nào?" Để có được câu trả lời thì việc tính toán khả năng và mức độ tổn thất phải được định lượng bằng những con số biết nói Tuỳ theo độ nhạy cảm của từng loại công cụ đo lường, kết quả có được có thể tính bằng thời gian mất đi hoặc số tiền thiệt hại trên vốn hoặc lợi nhuận Chẳng hạn, việc
sử dụng các công cụ phát sinh như Hợp đồng kỳ hạn (forwards), Hợp đồng tương lai (options) và Hợp đồng hoán đổi (swaps) sẽ giúp doanh nghiệp tính toán được mức độ tổn thất này bằng các con số chính xác khi thị trường biến động theo hướng ngược chiều với dự đoán Chi phí bỏ ra khi sử dụng các công cụ này chính là cái giá mà doanh nghiệp phải trả nếu rủi ro xảy ra
Bước thứ hai của quá trình này là xác định các khả năng xảy ra tương ứng với từng mức độ biến động trên thị trường Dựa trên những khả năng biến động về giá cũng như biên độ dao động giá, mức độ tổn thất cũng như mức thu lợi có thể được tính toán chi tiết và cụ thể cho từng trường hợp
3 Áp dụng các chính sách, công cụ phòng chống thích hợp đối với từng loại rủi
ro
Tuỳ thuộc vào mức độ và khả năng chấp nhận rủi ro, doanh nghiệp sẽ áp dụng những biện pháp phòng chống khác nhau nhằm giảm thiểu mức độ thiệt hại khi rủi ro xảy ra Trên thực tế, doanh nghiệp có thể có một số chọn lựa Một trong những chọn lựa đơn giản nhất là không làm gì cả bằng cách chủ động hoặc thụ động chấp nhận mọi rủi ro có thể xảy ra Điều này hoàn toàn đúng với những khoản vay nhỏ vì chi phí
để phòng chống có khi còn cao hơn việc chấp nhận mức thiệt hại nếu thị trường có biến động Tuy nhiên, phương pháp này lại tỏ ra rất nguy hiểm đối với những khoản thanh toán bằng ngoại tệ hoặc khoản vay lớn vì chỉ một biến động nhỏ về lãi suất hoặc
tỉ giá thì thiệt hại sẽ là một con số không thể thờ ơ Khi đó, các công cụ phòng chống rủi ro đặc biệt tỏ ra hữu hiệu nhằm ngăn chặn một phần tổn thất có khả năng xảy ra hoặc ngăn chặn khả năng xảy ra rủi ro có thể lường trước
4 Theo dõi, đánh giá và điều chỉnh phương pháp phòng chống nếu cần thiết
Sự vận động của thị trường sẽ khiến cho mọi phương pháp phòng chống dù là tối ưu nhất cũng trở nên mất tác dụng nếu không được điều chỉnh cho phù hợp Do vậy, kết quả của việc sử dụng các phương pháp phòng chống rủi ro cần được ghi nhận
và xử lý kịp thời để việc ứng dụng phương pháp trên được thay đổi cho phù hợp với nhu cầu của doanh nghiệp trong những tình huống mới
Tuy nhiên, điều quan trọng hơn cả là doanh nghiệp cần nhận thức và chủ động ứng dụng quy trình này trong thực tế, đặc biệt là khi thị trường Việt Nam vận động trong một nền kinh tế hội nhập với thế giới đang dần tách khỏi sự bảo hộ của Ngân hàng Nhà nước về tỉ giá và các chính sách mở cửa khác cho thị trường tài chính trong nước Nguy cơ về những biến động lớn trên thị trường tiền tệ và khủng hoảng tài chính trong giai đoạn sắp tới sẽ buộc doanh nghiệp phải ý thức hơn trong việc xây dựng quy trình quản trị rủi ro thích hợp nhằm bảo vệ tài sản của mình
Trang 18Rủi ro tài chính phát sinh từ 3 nguồn: sự thay đổi bên ngoài; hoạt động, giao dịch với đối tác bên trong và từ chính nội bộ doanh nghiệp
1.2.3 Quản trị rủi ro trong đầu tư chứng khoán
Rủi ro trong đầu tư CK được định nghĩa là sự dao động của lợi nhuận mong đợi, do vậy để đạt được tỷ lệ lợi nhuận cao trong đầu tư chứng khoán, vấn đề đặt ra là phải quản lý được mức rủi ro này
Các loại rủi ro trong đầu tư chứng khoán
Rủi ro hệ thống là rủi ro tác động đến toàn bộ hoặc hầu hết các CK Sự bấp bênh của môi trường kinh tế nói chung như sự sụt giảm GDP, biến động lãi suất, tốc
độ lạm phát thay đổi là những minh chứng cho rủi ro hệ thống, những biến đổi này tác động đến sự dao động giá cả của các CK trên thị trường
Trong rủi ro hệ thống trước hết phải kể đến rủi ro thị trường Rủi ro thị trường xuất hiện do phản ứng của các nhà đầu tư đối với các hiện tượng trên thị trường Những sự sút giảm đầu tiên trên thị trường là nguyên nhân gây sợ hãi đối với các nhà đầu tư và họ sẽ cố gắng rút vốn Phản ứng dây chuyền này làm tăng số lượng bán, giá
cả CK sẽ rơi xuống thấp so với giá trị cơ sở
Tiếp đến là rủi ro lãi suất Giá cả CK thay đổi do lãi suất thị trường dao động thất thường gọi là rủi ro lãi suất Giữa lãi suất thị trường và giá cả CK có mối quan hệ
tỷ lệ nghịch Khi lãi suất thị trường tăng, người đầu tư có xu hướng bán CK để lấy tiền gửi vào ngân hàng dẫn đến giá CK giảm và ngược lại
Ngoài hệ quả trực tiếp đối với giá CK, lãi suất còn ảnh hưởng gián tiếp đến giá
cổ phiếu (CP) thường Khi lãi suất tăng làm giá CP giảm vì các nhà đầu cơ vay mua ký quỹ sẽ bị ảnh hưởng Nhiều công ty kinh doanh CK hoạt động chủ yếu bằng vốn đi vay thì với mức lãi suất tăng cũng làm cho chi phí vốn tăng
Rủi ro sức mua
Trang 19Một yếu tố rủi ro hệ thống khác không kém phần quan trọng là rủi ro sức mua Rủi ro sức mua là tác động của lạm phát tới các khoản đầu tư Lợi tức thực tế của CK đem lại là kết quả giữa lợi tức danh nghĩa sau khi khấu trừ đi lạm phát Như vậy, khi
có tình trạng lạm phát thì lợi tức thực thế giảm Giải thích theo lý thuyết hiện tại hoá, một đồng lợi tức của hôm nay thì trong tương lai không còn giá trị một đồng do tác động của lạm phát
Rủi ro không hệ thống là rủi ro chỉ tác động đến một loại tài sản hoặc một nhóm tài sản, nghĩa là rủi ro này chỉ liên quan đến một loại CK cụ thể nào đó Rủi ro không
hệ thống bao gồm rủi ro kinh doanh và rủi ro tài chính Trong quá trình kinh doanh, định mức thực tế không đạt được như theo kế hoạch gọi là rủi ro kinh doanh, chẳng hạn lợi nhuận trong năm tài chính thấp hơn mức dự kiến
Rủi ro kinh doanh được cấu thành bởi yếu tố bên ngoài và yếu tố nội tại trong công ty Rủi ro nội tại phát sinh trong quá trình công ty hoạt động Rủi ro bên ngoài bao gồm những tác động nằm ngoài sự kiểm soát của công ty làm ảnh hưởng đến tình trạng hoạt động của công ty như chi phí tiền vay, thuế, chu kỳ kinh doanh
Rủi ro tài chính cũng là một loại rủi ro không hệ thống Rủi ro tài chính liên quan đến đòn bẩy tài chính, hay nói cách khác liên quan đến cơ cấu nợ của công ty Sự xuất hiện các khoản nợ trong cấu trúc vốn sẽ tạo ra nghĩa vụ trả nợ trả lãi của công ty Công ty phải thực hiện nghĩa vụ trả nợ (gồm trả nợ ngân hàng và trả nợ trái phiếu) trước việc thanh toán cổ tức cho cổ đông Điều này ảnh hưởng không nhỏ đến giá cả
CP công ty Rủi ro tài chính có thể tránh được nếu công ty không vay nợ chút nào
1.3 Phân tích kỹ thuật trong dự báo thị trường chứng khoán
1.3.1 Khái niệm
PTKT là việc nghiên cứu giá, với công cụ cơ bản là biểu đồ, nhằm nâng cao hiệu quả của hoạt động đầu tư PTKT nghiên cứu các hành vi của các bên tham gia thị trường thông qua sự biến động của giá, khối lượng chứng khoán giao dịch nhằm xác định được xu thế biến động giá và thời điểm đầu tư
Phân tích kỹ thuật dựa trên lý thuyết DOW[2], với nội dung chủ yếu sau:
Thị trường phản ánh tất cả các thông tin trong giá CK
3 xu thế của thị trường (xu thế sơ cấp, xu thế thứ cấp và các biến động hàng ngày)
PTKT sử dụng ba giả thiết sau:
Giá trị thị trường của bất kỳ sản phẩm hay dịch vụ nào đều được xác lập thông qua cung cầu của thị trường
- Cung cầu của thị trường được xác lập dựa trên một hệ thống các yếu tố hợp l hoặc đôi khi phi l Và thị trường sẽ cân đối các trọng số này liên tục và tự động
Trang 20- Loại bỏ những dao động bất thường, giá cả của một chứng khoán đơn lẻ hay toàn bộ giá cả của thị trường có xu thế thay đổi theo một khuynh hướng (trend), và nó tồn tại trong một khoảng thời gian nhất định
- Sự thay đổi trong khuynh hướng đang thịnh hành là do sự thay đổi trong mối quan hệ cung cầu Và sự thay đổi của quan hệ cung cầu sẽ được nhận diện sớm hay muộn thông qua các phản ứng của chính thị trường
1.3.2 Ứng dụng của phân tích kỹ thuật
- Xác định chiến lược kinh doanh cho ngắn hạn, trung hạn và dài hạn
- Xác định các đường tiệm cận giá để có quyết định mua vào – bán ra cổ phiếu một cách hợp lý
- Xác định các khoảng dao động của giá để xác định thời điểm nên hay chưa nên tham gia vào thị trường
1.3.3 Các công cụ cơ bản sử dụng trong Phân tích kỹ thuật
Biểu đồ thể hiện chuỗi dao động của giá trong một đơn vị thời gian
Hiện nay trên Thị trường chứng khoán các chuyên viên phân tích dùng rất nhiều các loại biểu đồ khác nhau để phân tích, trong đó có 3 loại biểu đồ được dùng một cách phổ biến nhất đó là: biểu đồ dạng đường (Line chart), biểu đồ dạng then chắn (Bar chart), biểu đồ dạng cây nến (Candlestick chart)
Biểu đồ dạng đường (Line chart)[2]
Dạng biểu đồ này từ trước tới nay thường được sử dụng phổ biến trong các ngành khoa học khác dùng để mô phỏng các hiện tượng kinh tế và xã hội Nhưng hiện nay do khoa học kỹ thuật phát triển, diễn biến của thị trường chứng khoán ngày càng phức tạp cho nên loại biểu đồ này ngày càng ít được sử dụng nhất là trên các thị trường chứng khoán hiện đại
Hình 1-1 Biểu đồ dạng đường
Trang 21Nó chủ yếu được sử dụng trên các thị trường chứng khoán mới đi vào hoạt động trong thời gian ngắn, khớp lệnh theo phương pháp khớp lệnh định kỳ theo từng phiên Ưu điểm của loại biểu đồ này là dễ sử dụng
Hiện nay trên các Thị trường chứng khoán hiện đại đang dùng một số loại biểu
đồ trong Phân tích kỹ thuật mang lại hiệu quả cao đó là biểu đồ dạng then chắn (Bar chart) và cây nến (Candlestick chart)
Biểu đồ dạng then chắn (Bar chart)[2]
Trên các Thị trường chứng khoán hiện đại trên thế giới hiện nay các chuyên viên phân tích thường dùng loại biểu đồ này trong phân tích là chủ yếu lý do chính vì tính ưu việt của nó đó là sự phản ánh rõ nét sự biến động của giá chứng khoán Hai kí tự mà dạng biểu đồ này sử dụng đó là:
Hình 1-2 Biểu đồ dạng then chắn
Loại biểu đồ này thường được áp dụng để phân tích trên các Thị trường chứng khoán hiện đại khớp lệnh theo hình thức khớp lệnh liên tục, độ dao động của giá chứng khoán trong một phiên giao dịch là tương đối lớn
Biểu đồ cây nến (Candlestick chart)
Đây là dạng biểu đồ cải tiến của biểu đồ dạng then chắn (Bar chart), nó được người Nhật Bản khám phá và áp dụng trên thị trường chứng khoán của họ đầu tiên Giờ đây nó đang dần được phổ biến hầu hết trên các thị trường chứng khoán hiện đại trên toàn thế giới Dạng biểu đồ này phản ánh rõ nét nhất về sự biến động của giá chứng khoán trên thị trường chứng khoán khớp lệnh theo hình thức khớp lệnh định kỳ
Hai kí tự mà loại biểu đồ này sử dụng là:
Hình 1-3 Biểu đồ dạng cây nến
Trang 22- SMA : Đường trung bình trượt giản đơn
- WMA: Đường trung bình trượt tuyến tính có trọng số
- EMA : Đường trung bình trượt theo hệ số mũ
- VMA : Đường trung bình trượt biến đổi
- TMA : Đường trung bình trượt hồi quy theo thời gian
Đường chuẩn MACD
Ý nghĩa:
MACD là chỉ báo cho thấy sự quy tụ hay phân kỳ của trung bình chuyển động MACD cho sự khẳng định dấu hiệu thị trường khi đường MA ngắn hạn giao nhau với đường MA dài hạn
Trang 24Chương 2 - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt Bên cạnh đó, việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý , trong đó có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những
kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền CNTT thế giới hiện nay nói chung và Việt Nam nói riêng
2.1 Giới thiệu về khai phá dữ liệu (Data Mining)
Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng
kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn
Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác
có ý nghĩa tương tự như: Khai phá tri thức từ CSDL, trích lọc dữ liệu (Konwlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredredging) Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là như nhau Tuy nhiên trên thực tế khai phá dữ liệu chỉ
là một bước thiết yếu trong quá trình Khám phá tri thức trong CSDL
Trang 25 Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp
Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu
Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo
Trình diễn dữ liệu (Knowlegde presentation): Sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng
Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:
Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có
Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời
Dưới đây giới thiệu 3 phương pháp thông dụng nhất là: phân cụm dữ liệu, phân lớp dữ liệu và khai phá luật kết hợp
Phân cụm dữ liệu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng
Phân lớp dữ liệu và hồi quy: Mục tiêu của phương pháp phân lớp dữ liệu
là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình phân lớp dữ liệu thường gồm 2 bước: Thứ nhất, xây dựng mô hình, một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính lớp Thứ hai, sử dụng mô hình để phân lớp dữ liệu, tính độ chính xác của
mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng
để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai
Khai phá luật kết hợp: mục tiêu của phương pháp này là phát hiện và đưa
ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được
Khai phá luật kết hợp được thực hiện qua 2 bước: Thứ nhất, tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua tính độ hỗ trợ và thoả mãn độ
hỗ trợ cực tiểu Thứ hai, sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu
Trang 262.2 Phân lớp
2.2.1 Giới thiệu về phân lớp
Phân lớp (Classification) là việc phân loại các mẫu thành một tập rời rạc của các nhóm có thể Phân lớp là một quá trình gồm hai bước Ở bước thứ nhất, mô hình được học mô tả một tập hợp được định trước của các lớp dữ liệu Mô hình này được xây dựng bằng cách phân tích các thuộc tính của dữ liệu Mỗi dữ liệu được giả thiết rằng thuộc một lớp đã định nghĩa trước, và được xác định bởi nhãn của lớp (class lable) Trong phân lớp, dữ liệu được phân tích để xây dựng một mô hình tập hợp từ tập
dữ liệu huấn luyện (training data set) Dữ liệu riêng lẻ tạo ra tập huấn luyện còn được gọi là mẫu huấn luyện (training examples) và được chọn ngẫu nhiên Nếu các mẫu huấn luyện được đánh nhãn, bước này còn được gọi là học có giám sát (Supervised learning) Nó đối lập với học không giám sát (unsupervised learning), thường được gọi
là phân cụm, trong đó nhãn cho mẫu huấn luyện là không biết và số lượng tập hợp của các lớp được học có thể không biết Một số mô hình học thông dụng được sử dụng nhiều trong thực tế là luật kết hợp, cây quyết định (Decision tree), mạng nơron, SVM
…
Bước thứ hai là sử dụng mô hình đã được xây dựng ở bước một để phân loại các mẫu dữ liệu chưa có nhãn vào lớp tương ứng Đầu tiên sẽ đánh giá sự chính xác khi dự đoán Có một số cách để đánh giá sự chính xác Cách thường được dùng là phương pháp tiếp cận holdout, nó đánh giá sự chính xác dự báo của mô hình bằng việc
đo độ chính xác trên một tập các mẫu mà tập này không được phép dùng khi xây dựng
mô hình Tập như vậy được gọi là tập thử (test data set) Những mẫu này được chọn ngẫu nhiên và độc lập với tập huấn luyện Sự chính xác của mô hình dựa trên tập dữ liệu kiểm tra là phần trăm của tập mẫu test mà phân loại chính xác bởi mô hình Với mỗi mẫu thử, nhãn đã biết của lớp được so sánh với sự dự đoán của mô hình học của lớp Thuật toán học có thể dẫn tới lạc lối bởi những lỗi ngẫu nhiên và sự trùng lặp bên trong tập dữ liệu huấn luyện Do đó, tập dữ liệu xác nhận có thể được kỳ vọng để cung cấp một sự kiểm tra an toàn chống lại việc over fitting các đặc trưng giả mạo của tập
dữ liệu huấn luyện (đó là, mô hình học có thể phân loại một số trường hợp dị thường đặc biệt của dữ liệu thử mà chưa từng xuất hiện trong tập huấn luyện)
Trang 27Hình 2-1 Mô hình phân lớp tiêu chuẩn
Tất nhiên, điều quan trọng là tập huấn luyện là đủ lớn để mô hình tự nó có thể học được phân bổ tốt nhất có thể của dữ liệu Để giải quyết vấn đề này, phương pháp thường được áp dụng khi bộ dữ liệu không đủ lớn mà vẫn tăng khả năng phân lớp là sử dụng xác nhận chéo Trong xác nhận chéo k-fold, dữ liệu có sẵn được phân thành k tập riêng lẻ với kích cỡ xấp xỉ nhau Thủ tục xác nhận chéo tạo ra k sự lặp lại trong đó phương pháp học được đưa ra k-1 tập con để sử dụng như là dữ liệu huấn luyện, và nó được kiểm tra trên tập bên trái Độ chính xác của xác nhận chéo của thuật toán đưa ra thường đơn giản là trung bình cộng của các độ đo chính xác từ những fold riêng lẻ
Nếu độ chính xác của mô hình được coi như là chấp nhận được, mô hình có thể được sử dụng để phân lớp các mẫu về sau mà nhãn lớp là chưa biết Dữ liệu như vậy cũng được biết đến trong học máy như là các dữ liệu chưa biết “unknown” hoặc dữ liệu trước đây chưa tồn tại “previously unseen”
Trang 28Để có thể đánh giá được khả năng của một thuật toán phân lớp, người ta đã đề
- Sự tráng kiện của mô hình (Robustness): cho biết khả năng mô hình tạo ra các
dự đoán đúng với các dữ liệu nhiễu và dữ liệu với giá trị không đầy đủ
- Tính khả chuyển (Scalability): cho biết khả năng xây dựng mô hình một cách hiệu quả với các dữ liệu khác nhau
- Tính có thể hiểu được (Interpretability): cho biết mức độ chi tiết của thông tin được cung cấp bởi mô hình
Trong luận văn này, chúng tôi đặc biệt quan tâm tới vấn đề chất lượng phân lớp
và tính có thể hiểu được
Độ đo chất lượng phân lớp tiêu chuẩn thể hiện thông qua độ chính xác (accuracy), độ hồi nhớ (recall) và độ đúng đắn (precision) Chúng được định nghĩa dựa trên công thức như hình dưới Chúng ta xem các lớp trong một vấn đề phân lớp nhị phân như là lớp dương “possitive” và âm “negative” tương ứng
11 00
nnnn
nn
00
nn
n
; precision = 00 10
00
nn
n
Tính có thể hiểu được thường được tính trong kích thước của các bộ phân lớp
2.2.2 Các phương pháp phân lớp
Có rất nhiều phương pháp phân lớp, mỗi phương pháp phân lớp đều có cách tính toán khác nhau Sự khác nhau cơ bản của các phương pháp này là ở thuật toán học quy nạp Tuy nhiên, nhìn một cách tổng quan thì các phương pháp đó đều phải thực hiện một số bước chung như sau: đầu tiên, mỗi phương pháp sẽ dựa trên các thông tin của các mẫu để biểu diễn mẫu thành dạng vector; sau đó, tuỳ từng phương pháp mà ta
sẽ áp dụng công thức và phương thức tính toán khác nhau để thực hiện việc phân loại
Trang 29Sau đây là một số cách tiếp cận mà theo thực nghiệm thì có hiệu quả phân loại cao cũng như những thuận lợi và bất tiện của mỗi cách
Phương pháp k người láng giềng gần nhất (k-NN Algorithm):
Ý tưởng:
Là phương pháp nổi tiếng về hướng tiếp cận dựa trên xác suất thống kê Khi cần phân loại mẫu mới, thuật toán sẽ tính khoảng cách (khoảng cách Euclide, Cosine ) của tất cả các mẫu trong tập huấn luyện đến mẫu mới này để tìm ra k mẫu gần nhất (gọi là k “láng giềng”) sau đó dùng các khoảng cách này đánh trọng số cho tất cả các mẫu Trọng số của một mẫu chính là tổng tất cả các khoảng cách ở trên của mẫu trong k láng giềng có cùng đặc trưng, đặc trưng nào không xuất hiện trong k láng giềng sẽ có trọng số bằng không Sau đó các đặc trưng được sắp xếp theo mức độ trọng số giảm dần và các đặc trưng có trọng số cao sẽ được chọn là đặc trưng của mẫu cần phân loại
dễ dàng áp dụng
Một lợi ích nữa của k-NN là giải thuật này có thể được vận dụng để cải tiến hơn Nói cách khác, giải thuật này nhanh chóng chỉnh sửa và phù hợp với các trường hợp khác Ví dụ, giải thuật có thể được áp dụng cho bất kỳ khoảng cách đo lường nào khi nhập vào và các mẫu huấn luyện vì khoảng cách của các mẫu nhập vào có thể được giảm đi để cải tiến hiệu quả của giải thuật, do vậy k-NN có thể được áp dụng cho mẫu với bất kì khoảng cách nào trong mẫu đào tạo Cũng vì thế mà hầu hết thời gian huấn luyện đòi hỏi cho phân loại mẫu trong giải thuật k-NN; giải thuật này được đánh giá là
kỹ thuật chi phí trong các kỹ thuật cuối cùng, k-NN là giải thuật mạnh có thể giám sát các nguồn tiềm năng lỗi
Nhược điểm:
Rất khó có thể tìm ra k tối ưu Hơn nữa với trường hợp mẫu có nhiễu thì việc phân loại là không tốt
Trang 30Phương pháp Cây quyết định (Decision Tree Algorithm):
Ý tưởng:
Bộ phân lớp cây quyết định là một dạng cây mà mỗi nút được gán nhãn là một đặc trưng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trưng trong mẫu cần phân
lớp, và mỗi lá là nhãn của phân lớp Việc phân lớp của một mẫu d j sẽ được duyệt đệ
qui theo trọng số của những đặc trưng cĩ xuất hiện trong mẫu d j Thuật tốn lặp đệ qui
đến khi đạt đến nút lá và nhãn của d j chính là nhãn của nút lá tìm được Thơng thường việc phân lớp mẫu nhị phân sẽ tương thích với việc dùng cây nhị phân
Một vấn đề khác là khơng cĩ bảo vệ phù hợp giống như Support Vector Machines, vì vậy chúng cĩ thể loại trừ các đặc trưng Điều này cĩ nghĩa là chúng khơng thể chấp nhận một mẫu với số lượng lớn đặc trưng như SVM, vì cĩ quá nhiều đặc trưng tạo nên tràn phù hợp và làm cho khả năng học kém hơn
Một trở ngại khác là thời gian huấn luyện phân loại cao bởi vì giải thuật này cần
so sánh tất cả những nhánh con cĩ thể, nên mất nhiều thời gian để chia và duyệt các đặc trưng
Phương pháp Nạve Bayes
Ý tưởng :
Ý tưởng cơ bản của phương pháp xác suất Bayes là dựa vào xác suất cĩ điều kiện của từ hay đặc trưng xuất hiện trong mẫu với đặc trưng để dự đốn đặc trưng của mẫu đang xét Điểm quan trọng cơ bản của phương pháp này là các giả định độc lập:
- Các từ hay đặc trưng của mẫu xuất hiện là độc lập với nhau
- Vị trí của các từ hay các đặc trưng là độc lập và cĩ vai trị như nhau
Giả sử ta cĩ:
Trang 31- n đặc trưng (lớp) đã được định nghĩa c1, c2, , cn
- Mẫu mới cần được phân loại d j
Để tiến hành phân loại mẫu d j, chúng ta cần phải tính được tần suất xuất hiện của các lớp c i (i 1,2, ,n) trong mẫu d j Sau khi tính được xác suất của mẫu đối với các đặc trưng, theo luật Bayes, mẫu sẽ được phân lớp vào đặc trưng c i nào cĩ xác suất cao nhất
Một trong những trở ngại là dựa trên luật gọi là các điều kiện độc lập Cĩ thể
bị vi phạm bởi các trường hợp trong thực tế, bởi vì Nạve Bayes thừa nhận các đặc trưng trong mẫu độc lập riêng rẽ và được biểu diễn một cách nghèo nàn khi những đặc trưng này cĩ mối liên hệ với nhau Hơn nữa, luật này khơng tạo được sự thường xuyên cho việc xuất hiện các đặc trưng Một bất lợi khác nữa là giải thuật sử dụng nhiều tính tốn và vì vậy thời gian bị chi phối
Phương pháp mạng Nơron (Neural Network):
Ý tưởng:
Mơ hình mạng neural gồm cĩ ba thành phần chính như sau: kiến trúc (architecture), hàm chi phí (cost function), và thuật tốn tìm kiếm (search algorithm) Kiến trúc định nghĩa dạng chức năng (functional form) liên quan giá trị nhập (inputs) đến giá trị xuất (outputs)
Kiến trúc phẳng ( flat architecture ) : Mạng phân loại đơn giản nhất ( cịn gọi là
mạng logic) cĩ một đơn vị xuất là kích hoạt kết quả (logistic activation) và khơng cĩ lớp ẩn, kết quả trả về ở dạng hàm (functional form) tương đương với mơ hình hồi quy logic Thuật tốn tìm kiếm chia nhỏ mơ hình mạng để thích hợp với việc điều chỉnh
mơ hình ứng với tập huấn luyện Ví dụ, chúng ta cĩ thể học trọng số trong mạng kết quả (logistic network) bằng cách sử dụng khơng gian trọng số giảm dần (gradient descent in weight space) hoặc sử dụng thuật tốn interated-reweighted least squares là thuật tốn truyền thống trong hồi quy (logistic regression)
Trang 32Kiến trúc môđun (modular architecture): Việc sử dụng một hay nhiều lớp ẩn
của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ giữa những biến nhập và biến xuất Mỗi lớp ẩn học để biểu diễn lại dữ liệu đầu vào bằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ở mức trước
2.3 Mạng Nơron
Một trong những kỹ thuật tiên tiến được sử dụng trong việc tạo quyết định tài chính là mạng Nơron Mục này sẽ giới thiệu về mạng nơron được tạo và hoạt động như thế nào
Các mạng nơron nhân tạo được tạo ra nhằm mục đích mô phỏng lại bộ não của con người Có thể coi bộ não là một máy tính hay một hệ thống xử lý thông tin song song, phi tuyến và cực kỳ phức tạp Nó có khả năng tự tổ chức các bộ phận cấu thành của nó, như là các tế bào thần kinh (nơron) hay các khớp nối thần kinh (synapse), nhằm thực hiện một số tính toán như nhận dạng mẫu và điều khiển vận động nhanh hơn nhiều lần các máy tính nhanh nhất hiện nay Sự mô phỏng bộ não con người của mạng nơron là dựa trên cơ sở một số tính chất đặc thù rút ra từ các nghiên cứu về thần kinh sinh học Lý thuyết về Mạng nơ ron nhân tạo, hay gọi tắt là “Mạng nơ ron”, được xây dựng xuất phát từ một thực tế là bộ não con người luôn luôn thực hiện các tính toán một cách hoàn toàn khác so với các máy tính số
2.3.1 Mô hình một nơron perceptron
Một nơron perceptron là một phần tử xử lý gồm:
n đầu vào xi, mỗi đầu vào ứng với một giá trị thực wi gọi là trọng số
Một giá trị thực b gọi là ngưỡng (bias)
Một hàm kích hoạt f
Giá trị ra y
Hình 2-2 Mô hình một nơron perceptron
Trang 33Giá trị ra của perceptron được tính theo quy tắc sau:
) (
1
u f y
b w x u
n
i i i
Hàm kích hoạt được sử dụng phổ biến là hàm sigmoid (còn gọi là hàm logistic)
do tính phi tuyến và khả vi:
u
e1
1)
Khả năng tính toán của một nơron perceptron khá hạn chế Để cải thiện người
ta nối chúng thành mạng Mô hình mạng đơn giản nhất là mạng perceptron truyền thẳng đa lớp MLP
2.3.2 Mô hình mạng nơron MLP
Mạng nơron MLP n đầu vào, m đầu ra có mô hình như sau:
Các nơron được chia thành các lớp: lớp sau được nối với lớp trước Lớp đầu tiên là lớp vào (input - nhận đầu vào), lớp cuối cùng là lớp ra (output - cho đầu ra) Giữa lớp vào và lớp ra là các lớp ẩn (hidden) Thông thường chỉ có một lớp ẩn
Tất cả các nơron cùng một lớp sử dụng chung một vector đầu vào Mỗi lớp khi nhận một vector đầu vào sẽ tính đầu ra của mỗi nơron, kết hợp thành một vector và lấy đó làm đầu vào cho lớp sau
Mạng MLP nhận đầu vào là một vector n thành phần, lấy đó làm đầu vào của lớp input và tính toán cho đến khi lớp output có đầu ra, lấy đó là đầu ra của mạng: một vector m thành phần
Toàn bộ các nơron của toàn mạng sử dụng chung một hàm kích hoạt, thường là hàm logistic
Ngoài lớp vào và lớp ra, mạng MLP thường có một hay nhiều lớp ẩn Thông thường người ta chỉ sử dụng một lớp ẩn Vì vậy đôi khi người ta hay đồng nhất MLP với MLP 3 lớp
Trang 34input layer
hidden layer
output layer
Hình 2-3 Mô hình mạng perceptron 3 lớp(MLP)
Như vậy xét dưới góc độ toán học mạng MLP biểu diễn một hàm phi tuyến từ
Rn vào Rm Người ta cũng chứng minh được rằng: “một hàm phi tuyến liên tục bất kì
có thể xấp xỉ với độ chính xác tuỳ ý bằng mạng MLP” (định lí Kolmogorov)
Mạng MLP npm (n đầu vào, m đầu ra, p nơron ẩn) được biểu diễn bằng 2 ma trận trọng số w1 cỡ np, w2 cỡ pm và 2 vector ngưỡng b1 p phần tử, b2 m phần tử (Lớp input của MLP chỉ có tác dụng nhận đầu vào, hoàn toàn không thực hiện tính toán)
Khi đó tính toán đầu ra y của mạng theo đầu vào x như sau:
y f(v)
bw.zv
)u(z
bw.xu
2 2
1 1
(2.3)
Ở đây, u, v, z là các vector Viết z=f(u) có nghĩa là zi=f(ui) với mọi i
Để biểu diễn được một hàm nào đó, mạng MLP cần được huấn luyện
2.3.3 Huấn luyện mạng nơron MLP
Để mạng nơron biểu diễn được hàm f, ta cần một bộ dữ liệu gồm N cặp vector (xi, ti), trong đó xi thuộc tập xác định của f và ti là giá trị của f tại xi:
ti = f(xi) (2.4) Mạng MLP sẽ biểu diễn được hàm f nếu cho đầu vào của mạng là xi thì đầu ra của mạng là ti Thường thì MLP chỉ biểu diễn được xấp xỉ hàm f, do đó ta mong muốn nếu mạng cho đầu ra thực tế là yi thì yi càng gần ti càng tốt
Trang 35Như vậy bài toán huấn luyện mạng là cho bộ dữ liệu huấn luyện gồm N cặp vector (xi, ti), cần điều chỉnh các trọng số của mạng sao cho tổng sai số của mạng trên
i
i y mint
Trong đó yi là đầu ra thực tế của mạng ứng với đầu vào xi
Thuật toán huấn luyện MLP phổ biến nhất là thuật toán lan truyền ngược lỗi (back-propagation training) Thuật toán có đầu vào là tập mẫu {(xi, ti)}, đầu ra là bộ trọng số của mạng
Các bước tiến hành huấn luyện như sau:
1/ Khởi tạo trọng số của mạng: wij được gán các giá trị ngẫu nhiên, nhỏ (nằm trong miền [-, ])
2/ Với mỗi cặp (x,t) trong bộ dữ liệu huấn luyện:
Giả sử x = (x1 , , xn) Ta thực hiện:
1 Lan truyền x qua mạng để có y
2 Tính sai số e của mạng: e=t-y
3 Hiệu chỉnh các trọng số liên kết nơron dẫn tới lớp ra wij từ nơron j tại lớp ẩn tới nơron i tại lớp ra:
wij = wij + wij (2.6) wij là trọng số giữa nơron i ở lớp trước và nơron j ở lớp sau wij được tính theo công thức sau:
wij=jyi (2.7)
là hằng số tốc độ học (learning rate), thường lấy bằng
yi là đầu ra của nơron i (nếu i là nơron lớp input thì thay yi bằng xi)
j là sai số tại nơron j Nếu j là nơron lớp ra (output layer) thì j được tính theo công thức
j = yj(1-yj)(tj-yj) (2.8) Nếu j là nơron lớp ẩn thì được tính theo công thức:
j = yj(1-yj)
k
j k
trong đó k là các các nơron của lớp sau lớp của j
Việc đưa mẫu huấn luyện qua mạng, tính toán và cập nhật trọng số được tiến hành với tất cả phần tử trong bộ mẫu (có thể chọn ngẫu nhiên hoặc tuần tự) Quá trình
sẽ dừng lại khi sai số trung bình (hoặc tổng sai số) nhỏ hơn một giá trị cho trước hoặc thay đổi không đáng kể (tức là quá trình huấn luyện hội tụ)
Trang 362.3.4 Ưu điểm và nhược điểm của mạng nơron
Các nghiên cứu cả về mặt lí thuyết và thực tế cho thấy mạng nơron có những ưu điểm sau:
Có thể xấp xỉ một hệ phi tuyến động (nonlinear dynamical system) với độ chính xác bất kì
Có khả năng miễn nhiễu (robustness) và chịu sai hỏng (fault tolerance) cao Chẳng hạn mạng có thể nhận các dữ liệu bị sai lệch hoặc không đầy đủ mà vẫn hoạt động được
Có khả năng thích ứng: mạng nơron có thể “học” (learn) và “điều chỉnh” (adapt) trong quá trình hoạt động Đây là điểm đáng chú ý nhất của mạng nơron trong nhận dạng tiếng nói Đặc điểm này của mạng cho phép ta hi vọng xây dựng được một hệ nhận dạng có thể “học tập” để nâng cao khả năng nhận dạng trong khi hoạt động
Có khả năng tổng quát hoá (generalize) tốt và phân lớp (classify) mạng Nhưng mạng nơron cũng không phải là công cụ vạn năng cho mọi vấn đề, vì chúng cũng có nhiều nhược điểm:
Chỉ xử lý được các dữ liệu số Cần tích hợp thêm nhiều thành phần khác (ví dụ: các hệ mờ, các bộ số hoá ) để có thể xử lí những dữ liệu phi số
Hiệu năng của mạng phụ thuộc bộ dữ liệu huấn luyện Để đảm bảo hiệu năng, mạng cần được huấn luyện với lượng dữ liệu lớn Quá trình huấn luyện do đó rất dài Mặt khác nếu bộ dữ liệu được chuẩn bị không tốt thì mạng có khả năng tổng quát hoá thấp
Mạng nơron gần như là một “hộp đen” đối với các phân tích Rất khó xác định được sự phân bố thông tin và xử lý trên các phần tử của mạng
Không có một phương pháp chung nào để xác định cấu trúc mạng phù hợp từng bài toán Nhà nghiên cứu phải tiến hành thử nghiệm hoặc dựa vào kinh nghiệm để xác định
Các thuật toán huấn luyện hiện chưa đảm bảo tránh quá trình huấn luyện rơi vào một cực trị địa phương Hơn nữa sai số huấn luyện giảm không đồng nghĩa với tăng hiệu năng hoạt động của mạng
Mạng cấu trúc lớn cài đặt bằng phần mềm trên máy tính hoạt động rất chậm Việc xây dựng mạng nơron bằng phần cứng vẫn còn đang được nghiên cứu
2.4 Hệ mờ (Fuzzy System)
Trong vài thập kỷ qua, các hệ mờ đã có những thành tựu đáng kể trong nhiều lĩnh vực khác nhau của khoa học và công nghệ, đặc biệt là trong điều khiển và nhận dạng Với khả năng lập luận hết sức hiệu quả trên một số lượng nhỏ các tập luật, có thể nói Logic mờ là một công cụ đắc lực và hiệu quả của tiến trình tạo quyết định trong
Trang 37lĩnh vực tài chính Trong phần này, chúng tôi sẽ trình bày những vấn đề cơ bản liên quan tới việc xây dựng và sử dụng hệ mờ từ đó có thể áp dụng để giải quyết bài toán của chúng tôi ở chương tiếp theo
2.4.1 Định nghĩa tập mờ
Tập hợp nhóm các đối tượng phân biệt Khái niệm tập hợp đã trở thành khái niệm cơ bản trong toán học Ở đây chúng ta sẽ không nhắc lại các khái niệm cũng như tính chất của tập hợp mà sẽ đi ngay vào tập mờ
Trong lĩnh vực tài chính, chỉ số tài chính với các giá trị ngôn ngữ thấp, cao, trung bình hay với việc mua bán chứng khoán ta có mua nhiều, bán ít, bán mạnh…Các giá trị này gây cảm giác phân vân cho người thiết kế bộ điều khiển nếu không đưa nó vào khái niệm tập mờ Vì sao vậy? Giả sử chỉ số RSI là 70 thì có người cho rằng đó là cao và quyết định mua nhiều, nhưng có người thì cho rằng 70 chỉ là trung bình nên quyết định giữ không bán
Nhằm thống nhất hai quan điểm, ta sẽ đưa vào giá trị RSI một số thực trong khoảng [0,1] để đánh giá mức độ phụ thuộc của nó vào hai quan điểm nói trên Chẳng hạn, giá trị 70 sẽ là cao với độ phụ thuộc 0.4 và trung bình với độ phụ thuộc là 0.6
Một cách tổng quát thì ta phải đưa thêm vào mỗi giá trị thực tế một số thực (x) trong khoảng [0,1] để đánh giá độ phụ thuộc của nó ứng với từng giá trị ngôn ngữ Việc đưa thêm số thực (x) để đánh giá độ phụ thuộc như vậy được gọi là mờ hoá giá
trị rõ x Ta có định nghĩa:
Định nghĩa:
Tập mờ là một tập hợp mà mỗi phần tử cơ bản x của nó được gán thêm một giá trị thực (x)[0,1] để chỉ thị độ phụ thuộc của phần tử đó vào tập đã cho Khi độ phụ
thuộc bằng 0 thì phần tử cơ bản đó sẽ hoàn toàn không thuộc tập đã cho, ngược lại với
độ phụ thuộc bằng 1 thì phần tử cơ bản sẽ thuộc tập hợp với xác suất 100%
Như vậy, tập mờ là tập của các cặp (x,(x)) Tập kinh điển U của các phần tử x được gọi là tập nền của tập mờ Cho x chạy khắp trong tập hợp U, ta sẽ có hàm (x) có giá trị là số bất kỳ trong khoảng [0,1] tức là:
: U[0,1]
và hàm này được gọi là hàm thuộc
Việc (x) có giá trị là số bất kỳ trong khoảng [0,1] là điều khác biệt cơ bản giữa tập kinh điển và tập mờ Ở tập hợp A, hàm thuộc (x) chỉ có hai giá trị 0 hoặc 1 ứng với x A hay không
Chính do có sự khác biệt đó mà ta cũng có nhiều công thức khác nhau cùng mô
tả cho một phép tính giữa các tập mờ Đó là những công thức có cùng một giá trị nếu hàm thuộc (x) thoả mãn
Trang 38Bất cứ một hàm (x):U[0,1] cũng đều có thể là hàm thuộc của một tập mờ nào đó Nhưng trong điều khiển, với mục đích sử dụng các hàm thuộc sao cho khả năng tích hợp chúng là đơn giản, người ta chỉ quan tâm tới ba dạng hàm thuộc như trong hình 2-4
Hình 2-4 Các dạng hàm thuộc
Thông thường, để chỉ một tập mờ người ta hay sử dụng ngay hàm thuộc (x) của tập mờ đó Với việc đưa khái niệm tập mờ, mỗi một giá trị ngôn ngữ sẽ là một tập
mờ Trong ví dụ về chỉ số RSI, ta sẽ có các tập mờ sau:
Tập mờ cao(x) cho giá trị cao
Tập mờ trung bình(x) cho giá trị trung bình
Tập mờ thấp(x) cho giá trị thấp
2.4.2 Phép suy diễn mờ
2.4.2.1 Xác định giá trị của mệnh đề hợ thành
Sau khi đã mờ hoá giá trị rõ x thông qua tập mờ (x) thì bước tiếp theo là ta
phải thực hiện những nguyên tác điều khiển đã cho dưới dạng mệnh đề hợp thành
Chẳng hạn ta có:
IF RSI tăng trên 70 THEN BULLISH
IF RSI giảm dưới 70 THEN BEARISH
IF RSI tăng trên 50 THEN BULLISH
IF RSI giảm dưới 50 THEN BEARISH
IF RSI tăng trên 30 THEN BULLISH
IF RSI giảm dưới 30 THEN BEARISH
Singleton Tam giác Hình thang
Trang 39Chúng đều có chung một cấu trúc đơn:
Gọi tập mờ của giá trị A là A(x) và của B là B(y) thì mệnh đề hợp thành chính
là phép suy diễn :
Phép suy diễn trên là một phép tính có đối số x nên nó cũng phải có một giá trị
cụ thể khi mà đối số x, tức là A(x) đã cho trước Ký hiệu giá trị của phép suy diễn là
A B(y) thì trong logic mờ nó sẽ được tính từ A(x),B(y) như sau:
hoặc
Cả hai công thức trên cùng được sử dụng cho tập thông thường mà không gây mâu thuẫn là vì x và y thoả mãn (x) = 1 nếu x A, cả hai công thức đều cho cùng một giá trị, nói cách khác là chúng tương đương
Với tập mờ A(x),B(y) thì điều đó có khác đôi chút Hai công thức sẽ cho hai giá trị mờ có cùng nền với tập mờ B nhưng với hai hàm thuộc khác nhau Việc chọn hàm nào là người dùng quyết định :
Nếu chọn công thức 2.3a thì ta nói phép suy diễn mờ đó là luật suy diễn Prod Nếu chọn công thức 2.3b thì ta nói phép suy diễn mờ đó là luật suy diễn Min
Sau khi đã chọn được một công thức thực hiện phép suy diễn là Prod hay Min thì khi cho trước giá trị rõ x0 ở đầu vào ta luôn có được một giá trị cho phép suy diễn
AB Giả sử giá trị đó là tập mờ có hàm thuộc A B(y) cùng nền với B và được tính như sau :
Nếu chọn luật Prod
Nếu chọn luật Min
Trong đó H=A(x0) được gọi là độ thoả mãn đầu vào
Ngoài cấu trúc đơn còn có cấu trúc dạng :
IF A1=X1 AND A2=X2 AND An=XnTHEN B=Y (2.5) Cấu trúc này có nhiều đầu vào- một đầu ra và có tên là MISO
Ở mệnh đề đơn chỉ có một đầu vào còn ở mệnh đề MISO có nhiều tập mờ đầu vào Điều này làm cho ta chưa thể sử dụng ngay một trong hai công thức 2.4a hoặc 2.4b để xác định giá trị mờ A B(y) vì chưa có được một độ thoả mãn đầu vào H cụ thể Nói cách khác, trước khi sử dụng hai công thức suy diễn 2.4a hoặc 2.4b cho mệnh
Trang 40đề hợp thành 2.5 ta phải có đƣợc độ thoả mãn đầu vào H chung làm đại diện cho tất cả
m tín hiệu vào
Gọi Ak(xk) là những hàm thuộc của tập mờ đầu vào Ak , k=1,2,…,m ứng với m
tín hiệu vào là k , k=1,2, ,m và B(y) là hàm thuộc của tập B ứng với đầu ra B của bộ
điều khiển MISO, trong đó x k là tín hiệu có ở cổng vào k, tức là giá trị của nó sẽ thuộc tập nền của tập mờ A k Giả sử rằng tại đầu vào của bộ điều khiển có các giá trị rõ x0k,
k=1,2, ,m Vậy thì mỗi một tập mờ A k sẽ có một độ thoả mãn riêng
Hk=Ak(x0k)
Độ thoả mãn đầu vào chung H cho cả mệnh đề hợp thành MISO (2.5) khi đó sẽ
đƣợc xác định theo nguyên tắc tình huống xấu nhất nhƣ sau :
H=min{H 1 ,H 2 , ,H m}=min Ak(x0k)
Khi đã có độ thoả mãn đầu vào chung H thì tập mờ A B(y) của mệnh đề (2.5) ứng với vector các giá trị rõ đầu vào x0
k , k=1,2, ,m sẽ đƣợc tính theo công thức (2.4a)
hoặc (2.4b):
Nếu chọn luật Prod
AB (y) = min Ak (x k 0 ) .B (y) (2.6a)
Nếu chọn luật Min
AB (y)= min {min Ak (x k
Không bó buộc bởi các công thức đó, một cách tổng quá về phép tính suy diễn, mọi ánh xạ A B :[0,1]2 [0,1], nếu thoả mãn: