1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính

82 909 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 82
Dung lượng 2,44 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Còn đối với các doanh nghiệp DN và các nhà đầu tư thì việc đánh giá phân tích được kết quả hoạt động sản xuất kinh doanh, phân tích và dự đoán tình hình tài chính của doanh nghiệp, giúp

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGUYỄN HÀ NAM

HÀ NỘI – 2009

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan những kết quả đạt đƣợc trong luận văn này là do tôi nghiên cứu, tổng hợp và thực hiện Toàn bộ những điều đƣợc trình bày trong luận văn là của

cá nhân hoặc đƣợc tham khảo và tổng hợp từ các nguồn tài liệu khác nhau Tất cả các tài liệu tham khảo, tổng hợp đều đƣợc trích dẫn với nguồn gốc rõ ràng

Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình Nếu có gì sai trái, tôi xin chịu mọi hình thức kỷ luật theo qui đinh

Hà Nội, tháng 5 năm 2008

Học viên

Hà Văn Sang

Trang 3

Tôi cũng xin chân thành cảm ơn cơ quan, bạn bè, đồng nghiệp, gia đình và những người thân đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi hoàn thành nhiệm vụ học tập và cuốn luận văn này

Hà nội, tháng 5 năm 2009

Học viên

Hà Văn Sang

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT v

DANH MỤC HÌNH VẼ vi

DANH MỤC BẢNG BIỂU vii

MỞ ĐẦU 1

1 Đặt vấn đề 1

2 Mục tiêu của nghiên cứu 2

3 Cấu trúc của luận văn 2

Chương 1 - MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH 3

1.1 Một số khái niệm tài chính 3

1.1.1 Phân tích tài chính 3

1.1.2 Báo cáo tài chính 4

1.1.3 Phương pháp phân tích tài chính 5

1.1.4 Dự báo tình hình tài chính 6

1.2 Rủi ro tài chính 7

1.2.1 Khái niệm 7

1.2.2 Nguồn gốc của rủi ro tài chính 7

1.2.3 Quy trình quản trị rủi ro tài chính 8

1.2.3 Quản trị rủi ro trong đầu tư chứng khoán 10

1.3 Phân tích kỹ thuật trong dự báo thị trường chứng khoán 11

1.3.1 Khái niệm 11

1.3.2 Ứng dụng của phân tích kỹ thuật 12

1.3.3 Các công cụ cơ bản sử dụng trong Phân tích kỹ thuật 12

1.3.4 Các chỉ dẫn kỹ thuật cơ bản 14

Chương 2 - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 16

2.1 Giới thiệu về khai phá dữ liệu (Data Mining) 16

2.2 Phân lớp 18

2.2.1 Giới thiệu về phân lớp 18

2.2.2 Các phương pháp phân lớp 20

2.3 Mạng Nơron 24

2.4 Hệ mờ (Fuzzy System) 28

2.4.1 Định nghĩa tập mờ 29

2.4.2 Phép suy diễn mờ 30

2.4.3 Phép hợp mờ 32

2.4.4 Giải mờ 34

2.4.5 Hệ suy diễn mờ 36

Chương 3 - MÔ HÌNH PHÂN TÍCH RỦI RO TÀI CHÍNH 38

Trang 5

2.1 Sơ lược về mô hình 38

2.2 Phân lớp dữ liệu - Thiết kế mạng nơron 39

2.2.1 Chọn loại dữ liệu đầu vào 39

2.2.2 Thu thập dữ liệu 39

2.2.3 Tiền xử lý dữ liệu 40

2.2.4 Phân hoạch dữ liệu 41

2.2.5 Thiết kế và huấn luyện mạng Nơron 41

2.2.6 Phân tích dữ liệu 41

2.3 Xây dựng tập luật từ phân tích kỹ thuật 42

2.3.1 Phân kỳ và hội tụ của đường trung bình di động 42

2.3.2 Chỉ số kênh giá hàng hoá - The Commodity Channel Index (CCI) 43

2.3.3 Chỉ số cường độ tương đối - Relative Strength Index (RSI) 43

2.3.4 Dải băng Bollinger 44

2.4 Kết hợp phân tích kỹ thuật với logic mờ và mạng nơron 44

2.4.1 Mô đun chỉ số kỹ thuật 45

2.4.2 Mô đun hội tụ 46

2.4.3 Mô đun hệ suy diễn mờ (FIS) 46

2.4.4 Luật cơ sở 47

Chương 4 - THỰC NGHIỆM VÀ ĐÁNH GIÁ 49

4.1 Dữ liệu dùng trong thực nghiệm 49

4.2 Thiết lập tham số cho thực nghiệm 50

4.2.1 Các tham số của mạng nơron 50

4.2.2 Các tham số của hệ hỗ trợ quyết định 51

4.3 Kết quả mẫu 54

4.3.1 Kết quả việc đánh giá và dự báo trong tương lai 54

4.3.2 Kết quả việc hỗ trợ quyết định 58

4.4 Đánh giá và phân tích 59

4.5 Kết luận 63

KẾT LUẬN 64

TÀI LIỆU THAM KHẢO 65

PHỤ LỤC 66

Phụ lục A – Giới thiệu về phần mềm FRPredictor 66

Phụ lục B – Cấu trúc các bảng cơ sở dữ liệu tài chính 69

Phụ lục B – Dữ liệu dùng trong thực nghiệm 72

Trang 6

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT

Từ viết tắt Tiếng Anh Tiếng Việt

CCI The Commodity Channel Index Chỉ số kênh giá hàng hoá

Trang 7

DANH MỤC HÌNH VẼ

Hình 1-1 Biểu đồ dạng đường 12

Hình 1-2 Biểu đồ dạng then chắn 13

Hình 1-3 Biểu đồ dạng cây nến 13

Hình 2-1 Mô hình phân lớp tiêu chuẩn 19

Hình 2-2 Mô hình một nơron perceptron 24

Hình 2-3 Mô hình mạng perceptron 3 lớp(MLP) 26

Hình 2-4 Các dạng hàm thuộc 30

Hình 2-5 Giải mờ bằng phương pháp cực đại 35

Hình 2-6 Giải mờ bằng phương pháp điểm trọng tâm 35

Hình 2-7 Hệ suy diễn mờ 36

Hình 3-1 Mô hình đề xuất 38

Hình 3-2 Mồ hình thực thể liên kết 40

Hình 3-3 Hệ suy diễn mờ 45

Hình 3-4 Miền giá trị của đầu ra 47

Hình 4-1 Kết quả huấn luyện và kiểm tra 55

Hình 4-2 Kết quả thực hiện phân tích 57

Hình 4-3 Dự đoán Sp500 58

Hình 4-4 Hỗ trợ quyết định cho công ty IBM 58

Hình 4-5 Tỷ lệ chính xác 61

Hình 4-6 Tỷ lệ chính xác theo quý 61

Hình 4-7 So sánh tỷ lệ chính xác 62

Trang 8

i

DANH MỤC BẢNG BIỂU

Bảng 2-1 Ma trận hỗn hợp trong phân lớp 20

Bảng 3-1 Miền giá trị của các tham số 46

Bảng 4-1 Thiết lập tham số mạng 51

Bảng 4-2 Các chỉ số kỹ thuật và luật mờ tương ứng 52

Bảng 4-3 Kết hợp Hạng, các chỉ số và luật mờ tương ứng 53

Bảng 4-4 Mẫu dữ liệu huấn luyện 54

Bảng 4-5 Dữ liệu phân tích 56

Bảng 4-6 Kết quả phân tích và dự báo 57

Bảng 4-7 Hỗ trợ quyết định cho các công ty 59

Bảng 4-8 Kết quả so sánh giữa quyết định từ MACD, mô hình và thực tế 60

Bảng 4-9 So sánh việc ba chỉ số với hệ thống 62

Trang 9

MỞ ĐẦU

1 Đặt vấn đề

Thế giới ngày càng trở nên bất ổn hơn, những bất ổn trong giá cả hàng hoá và các biến số tài chính thay đổi theo những chiều hướng khó có thể dự báo trước được Trước khi ban quản trị có thể đưa ra bất kỳ một quyết định nào về phòng ngừa rủi ro, trước tiên họ cần phải nhận diện được tất cả các rủi ro mà công ty có thể gặp phải Hầu hết các tổ chức tài chính đều phải đối mặt với những rủi ro kinh doanh, là rủi ro thuộc

về bản chất của các hoạt động kinh doanh Trên thế giới đã có nhiều nghiên cứu về vấn

đề này và đã có một số mô hình cũng như phần mềm hỗ trợ việc đánh giá, dự báo rủi

ro tài chính Tuy nhiên ở Việt nam, các tổ chức tài chính cũng như các công ty doanh nghiệp chưa chú ý nhiều tới rủi ro tài chính Một số doanh nghiệp có thể tự đánh giá,

dự báo rủi ro hoặc đi thuê chuyên gia cố vấn tài chính Cách làm này tương đối thủ công và tốn kém về mặt nhân lực cũng như kinh phí

Trong các lĩnh vực nghiên cứu của khoa học máy tính thì khai phá dữ liệu là lĩnh vực đang phát triển mạnh mẽ và có nhiều ứng dụng thực tiễn Khai phá dữ liệu kết hợp giữa học máy, công nghệ cơ sở dữ liệu và các chuyên ngành khác để tìm ra tri thức từ những cơ sở dữ liệu rất lớn Từ những tri thức này, ta có thể sử dụng để xây dựng mô hình để đánh giá, dự báo

Mục tiêu của luận văn là tìm hiểu về rủi ro tài chính và xây dựng mô hình nhằm đánh giá, dự báo rủi ro tài chính Tuy nhiên, vấn đề rủi ro tài chính là tương đối lớn và rộng nên phạm vi của luận văn chỉ dừng lại ở việc xây dựng mô hình đánh giá, dự báo rủi ro trong lĩnh vực đầu tư, kinh doanh chứng khoán Luận văn tập trung vào việc tìm hiểu một số mô hình học máy tiên tiến và phân tích kỹ thuật trong lĩnh vực chứng khoán Phân tích kỹ thuật là một khoa học rất mới, nó đang phát triển mạnh mẽ và có những kết quả khả quan Trong luận văn, tôi đã thực hiện việc kết hợp phương pháp học máy sử dụng mạng nơron nhân tạo, phân tích kỹ thuật, hệ suy diễn mờ và ứng dụng xây dựng mô hình đánh giá, hỗ trợ quyết định mua hoặc bán một mã cổ phiếu cụ thể nào đó Tôi đã hoàn thành phần mềm thử nghiệm và tiến hành thực nghiệm trên bộ

dữ liệu thực tế thu thập từ các sàn giao dịch chứng khoán trong và ngoài nước Trong luận văn này, tôi đã tìm hiểu, kết hợp và tìm cách ứng dụng phương pháp khai phá dữ liệu nhằm phân tích và đánh giá rủi ro trong lĩnh vực tài chính Các kết quả thực nghiệm của phần mềm tuy chưa thực sự cao nhưng cũng đủ để cung cấp thông tin và định hướng ban đầu cho các nghiên cứu tiếp theo của chúng tôi

Trang 10

2 Mục tiêu của nghiên cứu

Nghiên cứu của luận văn hướng tới các mục tiêu sau:

- Giúp đỡ ban quản trị doanh nghiệp đánh giá rủi ro trong lĩnh vực tài chính

- Giúp người kinh doanh và đầu tư chứng khoán trong việc dự báo, đưa ra quyết định mua bán chứng khoán

3 Cấu trúc của luận văn

Luận văn được chia thành 6 phần với các nội dung như sau:

Chương I trình bày các nội dung lý thuyết về lĩnh vực tài chính Các khái niệm

liên quan tới tài chính, rủi ro tài chính, chứng khoán, phân tích dự báo trong đầu tư chứng khoán đã được giới thiệu ngắn gọn nhằm mang lại những kiến thức căn bản trong lĩnh vực tài chính

Chương II giới thiệu về khai phá dữ liệu, sau đó chúng tôi giới thiệu chi tiết về

vấn đề phân lớp, mạng nơron, logic mờ Các kỹ thuật được trình bày trong chương này

sẽ là cơ sở lý thuyết cho phương pháp giải quyết của chúng tôi ở các chương tiếp theo

Chương III tập trung vào xây dựng mô hình nhằm giải quyết bài toán đã đặt ra

Trong chương này chúng tôi đưa ra phương pháp sử dụng logic mờ, mạng nơ ron và phân tích kỹ thuật nhằm xây dựng hệ hỗ trợ ra quyết định cho bài toán dự báo dự đoán rủi ro tài chính

Chương IV mô tả và phân tích những kết quả mà chúng tôi đã tiến hành thực

nghiệm Mô hình được huấn luyện bởi dữ liệu giao dịch chứng khoán trong quá khứ, sau đó mô hình sẽ được sử dụng để dự đoán độ rủi ro của doanh nghiệp tương ứng nhằm kiểm chứng khả năng dự đoán của mô hình Đồng thời các kết quả này cũng được so sánh với các mô hình khác nhằm tìm ra điểm mạnh, yếu của mô hình so với các mô hình đã được xây dựng

Phần kết luận tổng kết những kết quả đạt được của luận văn và hướng nghiên

cứu tiếp theo

Phần phụ lục giới thiệu về phần mềm dự báo rủi ro và hỗ trợ quyết định, đồng

thời hướng dẫn cách thức cơ bản sử dụng phần mềm

Trang 11

Chương 1 - MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI

CHÍNH

Chương này cung cấp các kiến thức cơ sở về lĩnh vực tài chính Đầu tiên sẽ là các khái niệm chính về tài chính, rủi ro tài chính, các phương pháp dự báo, đánh giá rủi ro Mục tiếp theo sẽ giới thiệu về phân tích kỹ thuật trong việc đầu tư, kinh doanh chứng khoán

1.1 Một số khái niệm tài chính

1.1.1 Phân tích tài chính

Phân tích tài chính công cụ quản lý vĩ mô của Nhà nước để đánh giá tình hình kinh tế của đất nước, của từng ngành, từng địa phương mà trên cơ sở đó xác định được nhu cầu vốn của xã hội Còn đối với các doanh nghiệp (DN) và các nhà đầu tư thì việc đánh giá phân tích được kết quả hoạt động sản xuất kinh doanh, phân tích và dự đoán tình hình tài chính của doanh nghiệp, giúp họ đưa ra những phương hướng, những quyết định đúng đắn về hoạt động sản xuất cũng như hoạt động tài chính nhằm làm doanh nghiệp tồn tại, phát triển và bảo đảm trạng thái cân bằng tài chính của mình

Có nhiều khái niệm về phân tích tài chính doanh nghiệp, nhưng khái niệm hay dùng nhất là:

Phân tích hoạt động tài chính doanh nghiệp là quá trình thu thập, xử lý các thông tin kế toán, nhằm xem xét, kiểm tra, đối chiếu, so sánh tài chính hiện hành với quá khứ, giúp người sử dụng thông tin có thể đánh giá tình hình tài chính DN, đánh giá

về tiềm năng, hiệu quả kinh doanh cũng như rủi ro trong tương lai

- Ý nghĩa:

Mỗi đối tượng quan tâm đến tình hình tài chính của DN với một góc độ khác nhau Đối với chủ DN và các nhà quản trị DN mối quan tâm hàng đầu của họ là tìm kiếm lợi nhuận và khả năng tài trợ Đối với chủ ngân hàng và các nhà cho vay tín dụng, mối quan tâm chủ yếu của họ là khả năng trả nợ hiện tại và sắp tới của DN Đối với nhà đầu tư mối quan tâm của họ là các yếu tố rủi ro, thời gian hoàn vốn, mức sinh lãi và khả năng thanh toán vốn Nhìn chung họ đều quan tâm đến khả năng tạo ra dòng tiền mặt, khả năng sinh lời, khả năng thanh toán và mức sinh lời tối đa

- Yêu cầu:

Trang 12

+ Phân tích hoạt động tài chính DN phải cung cấp đầy đủ thông tin hữu ích cho các nhà đầu tư, các tín chủ và những người sử dụng thông tin khác nhau để giúp họ có quyết định đúng đắn khi ra các quyết định đầu tư, quyết định cho vay, quyết định sản xuất

+ Phân tích hoạt động tài chính DN phải cung cấp thông tin cho các DN, các nhà đầu tư, các nhà cho vay và những nhà sử dụng thông tin khác nhau trong việc đánh giá khả năng và tính chắc chắn của các dòng tiền mặt vào, ra và hiệu quả sử dụng vốn kinh doanh, tình hình, khả năng thanh toán của DN

Như vậy, có thể khẳng định, ý nghĩa tối cao và quan trọng nhất của phân tích tài chính DN là giúp cho những người ra quyết định lựa chọn phương án kinh doanh tối

ưu và đánh giá chính xác thực trạng, tiềm năng của DN

- Tài liệu phục vụ báo cáo tài chính

Phân tích tài chính sử dụng mọi nguồn thông tin có khả năng làm rõ mục tiêu

dự đoán tài chính Từ khi pháp lệnh kế toán tài chính được ban hành, hệ thống các báo cáo tài chính đã được thống nhất và là tài liệu cơ sở, quan trọng cho các nhà phân tích tài chính

1.1.2 Báo cáo tài chính

Ở nước ta chủ yếu sử dụng hệ thống báo cáo tài chính gồm:

Bảng cân đối kế toán: là báo cáo tổng hợp cho biết tình hình tài chính của đơn

vị tại những thời điểm nhất định dưới hình thái tiền tệ Đây là một báo cáo tài chính có

ý nghĩa rất quan trọng đối với mọi đối tượng có quan hệ sở hữu, quan hệ kinh doanh với DN

Bảng cân đối kế toán phản ánh hai nội dung cơ bản là nguồn vốn tài sản Nguồn vốn phản ánh nguồn vốn được huy động vào sản xuất kinh doanh Về mặt pháp lý, nguồn vốn cho thấy trách nhiệm của DN về tổng số vốn đã đăng ký kinh doanh với Nhà nước, số tài sản đã hình thành bằng nguồn vốn vay ngân hàng, vay đối tượng khác, cũng như trách nhiệm phải thanh toán với người người lao động, cổ đông, nhà cung cấp, trái chủ, ngân sách Phần tài sản phản ánh quy mô và cơ cấu các loại tài sản hiện có đến thời điểm lập báo cáo thuộc quyền quản lý, sử dụng của DN, năng lực và trình độ sử dụng tài sản Về mặt pháp lý, phần tài sản thể hiện tiềm lực mà DN có quyền quản lý, sử dụng lâu dài, gắn với mục đích thu được các khoản lợi nhuận

Bảng cân đối kế toán là tài liệu quan trọng bậc nhất giúp cho nhà phân tích nghiên cứu đánh giá một cách khái quát tình hình và kết quả kinh doanh, khả năng cân bằng tài chính, trình độ sử dụng vốn và những triển vọng tài chính của DN

Báo cáo kết quả hoạt động kinh doanh: Là báo cáo tài chính tổng hợp cho biết

tình hình tài chính của DN trong từng thời kỳ nhất định, phản ánh tóm lược các khoản thu, chi phí, kết quả hoạt động sản xuất kinh doanh của toàn DN, kết quả hoạt động

Trang 13

sản xuất kinh doanh theo từng hoạt động kinh doanh (sản xuất kinh doanh, đầu tư tài chính, hoạt động bất thường)

Dựa vào số liệu trên báo cáo kết quả kinh doanh, người sử dụng thông tin có thể kiểm tra, phân tích, đánh giá kết quả hoạt động kinh doanh của DN trong kỳ, so sánh với kỳ trước và với DN khác để nhận biết khái quát hoạt động trong kỳ và xu hướng vận động

Báo cáo lưu chuyển tiền tệ: là báo cáo liên quan đến luồng tiền ra vào trong

DN, tình hình trả nợ, đầu tư bằng tiền của DN trong từng thời kỳ

Báo cáo lưu chuyển tiền tệ cung cấp những thông tin về những luồng vào, ra của tiền và coi như tiền, những khoản đầu tư ngắn hạn có tính lưu động cao, có thể nhanh chóng và sẵn sàng chuyển đổi thành một khoản tiền biết trước ít chịu rủi ro lỗ

về giá trị do những sự thay đổi về lãi suất Những luồng vào ra của tiền và những khoản coi như tiền được tổng hợp thành ba nhóm: lưu chuyển tiền tệ từ hoạt động kinh doanh, lưu chuyển tiền tệ từ hoạt động đầu tư, lưu chuyển tiền tệ từ hoạt động tài chính

và lập theo phương pháp trực tiếp, gián tiếp

Thuyết minh các báo cáo tài chính: nhằm cung cấp các thông tin về tình hình

sản xuất kinh doanh chưa có trong hệ thống các báo cáo tài chính, đồng thời giải thích một số chỉ tiêu mà trong các báo cáo tài chính chưa được trình bày, giải thích thêm một cách cụ thể, rõ ràng

Các báo cáo tài chính trong DN có mối quan hệ mật thiết với nhau, mỗi sự thay đổi của một chỉ tiêu trong báo cáo này trực tiếp hay gián tiếp ảnh hưởng đến các báo cáo kia, trình tự đọc hiểu được các báo cáo tài chính, qua đó họ nhận biết được và tập trung vào các chỉ tiêu tài chính liên quan trực tiếp tới mục tiêu phân tích của họ

1.1.3 Phương pháp phân tích tài chính

Để tiến hành phân tích hoạt động kinh doanh cũng như phân tích hoạt động tài chính người ta không dùng riêng lẻ một phương pháp phân tích nào mà sử dụng kết hợp các phương pháp phân tích với nhau để đánh giá tình hình DN một cách xác thực nhất, nhanh nhất

Phương pháp chủ yếu là phương pháp so sánh và phân tích tỷ lệ

Phương pháp so sánh: Để áp dụng được phương pháp này cần phải đảm bảo

các điều kiện có thể so sánh được của các chỉ tiêu (phải thống nhất về nội dung, phương pháp, thời gian và đơn vị tính toán của các chỉ tiêu so sánh) và theo mục đích phân tích mà xác định gốc so sánh Gốc so sánh có thể chọn là gốc về mặt thời gian hoặc không gian Kỳ (điểm) được chọn để phân tích gọi là kỳ phân tích (hoặc điểm phân tích) Các trị số của chỉ tiêu tính ra ở từng kỳ tương ứng gọi là trị số chỉ tiêu kỳ gốc, kỳ phân tích Và để phục vụ mục đích phân tích người ta có thể so sánh bằng các cách: so sánh bằng số tuyệt đối, so sánh bằng số tương đối, so sánh bằng số bình quân

Trang 14

Phương pháp so sánh sử dụng trong phân tích tài chính DN là:

- So sánh giữa số thực hiện kỳ này với số thực hiện kỳ trước để thấy rõ xu hướng thay đổi về tài chính của DN, thấy được sự cải thiện hay xấu đi như thế nào để

có biện pháp khắc phục trong kỳ tới

- So sánh giữa số thực hiện với số kế hoạch để thấy mức độ phấn đấu của Doanh nghiệp

- So sánh giữa số thực hiện kỳ này với mức trung bình của ngành để thấy được tình hình tài chính của DN đang ở tình trạng tốt hay xấu, được hay chưa được so với các DN cùng ngành

- So sánh theo chiều dọc để thấy được tỷ trọng của từng loại trong tổng hợp ở mỗi bản báo cáo So sánh theo chiều ngang để thấy được sự biến đổi về cả số tương đối và số tuyệt đối của một khoản mục nào đó qua niên độ kế toán liên tiếp

Phương pháp phân tích tỷ lệ: là phương pháp truyền thống, được sử dụng phổ

biến trong phân tích tài chính Đây là phương pháp có tính hiện thực cao với các điều kiện áp dụng ngày càng được bổ sung và hoàn thiện Bởi lẽ:

Thứ nhất, nguồn thông tin kế toán và tài chính được cải tiến và được cung cấp đầy đủ hơn Đó là cơ sở hình thành các chỉ tiêu tham chiếu tin cậy cho việc đánh giá một tỷ lệ tài chính của DN

Thứ hai, việc áp dụng công nghệ tin học cho phép tích luỹ dữ liệu và thúc đẩy nhanh quá trình tính toán hàng loạt các tỷ lệ

Thứ ba, phương pháp phân tích này giúp cho nhà phân tích khai thác có hiệu quả các số liệu và phân tích một cách có hệ thống hàng loạt tỷ lệ theo chuỗi thời gian liên tục hoặc theo từng giai đoạn

Phương pháp này dựa trên ý nghĩa chuẩn mực các tỷ lệ của đại lượng tài chính trong các quan hệ tài chính Về nguyên tắc, phương pháp tỷ lệ yêu cầu phải xác định được các ngưỡng, các định mức để nhận xét đánh giá tình hình tài chính DN, trên cơ

sở so sánh các tỷ lệ của DN với các tỷ lệ tham chiếu

Trong phân tích tài chính Dn, các tỷ lệ tài chính được phân thành các nhóm tỷ

lệ đặc trưng, phản ánh nội dung cơ bản theo mục tiêu hoạt động của DN Đó là các nhóm tỷ lệ về nội dung thanh toán, nhóm tỷ lệ về cơ cấu vốn và nguồn vốn, nhóm các

tỷ lệ về năng lực hoạt động, nhóm các tỷ lệ về khả năng sinh lời

Trang 15

các trường hợp khác, nhà dự báo tài chính có thể sử dụng các phương pháp thống kê trong việc phân tích và dự tính các chuỗi thời gian

Nội dung dự kiến bao gồm:

Phân tích các lựa chọn về tài trợ và đầu tư của DN

Dự tính các hiệu ứng tương lai của của các quyết định hiện tại

Quyết định thực hiện phương án nào

So sánh các kết quả hoạt động và các mục tiêu lập ra ban đầu

Để làm được điều này, cần phải sử dụng các nhóm chỉ tiêu tài chính đặc trưng của DN trong quá khứ để làm căn cứ, cơ sở khoa học cho việc xây dựng một hệ thống các báo cáo tài chính dự kiến

Các dự báo tổng hợp có tính nhất quán về doanh thu, luồng tiền, thu nhập và các dự báo khác là rất phức tạp và tốn nhiều thời gian Tuy nhiên, nhiều tính toán cần thiết có thể được thực hiện một cách tự động bởi mô hình kế hoạch Bằng cách đó, sản phẩm của nhà phân tích tài chính trong hoạch định tài chính sẽ là một hệ thống các bảng cân đối tài sản, báo cáo thu nhập và báo cáo luồng tiền dự tính Số liệu trong dự báo có thể là con số trung gian nào đó giữa số dự báo thực và số thực tế kỳ vọng đạt tới

1.2 Rủi ro tài chính

1.2.1 Khái niệm

Rủi ro chính là các khả năng gây ra tổn thất hay thiệt hại Thông thường, các rủi

ro không đứng riêng lẻ một mình mà chúng tiềm tàng trong mối quan hệ có tính tương tác lẫn nhau khiến cho việc dự đoán rủi ro càng trở nên khó khăn hơn

1.2.2 Nguồn gốc của rủi ro tài chính

Rủi ro tài chính bắt nguồn từ vô số các giao dịch liên quan trực tiếp đến tài chính như mua bán, đầu tư, vay nợ và một số hoạt động kinh doanh khác hoặc là hệ quả gián tiếp của các chính sách thay đổi trong quản lý, trong cạnh tranh, trong các quan hệ quốc tế và thậm chí có thể chỉ do sự thay đổi của thời tiết hay khí hậu Nếu quan sát kỹ các biến động về tài chính, có thể nhận ra được 3 nguồn chính gây ra rủi ro

về tài chính bao gồm:

Rủi ro phát sinh từ sự thay đổi bên ngoài về giá cả trên thị trường như lãi suất,

tỷ giá hay giá của các loại hàng hoá khác

Trang 16

Rủi ro phát sinh từ các hoạt động hay giao dịch với các đối tác trong kinh doanh như nhà cung cấp, khách hàng, các đối tác trong các giao dịch phát sinh hoặc trong các liên doanh góp vốn đầu tư

Rủi ro phát sinh từ ngay chính nội bộ doanh nghiệp, những thay đổi từ bên trong liên quan đến nhân sự, cơ cấu tổ chức hoặc quy trình sản xuất kinh doanh

1.2.3 Quy trình quản trị rủi ro tài chính

Rủi ro tài chính thường có tác động dây chuyền và cộng hưởng Do đó, doanh nghiệp phải chủ động xây dựng cho mình quy trình đánh giá và quản trị rủi ro tài chính phù hợp, nhằm tự vệ trước biến động khôn lường của thị trường tài chính

Đôi lúc thiếu hợp lý, nhưng với một sức hấp dẫn đặc biệt, thị trường tài chính vẫn đang sống với quy luật chung và riêng của nó, phát triển nhanh hơn mọi dự đoán

và phát sinh những tình huống hoàn toàn chưa được đề cập đến trong bất kỳ lý thuyết nào Tồn tại như một cơ chế đáp ứng những nhu cầu đa dạng về cung cấp và sử dụng vốn, thị trường tài chính luôn ẩn chứa nhiều rủi ro ảnh hưởng đến sự sống còn của các doanh nghiệp tham gia vào thị trường này Với xu hướng toàn cầu hoá tài chính, rủi ro

có thể đang tiềm ẩn tại những thị trường tuy xa về khoảng cách địa lý nhưng có khả năng gây ra những biến động nghiêm trọng đối với thị trường tài chính trong nước, gây nên thiệt hại khôn lường đối với hoạt động kinh doanh của doanh nghiệp

Do những đổi thay không ngừng trên thị trường mà việc quản trị rủi ro cũng trở thành một quá trình biến hoá liên tục các phương pháp phòng chống rủi ro, dựa trên dự báo về mức độ biến động của giá cả, môi trường kinh doanh, điều kiện chính trị, kinh

tế xã hội trong nước và quốc tế Mặc dù vậy, quy trình quản trị rủi ro không thể bỏ qua những bước căn bản sau đây:

1 Nhận diện và phân loại rủi ro

Mọi rủi ro trên thị trường đều xuất phát từ những thay đổi về giá cả thị trường như lãi suất, tỷ giá cũng như giá của các loại hàng hoá khác Ngoài ra còn có một số rủi ro khác ảnh hưởng đến tài chính doanh nghiệp như rủi ro về tín dụng, rủi ro trong hoạt động sản xuất, rủi ro trong thanh khoản và rủi ro mang tính hệ thống tác động chung lên toàn thị trường Những rủi ro trên đều có tính liên kết và tác động qua lại lẫn nhau nên khi thị trường đi xuống, sự cộng hưởng của chúng sẽ gây nên tổn thất khôn lường đối với doanh nghiệp

2 Tính toán và cân nhắc các mức độ rủi ro và mức độ chịu đựng tổn thất khi rủi

ro xảy ra

Đo lường rủi ro là một quá trình gồm 2 bước Bước đầu tiên là tính toán mức thu lợi có thể đạt được hoặc quan trọng hơn cả trong quản trị rủi ro là tính toán mức tổn thất có thể chấp nhận được trong trường hợp xảy ra biến động xấu về giá cả trên thị trường Nói cách khác, đo lường rủi ro chính là việc trả lời cho câu hỏi "Doanh

Trang 17

nghiệp có thể chấp nhận tổn thất đến mức độ nào?" Để có được câu trả lời thì việc tính toán khả năng và mức độ tổn thất phải được định lượng bằng những con số biết nói Tuỳ theo độ nhạy cảm của từng loại công cụ đo lường, kết quả có được có thể tính bằng thời gian mất đi hoặc số tiền thiệt hại trên vốn hoặc lợi nhuận Chẳng hạn, việc

sử dụng các công cụ phát sinh như Hợp đồng kỳ hạn (forwards), Hợp đồng tương lai (options) và Hợp đồng hoán đổi (swaps) sẽ giúp doanh nghiệp tính toán được mức độ tổn thất này bằng các con số chính xác khi thị trường biến động theo hướng ngược chiều với dự đoán Chi phí bỏ ra khi sử dụng các công cụ này chính là cái giá mà doanh nghiệp phải trả nếu rủi ro xảy ra

Bước thứ hai của quá trình này là xác định các khả năng xảy ra tương ứng với từng mức độ biến động trên thị trường Dựa trên những khả năng biến động về giá cũng như biên độ dao động giá, mức độ tổn thất cũng như mức thu lợi có thể được tính toán chi tiết và cụ thể cho từng trường hợp

3 Áp dụng các chính sách, công cụ phòng chống thích hợp đối với từng loại rủi

ro

Tuỳ thuộc vào mức độ và khả năng chấp nhận rủi ro, doanh nghiệp sẽ áp dụng những biện pháp phòng chống khác nhau nhằm giảm thiểu mức độ thiệt hại khi rủi ro xảy ra Trên thực tế, doanh nghiệp có thể có một số chọn lựa Một trong những chọn lựa đơn giản nhất là không làm gì cả bằng cách chủ động hoặc thụ động chấp nhận mọi rủi ro có thể xảy ra Điều này hoàn toàn đúng với những khoản vay nhỏ vì chi phí

để phòng chống có khi còn cao hơn việc chấp nhận mức thiệt hại nếu thị trường có biến động Tuy nhiên, phương pháp này lại tỏ ra rất nguy hiểm đối với những khoản thanh toán bằng ngoại tệ hoặc khoản vay lớn vì chỉ một biến động nhỏ về lãi suất hoặc

tỉ giá thì thiệt hại sẽ là một con số không thể thờ ơ Khi đó, các công cụ phòng chống rủi ro đặc biệt tỏ ra hữu hiệu nhằm ngăn chặn một phần tổn thất có khả năng xảy ra hoặc ngăn chặn khả năng xảy ra rủi ro có thể lường trước

4 Theo dõi, đánh giá và điều chỉnh phương pháp phòng chống nếu cần thiết

Sự vận động của thị trường sẽ khiến cho mọi phương pháp phòng chống dù là tối ưu nhất cũng trở nên mất tác dụng nếu không được điều chỉnh cho phù hợp Do vậy, kết quả của việc sử dụng các phương pháp phòng chống rủi ro cần được ghi nhận

và xử lý kịp thời để việc ứng dụng phương pháp trên được thay đổi cho phù hợp với nhu cầu của doanh nghiệp trong những tình huống mới

Tuy nhiên, điều quan trọng hơn cả là doanh nghiệp cần nhận thức và chủ động ứng dụng quy trình này trong thực tế, đặc biệt là khi thị trường Việt Nam vận động trong một nền kinh tế hội nhập với thế giới đang dần tách khỏi sự bảo hộ của Ngân hàng Nhà nước về tỉ giá và các chính sách mở cửa khác cho thị trường tài chính trong nước Nguy cơ về những biến động lớn trên thị trường tiền tệ và khủng hoảng tài chính trong giai đoạn sắp tới sẽ buộc doanh nghiệp phải ý thức hơn trong việc xây dựng quy trình quản trị rủi ro thích hợp nhằm bảo vệ tài sản của mình

Trang 18

Rủi ro tài chính phát sinh từ 3 nguồn: sự thay đổi bên ngoài; hoạt động, giao dịch với đối tác bên trong và từ chính nội bộ doanh nghiệp

1.2.3 Quản trị rủi ro trong đầu tư chứng khoán

Rủi ro trong đầu tư CK được định nghĩa là sự dao động của lợi nhuận mong đợi, do vậy để đạt được tỷ lệ lợi nhuận cao trong đầu tư chứng khoán, vấn đề đặt ra là phải quản lý được mức rủi ro này

Các loại rủi ro trong đầu tư chứng khoán

Rủi ro hệ thống là rủi ro tác động đến toàn bộ hoặc hầu hết các CK Sự bấp bênh của môi trường kinh tế nói chung như sự sụt giảm GDP, biến động lãi suất, tốc

độ lạm phát thay đổi là những minh chứng cho rủi ro hệ thống, những biến đổi này tác động đến sự dao động giá cả của các CK trên thị trường

Trong rủi ro hệ thống trước hết phải kể đến rủi ro thị trường Rủi ro thị trường xuất hiện do phản ứng của các nhà đầu tư đối với các hiện tượng trên thị trường Những sự sút giảm đầu tiên trên thị trường là nguyên nhân gây sợ hãi đối với các nhà đầu tư và họ sẽ cố gắng rút vốn Phản ứng dây chuyền này làm tăng số lượng bán, giá

cả CK sẽ rơi xuống thấp so với giá trị cơ sở

Tiếp đến là rủi ro lãi suất Giá cả CK thay đổi do lãi suất thị trường dao động thất thường gọi là rủi ro lãi suất Giữa lãi suất thị trường và giá cả CK có mối quan hệ

tỷ lệ nghịch Khi lãi suất thị trường tăng, người đầu tư có xu hướng bán CK để lấy tiền gửi vào ngân hàng dẫn đến giá CK giảm và ngược lại

Ngoài hệ quả trực tiếp đối với giá CK, lãi suất còn ảnh hưởng gián tiếp đến giá

cổ phiếu (CP) thường Khi lãi suất tăng làm giá CP giảm vì các nhà đầu cơ vay mua ký quỹ sẽ bị ảnh hưởng Nhiều công ty kinh doanh CK hoạt động chủ yếu bằng vốn đi vay thì với mức lãi suất tăng cũng làm cho chi phí vốn tăng

Rủi ro sức mua

Trang 19

Một yếu tố rủi ro hệ thống khác không kém phần quan trọng là rủi ro sức mua Rủi ro sức mua là tác động của lạm phát tới các khoản đầu tư Lợi tức thực tế của CK đem lại là kết quả giữa lợi tức danh nghĩa sau khi khấu trừ đi lạm phát Như vậy, khi

có tình trạng lạm phát thì lợi tức thực thế giảm Giải thích theo lý thuyết hiện tại hoá, một đồng lợi tức của hôm nay thì trong tương lai không còn giá trị một đồng do tác động của lạm phát

Rủi ro không hệ thống là rủi ro chỉ tác động đến một loại tài sản hoặc một nhóm tài sản, nghĩa là rủi ro này chỉ liên quan đến một loại CK cụ thể nào đó Rủi ro không

hệ thống bao gồm rủi ro kinh doanh và rủi ro tài chính Trong quá trình kinh doanh, định mức thực tế không đạt được như theo kế hoạch gọi là rủi ro kinh doanh, chẳng hạn lợi nhuận trong năm tài chính thấp hơn mức dự kiến

Rủi ro kinh doanh được cấu thành bởi yếu tố bên ngoài và yếu tố nội tại trong công ty Rủi ro nội tại phát sinh trong quá trình công ty hoạt động Rủi ro bên ngoài bao gồm những tác động nằm ngoài sự kiểm soát của công ty làm ảnh hưởng đến tình trạng hoạt động của công ty như chi phí tiền vay, thuế, chu kỳ kinh doanh

Rủi ro tài chính cũng là một loại rủi ro không hệ thống Rủi ro tài chính liên quan đến đòn bẩy tài chính, hay nói cách khác liên quan đến cơ cấu nợ của công ty Sự xuất hiện các khoản nợ trong cấu trúc vốn sẽ tạo ra nghĩa vụ trả nợ trả lãi của công ty Công ty phải thực hiện nghĩa vụ trả nợ (gồm trả nợ ngân hàng và trả nợ trái phiếu) trước việc thanh toán cổ tức cho cổ đông Điều này ảnh hưởng không nhỏ đến giá cả

CP công ty Rủi ro tài chính có thể tránh được nếu công ty không vay nợ chút nào

1.3 Phân tích kỹ thuật trong dự báo thị trường chứng khoán

1.3.1 Khái niệm

PTKT là việc nghiên cứu giá, với công cụ cơ bản là biểu đồ, nhằm nâng cao hiệu quả của hoạt động đầu tư PTKT nghiên cứu các hành vi của các bên tham gia thị trường thông qua sự biến động của giá, khối lượng chứng khoán giao dịch nhằm xác định được xu thế biến động giá và thời điểm đầu tư

Phân tích kỹ thuật dựa trên lý thuyết DOW[2], với nội dung chủ yếu sau:

Thị trường phản ánh tất cả các thông tin trong giá CK

3 xu thế của thị trường (xu thế sơ cấp, xu thế thứ cấp và các biến động hàng ngày)

PTKT sử dụng ba giả thiết sau:

Giá trị thị trường của bất kỳ sản phẩm hay dịch vụ nào đều được xác lập thông qua cung cầu của thị trường

- Cung cầu của thị trường được xác lập dựa trên một hệ thống các yếu tố hợp l hoặc đôi khi phi l Và thị trường sẽ cân đối các trọng số này liên tục và tự động

Trang 20

- Loại bỏ những dao động bất thường, giá cả của một chứng khoán đơn lẻ hay toàn bộ giá cả của thị trường có xu thế thay đổi theo một khuynh hướng (trend), và nó tồn tại trong một khoảng thời gian nhất định

- Sự thay đổi trong khuynh hướng đang thịnh hành là do sự thay đổi trong mối quan hệ cung cầu Và sự thay đổi của quan hệ cung cầu sẽ được nhận diện sớm hay muộn thông qua các phản ứng của chính thị trường

1.3.2 Ứng dụng của phân tích kỹ thuật

- Xác định chiến lược kinh doanh cho ngắn hạn, trung hạn và dài hạn

- Xác định các đường tiệm cận giá để có quyết định mua vào – bán ra cổ phiếu một cách hợp lý

- Xác định các khoảng dao động của giá để xác định thời điểm nên hay chưa nên tham gia vào thị trường

1.3.3 Các công cụ cơ bản sử dụng trong Phân tích kỹ thuật

Biểu đồ thể hiện chuỗi dao động của giá trong một đơn vị thời gian

Hiện nay trên Thị trường chứng khoán các chuyên viên phân tích dùng rất nhiều các loại biểu đồ khác nhau để phân tích, trong đó có 3 loại biểu đồ được dùng một cách phổ biến nhất đó là: biểu đồ dạng đường (Line chart), biểu đồ dạng then chắn (Bar chart), biểu đồ dạng cây nến (Candlestick chart)

Biểu đồ dạng đường (Line chart)[2]

Dạng biểu đồ này từ trước tới nay thường được sử dụng phổ biến trong các ngành khoa học khác dùng để mô phỏng các hiện tượng kinh tế và xã hội Nhưng hiện nay do khoa học kỹ thuật phát triển, diễn biến của thị trường chứng khoán ngày càng phức tạp cho nên loại biểu đồ này ngày càng ít được sử dụng nhất là trên các thị trường chứng khoán hiện đại

Hình 1-1 Biểu đồ dạng đường

Trang 21

Nó chủ yếu được sử dụng trên các thị trường chứng khoán mới đi vào hoạt động trong thời gian ngắn, khớp lệnh theo phương pháp khớp lệnh định kỳ theo từng phiên Ưu điểm của loại biểu đồ này là dễ sử dụng

Hiện nay trên các Thị trường chứng khoán hiện đại đang dùng một số loại biểu

đồ trong Phân tích kỹ thuật mang lại hiệu quả cao đó là biểu đồ dạng then chắn (Bar chart) và cây nến (Candlestick chart)

Biểu đồ dạng then chắn (Bar chart)[2]

Trên các Thị trường chứng khoán hiện đại trên thế giới hiện nay các chuyên viên phân tích thường dùng loại biểu đồ này trong phân tích là chủ yếu lý do chính vì tính ưu việt của nó đó là sự phản ánh rõ nét sự biến động của giá chứng khoán Hai kí tự mà dạng biểu đồ này sử dụng đó là:

Hình 1-2 Biểu đồ dạng then chắn

Loại biểu đồ này thường được áp dụng để phân tích trên các Thị trường chứng khoán hiện đại khớp lệnh theo hình thức khớp lệnh liên tục, độ dao động của giá chứng khoán trong một phiên giao dịch là tương đối lớn

Biểu đồ cây nến (Candlestick chart)

Đây là dạng biểu đồ cải tiến của biểu đồ dạng then chắn (Bar chart), nó được người Nhật Bản khám phá và áp dụng trên thị trường chứng khoán của họ đầu tiên Giờ đây nó đang dần được phổ biến hầu hết trên các thị trường chứng khoán hiện đại trên toàn thế giới Dạng biểu đồ này phản ánh rõ nét nhất về sự biến động của giá chứng khoán trên thị trường chứng khoán khớp lệnh theo hình thức khớp lệnh định kỳ

Hai kí tự mà loại biểu đồ này sử dụng là:

Hình 1-3 Biểu đồ dạng cây nến

Trang 22

- SMA : Đường trung bình trượt giản đơn

- WMA: Đường trung bình trượt tuyến tính có trọng số

- EMA : Đường trung bình trượt theo hệ số mũ

- VMA : Đường trung bình trượt biến đổi

- TMA : Đường trung bình trượt hồi quy theo thời gian

 Đường chuẩn MACD

Ý nghĩa:

MACD là chỉ báo cho thấy sự quy tụ hay phân kỳ của trung bình chuyển động MACD cho sự khẳng định dấu hiệu thị trường khi đường MA ngắn hạn giao nhau với đường MA dài hạn

Trang 24

Chương 2 - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt Bên cạnh đó, việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý , trong đó có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những

kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền CNTT thế giới hiện nay nói chung và Việt Nam nói riêng

2.1 Giới thiệu về khai phá dữ liệu (Data Mining)

Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng

kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn

Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác

có ý nghĩa tương tự như: Khai phá tri thức từ CSDL, trích lọc dữ liệu (Konwlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredredging) Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là như nhau Tuy nhiên trên thực tế khai phá dữ liệu chỉ

là một bước thiết yếu trong quá trình Khám phá tri thức trong CSDL

Trang 25

 Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp

 Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu

 Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo

 Trình diễn dữ liệu (Knowlegde presentation): Sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng

Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:

 Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có

 Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời

Dưới đây giới thiệu 3 phương pháp thông dụng nhất là: phân cụm dữ liệu, phân lớp dữ liệu và khai phá luật kết hợp

 Phân cụm dữ liệu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng

 Phân lớp dữ liệu và hồi quy: Mục tiêu của phương pháp phân lớp dữ liệu

là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình phân lớp dữ liệu thường gồm 2 bước: Thứ nhất, xây dựng mô hình, một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính lớp Thứ hai, sử dụng mô hình để phân lớp dữ liệu, tính độ chính xác của

mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng

để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai

 Khai phá luật kết hợp: mục tiêu của phương pháp này là phát hiện và đưa

ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được

Khai phá luật kết hợp được thực hiện qua 2 bước: Thứ nhất, tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua tính độ hỗ trợ và thoả mãn độ

hỗ trợ cực tiểu Thứ hai, sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Trang 26

2.2 Phân lớp

2.2.1 Giới thiệu về phân lớp

Phân lớp (Classification) là việc phân loại các mẫu thành một tập rời rạc của các nhóm có thể Phân lớp là một quá trình gồm hai bước Ở bước thứ nhất, mô hình được học mô tả một tập hợp được định trước của các lớp dữ liệu Mô hình này được xây dựng bằng cách phân tích các thuộc tính của dữ liệu Mỗi dữ liệu được giả thiết rằng thuộc một lớp đã định nghĩa trước, và được xác định bởi nhãn của lớp (class lable) Trong phân lớp, dữ liệu được phân tích để xây dựng một mô hình tập hợp từ tập

dữ liệu huấn luyện (training data set) Dữ liệu riêng lẻ tạo ra tập huấn luyện còn được gọi là mẫu huấn luyện (training examples) và được chọn ngẫu nhiên Nếu các mẫu huấn luyện được đánh nhãn, bước này còn được gọi là học có giám sát (Supervised learning) Nó đối lập với học không giám sát (unsupervised learning), thường được gọi

là phân cụm, trong đó nhãn cho mẫu huấn luyện là không biết và số lượng tập hợp của các lớp được học có thể không biết Một số mô hình học thông dụng được sử dụng nhiều trong thực tế là luật kết hợp, cây quyết định (Decision tree), mạng nơron, SVM

Bước thứ hai là sử dụng mô hình đã được xây dựng ở bước một để phân loại các mẫu dữ liệu chưa có nhãn vào lớp tương ứng Đầu tiên sẽ đánh giá sự chính xác khi dự đoán Có một số cách để đánh giá sự chính xác Cách thường được dùng là phương pháp tiếp cận holdout, nó đánh giá sự chính xác dự báo của mô hình bằng việc

đo độ chính xác trên một tập các mẫu mà tập này không được phép dùng khi xây dựng

mô hình Tập như vậy được gọi là tập thử (test data set) Những mẫu này được chọn ngẫu nhiên và độc lập với tập huấn luyện Sự chính xác của mô hình dựa trên tập dữ liệu kiểm tra là phần trăm của tập mẫu test mà phân loại chính xác bởi mô hình Với mỗi mẫu thử, nhãn đã biết của lớp được so sánh với sự dự đoán của mô hình học của lớp Thuật toán học có thể dẫn tới lạc lối bởi những lỗi ngẫu nhiên và sự trùng lặp bên trong tập dữ liệu huấn luyện Do đó, tập dữ liệu xác nhận có thể được kỳ vọng để cung cấp một sự kiểm tra an toàn chống lại việc over fitting các đặc trưng giả mạo của tập

dữ liệu huấn luyện (đó là, mô hình học có thể phân loại một số trường hợp dị thường đặc biệt của dữ liệu thử mà chưa từng xuất hiện trong tập huấn luyện)

Trang 27

Hình 2-1 Mô hình phân lớp tiêu chuẩn

Tất nhiên, điều quan trọng là tập huấn luyện là đủ lớn để mô hình tự nó có thể học được phân bổ tốt nhất có thể của dữ liệu Để giải quyết vấn đề này, phương pháp thường được áp dụng khi bộ dữ liệu không đủ lớn mà vẫn tăng khả năng phân lớp là sử dụng xác nhận chéo Trong xác nhận chéo k-fold, dữ liệu có sẵn được phân thành k tập riêng lẻ với kích cỡ xấp xỉ nhau Thủ tục xác nhận chéo tạo ra k sự lặp lại trong đó phương pháp học được đưa ra k-1 tập con để sử dụng như là dữ liệu huấn luyện, và nó được kiểm tra trên tập bên trái Độ chính xác của xác nhận chéo của thuật toán đưa ra thường đơn giản là trung bình cộng của các độ đo chính xác từ những fold riêng lẻ

Nếu độ chính xác của mô hình được coi như là chấp nhận được, mô hình có thể được sử dụng để phân lớp các mẫu về sau mà nhãn lớp là chưa biết Dữ liệu như vậy cũng được biết đến trong học máy như là các dữ liệu chưa biết “unknown” hoặc dữ liệu trước đây chưa tồn tại “previously unseen”

Trang 28

Để có thể đánh giá được khả năng của một thuật toán phân lớp, người ta đã đề

- Sự tráng kiện của mô hình (Robustness): cho biết khả năng mô hình tạo ra các

dự đoán đúng với các dữ liệu nhiễu và dữ liệu với giá trị không đầy đủ

- Tính khả chuyển (Scalability): cho biết khả năng xây dựng mô hình một cách hiệu quả với các dữ liệu khác nhau

- Tính có thể hiểu được (Interpretability): cho biết mức độ chi tiết của thông tin được cung cấp bởi mô hình

Trong luận văn này, chúng tôi đặc biệt quan tâm tới vấn đề chất lượng phân lớp

và tính có thể hiểu được

Độ đo chất lượng phân lớp tiêu chuẩn thể hiện thông qua độ chính xác (accuracy), độ hồi nhớ (recall) và độ đúng đắn (precision) Chúng được định nghĩa dựa trên công thức như hình dưới Chúng ta xem các lớp trong một vấn đề phân lớp nhị phân như là lớp dương “possitive” và âm “negative” tương ứng

11 00

nnnn

nn

00

nn

n

 ; precision = 00 10

00

nn

n

Tính có thể hiểu được thường được tính trong kích thước của các bộ phân lớp

2.2.2 Các phương pháp phân lớp

Có rất nhiều phương pháp phân lớp, mỗi phương pháp phân lớp đều có cách tính toán khác nhau Sự khác nhau cơ bản của các phương pháp này là ở thuật toán học quy nạp Tuy nhiên, nhìn một cách tổng quan thì các phương pháp đó đều phải thực hiện một số bước chung như sau: đầu tiên, mỗi phương pháp sẽ dựa trên các thông tin của các mẫu để biểu diễn mẫu thành dạng vector; sau đó, tuỳ từng phương pháp mà ta

sẽ áp dụng công thức và phương thức tính toán khác nhau để thực hiện việc phân loại

Trang 29

Sau đây là một số cách tiếp cận mà theo thực nghiệm thì có hiệu quả phân loại cao cũng như những thuận lợi và bất tiện của mỗi cách

Phương pháp k người láng giềng gần nhất (k-NN Algorithm):

Ý tưởng:

Là phương pháp nổi tiếng về hướng tiếp cận dựa trên xác suất thống kê Khi cần phân loại mẫu mới, thuật toán sẽ tính khoảng cách (khoảng cách Euclide, Cosine ) của tất cả các mẫu trong tập huấn luyện đến mẫu mới này để tìm ra k mẫu gần nhất (gọi là k “láng giềng”) sau đó dùng các khoảng cách này đánh trọng số cho tất cả các mẫu Trọng số của một mẫu chính là tổng tất cả các khoảng cách ở trên của mẫu trong k láng giềng có cùng đặc trưng, đặc trưng nào không xuất hiện trong k láng giềng sẽ có trọng số bằng không Sau đó các đặc trưng được sắp xếp theo mức độ trọng số giảm dần và các đặc trưng có trọng số cao sẽ được chọn là đặc trưng của mẫu cần phân loại

dễ dàng áp dụng

Một lợi ích nữa của k-NN là giải thuật này có thể được vận dụng để cải tiến hơn Nói cách khác, giải thuật này nhanh chóng chỉnh sửa và phù hợp với các trường hợp khác Ví dụ, giải thuật có thể được áp dụng cho bất kỳ khoảng cách đo lường nào khi nhập vào và các mẫu huấn luyện vì khoảng cách của các mẫu nhập vào có thể được giảm đi để cải tiến hiệu quả của giải thuật, do vậy k-NN có thể được áp dụng cho mẫu với bất kì khoảng cách nào trong mẫu đào tạo Cũng vì thế mà hầu hết thời gian huấn luyện đòi hỏi cho phân loại mẫu trong giải thuật k-NN; giải thuật này được đánh giá là

kỹ thuật chi phí trong các kỹ thuật cuối cùng, k-NN là giải thuật mạnh có thể giám sát các nguồn tiềm năng lỗi

Nhược điểm:

Rất khó có thể tìm ra k tối ưu Hơn nữa với trường hợp mẫu có nhiễu thì việc phân loại là không tốt

Trang 30

Phương pháp Cây quyết định (Decision Tree Algorithm):

Ý tưởng:

Bộ phân lớp cây quyết định là một dạng cây mà mỗi nút được gán nhãn là một đặc trưng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trưng trong mẫu cần phân

lớp, và mỗi lá là nhãn của phân lớp Việc phân lớp của một mẫu d j sẽ được duyệt đệ

qui theo trọng số của những đặc trưng cĩ xuất hiện trong mẫu d j Thuật tốn lặp đệ qui

đến khi đạt đến nút lá và nhãn của d j chính là nhãn của nút lá tìm được Thơng thường việc phân lớp mẫu nhị phân sẽ tương thích với việc dùng cây nhị phân

Một vấn đề khác là khơng cĩ bảo vệ phù hợp giống như Support Vector Machines, vì vậy chúng cĩ thể loại trừ các đặc trưng Điều này cĩ nghĩa là chúng khơng thể chấp nhận một mẫu với số lượng lớn đặc trưng như SVM, vì cĩ quá nhiều đặc trưng tạo nên tràn phù hợp và làm cho khả năng học kém hơn

Một trở ngại khác là thời gian huấn luyện phân loại cao bởi vì giải thuật này cần

so sánh tất cả những nhánh con cĩ thể, nên mất nhiều thời gian để chia và duyệt các đặc trưng

Phương pháp Nạve Bayes

Ý tưởng :

Ý tưởng cơ bản của phương pháp xác suất Bayes là dựa vào xác suất cĩ điều kiện của từ hay đặc trưng xuất hiện trong mẫu với đặc trưng để dự đốn đặc trưng của mẫu đang xét Điểm quan trọng cơ bản của phương pháp này là các giả định độc lập:

- Các từ hay đặc trưng của mẫu xuất hiện là độc lập với nhau

- Vị trí của các từ hay các đặc trưng là độc lập và cĩ vai trị như nhau

Giả sử ta cĩ:

Trang 31

- n đặc trưng (lớp) đã được định nghĩa c1, c2,  , cn

- Mẫu mới cần được phân loại d j

Để tiến hành phân loại mẫu d j, chúng ta cần phải tính được tần suất xuất hiện của các lớp c i (i 1,2, ,n) trong mẫu d j Sau khi tính được xác suất của mẫu đối với các đặc trưng, theo luật Bayes, mẫu sẽ được phân lớp vào đặc trưng c i nào cĩ xác suất cao nhất

Một trong những trở ngại là dựa trên luật gọi là các điều kiện độc lập Cĩ thể

bị vi phạm bởi các trường hợp trong thực tế, bởi vì Nạve Bayes thừa nhận các đặc trưng trong mẫu độc lập riêng rẽ và được biểu diễn một cách nghèo nàn khi những đặc trưng này cĩ mối liên hệ với nhau Hơn nữa, luật này khơng tạo được sự thường xuyên cho việc xuất hiện các đặc trưng Một bất lợi khác nữa là giải thuật sử dụng nhiều tính tốn và vì vậy thời gian bị chi phối

Phương pháp mạng Nơron (Neural Network):

Ý tưởng:

Mơ hình mạng neural gồm cĩ ba thành phần chính như sau: kiến trúc (architecture), hàm chi phí (cost function), và thuật tốn tìm kiếm (search algorithm) Kiến trúc định nghĩa dạng chức năng (functional form) liên quan giá trị nhập (inputs) đến giá trị xuất (outputs)

Kiến trúc phẳng ( flat architecture ) : Mạng phân loại đơn giản nhất ( cịn gọi là

mạng logic) cĩ một đơn vị xuất là kích hoạt kết quả (logistic activation) và khơng cĩ lớp ẩn, kết quả trả về ở dạng hàm (functional form) tương đương với mơ hình hồi quy logic Thuật tốn tìm kiếm chia nhỏ mơ hình mạng để thích hợp với việc điều chỉnh

mơ hình ứng với tập huấn luyện Ví dụ, chúng ta cĩ thể học trọng số trong mạng kết quả (logistic network) bằng cách sử dụng khơng gian trọng số giảm dần (gradient descent in weight space) hoặc sử dụng thuật tốn interated-reweighted least squares là thuật tốn truyền thống trong hồi quy (logistic regression)

Trang 32

Kiến trúc môđun (modular architecture): Việc sử dụng một hay nhiều lớp ẩn

của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ giữa những biến nhập và biến xuất Mỗi lớp ẩn học để biểu diễn lại dữ liệu đầu vào bằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ở mức trước

2.3 Mạng Nơron

Một trong những kỹ thuật tiên tiến được sử dụng trong việc tạo quyết định tài chính là mạng Nơron Mục này sẽ giới thiệu về mạng nơron được tạo và hoạt động như thế nào

Các mạng nơron nhân tạo được tạo ra nhằm mục đích mô phỏng lại bộ não của con người Có thể coi bộ não là một máy tính hay một hệ thống xử lý thông tin song song, phi tuyến và cực kỳ phức tạp Nó có khả năng tự tổ chức các bộ phận cấu thành của nó, như là các tế bào thần kinh (nơron) hay các khớp nối thần kinh (synapse), nhằm thực hiện một số tính toán như nhận dạng mẫu và điều khiển vận động nhanh hơn nhiều lần các máy tính nhanh nhất hiện nay Sự mô phỏng bộ não con người của mạng nơron là dựa trên cơ sở một số tính chất đặc thù rút ra từ các nghiên cứu về thần kinh sinh học Lý thuyết về Mạng nơ ron nhân tạo, hay gọi tắt là “Mạng nơ ron”, được xây dựng xuất phát từ một thực tế là bộ não con người luôn luôn thực hiện các tính toán một cách hoàn toàn khác so với các máy tính số

2.3.1 Mô hình một nơron perceptron

Một nơron perceptron là một phần tử xử lý gồm:

 n đầu vào xi, mỗi đầu vào ứng với một giá trị thực wi gọi là trọng số

 Một giá trị thực b gọi là ngưỡng (bias)

 Một hàm kích hoạt f

 Giá trị ra y

Hình 2-2 Mô hình một nơron perceptron

Trang 33

Giá trị ra của perceptron được tính theo quy tắc sau:

) (

1

u f y

b w x u

n

i i i



Hàm kích hoạt được sử dụng phổ biến là hàm sigmoid (còn gọi là hàm logistic)

do tính phi tuyến và khả vi:

u

e1

1)

Khả năng tính toán của một nơron perceptron khá hạn chế Để cải thiện người

ta nối chúng thành mạng Mô hình mạng đơn giản nhất là mạng perceptron truyền thẳng đa lớp MLP

2.3.2 Mô hình mạng nơron MLP

Mạng nơron MLP n đầu vào, m đầu ra có mô hình như sau:

 Các nơron được chia thành các lớp: lớp sau được nối với lớp trước Lớp đầu tiên là lớp vào (input - nhận đầu vào), lớp cuối cùng là lớp ra (output - cho đầu ra) Giữa lớp vào và lớp ra là các lớp ẩn (hidden) Thông thường chỉ có một lớp ẩn

 Tất cả các nơron cùng một lớp sử dụng chung một vector đầu vào Mỗi lớp khi nhận một vector đầu vào sẽ tính đầu ra của mỗi nơron, kết hợp thành một vector và lấy đó làm đầu vào cho lớp sau

 Mạng MLP nhận đầu vào là một vector n thành phần, lấy đó làm đầu vào của lớp input và tính toán cho đến khi lớp output có đầu ra, lấy đó là đầu ra của mạng: một vector m thành phần

 Toàn bộ các nơron của toàn mạng sử dụng chung một hàm kích hoạt, thường là hàm logistic

Ngoài lớp vào và lớp ra, mạng MLP thường có một hay nhiều lớp ẩn Thông thường người ta chỉ sử dụng một lớp ẩn Vì vậy đôi khi người ta hay đồng nhất MLP với MLP 3 lớp

Trang 34

input layer

hidden layer

output layer

Hình 2-3 Mô hình mạng perceptron 3 lớp(MLP)

Như vậy xét dưới góc độ toán học mạng MLP biểu diễn một hàm phi tuyến từ

Rn vào Rm Người ta cũng chứng minh được rằng: “một hàm phi tuyến liên tục bất kì

có thể xấp xỉ với độ chính xác tuỳ ý bằng mạng MLP” (định lí Kolmogorov)

Mạng MLP npm (n đầu vào, m đầu ra, p nơron ẩn) được biểu diễn bằng 2 ma trận trọng số w1 cỡ np, w2 cỡ pm và 2 vector ngưỡng b1 p phần tử, b2 m phần tử (Lớp input của MLP chỉ có tác dụng nhận đầu vào, hoàn toàn không thực hiện tính toán)

Khi đó tính toán đầu ra y của mạng theo đầu vào x như sau:

y f(v)

bw.zv

)u(z

bw.xu

2 2

1 1

(2.3)

Ở đây, u, v, z là các vector Viết z=f(u) có nghĩa là zi=f(ui) với mọi i

Để biểu diễn được một hàm nào đó, mạng MLP cần được huấn luyện

2.3.3 Huấn luyện mạng nơron MLP

Để mạng nơron biểu diễn được hàm f, ta cần một bộ dữ liệu gồm N cặp vector (xi, ti), trong đó xi thuộc tập xác định của f và ti là giá trị của f tại xi:

ti = f(xi) (2.4) Mạng MLP sẽ biểu diễn được hàm f nếu cho đầu vào của mạng là xi thì đầu ra của mạng là ti Thường thì MLP chỉ biểu diễn được xấp xỉ hàm f, do đó ta mong muốn nếu mạng cho đầu ra thực tế là yi thì yi càng gần ti càng tốt

Trang 35

Như vậy bài toán huấn luyện mạng là cho bộ dữ liệu huấn luyện gồm N cặp vector (xi, ti), cần điều chỉnh các trọng số của mạng sao cho tổng sai số của mạng trên

i

i y mint

Trong đó yi là đầu ra thực tế của mạng ứng với đầu vào xi

Thuật toán huấn luyện MLP phổ biến nhất là thuật toán lan truyền ngược lỗi (back-propagation training) Thuật toán có đầu vào là tập mẫu {(xi, ti)}, đầu ra là bộ trọng số của mạng

Các bước tiến hành huấn luyện như sau:

1/ Khởi tạo trọng số của mạng: wij được gán các giá trị ngẫu nhiên, nhỏ (nằm trong miền [-, ])

2/ Với mỗi cặp (x,t) trong bộ dữ liệu huấn luyện:

Giả sử x = (x1 , , xn) Ta thực hiện:

1 Lan truyền x qua mạng để có y

2 Tính sai số e của mạng: e=t-y

3 Hiệu chỉnh các trọng số liên kết nơron dẫn tới lớp ra wij từ nơron j tại lớp ẩn tới nơron i tại lớp ra:

wij = wij + wij (2.6) wij là trọng số giữa nơron i ở lớp trước và nơron j ở lớp sau wij được tính theo công thức sau:

wij=jyi (2.7)

  là hằng số tốc độ học (learning rate), thường lấy bằng

 yi là đầu ra của nơron i (nếu i là nơron lớp input thì thay yi bằng xi)

 j là sai số tại nơron j Nếu j là nơron lớp ra (output layer) thì j được tính theo công thức

j = yj(1-yj)(tj-yj) (2.8) Nếu j là nơron lớp ẩn thì được tính theo công thức:

j = yj(1-yj)

k

j k

trong đó k là các các nơron của lớp sau lớp của j

Việc đưa mẫu huấn luyện qua mạng, tính toán và cập nhật trọng số được tiến hành với tất cả phần tử trong bộ mẫu (có thể chọn ngẫu nhiên hoặc tuần tự) Quá trình

sẽ dừng lại khi sai số trung bình (hoặc tổng sai số) nhỏ hơn một giá trị cho trước hoặc thay đổi không đáng kể (tức là quá trình huấn luyện hội tụ)

Trang 36

2.3.4 Ưu điểm và nhược điểm của mạng nơron

Các nghiên cứu cả về mặt lí thuyết và thực tế cho thấy mạng nơron có những ưu điểm sau:

 Có thể xấp xỉ một hệ phi tuyến động (nonlinear dynamical system) với độ chính xác bất kì

 Có khả năng miễn nhiễu (robustness) và chịu sai hỏng (fault tolerance) cao Chẳng hạn mạng có thể nhận các dữ liệu bị sai lệch hoặc không đầy đủ mà vẫn hoạt động được

 Có khả năng thích ứng: mạng nơron có thể “học” (learn) và “điều chỉnh” (adapt) trong quá trình hoạt động Đây là điểm đáng chú ý nhất của mạng nơron trong nhận dạng tiếng nói Đặc điểm này của mạng cho phép ta hi vọng xây dựng được một hệ nhận dạng có thể “học tập” để nâng cao khả năng nhận dạng trong khi hoạt động

 Có khả năng tổng quát hoá (generalize) tốt và phân lớp (classify) mạng Nhưng mạng nơron cũng không phải là công cụ vạn năng cho mọi vấn đề, vì chúng cũng có nhiều nhược điểm:

 Chỉ xử lý được các dữ liệu số Cần tích hợp thêm nhiều thành phần khác (ví dụ: các hệ mờ, các bộ số hoá ) để có thể xử lí những dữ liệu phi số

 Hiệu năng của mạng phụ thuộc bộ dữ liệu huấn luyện Để đảm bảo hiệu năng, mạng cần được huấn luyện với lượng dữ liệu lớn Quá trình huấn luyện do đó rất dài Mặt khác nếu bộ dữ liệu được chuẩn bị không tốt thì mạng có khả năng tổng quát hoá thấp

 Mạng nơron gần như là một “hộp đen” đối với các phân tích Rất khó xác định được sự phân bố thông tin và xử lý trên các phần tử của mạng

 Không có một phương pháp chung nào để xác định cấu trúc mạng phù hợp từng bài toán Nhà nghiên cứu phải tiến hành thử nghiệm hoặc dựa vào kinh nghiệm để xác định

 Các thuật toán huấn luyện hiện chưa đảm bảo tránh quá trình huấn luyện rơi vào một cực trị địa phương Hơn nữa sai số huấn luyện giảm không đồng nghĩa với tăng hiệu năng hoạt động của mạng

Mạng cấu trúc lớn cài đặt bằng phần mềm trên máy tính hoạt động rất chậm Việc xây dựng mạng nơron bằng phần cứng vẫn còn đang được nghiên cứu

2.4 Hệ mờ (Fuzzy System)

Trong vài thập kỷ qua, các hệ mờ đã có những thành tựu đáng kể trong nhiều lĩnh vực khác nhau của khoa học và công nghệ, đặc biệt là trong điều khiển và nhận dạng Với khả năng lập luận hết sức hiệu quả trên một số lượng nhỏ các tập luật, có thể nói Logic mờ là một công cụ đắc lực và hiệu quả của tiến trình tạo quyết định trong

Trang 37

lĩnh vực tài chính Trong phần này, chúng tôi sẽ trình bày những vấn đề cơ bản liên quan tới việc xây dựng và sử dụng hệ mờ từ đó có thể áp dụng để giải quyết bài toán của chúng tôi ở chương tiếp theo

2.4.1 Định nghĩa tập mờ

Tập hợp nhóm các đối tượng phân biệt Khái niệm tập hợp đã trở thành khái niệm cơ bản trong toán học Ở đây chúng ta sẽ không nhắc lại các khái niệm cũng như tính chất của tập hợp mà sẽ đi ngay vào tập mờ

Trong lĩnh vực tài chính, chỉ số tài chính với các giá trị ngôn ngữ thấp, cao, trung bình hay với việc mua bán chứng khoán ta có mua nhiều, bán ít, bán mạnh…Các giá trị này gây cảm giác phân vân cho người thiết kế bộ điều khiển nếu không đưa nó vào khái niệm tập mờ Vì sao vậy? Giả sử chỉ số RSI là 70 thì có người cho rằng đó là cao và quyết định mua nhiều, nhưng có người thì cho rằng 70 chỉ là trung bình nên quyết định giữ không bán

Nhằm thống nhất hai quan điểm, ta sẽ đưa vào giá trị RSI một số thực trong khoảng [0,1] để đánh giá mức độ phụ thuộc của nó vào hai quan điểm nói trên Chẳng hạn, giá trị 70 sẽ là cao với độ phụ thuộc 0.4 và trung bình với độ phụ thuộc là 0.6

Một cách tổng quát thì ta phải đưa thêm vào mỗi giá trị thực tế một số thực (x) trong khoảng [0,1] để đánh giá độ phụ thuộc của nó ứng với từng giá trị ngôn ngữ Việc đưa thêm số thực (x) để đánh giá độ phụ thuộc như vậy được gọi là mờ hoá giá

trị rõ x Ta có định nghĩa:

Định nghĩa:

Tập mờ là một tập hợp mà mỗi phần tử cơ bản x của nó được gán thêm một giá trị thực (x)[0,1] để chỉ thị độ phụ thuộc của phần tử đó vào tập đã cho Khi độ phụ

thuộc bằng 0 thì phần tử cơ bản đó sẽ hoàn toàn không thuộc tập đã cho, ngược lại với

độ phụ thuộc bằng 1 thì phần tử cơ bản sẽ thuộc tập hợp với xác suất 100%

Như vậy, tập mờ là tập của các cặp (x,(x)) Tập kinh điển U của các phần tử x được gọi là tập nền của tập mờ Cho x chạy khắp trong tập hợp U, ta sẽ có hàm (x) có giá trị là số bất kỳ trong khoảng [0,1] tức là:

: U[0,1]

và hàm này được gọi là hàm thuộc

Việc (x) có giá trị là số bất kỳ trong khoảng [0,1] là điều khác biệt cơ bản giữa tập kinh điển và tập mờ Ở tập hợp A, hàm thuộc (x) chỉ có hai giá trị 0 hoặc 1 ứng với x  A hay không

Chính do có sự khác biệt đó mà ta cũng có nhiều công thức khác nhau cùng mô

tả cho một phép tính giữa các tập mờ Đó là những công thức có cùng một giá trị nếu hàm thuộc (x) thoả mãn

Trang 38

Bất cứ một hàm (x):U[0,1] cũng đều có thể là hàm thuộc của một tập mờ nào đó Nhưng trong điều khiển, với mục đích sử dụng các hàm thuộc sao cho khả năng tích hợp chúng là đơn giản, người ta chỉ quan tâm tới ba dạng hàm thuộc như trong hình 2-4

Hình 2-4 Các dạng hàm thuộc

Thông thường, để chỉ một tập mờ người ta hay sử dụng ngay hàm thuộc (x) của tập mờ đó Với việc đưa khái niệm tập mờ, mỗi một giá trị ngôn ngữ sẽ là một tập

mờ Trong ví dụ về chỉ số RSI, ta sẽ có các tập mờ sau:

Tập mờ cao(x) cho giá trị cao

Tập mờ trung bình(x) cho giá trị trung bình

Tập mờ thấp(x) cho giá trị thấp

2.4.2 Phép suy diễn mờ

2.4.2.1 Xác định giá trị của mệnh đề hợ thành

Sau khi đã mờ hoá giá trị rõ x thông qua tập mờ (x) thì bước tiếp theo là ta

phải thực hiện những nguyên tác điều khiển đã cho dưới dạng mệnh đề hợp thành

Chẳng hạn ta có:

IF RSI tăng trên 70 THEN BULLISH

IF RSI giảm dưới 70 THEN BEARISH

IF RSI tăng trên 50 THEN BULLISH

IF RSI giảm dưới 50 THEN BEARISH

IF RSI tăng trên 30 THEN BULLISH

IF RSI giảm dưới 30 THEN BEARISH

Singleton Tam giác Hình thang

Trang 39

Chúng đều có chung một cấu trúc đơn:

Gọi tập mờ của giá trị A là A(x) và của B là B(y) thì mệnh đề hợp thành chính

là phép suy diễn :

Phép suy diễn trên là một phép tính có đối số x nên nó cũng phải có một giá trị

cụ thể khi mà đối số x, tức là A(x) đã cho trước Ký hiệu giá trị của phép suy diễn là

A  B(y) thì trong logic mờ nó sẽ được tính từ A(x),B(y) như sau:

hoặc

Cả hai công thức trên cùng được sử dụng cho tập thông thường mà không gây mâu thuẫn là vì x và y thoả mãn (x) = 1 nếu x A, cả hai công thức đều cho cùng một giá trị, nói cách khác là chúng tương đương

Với tập mờ A(x),B(y) thì điều đó có khác đôi chút Hai công thức sẽ cho hai giá trị mờ có cùng nền với tập mờ B nhưng với hai hàm thuộc khác nhau Việc chọn hàm nào là người dùng quyết định :

Nếu chọn công thức 2.3a thì ta nói phép suy diễn mờ đó là luật suy diễn Prod Nếu chọn công thức 2.3b thì ta nói phép suy diễn mờ đó là luật suy diễn Min

Sau khi đã chọn được một công thức thực hiện phép suy diễn là Prod hay Min thì khi cho trước giá trị rõ x0 ở đầu vào ta luôn có được một giá trị cho phép suy diễn

AB Giả sử giá trị đó là tập mờ có hàm thuộc A  B(y) cùng nền với B và được tính như sau :

Nếu chọn luật Prod

Nếu chọn luật Min

Trong đó H=A(x0) được gọi là độ thoả mãn đầu vào

Ngoài cấu trúc đơn còn có cấu trúc dạng :

IF A1=X1 AND A2=X2 AND An=XnTHEN B=Y (2.5) Cấu trúc này có nhiều đầu vào- một đầu ra và có tên là MISO

Ở mệnh đề đơn chỉ có một đầu vào còn ở mệnh đề MISO có nhiều tập mờ đầu vào Điều này làm cho ta chưa thể sử dụng ngay một trong hai công thức 2.4a hoặc 2.4b để xác định giá trị mờ A  B(y) vì chưa có được một độ thoả mãn đầu vào H cụ thể Nói cách khác, trước khi sử dụng hai công thức suy diễn 2.4a hoặc 2.4b cho mệnh

Trang 40

đề hợp thành 2.5 ta phải có đƣợc độ thoả mãn đầu vào H chung làm đại diện cho tất cả

m tín hiệu vào

Gọi Ak(xk) là những hàm thuộc của tập mờ đầu vào Ak , k=1,2,…,m ứng với m

tín hiệu vào là k , k=1,2, ,m và B(y) là hàm thuộc của tập B ứng với đầu ra B của bộ

điều khiển MISO, trong đó x k là tín hiệu có ở cổng vào k, tức là giá trị của nó sẽ thuộc tập nền của tập mờ A k Giả sử rằng tại đầu vào của bộ điều khiển có các giá trị rõ x0k,

k=1,2, ,m Vậy thì mỗi một tập mờ A k sẽ có một độ thoả mãn riêng

Hk=Ak(x0k)

Độ thoả mãn đầu vào chung H cho cả mệnh đề hợp thành MISO (2.5) khi đó sẽ

đƣợc xác định theo nguyên tắc tình huống xấu nhất nhƣ sau :

H=min{H 1 ,H 2 , ,H m}=min Ak(x0k)

Khi đã có độ thoả mãn đầu vào chung H thì tập mờ A  B(y) của mệnh đề (2.5) ứng với vector các giá trị rõ đầu vào x0

k , k=1,2, ,m sẽ đƣợc tính theo công thức (2.4a)

hoặc (2.4b):

Nếu chọn luật Prod

AB (y) = min Ak (x k 0 ) .B (y) (2.6a)

Nếu chọn luật Min

AB (y)= min {min Ak (x k

Không bó buộc bởi các công thức đó, một cách tổng quá về phép tính suy diễn, mọi ánh xạ A  B :[0,1]2 [0,1], nếu thoả mãn:

Ngày đăng: 25/03/2015, 10:00

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Bùi Công Cường, Nguyễn Doãn Phước (2006), Hệ mờ Mạng Nơron và ứng dụng, Nhà xuất bản khoa học và kỹ thuật Sách, tạp chí
Tiêu đề: Hệ mờ Mạng Nơron và ứng dụng
Tác giả: Bùi Công Cường, Nguyễn Doãn Phước
Nhà XB: Nhà xuất bản khoa học và kỹ thuật
Năm: 2006
[2]. Phan Thị Bích Nguyệt (2007), Phân tích kỹ thuật, Nhà xuất bản Lao động – Xã hội Sách, tạp chí
Tiêu đề: Phân tích kỹ thuật
Tác giả: Phan Thị Bích Nguyệt
Nhà XB: Nhà xuất bản Lao động – Xã hội
Năm: 2007
[3]. Nguyễn Thị Ngọc Trang (2006), Quản trị rủi ro tài chính, Nhà xuất bản thống kê. Tiếng Anh Sách, tạp chí
Tiêu đề: Quản trị rủi ro tài chính
Tác giả: Nguyễn Thị Ngọc Trang
Nhà XB: Nhà xuất bản thống kê. Tiếng Anh
Năm: 2006
[4]. Fie Chen (2004), Learning accurate and understandable rules from SVM classifiers, Thesis, pp. 1-6 Sách, tạp chí
Tiêu đề: Learning accurate and understandable rules from SVM classifiers
Tác giả: Fie Chen
Năm: 2004
[5]. Dimitri Pissarenko (2002), Neural Networks For Financial Time Series Prediction, pp. 104-120 Sách, tạp chí
Tiêu đề: Neural Networks For Financial Time Series Prediction
Tác giả: Dimitri Pissarenko
Năm: 2002
[7]. Zhou, Xu Shen; Dong, Ming (2004). Can fuzzy logic make technical analysis 20/20? Financial Analyst Journal, 54–73 Sách, tạp chí
Tiêu đề: Can fuzzy logic make technical analysis 20/20
Tác giả: Zhou, Xu Shen; Dong, Ming
Năm: 2004
[8]. Wee Mien Cheung and Uzay Kaymak (2007), A Fuzzy Logic Based Trading System, Econometric Institute, pp. 1-6 Sách, tạp chí
Tiêu đề: A Fuzzy Logic Based Trading System
Tác giả: Wee Mien Cheung and Uzay Kaymak
Năm: 2007
[9]. Boris Kovalerchuk and Evgenii Vityaev (2001), Data minng in finance, Kluwer academic publicsher Sách, tạp chí
Tiêu đề: Data minng in finance
Tác giả: Boris Kovalerchuk and Evgenii Vityaev
Năm: 2001
[10] Achelis, Steven B., 2000. Technical Analysis from A to Z. McGraw Hill Sách, tạp chí
Tiêu đề: Technical Analysis from A to Z
[6]. Ali Ghodsi Boushehri (2000), Appying Fuzzy logic to stock price prediction Khác

HÌNH ẢNH LIÊN QUAN

Hình  1-1 Biểu đồ dạng đường - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 1-1 Biểu đồ dạng đường (Trang 20)
Hình  2-1 Mô hình phân lớp tiêu chuẩn - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 2-1 Mô hình phân lớp tiêu chuẩn (Trang 27)
Hình  2-2 Mô hình một nơron perceptron - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 2-2 Mô hình một nơron perceptron (Trang 32)
Hình  2-3 Mô hình mạng perceptron 3 lớp(MLP) - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 2-3 Mô hình mạng perceptron 3 lớp(MLP) (Trang 34)
Hình  2-4 Các dạng hàm thuộc - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 2-4 Các dạng hàm thuộc (Trang 38)
Hình  2-7 Hệ suy diễn mờ - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 2-7 Hệ suy diễn mờ (Trang 44)
Hình  3-1 Mô hình đề xuất - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 3-1 Mô hình đề xuất (Trang 46)
Bảng  Balances,  Cashflows,  Incomes  chứ  dữ  liệu  báo  cáo  tài  chính  theo  quý  hoặc theo năm - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
ng Balances, Cashflows, Incomes chứ dữ liệu báo cáo tài chính theo quý hoặc theo năm (Trang 48)
Hình  3-3 Hệ suy diễn mờ - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 3-3 Hệ suy diễn mờ (Trang 53)
Hình  3-4 Miền giá trị của đầu ra - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 3-4 Miền giá trị của đầu ra (Trang 55)
Bảng 4-1 Thiết lập tham số mạng - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
Bảng 4 1 Thiết lập tham số mạng (Trang 59)
Bảng 4-4 Mẫu dữ liệu huấn luyện - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
Bảng 4 4 Mẫu dữ liệu huấn luyện (Trang 62)
Hình  4-1 Kết quả huấn luyện và kiểm tra - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
nh 4-1 Kết quả huấn luyện và kiểm tra (Trang 63)
Bảng 4-5 Dữ liệu phân tích - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
Bảng 4 5 Dữ liệu phân tích (Trang 64)
Bảng 4-6 Kết quả phân tích và dự báo - Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính
Bảng 4 6 Kết quả phân tích và dự báo (Trang 65)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w