1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mạng nơ ron tích hợp với các kỹ thuật ra quyết định thông minh cho lớp các bài toán dự báo và ứng dụng

93 59 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 93
Dung lượng 1,44 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mạng nơ ron tích hợp với các kỹ thuật ra quyết định thông minh cho lớp các bài toán dự báo và ứng dụng Mạng nơ ron tích hợp với các kỹ thuật ra quyết định thông minh cho lớp các bài toán dự báo và ứng dụng luận văn tốt nghiệp thạc sĩ

Trang 1

LUẬN VĂN THẠC SĨ KỸ THUẬT

CÔNG NGHỆ THÔNG TIN

Hà Nội – 2016

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Trang 3

Lời cam đoan

Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bàytheo những kiến thức tổng hợp của cá nhân Kết quả nghiên cứu trong luận văn này chưatừng được công bố tại bất kỳ công trình nào khác Trong quá trình làm luận văn, tôi cótham khảo các tài liệu có liên quan và đã ghi rõ nguồn tài liệu tham khảo Tôi xin camđoan đây là công trình nghiên cứu của tôi và không sao chép của bất kỳ ai

Tôi xin chịu hoàn toàn trách nhiệm, nếu sai, tôi xin chịu mọi hình thức kỷ luật theoquy định

Hà Nội, ngày 15 tháng 10 năm 2016

Học viênĐào Đức Chính

Trang 4

và tạo điều kiện thuận lợi cho tôi nghiên cứu và hoàn thành luận văn một cách tốt nhất.Tôi cũng gửi lời cảm ơn đến các anh chị em và các bạn trong Trung tâm Tính toánHiệu năng cao, trường Đại Học Khoa Học Tự Nhiên, Đại Học Quốc Gia Hà Nội đã giúp

đỡ tôi trong quá trình nghiên cứu và tìm hiểu các kết quả nghiên cứu liên quan

Tôi cũng xin gửi lời cảm ơn đến các anh chị và các bạn cùng nhóm nghiên cứu trí tuệnhân tạo và khai phá dữ liệu tại trường Đại Học Bách Khoa Hà Nội đã có nhiều ý kiếnđóng góp quý báu giúp tôi hoàn thiện luận văn

Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình và bạn bè, những người luôn bên tôi,động viên và giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận văn của mình

Học viênĐào Đức Chính

Trang 5

Mục lục

I Tổng quan về bài toán dự báo tài chính và một số kiến thức cơ sở 1

1.1 Giới thiệu về chuỗi thời gian 1

1.2 Cơ bản về mạng nơ ron và phương pháp học 2

1.2.1 Giới thiệu về mạng nơ ron sinh học 3

1.2.2 Mô hình hóa nơ ron nhân tạo 4

1.2.3 Một số cấu trúc mạng nơ ron nhân tạo 7

1.2.4 Thiết lập trọng số và phương pháp học trong mạng nơ ron nhân tạo 9 1.2.5 Một số kỹ thuật học có giám sát trong mạng nơ ron nhân tạo 11

1.3 Một số kiến thức cơ bản về biến ngẫu nhiên và phân phối xác suất 20

1.3.1 Lý thuyết tập hợp và phần tử 20

1.3.2 Không gian mẫu và độ đo xác suất 22

1.3.3 Biến ngẫu nhiên và phân phối xác suất 24

1.3.4 Một số đại lượng đặc trưng của biến ngẫu nhiên 27

1.3.5 Giới thiệu về phân phối chuẩn 29

1.4 Lý thuyết về tập mờ 30

1.4.1 Giới thiệu về tập mờ 30

1.4.2 Luật mờ và ứng dụng trong suy diễn 33

1.5 Bài toán dự báo tài chính 35

1.5.1 Thị trường tài chính và một số dữ liệu tài chính 36

1.5.2 Mô hình toán học dữ liệu tài chính 38

1.5.3 Bài toán dự báo tài chính 39

1.5.4 Một số nghiên cứu về dự báo tài chính 39

Trang 6

1.5.5 Bài toán dự báo xu hướng dữ liệu tài chính 41

1.6 Tổng kết chương 42

II Thu thập và tiền xử lý dữ liệu tài chính 43 2.1 Thu thập dữ liệu tài chính 43

2.1.1 Đồ thị dữ liệu tài chính 43

2.1.2 Bảng dữ liệu tài chính 45

2.2 Một số đặc trưng dữ liệu tài chính 45

2.2.1 Mẫu đồ thị 46

2.2.2 Mẫu đồ thị tam giác cân 46

2.2.3 Mẫu đồ thị tam giác diễn tiến tăng 47

2.3 Phân tích sóng dữ liệu tài chính 48

2.3.1 Đỉnh và đáy trong chuỗi thời gian dữ liệu tài chính 48

2.3.2 Bước sóng trong chuỗi thời gian dữ liệu tài chính 48

2.4 Vấn đề chuẩn hóa dữ liệu về miền giá trị thực 51

2.5 Tổng kết chương 54

III Mô hình mạng nơ ron tích hợp với các kỹ thuật ra quyết định thông minh cho lớp bài toán dự báo 55 3.1 Mô hình bài toán dự báo tài chính 55

3.1.1 Giả thiết mô hình xác suất đề xuất 55

3.1.2 Bài toán dự báo xu hướng dữ liệu tài chính ngắn hạn 56

3.1.3 Sơ đồ phương pháp dự báo xu hướng tài chính 57

3.2 Cấu trúc mạng nơ ron và quá trình học 60

3.2.1 Xây dựng bộ dữ liệu học 61

3.2.2 Cấu trúc mạng nơ ron 61

3.2.3 Thuật toán học lan truyền ngược sai số 62

3.2.4 Áp dụng mạng nơ ron đã huấn luyện đưa ra kết quả dự báo 62

3.2.5 Chuyển kết quả đầu ra về miền xác suất 64

3.3 Mô hình hệ logic mờ trợ giúp ra quyết định 67

3.3.1 Tích hợp kết quả dự báo từ dữ liệu với các khung thời gian khác nhau 67 3.3.2 Xây dựng hệ logic mờ và tập luật 67

3.4 Tổng kết chương 70

IV Cài đặt và kết quả thử nghiệm 71 4.1 Môi trường cài đặt và dữ liệu 71

4.2 Phương pháp đo độ chính xác 71

4.3 Kết quả thử nghiệm 72

4.4 So sánh với một số nghiên cứu liên quan 75

Trang 7

V Kết luận 775.1 Kết quả đạt được 775.2 Định hướng phát triển 78

Trang 8

Danh sách hình vẽ

1.1 Chuỗi thời gian doanh số bán rượu vang đỏ Úc trong khoảng thời gian năm

1980 đến 1991 2

1.2 Cấu tạo một nơ ron sinh học 3

1.3 Mô hình một nơ ron nhân tạo 4

1.4 Hàm đồng nhất 5

1.5 Hàm bước nhảy với tham số θ 6

1.6 Hàm sigmoid với tham số σ 6

1.7 Hàm bipolar sigmoid với tham số σ = 1 7

1.8 Mạng nơ ron một lớp 8

1.9 Mạng nơ ron nhiều lớp với một lớp ẩn 9

1.10 Một lớp cạnh tranh trong mạng nơ ron MAXNET 10

1.11 Ví dụ bài toán nhận dạng ký tự sử dụng phương pháp học có giám sát trong mạng nơ ron nhân tạo 11

1.12 Ví dụ về bộ dữ liệu học sử dụng trong bài toán nhận dạng ký tự 12

1.13 Không gian dữ liệu véc tơ đầu vào và phân lớp A 13

1.14 Mạng simple perceptron giải quyết bài toán nhận dạng ký tự thuộc lớp A 13 1.15 Véc tơ điều chỉnh trọng số trong quá trình học 14

1.16 Mô hình mạng nơ ron nhân tạo truyền thẳng nhiều lớp 16

1.17 Lan truyền ngược sai số trong mạng nơ ron nhiều lớp 18

1.18 Trường hợp lý tưởng sai số trong mạng tiến dần về giá trị cực tiểu 18

1.19 Cực tiểu địa phương (local minimum) và cực tiểu toàn cục (global minimum) 19 1.20 Ví dụ hàm mật độ xác suất(a) và hàm phân phối xác suất(b) 27

1.21 Đồ thị hàm mật độ xác suất (a) và hàm phân phối xác suất (b) của phân phối chuẩn m = 1 và σ = 0 31

1.22 Ví dụ về tập thô và tập mờ đối với “short men”, “average men” và “tall men” 33 1.23 Mô hình suy diễn dựa trên luật mờ 34

1.24 Phép giải mờ trọng tâm 36

1.25 Đồ thị giá cổ phiếu Apple trong khoảng thời gian từ 17/8/2016 đến 30/8/2016 37 1.26 Đồ thị giá EUR/USD trong khoảng thời gian từ 6h GMT đến 23h GMT ngày 30/8/2016 37

Trang 9

1.27 Biểu diễn đồng thời 4 giá trị open, high, low, close tại một thời điểm quan

sát 38

2.1 Đồ thị dữ liệu tỷ giá EUR/USD với khung thời gian T0 = 5 phút từ 22h GMT ngày 2/9/2016 đến 4h GMT ngày 3/9/2016 44

2.2 Đồ thị dữ liệu tỷ giá EUR/USD với khung thời gian T0 = 1 ngày từ ngày 30/5/2016 đến ngày 2/9/2016 44

2.3 Symmetrical Triangle pattern với xu hướng tăng (a) và xu hướng giảm (b) 47 2.4 Ascending Triangle pattern với đường nằm ngang qua các đỉnh và đường hướng lên qua các đáy 47

2.5 Đỉnh và đáy chuỗi thời gian dữ liệu tỷ giá ngoại tệ EUR/USD, T0 = 5 phút từ 10h GMT đến 6h GMT ngày 18/4/2016 51

2.6 Bước sóng trong chuỗi thời gian dữ liệu tỷ giá ngoại tệ EUR/USD, T0 = 5 phút từ 15h GMT đến 18:30 GMT ngày 18/4/2016 52

2.7 Tính chất phân bố giá trị biến ngẫu nhiên có phân phối chuẩn 53

3.1 Bài toán dự báo xu hướng tài chính đề xuất: dựa trên 3 đáy và 3 đỉnh dự báo xu hướng trong 2 bước sóng kế tiếp 57

3.2 Sơ đồ mô hình dự báo xu hướng dữ liệu tài chính 58

3.3 Đoạn dữ liệu 3 đáy và 3 đỉnh của dữ liệu tỷ giá EUR/USD, khung thời gian T0 = 5 phút, trong khoảng thời gian từ 11h GMT đến 14h GMT ngày 22/4/2016 58

3.4 Cấu trúc mạng nơ ron đề xuất 62

3.5 Hệ trợ giúp quyết định từ thông tin dự báo tài chính 68

3.6 Các tập mờ cho xu hướng TĂNG 69

3.7 Các tập mờ cho xu hướng GIẢM 69

4.1 Kết quả trích đoạn dữ liệu đỉnh và đáy đối với dữ liệu EUR/USD 73

4.2 Kết quả dự báo xu hướng dữ liệu EUR/USD được thể hiện trên đồ thị 73

4.3 Kết quả trích đoạn dữ liệu đỉnh và đáy đối với dữ liệu TAIEX 74

4.4 Kết quả dự báo xu hướng dữ liệu TAIEX thể hiện trên đồ thị 74

Trang 10

Danh sách bảng

1.1 Bảng tương quan giữa lý thuyết tập hợp và lý thuyết xác suất 231.2 Một số nghiên cứu về dự báo tài chính trong những năm gần đây 402.1 Bảng dữ liệu tỷ giá ngoại tệ EUR/USD, T0 = 5 phút, trong khoảng thờigian 4:25 GMT đến 5:05 GMT ngày 14/4/2016 452.2 Bảng dữ liệu giá dầu thô theo đơn vị USD, T0 = 1 giờ, trong khoảng thờigian 1:00 GMT đến 9:00 GMT ngày 1/4/2016 463.1 Các ký hiệu, định nghĩa và công thức tính trong mạng nơ ron 643.2 Bảng giá trị hàm error function erf (x) 664.1 Kết quả thử nghiệm đối với bài toán dự báo xu hướng dữ liệu tài chính 72

Trang 11

Mở đầu

Lý do chọn đề tài

Trí tuệ nhân tạo cùng với các kỹ thuật học máy thông minh đã giải quyết nhiều vấn

đề trong thế giới thực Trí tuệ nhân tạo đã phát triển thành một lĩnh vực khoa học cónhiều ứng dụng rộng rãi trong kỹ thuật, y học và kinh tế Trong quá khứ, trí tuệ nhântạo chủ yếu được sử dụng cho các hệ thống tự động hóa và giải quyết các vấn đề phứctạp Ngày nay trí tuệ nhân tạo có một vai trò đặc biệt quan trọng trong cuộc sống thực

và thậm chí ngày càng quan trọng trong tương lai gần Từ những chiếc điện thoại thôngminh, ô tô thông minh và các ứng dụng thông minh, trí tuệ nhân tạo đã thực sự gắn liềnvới cuộc sống [1]

Mạng nơ ron nhân tạo, thường được gọi ngắn gọn là mạng nơ ron, là một lĩnh vựcnghiên cứu trong trí tuệ nhân tạo đã được phát triển trong nhiều năm và có những đónggóp đáng kể cho nhiều lĩnh vực khác nhau Mạng nơ ron nhân tạo là một phương thức

xử lý thông tin dựa trên sự mô phỏng hoạt động của hệ thống nơ ron sinh học của bộnão Nó gồm có một số lượng lớn các đơn vị thành phần xử lý thông tin, được gọi là nơron, được kết nối với nhau thành một mạng và cùng hoạt động để giải quyết một vấn đề

cụ thể [10]

Một trong những ứng dụng của mạng nơ ron nhân tạo trong kinh tế là dự báo xuhướng của thị trường tài chính, ví dụ như dự báo giá cổ phiếu, các chỉ số kinh tế, tỷ giángoại tệ Vấn đề dự đoán các dữ liệu tài chính này đóng một vai trò quan trọng trong việcđưa ra các quyết định tài chính Luận văn đề xuất một phương pháp dự báo xu hướngtài chính trong ngắn hạn một vài ngày đến một vài tuần dựa trên mạng nơ ron nhân tạokết hợp mô hình xác suất Kết quả dự báo được sử dụng để trợ giúp nhà đầu tư tài chínhdựa trên hệ logic mờ

Tính cấp thiết của đề tài

Trên thực tế, có rất nhiều yếu tố tác động đến thị trường tài chính bao gồm cả nhữngthông tin không chắc chắn khiến việc dự báo tài chính là một thách thức rất khó và phứctạp [18] Hầu hết các kết quả nghiên cứu dự đoán giá cổ phiếu thường chỉ dự đoán giá

Trang 12

đóng cửa của một ngày tiếp theo [12] [9] [18] Một số bài báo về dự đoán tỷ giá ngoại

tệ [13] [2] hay bài báo về dự đoán chỉ số tài chính [14] [15] [16] cũng đưa ra dự báo tỷ giángoại tệ hay chỉ số tài chính vào cuối ngày hôm sau Trong khi đó, thực tế thị trường tàichính thường hoạt động 24 giờ vào tất cả các ngày làm việc trong tuần và tỷ giá thườngxuyên thay đổi theo từng phút [19], do đó về mặt khách quan, các thông tin dự đoán nàyvẫn chưa đủ cho nhà đầu tư ra quyết định Cũng đã có một số bài báo dự đoán xu hướngchỉ số kinh tế và tỷ giá ngoại tệ thay vì dự báo giá đóng cửa ngày hôm sau [6], tuy nhiênkết quả bài báo cũng chỉ dự đoán xu hướng này trong một ngày tiếp theo đối với chỉ sốS&P500 hoặc trong một phút tiếp theo với tỷ giá ngoại tệ EUR/USD [6] Do đó, vấn đềcần thiết đặt ra đó là dự báo xu hướng tài chính trong tương lai gần khoảng một vài ngàyhoặc một vài tuần Tác giả luận văn đề xuất mô hình xác suất để giải quyết vấn đề này

Tóm tắt các nội dung chính trong luận văn

Bố cục luận văn được trình bày thành 5 chương

Chương 1 trình bày về các kiến thức cơ bản về chuỗi thời gian, mạng nơ ron và một

số phương pháp huấn luyện trong mạng, cơ bản về hệ logic mờ và tập luật Cuối chương

1 trình bày về bài toán dự báo giá chứng khoán và tỷ giá ngoại tệ và kết quả nghiên cứucủa một số tác giả trên thế giới Từ đó tác giả luận văn đề xuất bài toán dự báo xu hướnggiá trong tài chính và xây dựng mô hình toán học cho bài toán dự báo xu hướng giá trongtài chính

Chương 2 trình bày về quá trình thu thập dữ liệu và tiền xử lý dữ liệu Dữ liệu tàichính thường được thu thập theo các khoảng thời gian cách đều nhau, được gọi là khungthời gian Chương này trình bày chi tiết về mô hình toán học cho dữ liệu và một đặc

Trang 13

trưng quan trọng của dữ liệu tài chính, đó là chart patterns Cuối chương này trình bàymột phương pháp chuẩn hóa dữ liệu dựa trên tính chất thống kê của phân phối chuẩn.Chương 3 trình bày chi tiết mô hình dự báo xu hướng giá trong tài chính dựa trêngiả thiết mô hình phân phối xác suất chuẩn kết hợp huấn luyện trong mạng nơ ron nhântạo Cấu trúc mạng nơ ron nhân tạo và thuật toán học được trình bày trong chương này.Kết quả dự báo xu hướng đầu ra được sử dụng tiếp trong hệ logic mờ trợ giúp quyết địnhđầu tư tài chính Về cơ bản, mạng nơ ron để học mô hình dữ liệu đưa ra thông tin dựbáo, hệ logic mờ để xử lý tích hợp nhiều thông tin dự báo tại cùng một thời điểm và đưa

ra tư vấn đầu tư tài chính

Chương 4 trình bày cài đặt thử nghiệm và kết quả Chương trình ứng dụng được càiđặt trên nền tảng Cloud PaaS của OpenShift Dữ liệu thử nghiệm được chọn là tỷ giángoại tệ EUR/USD và chỉ số chứng khoán TAIEX

Chương 5 trình bày kết luận và một số hướng phát triển

Trang 14

mờ Từ đó, bài toán dự báo dữ liệu tài chính được mô tả dựa trên một mô hình xác suất

và mô hình ra quyết định dựa trên tập mờ được trình bày ở cuối chương, đồng thời cũngđưa ra một số nghiên cứu của các tác giả khác liên quan đến dự báo chứng khoán và dựbáo tỷ giá ngoại tệ

Phần này giới thiệu về chuỗi thời gian, định nghĩa chuỗi thời gian và một số ví dụminh họa Các định nghĩa và ví dụ được trích dẫn từ [11]

Định nghĩa 1.1.1 Chuỗi thời gian là một tập các giá trị quan sát xt, trong đó mỗi giátrị được ghi nhận tại một thời điểm xác định t

Chuỗi thời gian có thể phân thành 2 loại dựa theo tính chất của thời điểm quan sát tnhư ở dưới đây

Định nghĩa 1.1.2 Chuỗi thời gian rời rạc là chuỗi thời gian trong đó tập các thời điểmquan sát T0 là một tập rời rạc

Một trường hợp điển hình của chuỗi thời gian rời rạc là các giá trị quan sát được lấytại các khoảng thời gian cố định

Định nghĩa 1.1.3 Chuỗi thời gian liên tục là chuỗi thời gian trong đó tập các giá trịquan sát được ghi lại liên tục trong một khoảng thời gian, tập các thời điểm quan sát T0

chứa khoảng thời gian liên tục

Trang 15

Hình 1.1: Chuỗi thời gian doanh số bán rượu vang đỏ Úc trong khoảng thời gian năm

1980 đến 1991

Chuỗi thời gian thu được trong thực tế đều là chuỗi thời gian rời rạc, do các giá trịquan sát được ghi nhận tại các thời điểm xác định Một số ví dụ về chuỗi thời gian rờirạc trong thực tế được minh họa trong hình 1.1

Hình 1.1 mô tả chuỗi thời gian doanh số bán hàng hàng tháng (theo đơn vị nghìnkilo lít) rượu vang đỏ Úc trong khoảng thời gian từ tháng 1 năm 1980 đến tháng 10 năm

1991 Khi đó tập các thời điểm quan sát T0 chứa 142 thời điểm (Tháng 1, 1980), (Tháng

2, 1980), , (Tháng 10, 1991) Với một tập n giá trị quan sát lấy tại thời điểm cách đềunhau, một cách tự nhiên và thuận tiện đó là chuyển đổi tập thời điểm quan sát T0 về cácgiá trị số tự nhiên 1, 2, , n Trong ví dụ hiện tại có thể xem thời điểm quan sát đầutiên (Tháng 1, 1980) tương ứng với giá trị 1 Khi đó tập các thời điểm quan sát T0 trởthành 1, 2, , 142 Có thể nhận thấy từ đồ thị doanh số bán hàng có xu hướng tăng và

có một chu kỳ theo mùa cao nhất vào khoảng tháng 7 và thấp nhất vào khoảng tháng 1

Phần này sẽ giới thiệu về mạng nơ ron nhân tạo, cấu trúc một số mạng nơ ron nhântạo điển hình và phương pháp học trong mạng nơ ron Hầu hết các định nghĩa và ví dụđược trích dẫn từ tài liệu tham khảo [5]

Trang 16

Hình 1.2: Cấu tạo một nơ ron sinh học

Mô hình mạng nơ ron nhân tạo được nghiên cứu xuất phát từ hệ thống nơ ron sinhhọc của con người Về cơ bản, bộ não con người có thể học, còn máy tính có bộ xử lý và

bộ nhớ Máy tính thực hiện theo chương trình được cài đặt sẵn trong bộ nhớ, và do đó môhình xử lý thông tin trong máy tính thông thường không có khả năng học Các nhà khoahọc đã nghiên cứu cấu trúc của mạng nơ ron sinh học và cách thức xử lý thông tin trongquá trình học, từ đó để có thể xây dựng mô hình mạng nơ ron nhân tạo Một nơ ron sinhhọc có 3 thành phần chính: các dây thần kinh vào (dendrites), nhân nơ ron (soma) và sợitrục dây thần kinh ra (axon) [5]

(a) Các dây thần kinh vào nhận tín hiệu từ các nơ ron khác, được gọi là dendrites Cáctín hiệu này là các xung điện được vận chuyển qua một khớp thần kinh (synapticgap) bởi một quá trình hóa học Các hoạt động trong quá trình vận chuyển hóa họcnày đã biến đổi tín hiệu vào, ví dụ như biến đổi tần số của tín hiệu nhận được.(b) Nhân nơ ron, được gọi là soma Khi nhân nơ ron đã nhận được tất cả các tín hiệuđầu vào, nó thực hiện tích hợp các tín hiệu đầu vào và chuyển thành một tín hiệutruyền tới axon, sợi trục dây thần kinh ra

(c) Đầu dây thần kinh ra, được gọi là sợi trục axon Đầu dây thần kinh ra được phânnhánh nối với các dây thần kinh vào của các nơ ron khác thông qua khớp thần kinhsynaptic gap

Một nơ ron sinh học thông thường được mô tả trong hình 1.2 trong đó nhân nơ ronSoma nhận tín hiệu vào Dendrite từ hai nơ ron khác, và đầu dây thần kinh ra Axontruyền tín hiệu đến 2 nơ ron khác

Chức năng cơ bản của các tế bào nơ ron là liên kết với nhau để tạo nên hệ thống thầnkinh điều khiển hoạt động của cơ thể sống Các nhà khoa học ước tính ngay từ khi sinh

ra, bộ não con người đã có khoảng 100 tỷ nơ ron [5]

Trang 17

Hình 1.3: Mô hình một nơ ron nhân tạo

Mạng nơ ron nhân tạo được nghiên cứu dựa trên đặc trưng của cấu trúc mạng nơ ronsinh học với các đặc điểm sau

(1) Mỗi phần tử nơ ron nhân tạo nhận được nhiều tín hiệu

(2) Các tín hiệu nhận được có thể bị biến đổi bởi một trọng số weight tại khớp nốisynapse

(3) Các nơ ron thực hiện tính tổng các tín hiệu nhận được sau khi bị biến đổi qua trọngsố

(4) Tùy từng trường hợp thích hợp của tín hiệu đầu vào nhận được, nơ ron sẽ truyềntín hiệu tới một đầu ra

(5) Đầu ra của một nơ ron có thể truyền đi tới nhiều nơ ron khác

(6) Trọng số tại các khớp nối có thể được biến đổi dựa trên kinh nghiệm trong quá trìnhhọc

Từ đó, mô hình một nơ ron nhân tạo được mô tả trong hình 1.3

Trong mô hình này, một nơ ron thứ i sẽ nhận các tín hiệu vào từ n nơ ron khác x1,

x2, , xn với các trọng số tương ứng là wi1, wi2, , win Tại nơ ron i sẽ thực hiện tínhtổng các tín hiệu nhận được sau khi nhân với trọng số Pn

j=1wijxj Sau đó, giá trị tổngnày được biến đổi qua hàm thường có tính chất phi tuyến g(P

jwijxj), tương ứng với quátrình xử lý thực hiện trong nhân nơ ron soma

Tuy nhiên, do tính chất (4) được mô tả ở trên, tùy từng trường hợp thích hợp của tínhiệu đầu vào nhận được, nơ ron sẽ truyền tín hiệu tới đầu ra Điều này dẫn tới cần mộtngưỡng ϑ sau quá trình tính tổng, ngưỡng này có thể có giá trị khác nhau với các nơ ron

Trang 18

Hình 1.4: Hàm đồng nhấtkhác nhau Do đó giá trị đầu ra của nơ ron có công thức tổng quát sau.

Ta ký hiệu h =Pn

j=1wijxj− ϑi, giá trị h được gọi là tổng các tín hiệu vào Khi đó giátrị đầu ra của nơ ron là xi = g(h), hàm g được gọi là activation function hay hàm kíchhoạt

Một số hàm kích hoạt hay được sử dụng

(a) Hàm đồng nhất:

g(x) = x với mọi giá trị x (1.2)

Đồ thị minh họa hàm đồng nhất thể hiện trong hình 1.4

(b) Hàm bước nhảy (với tham số ngưỡng θ):

Đồ thị minh họa hàm bước nhảy thể hiện trong hình 1.5

(c) Hàm sigmoid, còn gọi là binary sigmoid:

g(x) = 1

1 + e−σx (1.4)

Trang 19

Hình 1.5: Hàm bước nhảy với tham số θ

Hình 1.6: Hàm sigmoid với tham số σKhi đó, giá trị đạo hàm của hàm g bằng:

g0(x) = σ

2[1 + g(x)] [1 − g(x)] (1.7)

Đồ thị minh họa hàm bipolar sigmoid với tham số σ = 1 được thể hiện trong hình1.7

Trang 20

Hình 1.7: Hàm bipolar sigmoid với tham số σ = 1

Định nghĩa mạng nơ ron nhân tạo được thể hiện dưới đây

Định nghĩa 1.2.1 Một mạng nơ ron nhân tạo là một hệ thống xử lý thông tin có đặctrưng về hiệu năng nhất định với mạng nơ ron sinh học Mạng nơ ron nhân tạo được pháttriển dựa trên tổng quát hóa các mô hình toán học quá trình nhận thức và sinh học não

bộ Mạng nơ ron nhân tạo bao gồm nhiều nơ ron nhân tạo có kết nối với nhau theo mộtcấu trúc mạng và cơ chế hoạt động nhất định

Thông thường, một cách thuận tiện các nơ ron trong mạng nơ ron nhân tạo được sắpxếp theo lớp Các nơ ron trong cùng một lớp có hành vi giống nhau Yếu tố chính xácđịnh hành vi của nơ ron đó là hàm kích hoạt và các trọng số gắn trên các tín hiệu vào

và tín hiệu ra Các nơ ron trong cùng một lớp thường có chung hàm kích hoạt và cáchthiết kế kết nối đến các nơ ron thuộc lớp khác Cụ thể hơn, trong nhiều cấu trúc mạng

nơ ron, các nơ ron trong cùng một lớp hoặc là có kết nối với tất cả các nơ ron khác hoặc

là không có bất kỳ kết nối nào Nếu có một nơ ron trong lớp nào đó, gọi là lớp A, có kếtnối tới một nơ ron trong một lớp khác, gọi là lớp B, thì tất cả nơ ron trong lớp A sẽ cókết nối tới tất cả các nơ ron trong lớp B Việc sắp xếp các nơ ron vào các lớp và kết nốigiữa các lớp trong mạng nơ ron được gọi là cấu trúc mạng [5]

Mạng nơ ron thường được phân loại theo mạng một lớp và mạng nhiều lớp Trongviệc xác định số lượng lớp trong mạng, lớp đầu vào thường không được tính là một lớp

và thường được gọi là khối đầu vào vì chúng không thực sự thực hiện bất kỳ tính toánnào [5]

Mạng nơ ron một lớp

Mạng nơ ron một lớp là mạng nơ ron có một lớp kết nối, hay một lớp trọng số Thôngthường, mạng nơ ron một lớp bao gồm khối đầu vào nhận tín hiệu từ thế giới bên ngoài

Trang 21

Mạng nơ ron nhiều lớp là mạng nơ ron có một hoặc nhiều lớp nằm giữa khối đầu vào

và lớp đầu ra, những lớp này được gọi là lớp ẩn Thông thường lớp trọng số trong mạngnằm giữa hai lớp liên tiếp Một ví dụ về mạng nơ ron 2 lớp gồm một lớp ẩn được thể hiệntrong hình 1.9 Trong mạng khi đó có 2 lớp trọng số, lớp trọng số thứ nhất nằm giữa khốiđầu vào và lớp ẩn, và lớp trọng số thứ hai nằm giữa lớp ẩn và lớp đầu ra

Các mạng nơ ron được minh họa trong hình 1.8 và 1.9 là những ví dụ về mạng nơ rontruyền thẳng (feedforward network), trong đó tín hiệu được truyền từ khối đầu vào đếnlớp đầu ra theo một hướng xác định

Mạng nơ ron có lớp cạnh tranh (competitive layer)

Lớp cạnh tranh (competitive layer) trong mạng nơ ron được hình thành từ một sốlượng lớn nơ ron, trong đó tín hiệu từ các nơ ron có thể được truyền đến lẫn nhau hoặctruyền đến chính nó Quá trình hoạt động của các nơ ron trong lớp cạnh tranh theo quytắc phần tử thắng quyết định tất cả, Winner-Take-All [5], chương 4 Một ví dụ về lớpcạnh tranh trong mạng nơ ron MAXNET [5] được thể hiện trong hình 1.10, trong đó

Trang 22

Hình 1.9: Mạng nơ ron nhiều lớp với một lớp ẩntrọng số kết nối giữa các nơ ron trong mạng đều bằng −.

nhân tạo

Cùng với đặc điểm về cấu trúc mạng, cách thức thiết lập trọng số là đặc điểm quantrọng thứ hai trong mạng nơ ron nhân tạo Nhìn chung, có hai phương pháp học trongmạng nơ ron nhân tạo, đó là học có giám sát (supervised learning) và học không có giámsát (unsupervised learning) Thêm vào đó, có những mạng nơ ron trong đó trọng số của

nó được thiết lập cố định trong suốt quá trình học [5] Những bài toán mà mạng nơ ronnhân tạo có thể học có thể được phân loại vào các lĩnh vực sau: bài toán ánh xạ, bàitoán phân cụm và bài toán tối ưu có ràng buộc Các bài toán về phân lớp mẫu (patternclassification) có thể được xem như một dạng của bài toán ánh xạ véc tơ đầu vào ánh xạđến véc tơ đầu ra

Học có giám sát (supervised learning)

Học có giám sát là phương pháp học trong đó tập dữ liệu học bao gồm véc tơ đầu vàocùng với kết quả đầu ra đúng tương ứng Vì vậy, với mỗi bộ dữ liệu học đưa vào và giá

Trang 23

Hình 1.10: Một lớp cạnh tranh trong mạng nơ ron MAXNET

trị đầu ra trong mạng, có thể được so sánh trực tiếp với giá trị đầu ra đúng Từ đó, cáctrọng số trong mạng có thể được điều chỉnh để thay đổi sự sai khác giữa giá trị đầu ratrong mạng và đầu ra đúng Một ví dụ đơn giản cho mạng nơ ron học có giám sát là bàitoán phân lớp mẫu Mỗi véc tơ đầu vào, yêu cầu xác định thuộc hay không thuộc một lớpcho trước Mạng nơ ron có thể được thiết kế đầu ra nhận hai giá trị đối lập, ví dụ đầu ranhận giá trị 1 nếu thuộc lớp cho trước và nhận giá trị -1 nếu không thuộc lớp đó

Tổng quát, một mạng nơ ron nhiều lớp có thể được học có giám sát để giải quyết bàitoán ánh xạ phi tuyến từ một không gian véc tơ n chiều đầu vào tới một không gian véc

tơ m chiều đầu ra

Trong phạm vi luận văn, phương pháp học được sử dụng là học có giám sát vì vậyphần 1.2.5 sẽ trình bày chi tiết hơn các kỹ thuật học có giám sát trong mạng nơ ron nhântạo

Học không có giám sát (unsupervised learning)

Mạng nơ ron tự tổ chức thực hiện việc sắp xếp các véc tơ đầu vào vào các nhóm khácnhau mà không sử dụng dữ liệu học đã được phân nhóm Khi đó, dữ liệu học chỉ bao gồmcác véc tơ đầu vào mà không có giá trị véc tơ đầu ra Các trọng số trong mạng nơ ron

sẽ được điều chỉnh sao cho những véc tơ đầu vào giống nhau nhất sẽ được gán cho cùngmột giá trị đầu ra

Mạng nơ ron với trọng số cố định

Trong một số trường hợp, mạng nơ ron được thiết kế để giải quyết bài toán tối ưu córàng buộc Mạng nơ ron này có thể giải quyết những bài toán trong đó có các kỹ thuật

Trang 24

Hình 1.11: Ví dụ bài toán nhận dạng ký tự sử dụng phương pháp học có giám sát trongmạng nơ ron nhân tạo

phức tạp, ví dụ như các ràng buộc vi phạm lẫn nhau (các ràng buộc có thể không cùngđược thỏa mãn đồng thời) Trong trường hợp này, giải pháp tối ưu lân cận thường được

áp dụng Trong quá trình thiết kế mạng nơ ron, các trọng số được thiết lập để biểu diễncác ràng buộc Một ví dụ giải quyết bài toán tối ưu có ràng buộc trong trường hợp này

Xét bài toán nhận dạng ký tự chữ cái viết tay Giả thiết rằng các chữ cái viết tayđược đọc dưới dạng ảnh nhị phân, bài toán đặt ra là nhận dạng các chữ cái đó vào cáclớp ký tự tương ứng Ví dụ chữ cái a, A đều được xếp vào lớp ký tự A Mô hình bài toánnhận dạng chữ cái sử dụng mạng nơ ron được thể hiện trong hình 1.11

Mạng nơ ron nghiên cứu là mạng nơ ron truyền thẳng một lớp hoặc nhiều lớp Ngoàiđặc trưng về cấu trúc mạng, các trọng số trong mạng cũng đóng vai trò tham số trong

Trang 25

Hình 1.12: Ví dụ về bộ dữ liệu học sử dụng trong bài toán nhận dạng ký tự

quá trình học Mục tiêu là tối ưu hóa các tham số này sao cho sai số trong mạng đạt nhỏnhất có thể

Giả thiết bộ dữ liệu học χ gồm có P bộ dữ liệu đầu vào xin(µ), đầu ra tout(µ) đượcđánh chỉ số theo µ trong công thức sau:

χ = xin(µ), tout(µ) ; 1 ≤ µ ≤ P (1.8)Giá trị đầu ra tout(µ) cũng thường được gọi là giá trị đích, viết tắt là tout Ví dụ về bộ

dữ liệu χ được thể hiện trong hình 1.12

Biểu diễn hình học dữ liệu

Về mặt tổng quát, dữ liệu đầu vào xin(µ) có thể được coi là một véc tơ n chiều xin ∈ Rn

với các thành phần xin

k ∈ R, 1 ≤ k ≤ n Giả thiết ảnh đầu vào đều được đưa về kíchthước 16 × 16 Khi đó số chiều véc tơ đầu vào n = 256 Để cho dễ hình dung, giả thiếtkhông gian dữ liệu véc tơ n chiều có dạng như hình 1.13, trong đó mỗi véc tơ dữ liệu đầuvào tương ứng với một điểm trong không gian Với véc tơ đầu vào ứng với giá trị đầu ra

tout(µ) = 1, các điểm tương ứng trong không gian được ký hiệu × Ngược lại véc tơ vớigiá trị đầu ra tout(µ) = 0 được ký hiệu o Trong không gian véc tơ n chiều, bài toán đặt

ra là xác định một mặt phẳng phân chia các điểm thuộc lớp A và các điểm không thuộclớp A

Về mặt toán học, bài toán có thể được đưa về tìm một hàm số dA(xin) với đối số làvéc tơ n chiều xin sao cho dA(xin) > 0 với mọi điểm xin thuộc lớp A và dA(xin) < 0 vớimọi điểm xin không thuộc lớp A Tập các điểm trên mặt phẳng phân chia chính là cácgiá trị sao cho dA(xin) = 0

Phương pháp học trong mạng simple perceptron

Để đơn giản, ta xét mạng nơ ron simple perceptron giải quyết bài toán nhận dạng ký

tự thuộc lớp A Mạng simple perceptron là mạng nơ ron một lớp trong đó lớp đầu ra chỉ

có duy nhất một nơ ron Khối đầu vào có thể được coi gồm có n nơ ron nhận dữ liệu đầuvào là véc tơ n chiều Do nơ ron đầu ra nhận hai giá trị rời rạc nên hàm truyền đạt của

Trang 26

Hình 1.13: Không gian dữ liệu véc tơ đầu vào và phân lớp A

Hình 1.14: Mạng simple perceptron giải quyết bài toán nhận dạng ký tự thuộc lớp A

nơ ron đầu ra được lấy là hàm bước nhảy Mô hình mạng simple perceptron giải quyếtbài toán nhận dạng ký tự thuộc lớp A được thể hiện trong hình 1.14

Xét dữ liệu đầu vào là véc tơ n chiều xin(µ), khi đó các nơ ron trong khối đầu vàonhận các giá trị xin

k với 1 ≤ k ≤ n Giá trị nơ ron đầu ra là:

Trang 27

Hình 1.15: Véc tơ điều chỉnh trọng số trong quá trình học

Quá trình điều chỉnh trọng số chính là quá trình học trong mạng Luật học có dạngtrong công thức (1.10)

∆w = ηtout(µ) − xout(µ) xin(µ) (1.10)trong đó η > 0 là một tham số dương có giá trị nhỏ, được gọi là hằng số học Ký hiệuδ(µ) = tout(µ) − xout(µ), khi đó luật học trở thành:

∆w = ηδ(µ)xin(µ) (1.11)

Có thể thấy trong công thức (1.11), nếu giá trị đầu ra trong mạng xout(µ) là đúng,σ(µ) sẽ bằng 0 và do đó trọng số trong mạng không đổi Vì vậy công thức (1.11) có thểđược sử dụng với mọi dữ liệu đầu vào Xét một véc tơ dữ liệu đầu vào xin(µ) với giá trịđích tout(µ) = 1 và giá trị đầu ra trong mạng đưa ra kết quả sai xout(µ) = 0 Trong trườnghợp này σ(µ) có giá trị dương và véc tơ điều chỉnh trọng số ∆w có hướng theo véc tơ dữliệu đầu vào x(µ) Có thể minh họa sự thay đổi này trong hình 1.15

Trong hình 1.15, nếu một điểm bị phân lớp sai chẳng hạn điểm x ở phần bên trái củađường phân cách, véc tơ trọng số w là véc tơ pháp tuyến của đường phân cách và véc tơđiều chỉnh trọng số ∆w có hướng theo hướng của điểm x và đường phân cách sẽ quaytheo hướng mong muốn

Phương pháp học dựa trên Gradient descent

Hàm kích hoạt dạng bước nhảy nhị phân thường chỉ được sử dụng đối với bài toánánh xạ dữ liệu đầu vào thành 2 lớp đầu ra Xét bài toán phân lớp tổng quát với hàm kích

Trang 28

hoạt được sử dụng là hàm liên tục Khi đó, để đánh giá sai số đầu ra của mạng nơ ron sửdụng hàm sai số được tính dựa trên tổng các bình phương sai số thành phần trong côngthức (1.12).

E (w) = 1

2X

∆wk= −η dE

dwk

(1.13)Trong đó η là tham số học nhận giá trị dương có giá trị tương đối nhỏ

Giá trị gradient dE/dwk có thể được tính dựa trên quy tắc tổng và tích trong đạohàm Ký hiệu h(µ) =P

Trong công thức (1.14), g0 là giá trị đạo hàm của hàm kích hoạt g(h) tại giá trị

h = h(µ) Đặt công thức (1.14) trong công thức (1.13), ta được công thức luật học trong

đó trọng số chỉ được thay đổi sau khi ta đã thực hiện tính tất cả các mẫu trong dữ liệuhọc và tính các giá trị δ(µ) với mọi 1 ≤ µ ≤ P Trường hợp này, luật học được gọi làtheo chế độ lô, hay "batch mode" Trong thực hành, để quá trình học thực hiện nhanhhơn, người ta hay sử dụng luật học theo chế độ trực tuyến, hay "online mode" Khi đó,các giá trị trọng số được thay đổi ngay lập tức sau khi một bộ dữ liệu mẫu được học

∆w = ηδ(µ)xin(µ) (1.15)Công thức (1.15) cũng có dạng như công thức (1.11) trong phần học trong mạngsimple perceptron với hàm kích hoạt là hàm bước nhảy nhị phân, tuy nhiên thành phầnδ(µ) có giá trị khác, với δ(µ) = [tout(µ) − xout(µ)]g0|h(µ), trong đó có thêm thành phần giátrị đạo hàm g0

Tuy nhiên, luật học trong chế độ online mode, không có gì đảm bảo rằng sai số E sẽgiảm tại từng bước Một sự thay đổi δw có thể tốt đối với mẫu đầu vào hiện tại nhưng

Trang 29

Hình 1.16: Mô hình mạng nơ ron nhân tạo truyền thẳng nhiều lớp

có thể không tốt với một vài mẫu khác và do đó khiến sai số E có thể tăng Điều này cóthể cải thiện bằng cách khởi tạo hằng số học nhỏ và số vòng lặp đủ lớn

Giải thuật học lan truyền ngược sai số

Giải thuật học lan truyền ngược sai số, hay còn gọi Backpropagation, là giải thuật họcdựa trên luật học gradient descent áp dụng cho mạng nơ ron nhiều lớp

Xét mạng nơ ron nhân tạo truyền thẳng nhiều lớp dạng tổng quát được mô tả tronghình 1.16 Mạng nơ ron nhận dữ liệu đầu vào là véc tơ n chiều xin và đưa ra kết quả đầu

ra là véc tơ m chiều xout Cụ thể, dữ liệu đầu vào là các giá trị xink với 1 ≤ k ≤ n, đầu ra

là các giá trị xouti với 1 ≤ i ≤ m

Trong mỗi lớp, các nơ ron cùng sử dụng một hàm kích hoạt Ví dụ, các nơ ron tronglớp ẩn thứ nhất có hàm kích hoạt g(1) và các nơ ron trong lớp ẩn thứ hai có hàm kíchhoạt g(2) Từ công thức (1.1), mỗi nơ ron i có một giá trị ngưỡng ϑi riêng, giá trị đầu

ra của nơ ron có thể được biểu diễn như sau

Trang 30

Giá trị đầu ra trong mạng nơ ron trong hình 1.16 được tính bằng

Trong công thức (1.18), giá trị nơ ron đầu ra có thể coi là hàm số với đối số w(2)ij và

wjk(1), khi đó sai số trong mạng cũng có thể được coi là một hàm số với đối số là các véc

tơ trọng số w(1), w(2) trong công thức sau

E w(1), w(2) = 1

2X

Trong đó tổng được tính trên i chạy trên tất cả nơ ron lớp đầu ra và (µ) chạy trên tất

cả nơ ron trong lớp đầu vào Công thức gradient descent đối với sự điều chỉnh w có dạng:

∆wij(k)= −η dE

dw(k)ij

(1.20)

trong đó chỉ số k thể hiện chỉ số lớp trong mạng

Ký hiệu tổng giá trị đầu vào nơ ron thứ i trong lớp k là h(k)i = P

Trang 31

Hình 1.17: Lan truyền ngược sai số trong mạng nơ ron nhiều lớp

Hình 1.18: Trường hợp lý tưởng sai số trong mạng tiến dần về giá trị cực tiểu

Thành phần δ trong các công thức trên có thể xem là sai số cục bộ Trong công thức(1.24), có thể thấy để tính sai số cục bộ tại lớp k − 1, ta cần tính sai số cục bộ tại lớp k,

và do đó thuật toán lan truyền ngược sai số trong mạng Hình 1.17 mô tả tính chất lantruyền ngược sai số trong mạng

Một số vấn đề trong quá trình học theo phương pháp lan truyền ngược sai sốTrong nhiều ứng dụng áp dụng mạng nơ ron, phương pháp lan truyền ngược sai sốthường được sử dụng cùng với một số kỹ thuật để tăng tốc độ hội tụ trong quá trình họccũng như kết quả đầu ra trong mạng đạt độ tin cậy cao nhất

Vấn đề cực tiểu địa phương

Theo phương pháp học lan truyền ngược sai số trong mạng, kỳ vọng sau mỗi lần điềuchỉnh trọng số, giá trị sai số E của mạng đạt đến giá trị nhỏ nhất, hay còn gọi là globalminimum, giá trị nhỏ nhất trên toàn bộ tập giá trị Hình 1.18 minh họa trường hợp lýtưởng khi sai số trong mạng đạt đến giá trị cực tiểu

Tuy nhiên, trong nhiều ứng dụng thực tế, bề mặt của hàm sai số E có dạng phức tạp,

Trang 32

Hình 1.19: Cực tiểu địa phương (local minimum) và cực tiểu toàn cục (global minimum)

một ví dụ như ở trong hình 1.19, trong đó thuật toán học lan truyền ngược sai số có thểdẫn đến giá trị cực tiểu hàm sai số trong một khoảng lân cận mà không phải toàn bộ tậpgiá trị, giá trị cực tiểu đó được gọi là cực tiểu địa phương, hay local minimum Khi đó,theo phương pháp lan truyền ngược sai số đã được mô tả, giá trị hàm sai số sẽ khó cóthể thoát khỏi vùng giá trị cực tiểu địa phương và thuật toán học trong mạng có thể kếtthúc nhưng không đạt được độ chính xác mong muốn

Vấn đề khởi tạo các trọng số

Các giá trị được khởi tạo ban đầu cho các trọng số trong mạng trước quá trình họctheo phương pháp lan truyền ngược sai số có ảnh hưởng không nhỏ đến kết quả cuối cùngcủa mạng nơ ron Thông thường, các giá trị này được khởi tạo ngẫu nhiên trong phạm vigiá trị tương đối nhỏ Trường hợp các trọng số được khởi tạo mà giá trị tổng tín hiệu đầuvào tại nơ ron lớn và hàm kích hoạt được sử dụng là hàm sigmoid thì các hàm này có thểtiệm cận giá trị 1 hoặc 0 ngay từ đầu và dẫn tới hệ thống dừng lại tại một cực tiểu địaphương gần giá trị xuất phát

Hằng số học η

Hằng số học η cũng là một yếu tố quan trọng ảnh hưởng đến hiệu quả và độ hội tụcủa giải thuật lan truyền ngược sai số Nhìn chung, không có hằng số học η phù hợp chotất cả các bài toán khác nhau, hằng số học này thường nhận giá trị trong khoảng 0.01đến 0.1 và được chọn bằng thực nghiệm cho mỗi bài toán ứng dụng cụ thể

Trang 33

Hệ số quán tính Momentum

Một hướng tiếp cận để thuật toán học nhanh tiến tới hội tụ và cũng đồng thời cóthể thoát khỏi "bẫy" cực tiểu địa phương đó là đưa thêm một yếu tố quán tính, haymomentum, trong công thức học Ý tưởng phương pháp được đưa ra là, tại mỗi bước điềuchỉnh, véc tơ thay đổi trọng số trong mạng vẫn giữ một chút giống với hướng của véc tơthay đổi trọng số ở bước trước, hay còn gọi là quán tính của véc tơ trọng số

Xét lần điều chỉnh trọng số thứ t với wij(k), trong lần điều chỉnh gần nhất trọng số thayđổi một lượng là ∆w(k)ij (t − 1) Trong lần điều chỉnh thứ t, theo phương pháp gradientdescent, giá trị điều chỉnh hay luật học được tính là ∆w(k)ij = −ηdE/dwij(k) Thêm vào yếu

tố quán tính momentum, công thức luật học được tính như sau:

∆w(k)ij (t) = −ηdE/dwij(k)+ α∆wij(k)(t − 1) (1.25)trong đó hằng số 0 < α < 1

phân phối xác suất

Phần này trình bày một số kiến thức cơ bản về xác suất, biến ngẫu nhiên và phânphối xác suất Cơ sở lý thuyết trong phần này được sử dụng để xây dựng mô hình xácsuất trong bài toán dự báo tài chính Các định nghĩa và ví dụ trong phần này được tríchdẫn từ [17]

A = {s, f } (1.26)

Trang 34

là một tập hợp gồm hai phần tử, trong đó s và f thể hiện cho success và fail tươngứng.

Tập hợp chứa các phần tử số thực không âm B có thể được mô tả như sau:

B = {x : x ≥ 0} (1.27)Chúng ta thường sử dụng ký hiệu a ∈ A để mô tả phần tử a thuộc tập hợp A Mộttập hợp không chứa phần tử nào được gọi là tập rỗng và được ký hiệu ∅ Người ta cũngphân loại tập hợp thành tập hợp hữu hạn và tập hợp vô hạn như sau

(a) Tập hợp hữu hạn là tập hợp chứa một số lượng hữu hạn các phần tử

(b) Tập hợp vô hạn là tập hợp chứa vô hạn số phần tử Trong tập hợp vô hạn, đượcphân loại tiếp thành tập hợp đếm được và tập hợp không đếm được Một tập hợpđược gọi là tập hợp vô hạn đếm được là tập hợp mà các phần tử của nó có thể ánh

xạ 1-1 với tập các số nguyên dương 1, 2, 3, Tập hợp vô hạn không đếm được làtập hợp mà các phần tử không thể thiết lập ánh xạ 1-1 với tập các số nguyên dương.Một ví dụ về tập hợp vô hạn đếm được chính là tập các số nguyên dương, ví dụ vềtập hợp vô hạn không đếm được là tập hợp các số thực không âm B được mô tả ởtrên

Nếu mọi phần tử của tập hợp A cũng đồng thời là phần tử của tập hợp B, tập A đượcgọi là tập con của tập hợp B và được ký hiệu là A ⊂ B hoặc B ⊃ A Rõ ràng rằng tậprỗng ∅ là tập con của mọi tập hợp Với A ⊂ B và B ⊂ A, khi đó tập A được gọi là bằngtập B, ký hiệu A = B

Giới thiệu về thuật ngữ không gian, hay space Các tập hợp đang xét đều là tập concủa một tập không rỗng cố định Tập hợp lớn nhất này chứa tất cả các phần tử trong tất

cả các tập hợp đang xét và được gọi là không gian, hay space, và được ký hiệu là S.Xét một tập con A trong S Tập tất cả các phần tử nằm trong S mà không thuộc Ađược gọi là phần bù của tập hợp A và được ký hiệu là A Chúng ta có thể suy ra một sốkết luận từ định nghĩa sau đây:

S = ∅, ∅ = S, A = A (1.28)Các phép toán trên tập hợp

Hợp của hai tập hợp A và B, ký hiệu là A ∪ B, là một tập hợp chứa tất cả các phần

tử thuộc A hoặc thuộc B hoặc thuộc cả hai tập hợp A và B

Giao của hai tập hợp A và B, ký hiệu là A ∩ B, cũng còn được ký hiệu là AB, là mộttập hợp chứa tất cả các phần tử chung của A và B

Trường hợp A ∩ B = ∅, tập hợp A và B không có phần tử chung, khi đó ta gọi là haitập hợp độc lập, hay disjoint

Trang 35

Một số phép toán trên tập hợp được thể hiện trong các công thức dưới đây.

(A ∪ B) ∪ C = A ∪ (B ∪ C) = A ∪ B ∪ C

A ∪ B = B ∪ A(A ∩ B) ∩ C = A ∩ (B ∩ C) = A ∩ B ∩ C

Không gian mẫu

Trong lý thuyết xác suất, chúng ta quan tâm tới những phép thử mà kết quả phụthuộc vào cơ hội nào đó Các phép thử này được gọi là phép thử ngẫu nhiên, hay randomexperiment Giả thiết rằng tất cả các kết cục có thể của phép thử đó đã biết và tập cáckết cục này nằm trong một tập hợp được gọi làkhông gian mẫu, hay sample space Mỗikết cục có thể của phép thử được gọi là một điểm mẫu, hay sample point Một sự kiệntương ứng với một tập con của không gian mẫu và có thể chứa một vài điểm mẫu.Một đặc điểm quan trọng cần chú ý đó là với một phép thử ngẫu nhiên, không gianmẫu có thể không duy nhất và nó được xây dựng dựa trên góc nhìn của câu hỏi đặt ra

Ví dụ, một nhà máy sản xuất điện trở 100 Ω Sản phẩm sau quá trình sản xuất được đolường kiểm tra giá trị điện trở thực tế trước khi xuất xưởng, và giả thiết rằng giá trị điệntrở đo được chỉ nằm trong khoảng 99 - 101 Ω Phép thử ngẫu nhiên ở đây là việc đo giátrị điện trở thực tế trong quá trình kiểm tra chất lượng, và kết cục của phép thử này cóthể được định nghĩa bằng nhiều cách khác nhau dựa trên mục đích thực hiện phép thử

Ví dụ, một điện trở có giá trị nằm trong khoảng 99.9 Ω - 100.1 Ω được coi là chấp nhậnđược, và ngoài khoảng giá trị đó được gọi là không chấp nhận được Trong trường hợpnày, không gian mẫu gồm có hai phần tử điểm mẫu, chấp nhận được và không chấp nhậnđược Xét một góc nhìn khác, giá trị điện trở có thể nằm trong khoảng 99 - 99.5 Ω, 99.5

- 100 Ω, 100 - 100.5 Ω và 100.5 - 101 Ω Khi đó, không gian mẫu gồm có 4 phần tử điểmmẫu Xét một góc nhìn khác, bất kỳ giá trị đo được đều được coi là một kết cục của phépthử, khi đó không gian mẫu là một tập số thực vô hạn không đếm được trong khoảng 99

- 101 trên trục số

Từ những mô tả về không gian mẫu, điểm mẫu và sự kiện, có thể thấy rằng chúng cómối tương quan đến lý thuyết tập hợp Vì vậy tất cả các mối liên hệ giữa kết cục và sựkiện của phép thử trong lý thuyết xác suất có thể được mô tả bởi tập hợp và các phéptoán trong tập hợp Bảng (1.1) mô tả mối tương quan giữa lý thuyết tập hợp và lý thuyếtxác suất

Trang 36

Bảng 1.1: Bảng tương quan giữa lý thuyết tập hợp và lý thuyết xác suất

Lý thuyết tập hợp Lý thuyết xác suất

Không gian S Không gian mẫu S

Tập rỗng ∅ Sự kiện không thể xảy ra

Phần tử a, b, Điểm mẫu hay sự kiện đơn a, b,

Tập hợp A, B, Các sự kiện A, B,

A Sự kiện A xảy ra

A Sự kiện A không xảy ra

A ∪ B Ít nhất sự kiện A và B xảy ra

A ∩ B hay AB Cả hai sự kiện A và B đồng thời xảy ra

A ⊂ B A là tập sự kiện con của B (việc xảy ra A kéo theo xảy ra B)

AB = ∅ A và B là hai sự kiện loại trừ nhau

Độ đo xác suất

Xét một phép thử ngẫu nhiên và không gian mẫu S, một số thực hữu hạn P r(A) đượcgán cho mỗi một sự kiện A nằm trong không gian mẫu S Khi đó P r(A) là một hàm sốtrên tập A và cũng được định nghĩa trên tất cả các tập con trong S, P r(A) được gọi là

độ đo xác suất, probability measure, của sự kiện A, hay gọi ngắn gọn là xác suất của sựkiện A P r(A) có một số đặc trưng sau đây được gọi là tiên đề xác suất:

• Với hai sự kiện A và B, ta luôn có:

P r(A ∪ B) = P r(A) + P r(B) − P r(AB) (1.31)

Trang 37

Xác suất có điều kiện

Xác suất có điều kiện của sự kiện A biết rằng sự kiện B đã xảy ra được tính bởi:

P r(A|B) = P r(AB)

P r(B) , viP r(B) 6= 0 (1.32)Hai sự kiện A và B được gọi là độc lập khi và chỉ khi:

P r(AB) = P r(A)P r(B) (1.33)

Biến ngẫu nhiên

Xét một phép thử ngẫu nhiên và kết cục phép thử nằm trong không gian mẫu S Đểxây dựng mô hình biến ngẫu nhiên, giả thiết rằng có thể gán một số thực X(s) cho mỗimột kết cục của phép thử Khi đó X(s) có thể coi là một hàm số trên miền không gianxác suất và giá trị trả ra của hàm số là số thực Từ đó có thể định nghĩa biến ngẫu nhiêndựa trên chương 3, tài liệu [17] như sau:

Định nghĩa 1.3.1 Một hàm số X(s) được gọi là biến ngẫu nhiên nếu thỏa mãn hai điềukiện sau

(a) X(s) là một hàm số có giá trị thực hữu hạn định nghĩa trên không gian xác suất Scủa một phép thử ngẫu nhiên

(b) Với mọi số thực x, tập hợp {s : X(s) ≤ x} là một sự kiện Mối quan hệ X = X(s)lấy tất cả các phần tử s nằm trong không gian mẫu S vào một điểm X trên trục sốthực R = (−∞, ∞)

Điều kiện thứ hai trong định nghĩa 1.3.1 cũng thường được gọi là điều kiện đo lường,đảm bảo tính hợp lý khi xem xét xác suất của sự kiện X ≤ x với mọi x Tổng quát hơn,điều kiện này cũng đảm bảo tính có ý nghĩa khi xem xét xác suất của một tổ hợp các sựkiện

Xét ví dụ một phép thử ngẫu nhiên và kết quả của phép thử chỉ có thành công (success)hoặc thất bại (failure) Nếu chúng ta gán số 1 cho sự kiện thành công và số 0 cho sự kiệnthất bại cho số X, thì X là một biến ngẫu nhiên nhận hai giá trị: 0 và 1 Khi đó, cácmệnh đề dưới đây là tương đương

(a) Kết quả của phép thử là thành công

(b) Kết quả của phép thử bằng 1

(c) X = 1

Trang 38

Biến ngẫu nhiên X được gọi là biến ngẫu nhiên rời rạc nếu nó được định nghĩa trênmột không gian mẫu có số lượng phần tử là hữu hạn hoặc vô hạn đếm được Trong trườnghợp này, biến ngẫu nhiên X nhận các giá trị rời rạc, và các giá trị của X có thể liệt kêđược Trong trường hợp không gian mẫu có số lượng phần tử là vô hạn, biến ngẫu nhiêntương ứng được gọi là biến ngẫu nhiên liên tục với giá trị được phân phối trên một hoặcmột vài khoảng liên tục trên trục số thực.

Phân phối xác suất

Định nghĩa 1.3.2 Cho một phép thử ngẫu nhiên và biến ngẫu nhiên X tương ứng vớikết quả của phép thử Xét một số thực x và xác suất của sự kiện {s : X(s) ≤ x}, ký hiệu

P r(X ≤ x) thì xác suất này phụ thuộc vào biến x Hàm số

FX(x) = P r(X ≤ x) (1.34)được gọi là hàm phân phối xác suất, hay probability distribution function (PDF) của biếnngẫu nhiên X

Hàm phân phối xác suất thể hiện giá trị xác suất biến ngẫu nhiên X nhận giá trị nằmtrong một tập con của S, tập con này chứa tất cả các điểm nằm bên trái của x Trườnghợp x tăng, tập con này mở rộng thêm về phía bên phải của trục số thực, và giá trị củahàm phân phối xác suất tiệm cận 1 Dưới đây là một số đặc điểm của hàm phân phối xácsuất:

• Hàm phân phối xác suất đối với biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tụcđều có giá trị nằm giữa 0 và 1

• Hàm phân phối xác suất là hàm không âm, liên tục trái và không giảm với đối sốthực x Cụ thể

FX(−∞) = 0, FX(∞) = 1 (1.35)

• Với hai số thực a và b, a < b, khi đó:

P r(a < X ≤ b) = FX(b) − FX(a) (1.36)Công thức trên là kết quả trực tiếp từ định nghĩa:

P r(X ≤ b) = P r(X ≤ a) + P r(a < X ≤ b) (1.37)

Định nghĩa 1.3.3 Xét X là một biến ngẫu nhiên rời rạc có tập giá trị hữu hạn hoặc vôhạn không đếm được và được đánh số theo thứ tự giá trị tăng dần là x1, x2, với cácgiá trị xác suất tương ứng khác 0 Nếu chúng ta ký hiệu P r(X = xi) = p(xi), i = 1, 2, khi đó:

0 < p(xi) ≤ 1P

Trang 39

Hàm số pX(x) = P r(X = x) được gọi là hàm khối xác suất, hay probability mass function(pmf) của biến ngẫu nhiên rời rạc X.

Có thể nhận thấy rằng khái niệm hàm khối xác suất chỉ có ý nghĩa đối với biến ngẫunhiên rời rạc Với biến ngẫu nhiên liên tục, P r(X = x) = 0 với mọi giá trị điểm x, do đóbiến ngẫu nhiên liên tục không tồn tại khái niệm hàm khối xác suất

Một số công thức liên hệ giữa hàm khối xác suất và hàm phân phối xác suất:

fX(x)dx (1.44)

Ví dụ về hàm phân phối xác suất và hàm mật độ xác suất Xét một biến ngẫu nhiên

X có hàm phân phối xác suất được tính theo công thức sau (tham số a > 0):

Trang 40

Hình 1.20: Ví dụ hàm mật độ xác suất(a) và hàm phân phối xác suất(b)

Mặc dù hàm phân phối xác suất và hàm mật độ xác suất cho ta thông tin đầy đủ vềbiến ngẫu nhiên, tuy nhiên vẫn cần thiết phải nghiên cứu và đưa ra một vài đặc trưng

số của biến ngẫu nhiêu Những giá trị đặc trưng số quan trọng nhất bao gồm kỳ vọng vàmoment

Kỳ vọng của hàm biến ngẫu nhiên

Định nghĩa 1.3.5 Xét g(X) là một hàm giá trị thực của biến ngẫu nhiên X Kỳ vọng,hay expectation, của g(X) được ký hiệu là E{g(X)} được định nghĩa bởi:

E{g(X)} = X

i

g(xi)pX(xi) (1.46)trong đó tổng lấy trên tất cả các giá trị có thể xi của biến ngẫu nhiên X

Trong trường hợp tập giá trị biến ngẫu nhiên X là vô hạn đếm được, giá trị tổng trongcông thức (1.46) chỉ tồn tại khi tổng này hội tụ, tức là:

X

i=1

|g(xi)|pX(xi) < ∞ (1.47)

Ta gọi ký hiệu E{} được gọi là toán tử kỳ vọng, hay expectation operator

Trong trường hợp biến ngẫu nhiên X là liên tục, giá trị kỳ vọng E{} được định nghĩabởi:

E{g(X)} =

Z ∞

−∞

g(xi)fX(x)dx (1.48)nếu giá trị tích phân mở rộng là hội tụ, tức là:

Z ∞

−∞

|g(xi)|fX(x)dx < ∞ (1.49)

Ngày đăng: 12/02/2021, 11:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Ajith Abraham (2016), “Engineering Applications of Artificial Intelligence: Change in Editorship”, International Federation of Automatic Control, Newsletter February 2016, pp. 1-3 Sách, tạp chí
Tiêu đề: Engineering Applications of Artificial Intelligence: Changein Editorship
Tác giả: Ajith Abraham
Năm: 2016
[2] Babu AS and Reddy SK (2015), “Exchange Rate Forecasting using ARIMA, Neural Network and Fuzzy Neuron”, Journal of Stock &amp; Forex Trading, Vol. 4, Issue 3, 1000155 Sách, tạp chí
Tiêu đề: Exchange Rate Forecasting using ARIMA, Neural Network and Fuzzy Neuron
Tác giả: Babu AS, Reddy SK
Nhà XB: Journal of Stock & Forex Trading
Năm: 2015
[3] Đào Đức Chính, Phan Anh Phong, Trần Đình Khang (2013), “Một phương pháp heuristic xây dựng hệ logic mờ loại hai đại số gia tử”, Hội thảo khoa học Quốc gia về các vấn đề cơ bản và ứng dụng công nghệ thông tin (FAIR) lần thứ 6, tr. 308-315 Sách, tạp chí
Tiêu đề: Một phương pháp heuristic xây dựng hệ logic mờ loại hai đại số gia tử
Tác giả: Đào Đức Chính, Phan Anh Phong, Trần Đình Khang
Nhà XB: Hội thảo khoa học Quốc gia về các vấn đề cơ bản và ứng dụng công nghệ thông tin (FAIR) lần thứ 6
Năm: 2013
[4] Kevin Matras (2014), Chart Patterns Trader, Lecture Note Supplement of subject FIN 610 Securities Analysis of Investments, Master of Science in Financial Services Program, Saint Joseph’s University, Philadelphia, USA Sách, tạp chí
Tiêu đề: Chart Patterns Trader
Tác giả: Kevin Matras
Nhà XB: Saint Joseph’s University
Năm: 2014
[5] Laurene V. Fausett (1994), Fundamentals of Neural Networks: Architectures, Algo- rithms and Applications, Prentice-Hall, USA Sách, tạp chí
Tiêu đề: Fundamentals of Neural Networks: Architectures, Algorithms and Applications
Tác giả: Laurene V. Fausett
Nhà XB: Prentice-Hall
Năm: 1994
[6] Luca Di Perio and Oleksandr Honchar (2016), “Artificial neural networks approach to the forecast of stock market price movements”, International Journal of Economics and Management Systems, Vol. 1, pp. 158-162 Sách, tạp chí
Tiêu đề: Artificial neural networks approach to the forecast of stock market price movements
Tác giả: Luca Di Perio, Oleksandr Honchar
Nhà XB: International Journal of Economics and Management Systems
Năm: 2016
[7] M. Isabel Ribeiro (2004), “Gaussian Probability Density Functions: Properties and Error Characterization”, Instituto de Sistemas e Robotica, IST Sách, tạp chí
Tiêu đề: Gaussian Probability Density Functions: Properties and Error Characterization
Tác giả: M. Isabel Ribeiro
Nhà XB: Instituto de Sistemas e Robotica, IST
Năm: 2004
[8] Michael Negnevitsky (2005), Artificial Intelligence, A Guide to Intelligent Systems, Second Edition, Addison-Wesley, England Sách, tạp chí
Tiêu đề: Artificial Intelligence, A Guide to Intelligent Systems
Tác giả: Michael Negnevitsky
Nhà XB: Addison-Wesley
Năm: 2005
[9] Mustain Billah and Sajjad Waheed (2015), “Predicting Closing Stock Price using Artificial Neural Network and Adaptive Neuro Fuzzy Inference System, The Case of the Dhaka Stock Exchange”, International Journal of Computer Applications, Vol.129, No. 11 Sách, tạp chí
Tiêu đề: Predicting Closing Stock Price usingArtificial Neural Network and Adaptive Neuro Fuzzy Inference System, The Case ofthe Dhaka Stock Exchange
Tác giả: Mustain Billah and Sajjad Waheed
Năm: 2015
[10] Oludele Awodele and Olawale Jegede (2009), “Neural Networks and Its Application in Engineering”, Proceedings of Informing Science &amp; IT Education Conference, pp.83-95 Sách, tạp chí
Tiêu đề: Neural Networks and Its Application in Engineering
Tác giả: Oludele Awodele, Olawale Jegede
Nhà XB: Proceedings of Informing Science & IT Education Conference
Năm: 2009
[11] Peter J. Brockwell and Richard A. Davis (2002), Introduction to Time Series and Forecasting, Second Edition, Springer, USA Sách, tạp chí
Tiêu đề: Introduction to Time Series and Forecasting
Tác giả: Peter J. Brockwell, Richard A. Davis
Nhà XB: Springer
Năm: 2002
[12] Rupinder kaur and Vidhu Kiran (2015), “Efficient Artificial Neural Network based Practical Approach of Stock Market Forecasting”, International Journal of Advanced Research in Computer and Communication Engineering, Vol. 4, Issue 8, pp. 263-267 Sách, tạp chí
Tiêu đề: Efficient Artificial Neural Network based Practical Approach of Stock Market Forecasting
Tác giả: Rupinder kaur, Vidhu Kiran
Nhà XB: International Journal of Advanced Research in Computer and Communication Engineering
Năm: 2015
[13] Sanju Singh Saini, Omkar Parkhe and T.D.Khadtare (2016), “Analysis of Feedfor- ward and Recurrent Neural Network in Forecasting Foreign Exchange Rate”, Imperial Journal of Interdisciplinary Research, Vol. 2, Issue 6, pp. 822-826 Sách, tạp chí
Tiêu đề: Analysis of Feedfor-ward and Recurrent Neural Network in Forecasting Foreign Exchange Rate
Tác giả: Sanju Singh Saini, Omkar Parkhe and T.D.Khadtare
Năm: 2016
[14] Shyi-Ming Chen and Yu-Chuan Chang (2010), “Multi-variable fuzzy forecasting based on fuzzy clustering and fuzzy rule interpolation techniques”, Information Sciences 180, Elsevier, pp. 4772–4783 Sách, tạp chí
Tiêu đề: Multi-variable fuzzy forecasting based on fuzzy clustering and fuzzy rule interpolation techniques
Tác giả: Shyi-Ming Chen, Yu-Chuan Chang
Nhà XB: Information Sciences
Năm: 2010
[15] Shyi-Ming Chen, Huai-Ping Chu and Tian-Wei Sheu (2011), “TAIEX Forecasting Using Fuzzy Time Series and Automatically Generated Weights of Multiple Fac- tors”, IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, Vol. 42, No. 6, pp. 1485-1495 Sách, tạp chí
Tiêu đề: TAIEX ForecastingUsing Fuzzy Time Series and Automatically Generated Weights of Multiple Fac-tors
Tác giả: Shyi-Ming Chen, Huai-Ping Chu and Tian-Wei Sheu
Năm: 2011
[16] Shyi-Ming Chen and Pei-Yuan Kao (2013), “Forecasting the TAIEX Based on Fuzzy Time Series, PSO Techniques and Support Vector Machines”, Intelligent Information and Database Systems, Volume 7802 of Lecture Notes in Computer Science, pp. 89-98 Sách, tạp chí
Tiêu đề: Forecasting the TAIEX Based on FuzzyTime Series, PSO Techniques and Support Vector Machines
Tác giả: Shyi-Ming Chen and Pei-Yuan Kao
Năm: 2013
[18] Victor Devadoss and Antony Alphonnse Ligori (2013), “Stock Prediction Using Ar- tificial Neural Networks”, International Journal of Data Mining Techniques and Ap- plications, Vol. 02, pp. 283-291 Sách, tạp chí
Tiêu đề: Stock Prediction Using Artificial Neural Networks
Tác giả: Victor Devadoss, Antony Alphonnse Ligori
Nhà XB: International Journal of Data Mining Techniques and Applications
Năm: 2013
[17] T.T. Soong (2004), Fundamentals of Probability and Statistics for Engineers, John Wiley &amp; Sons, England Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w