Mạng nơ ron tích hợp với các kỹ thuật ra quyết định thông minh cho lớp các bài toán dự báo và ứng dụng Mạng nơ ron tích hợp với các kỹ thuật ra quyết định thông minh cho lớp các bài toán dự báo và ứng dụng luận văn tốt nghiệp thạc sĩ
Trang 1LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN
Hà Nội – 2016
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Trang 3Lời cam đoan
Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bàytheo những kiến thức tổng hợp của cá nhân Kết quả nghiên cứu trong luận văn này chưatừng được công bố tại bất kỳ công trình nào khác Trong quá trình làm luận văn, tôi cótham khảo các tài liệu có liên quan và đã ghi rõ nguồn tài liệu tham khảo Tôi xin camđoan đây là công trình nghiên cứu của tôi và không sao chép của bất kỳ ai
Tôi xin chịu hoàn toàn trách nhiệm, nếu sai, tôi xin chịu mọi hình thức kỷ luật theoquy định
Hà Nội, ngày 15 tháng 10 năm 2016
Học viênĐào Đức Chính
Trang 4và tạo điều kiện thuận lợi cho tôi nghiên cứu và hoàn thành luận văn một cách tốt nhất.Tôi cũng gửi lời cảm ơn đến các anh chị em và các bạn trong Trung tâm Tính toánHiệu năng cao, trường Đại Học Khoa Học Tự Nhiên, Đại Học Quốc Gia Hà Nội đã giúp
đỡ tôi trong quá trình nghiên cứu và tìm hiểu các kết quả nghiên cứu liên quan
Tôi cũng xin gửi lời cảm ơn đến các anh chị và các bạn cùng nhóm nghiên cứu trí tuệnhân tạo và khai phá dữ liệu tại trường Đại Học Bách Khoa Hà Nội đã có nhiều ý kiếnđóng góp quý báu giúp tôi hoàn thiện luận văn
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình và bạn bè, những người luôn bên tôi,động viên và giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận văn của mình
Học viênĐào Đức Chính
Trang 5Mục lục
I Tổng quan về bài toán dự báo tài chính và một số kiến thức cơ sở 1
1.1 Giới thiệu về chuỗi thời gian 1
1.2 Cơ bản về mạng nơ ron và phương pháp học 2
1.2.1 Giới thiệu về mạng nơ ron sinh học 3
1.2.2 Mô hình hóa nơ ron nhân tạo 4
1.2.3 Một số cấu trúc mạng nơ ron nhân tạo 7
1.2.4 Thiết lập trọng số và phương pháp học trong mạng nơ ron nhân tạo 9 1.2.5 Một số kỹ thuật học có giám sát trong mạng nơ ron nhân tạo 11
1.3 Một số kiến thức cơ bản về biến ngẫu nhiên và phân phối xác suất 20
1.3.1 Lý thuyết tập hợp và phần tử 20
1.3.2 Không gian mẫu và độ đo xác suất 22
1.3.3 Biến ngẫu nhiên và phân phối xác suất 24
1.3.4 Một số đại lượng đặc trưng của biến ngẫu nhiên 27
1.3.5 Giới thiệu về phân phối chuẩn 29
1.4 Lý thuyết về tập mờ 30
1.4.1 Giới thiệu về tập mờ 30
1.4.2 Luật mờ và ứng dụng trong suy diễn 33
1.5 Bài toán dự báo tài chính 35
1.5.1 Thị trường tài chính và một số dữ liệu tài chính 36
1.5.2 Mô hình toán học dữ liệu tài chính 38
1.5.3 Bài toán dự báo tài chính 39
1.5.4 Một số nghiên cứu về dự báo tài chính 39
Trang 61.5.5 Bài toán dự báo xu hướng dữ liệu tài chính 41
1.6 Tổng kết chương 42
II Thu thập và tiền xử lý dữ liệu tài chính 43 2.1 Thu thập dữ liệu tài chính 43
2.1.1 Đồ thị dữ liệu tài chính 43
2.1.2 Bảng dữ liệu tài chính 45
2.2 Một số đặc trưng dữ liệu tài chính 45
2.2.1 Mẫu đồ thị 46
2.2.2 Mẫu đồ thị tam giác cân 46
2.2.3 Mẫu đồ thị tam giác diễn tiến tăng 47
2.3 Phân tích sóng dữ liệu tài chính 48
2.3.1 Đỉnh và đáy trong chuỗi thời gian dữ liệu tài chính 48
2.3.2 Bước sóng trong chuỗi thời gian dữ liệu tài chính 48
2.4 Vấn đề chuẩn hóa dữ liệu về miền giá trị thực 51
2.5 Tổng kết chương 54
III Mô hình mạng nơ ron tích hợp với các kỹ thuật ra quyết định thông minh cho lớp bài toán dự báo 55 3.1 Mô hình bài toán dự báo tài chính 55
3.1.1 Giả thiết mô hình xác suất đề xuất 55
3.1.2 Bài toán dự báo xu hướng dữ liệu tài chính ngắn hạn 56
3.1.3 Sơ đồ phương pháp dự báo xu hướng tài chính 57
3.2 Cấu trúc mạng nơ ron và quá trình học 60
3.2.1 Xây dựng bộ dữ liệu học 61
3.2.2 Cấu trúc mạng nơ ron 61
3.2.3 Thuật toán học lan truyền ngược sai số 62
3.2.4 Áp dụng mạng nơ ron đã huấn luyện đưa ra kết quả dự báo 62
3.2.5 Chuyển kết quả đầu ra về miền xác suất 64
3.3 Mô hình hệ logic mờ trợ giúp ra quyết định 67
3.3.1 Tích hợp kết quả dự báo từ dữ liệu với các khung thời gian khác nhau 67 3.3.2 Xây dựng hệ logic mờ và tập luật 67
3.4 Tổng kết chương 70
IV Cài đặt và kết quả thử nghiệm 71 4.1 Môi trường cài đặt và dữ liệu 71
4.2 Phương pháp đo độ chính xác 71
4.3 Kết quả thử nghiệm 72
4.4 So sánh với một số nghiên cứu liên quan 75
Trang 7V Kết luận 775.1 Kết quả đạt được 775.2 Định hướng phát triển 78
Trang 8Danh sách hình vẽ
1.1 Chuỗi thời gian doanh số bán rượu vang đỏ Úc trong khoảng thời gian năm
1980 đến 1991 2
1.2 Cấu tạo một nơ ron sinh học 3
1.3 Mô hình một nơ ron nhân tạo 4
1.4 Hàm đồng nhất 5
1.5 Hàm bước nhảy với tham số θ 6
1.6 Hàm sigmoid với tham số σ 6
1.7 Hàm bipolar sigmoid với tham số σ = 1 7
1.8 Mạng nơ ron một lớp 8
1.9 Mạng nơ ron nhiều lớp với một lớp ẩn 9
1.10 Một lớp cạnh tranh trong mạng nơ ron MAXNET 10
1.11 Ví dụ bài toán nhận dạng ký tự sử dụng phương pháp học có giám sát trong mạng nơ ron nhân tạo 11
1.12 Ví dụ về bộ dữ liệu học sử dụng trong bài toán nhận dạng ký tự 12
1.13 Không gian dữ liệu véc tơ đầu vào và phân lớp A 13
1.14 Mạng simple perceptron giải quyết bài toán nhận dạng ký tự thuộc lớp A 13 1.15 Véc tơ điều chỉnh trọng số trong quá trình học 14
1.16 Mô hình mạng nơ ron nhân tạo truyền thẳng nhiều lớp 16
1.17 Lan truyền ngược sai số trong mạng nơ ron nhiều lớp 18
1.18 Trường hợp lý tưởng sai số trong mạng tiến dần về giá trị cực tiểu 18
1.19 Cực tiểu địa phương (local minimum) và cực tiểu toàn cục (global minimum) 19 1.20 Ví dụ hàm mật độ xác suất(a) và hàm phân phối xác suất(b) 27
1.21 Đồ thị hàm mật độ xác suất (a) và hàm phân phối xác suất (b) của phân phối chuẩn m = 1 và σ = 0 31
1.22 Ví dụ về tập thô và tập mờ đối với “short men”, “average men” và “tall men” 33 1.23 Mô hình suy diễn dựa trên luật mờ 34
1.24 Phép giải mờ trọng tâm 36
1.25 Đồ thị giá cổ phiếu Apple trong khoảng thời gian từ 17/8/2016 đến 30/8/2016 37 1.26 Đồ thị giá EUR/USD trong khoảng thời gian từ 6h GMT đến 23h GMT ngày 30/8/2016 37
Trang 91.27 Biểu diễn đồng thời 4 giá trị open, high, low, close tại một thời điểm quan
sát 38
2.1 Đồ thị dữ liệu tỷ giá EUR/USD với khung thời gian T0 = 5 phút từ 22h GMT ngày 2/9/2016 đến 4h GMT ngày 3/9/2016 44
2.2 Đồ thị dữ liệu tỷ giá EUR/USD với khung thời gian T0 = 1 ngày từ ngày 30/5/2016 đến ngày 2/9/2016 44
2.3 Symmetrical Triangle pattern với xu hướng tăng (a) và xu hướng giảm (b) 47 2.4 Ascending Triangle pattern với đường nằm ngang qua các đỉnh và đường hướng lên qua các đáy 47
2.5 Đỉnh và đáy chuỗi thời gian dữ liệu tỷ giá ngoại tệ EUR/USD, T0 = 5 phút từ 10h GMT đến 6h GMT ngày 18/4/2016 51
2.6 Bước sóng trong chuỗi thời gian dữ liệu tỷ giá ngoại tệ EUR/USD, T0 = 5 phút từ 15h GMT đến 18:30 GMT ngày 18/4/2016 52
2.7 Tính chất phân bố giá trị biến ngẫu nhiên có phân phối chuẩn 53
3.1 Bài toán dự báo xu hướng tài chính đề xuất: dựa trên 3 đáy và 3 đỉnh dự báo xu hướng trong 2 bước sóng kế tiếp 57
3.2 Sơ đồ mô hình dự báo xu hướng dữ liệu tài chính 58
3.3 Đoạn dữ liệu 3 đáy và 3 đỉnh của dữ liệu tỷ giá EUR/USD, khung thời gian T0 = 5 phút, trong khoảng thời gian từ 11h GMT đến 14h GMT ngày 22/4/2016 58
3.4 Cấu trúc mạng nơ ron đề xuất 62
3.5 Hệ trợ giúp quyết định từ thông tin dự báo tài chính 68
3.6 Các tập mờ cho xu hướng TĂNG 69
3.7 Các tập mờ cho xu hướng GIẢM 69
4.1 Kết quả trích đoạn dữ liệu đỉnh và đáy đối với dữ liệu EUR/USD 73
4.2 Kết quả dự báo xu hướng dữ liệu EUR/USD được thể hiện trên đồ thị 73
4.3 Kết quả trích đoạn dữ liệu đỉnh và đáy đối với dữ liệu TAIEX 74
4.4 Kết quả dự báo xu hướng dữ liệu TAIEX thể hiện trên đồ thị 74
Trang 10Danh sách bảng
1.1 Bảng tương quan giữa lý thuyết tập hợp và lý thuyết xác suất 231.2 Một số nghiên cứu về dự báo tài chính trong những năm gần đây 402.1 Bảng dữ liệu tỷ giá ngoại tệ EUR/USD, T0 = 5 phút, trong khoảng thờigian 4:25 GMT đến 5:05 GMT ngày 14/4/2016 452.2 Bảng dữ liệu giá dầu thô theo đơn vị USD, T0 = 1 giờ, trong khoảng thờigian 1:00 GMT đến 9:00 GMT ngày 1/4/2016 463.1 Các ký hiệu, định nghĩa và công thức tính trong mạng nơ ron 643.2 Bảng giá trị hàm error function erf (x) 664.1 Kết quả thử nghiệm đối với bài toán dự báo xu hướng dữ liệu tài chính 72
Trang 11Mở đầu
Lý do chọn đề tài
Trí tuệ nhân tạo cùng với các kỹ thuật học máy thông minh đã giải quyết nhiều vấn
đề trong thế giới thực Trí tuệ nhân tạo đã phát triển thành một lĩnh vực khoa học cónhiều ứng dụng rộng rãi trong kỹ thuật, y học và kinh tế Trong quá khứ, trí tuệ nhântạo chủ yếu được sử dụng cho các hệ thống tự động hóa và giải quyết các vấn đề phứctạp Ngày nay trí tuệ nhân tạo có một vai trò đặc biệt quan trọng trong cuộc sống thực
và thậm chí ngày càng quan trọng trong tương lai gần Từ những chiếc điện thoại thôngminh, ô tô thông minh và các ứng dụng thông minh, trí tuệ nhân tạo đã thực sự gắn liềnvới cuộc sống [1]
Mạng nơ ron nhân tạo, thường được gọi ngắn gọn là mạng nơ ron, là một lĩnh vựcnghiên cứu trong trí tuệ nhân tạo đã được phát triển trong nhiều năm và có những đónggóp đáng kể cho nhiều lĩnh vực khác nhau Mạng nơ ron nhân tạo là một phương thức
xử lý thông tin dựa trên sự mô phỏng hoạt động của hệ thống nơ ron sinh học của bộnão Nó gồm có một số lượng lớn các đơn vị thành phần xử lý thông tin, được gọi là nơron, được kết nối với nhau thành một mạng và cùng hoạt động để giải quyết một vấn đề
cụ thể [10]
Một trong những ứng dụng của mạng nơ ron nhân tạo trong kinh tế là dự báo xuhướng của thị trường tài chính, ví dụ như dự báo giá cổ phiếu, các chỉ số kinh tế, tỷ giángoại tệ Vấn đề dự đoán các dữ liệu tài chính này đóng một vai trò quan trọng trong việcđưa ra các quyết định tài chính Luận văn đề xuất một phương pháp dự báo xu hướngtài chính trong ngắn hạn một vài ngày đến một vài tuần dựa trên mạng nơ ron nhân tạokết hợp mô hình xác suất Kết quả dự báo được sử dụng để trợ giúp nhà đầu tư tài chínhdựa trên hệ logic mờ
Tính cấp thiết của đề tài
Trên thực tế, có rất nhiều yếu tố tác động đến thị trường tài chính bao gồm cả nhữngthông tin không chắc chắn khiến việc dự báo tài chính là một thách thức rất khó và phứctạp [18] Hầu hết các kết quả nghiên cứu dự đoán giá cổ phiếu thường chỉ dự đoán giá
Trang 12đóng cửa của một ngày tiếp theo [12] [9] [18] Một số bài báo về dự đoán tỷ giá ngoại
tệ [13] [2] hay bài báo về dự đoán chỉ số tài chính [14] [15] [16] cũng đưa ra dự báo tỷ giángoại tệ hay chỉ số tài chính vào cuối ngày hôm sau Trong khi đó, thực tế thị trường tàichính thường hoạt động 24 giờ vào tất cả các ngày làm việc trong tuần và tỷ giá thườngxuyên thay đổi theo từng phút [19], do đó về mặt khách quan, các thông tin dự đoán nàyvẫn chưa đủ cho nhà đầu tư ra quyết định Cũng đã có một số bài báo dự đoán xu hướngchỉ số kinh tế và tỷ giá ngoại tệ thay vì dự báo giá đóng cửa ngày hôm sau [6], tuy nhiênkết quả bài báo cũng chỉ dự đoán xu hướng này trong một ngày tiếp theo đối với chỉ sốS&P500 hoặc trong một phút tiếp theo với tỷ giá ngoại tệ EUR/USD [6] Do đó, vấn đềcần thiết đặt ra đó là dự báo xu hướng tài chính trong tương lai gần khoảng một vài ngàyhoặc một vài tuần Tác giả luận văn đề xuất mô hình xác suất để giải quyết vấn đề này
Tóm tắt các nội dung chính trong luận văn
Bố cục luận văn được trình bày thành 5 chương
Chương 1 trình bày về các kiến thức cơ bản về chuỗi thời gian, mạng nơ ron và một
số phương pháp huấn luyện trong mạng, cơ bản về hệ logic mờ và tập luật Cuối chương
1 trình bày về bài toán dự báo giá chứng khoán và tỷ giá ngoại tệ và kết quả nghiên cứucủa một số tác giả trên thế giới Từ đó tác giả luận văn đề xuất bài toán dự báo xu hướnggiá trong tài chính và xây dựng mô hình toán học cho bài toán dự báo xu hướng giá trongtài chính
Chương 2 trình bày về quá trình thu thập dữ liệu và tiền xử lý dữ liệu Dữ liệu tàichính thường được thu thập theo các khoảng thời gian cách đều nhau, được gọi là khungthời gian Chương này trình bày chi tiết về mô hình toán học cho dữ liệu và một đặc
Trang 13trưng quan trọng của dữ liệu tài chính, đó là chart patterns Cuối chương này trình bàymột phương pháp chuẩn hóa dữ liệu dựa trên tính chất thống kê của phân phối chuẩn.Chương 3 trình bày chi tiết mô hình dự báo xu hướng giá trong tài chính dựa trêngiả thiết mô hình phân phối xác suất chuẩn kết hợp huấn luyện trong mạng nơ ron nhântạo Cấu trúc mạng nơ ron nhân tạo và thuật toán học được trình bày trong chương này.Kết quả dự báo xu hướng đầu ra được sử dụng tiếp trong hệ logic mờ trợ giúp quyết địnhđầu tư tài chính Về cơ bản, mạng nơ ron để học mô hình dữ liệu đưa ra thông tin dựbáo, hệ logic mờ để xử lý tích hợp nhiều thông tin dự báo tại cùng một thời điểm và đưa
ra tư vấn đầu tư tài chính
Chương 4 trình bày cài đặt thử nghiệm và kết quả Chương trình ứng dụng được càiđặt trên nền tảng Cloud PaaS của OpenShift Dữ liệu thử nghiệm được chọn là tỷ giángoại tệ EUR/USD và chỉ số chứng khoán TAIEX
Chương 5 trình bày kết luận và một số hướng phát triển
Trang 14mờ Từ đó, bài toán dự báo dữ liệu tài chính được mô tả dựa trên một mô hình xác suất
và mô hình ra quyết định dựa trên tập mờ được trình bày ở cuối chương, đồng thời cũngđưa ra một số nghiên cứu của các tác giả khác liên quan đến dự báo chứng khoán và dựbáo tỷ giá ngoại tệ
Phần này giới thiệu về chuỗi thời gian, định nghĩa chuỗi thời gian và một số ví dụminh họa Các định nghĩa và ví dụ được trích dẫn từ [11]
Định nghĩa 1.1.1 Chuỗi thời gian là một tập các giá trị quan sát xt, trong đó mỗi giátrị được ghi nhận tại một thời điểm xác định t
Chuỗi thời gian có thể phân thành 2 loại dựa theo tính chất của thời điểm quan sát tnhư ở dưới đây
Định nghĩa 1.1.2 Chuỗi thời gian rời rạc là chuỗi thời gian trong đó tập các thời điểmquan sát T0 là một tập rời rạc
Một trường hợp điển hình của chuỗi thời gian rời rạc là các giá trị quan sát được lấytại các khoảng thời gian cố định
Định nghĩa 1.1.3 Chuỗi thời gian liên tục là chuỗi thời gian trong đó tập các giá trịquan sát được ghi lại liên tục trong một khoảng thời gian, tập các thời điểm quan sát T0
chứa khoảng thời gian liên tục
Trang 15Hình 1.1: Chuỗi thời gian doanh số bán rượu vang đỏ Úc trong khoảng thời gian năm
1980 đến 1991
Chuỗi thời gian thu được trong thực tế đều là chuỗi thời gian rời rạc, do các giá trịquan sát được ghi nhận tại các thời điểm xác định Một số ví dụ về chuỗi thời gian rờirạc trong thực tế được minh họa trong hình 1.1
Hình 1.1 mô tả chuỗi thời gian doanh số bán hàng hàng tháng (theo đơn vị nghìnkilo lít) rượu vang đỏ Úc trong khoảng thời gian từ tháng 1 năm 1980 đến tháng 10 năm
1991 Khi đó tập các thời điểm quan sát T0 chứa 142 thời điểm (Tháng 1, 1980), (Tháng
2, 1980), , (Tháng 10, 1991) Với một tập n giá trị quan sát lấy tại thời điểm cách đềunhau, một cách tự nhiên và thuận tiện đó là chuyển đổi tập thời điểm quan sát T0 về cácgiá trị số tự nhiên 1, 2, , n Trong ví dụ hiện tại có thể xem thời điểm quan sát đầutiên (Tháng 1, 1980) tương ứng với giá trị 1 Khi đó tập các thời điểm quan sát T0 trởthành 1, 2, , 142 Có thể nhận thấy từ đồ thị doanh số bán hàng có xu hướng tăng và
có một chu kỳ theo mùa cao nhất vào khoảng tháng 7 và thấp nhất vào khoảng tháng 1
Phần này sẽ giới thiệu về mạng nơ ron nhân tạo, cấu trúc một số mạng nơ ron nhântạo điển hình và phương pháp học trong mạng nơ ron Hầu hết các định nghĩa và ví dụđược trích dẫn từ tài liệu tham khảo [5]
Trang 16Hình 1.2: Cấu tạo một nơ ron sinh học
Mô hình mạng nơ ron nhân tạo được nghiên cứu xuất phát từ hệ thống nơ ron sinhhọc của con người Về cơ bản, bộ não con người có thể học, còn máy tính có bộ xử lý và
bộ nhớ Máy tính thực hiện theo chương trình được cài đặt sẵn trong bộ nhớ, và do đó môhình xử lý thông tin trong máy tính thông thường không có khả năng học Các nhà khoahọc đã nghiên cứu cấu trúc của mạng nơ ron sinh học và cách thức xử lý thông tin trongquá trình học, từ đó để có thể xây dựng mô hình mạng nơ ron nhân tạo Một nơ ron sinhhọc có 3 thành phần chính: các dây thần kinh vào (dendrites), nhân nơ ron (soma) và sợitrục dây thần kinh ra (axon) [5]
(a) Các dây thần kinh vào nhận tín hiệu từ các nơ ron khác, được gọi là dendrites Cáctín hiệu này là các xung điện được vận chuyển qua một khớp thần kinh (synapticgap) bởi một quá trình hóa học Các hoạt động trong quá trình vận chuyển hóa họcnày đã biến đổi tín hiệu vào, ví dụ như biến đổi tần số của tín hiệu nhận được.(b) Nhân nơ ron, được gọi là soma Khi nhân nơ ron đã nhận được tất cả các tín hiệuđầu vào, nó thực hiện tích hợp các tín hiệu đầu vào và chuyển thành một tín hiệutruyền tới axon, sợi trục dây thần kinh ra
(c) Đầu dây thần kinh ra, được gọi là sợi trục axon Đầu dây thần kinh ra được phânnhánh nối với các dây thần kinh vào của các nơ ron khác thông qua khớp thần kinhsynaptic gap
Một nơ ron sinh học thông thường được mô tả trong hình 1.2 trong đó nhân nơ ronSoma nhận tín hiệu vào Dendrite từ hai nơ ron khác, và đầu dây thần kinh ra Axontruyền tín hiệu đến 2 nơ ron khác
Chức năng cơ bản của các tế bào nơ ron là liên kết với nhau để tạo nên hệ thống thầnkinh điều khiển hoạt động của cơ thể sống Các nhà khoa học ước tính ngay từ khi sinh
ra, bộ não con người đã có khoảng 100 tỷ nơ ron [5]
Trang 17Hình 1.3: Mô hình một nơ ron nhân tạo
Mạng nơ ron nhân tạo được nghiên cứu dựa trên đặc trưng của cấu trúc mạng nơ ronsinh học với các đặc điểm sau
(1) Mỗi phần tử nơ ron nhân tạo nhận được nhiều tín hiệu
(2) Các tín hiệu nhận được có thể bị biến đổi bởi một trọng số weight tại khớp nốisynapse
(3) Các nơ ron thực hiện tính tổng các tín hiệu nhận được sau khi bị biến đổi qua trọngsố
(4) Tùy từng trường hợp thích hợp của tín hiệu đầu vào nhận được, nơ ron sẽ truyềntín hiệu tới một đầu ra
(5) Đầu ra của một nơ ron có thể truyền đi tới nhiều nơ ron khác
(6) Trọng số tại các khớp nối có thể được biến đổi dựa trên kinh nghiệm trong quá trìnhhọc
Từ đó, mô hình một nơ ron nhân tạo được mô tả trong hình 1.3
Trong mô hình này, một nơ ron thứ i sẽ nhận các tín hiệu vào từ n nơ ron khác x1,
x2, , xn với các trọng số tương ứng là wi1, wi2, , win Tại nơ ron i sẽ thực hiện tínhtổng các tín hiệu nhận được sau khi nhân với trọng số Pn
j=1wijxj Sau đó, giá trị tổngnày được biến đổi qua hàm thường có tính chất phi tuyến g(P
jwijxj), tương ứng với quátrình xử lý thực hiện trong nhân nơ ron soma
Tuy nhiên, do tính chất (4) được mô tả ở trên, tùy từng trường hợp thích hợp của tínhiệu đầu vào nhận được, nơ ron sẽ truyền tín hiệu tới đầu ra Điều này dẫn tới cần mộtngưỡng ϑ sau quá trình tính tổng, ngưỡng này có thể có giá trị khác nhau với các nơ ron
Trang 18Hình 1.4: Hàm đồng nhấtkhác nhau Do đó giá trị đầu ra của nơ ron có công thức tổng quát sau.
Ta ký hiệu h =Pn
j=1wijxj− ϑi, giá trị h được gọi là tổng các tín hiệu vào Khi đó giátrị đầu ra của nơ ron là xi = g(h), hàm g được gọi là activation function hay hàm kíchhoạt
Một số hàm kích hoạt hay được sử dụng
(a) Hàm đồng nhất:
g(x) = x với mọi giá trị x (1.2)
Đồ thị minh họa hàm đồng nhất thể hiện trong hình 1.4
(b) Hàm bước nhảy (với tham số ngưỡng θ):
Đồ thị minh họa hàm bước nhảy thể hiện trong hình 1.5
(c) Hàm sigmoid, còn gọi là binary sigmoid:
g(x) = 1
1 + e−σx (1.4)
Trang 19Hình 1.5: Hàm bước nhảy với tham số θ
Hình 1.6: Hàm sigmoid với tham số σKhi đó, giá trị đạo hàm của hàm g bằng:
g0(x) = σ
2[1 + g(x)] [1 − g(x)] (1.7)
Đồ thị minh họa hàm bipolar sigmoid với tham số σ = 1 được thể hiện trong hình1.7
Trang 20Hình 1.7: Hàm bipolar sigmoid với tham số σ = 1
Định nghĩa mạng nơ ron nhân tạo được thể hiện dưới đây
Định nghĩa 1.2.1 Một mạng nơ ron nhân tạo là một hệ thống xử lý thông tin có đặctrưng về hiệu năng nhất định với mạng nơ ron sinh học Mạng nơ ron nhân tạo được pháttriển dựa trên tổng quát hóa các mô hình toán học quá trình nhận thức và sinh học não
bộ Mạng nơ ron nhân tạo bao gồm nhiều nơ ron nhân tạo có kết nối với nhau theo mộtcấu trúc mạng và cơ chế hoạt động nhất định
Thông thường, một cách thuận tiện các nơ ron trong mạng nơ ron nhân tạo được sắpxếp theo lớp Các nơ ron trong cùng một lớp có hành vi giống nhau Yếu tố chính xácđịnh hành vi của nơ ron đó là hàm kích hoạt và các trọng số gắn trên các tín hiệu vào
và tín hiệu ra Các nơ ron trong cùng một lớp thường có chung hàm kích hoạt và cáchthiết kế kết nối đến các nơ ron thuộc lớp khác Cụ thể hơn, trong nhiều cấu trúc mạng
nơ ron, các nơ ron trong cùng một lớp hoặc là có kết nối với tất cả các nơ ron khác hoặc
là không có bất kỳ kết nối nào Nếu có một nơ ron trong lớp nào đó, gọi là lớp A, có kếtnối tới một nơ ron trong một lớp khác, gọi là lớp B, thì tất cả nơ ron trong lớp A sẽ cókết nối tới tất cả các nơ ron trong lớp B Việc sắp xếp các nơ ron vào các lớp và kết nốigiữa các lớp trong mạng nơ ron được gọi là cấu trúc mạng [5]
Mạng nơ ron thường được phân loại theo mạng một lớp và mạng nhiều lớp Trongviệc xác định số lượng lớp trong mạng, lớp đầu vào thường không được tính là một lớp
và thường được gọi là khối đầu vào vì chúng không thực sự thực hiện bất kỳ tính toánnào [5]
Mạng nơ ron một lớp
Mạng nơ ron một lớp là mạng nơ ron có một lớp kết nối, hay một lớp trọng số Thôngthường, mạng nơ ron một lớp bao gồm khối đầu vào nhận tín hiệu từ thế giới bên ngoài
Trang 21Mạng nơ ron nhiều lớp là mạng nơ ron có một hoặc nhiều lớp nằm giữa khối đầu vào
và lớp đầu ra, những lớp này được gọi là lớp ẩn Thông thường lớp trọng số trong mạngnằm giữa hai lớp liên tiếp Một ví dụ về mạng nơ ron 2 lớp gồm một lớp ẩn được thể hiệntrong hình 1.9 Trong mạng khi đó có 2 lớp trọng số, lớp trọng số thứ nhất nằm giữa khốiđầu vào và lớp ẩn, và lớp trọng số thứ hai nằm giữa lớp ẩn và lớp đầu ra
Các mạng nơ ron được minh họa trong hình 1.8 và 1.9 là những ví dụ về mạng nơ rontruyền thẳng (feedforward network), trong đó tín hiệu được truyền từ khối đầu vào đếnlớp đầu ra theo một hướng xác định
Mạng nơ ron có lớp cạnh tranh (competitive layer)
Lớp cạnh tranh (competitive layer) trong mạng nơ ron được hình thành từ một sốlượng lớn nơ ron, trong đó tín hiệu từ các nơ ron có thể được truyền đến lẫn nhau hoặctruyền đến chính nó Quá trình hoạt động của các nơ ron trong lớp cạnh tranh theo quytắc phần tử thắng quyết định tất cả, Winner-Take-All [5], chương 4 Một ví dụ về lớpcạnh tranh trong mạng nơ ron MAXNET [5] được thể hiện trong hình 1.10, trong đó
Trang 22Hình 1.9: Mạng nơ ron nhiều lớp với một lớp ẩntrọng số kết nối giữa các nơ ron trong mạng đều bằng −.
nhân tạo
Cùng với đặc điểm về cấu trúc mạng, cách thức thiết lập trọng số là đặc điểm quantrọng thứ hai trong mạng nơ ron nhân tạo Nhìn chung, có hai phương pháp học trongmạng nơ ron nhân tạo, đó là học có giám sát (supervised learning) và học không có giámsát (unsupervised learning) Thêm vào đó, có những mạng nơ ron trong đó trọng số của
nó được thiết lập cố định trong suốt quá trình học [5] Những bài toán mà mạng nơ ronnhân tạo có thể học có thể được phân loại vào các lĩnh vực sau: bài toán ánh xạ, bàitoán phân cụm và bài toán tối ưu có ràng buộc Các bài toán về phân lớp mẫu (patternclassification) có thể được xem như một dạng của bài toán ánh xạ véc tơ đầu vào ánh xạđến véc tơ đầu ra
Học có giám sát (supervised learning)
Học có giám sát là phương pháp học trong đó tập dữ liệu học bao gồm véc tơ đầu vàocùng với kết quả đầu ra đúng tương ứng Vì vậy, với mỗi bộ dữ liệu học đưa vào và giá
Trang 23Hình 1.10: Một lớp cạnh tranh trong mạng nơ ron MAXNET
trị đầu ra trong mạng, có thể được so sánh trực tiếp với giá trị đầu ra đúng Từ đó, cáctrọng số trong mạng có thể được điều chỉnh để thay đổi sự sai khác giữa giá trị đầu ratrong mạng và đầu ra đúng Một ví dụ đơn giản cho mạng nơ ron học có giám sát là bàitoán phân lớp mẫu Mỗi véc tơ đầu vào, yêu cầu xác định thuộc hay không thuộc một lớpcho trước Mạng nơ ron có thể được thiết kế đầu ra nhận hai giá trị đối lập, ví dụ đầu ranhận giá trị 1 nếu thuộc lớp cho trước và nhận giá trị -1 nếu không thuộc lớp đó
Tổng quát, một mạng nơ ron nhiều lớp có thể được học có giám sát để giải quyết bàitoán ánh xạ phi tuyến từ một không gian véc tơ n chiều đầu vào tới một không gian véc
tơ m chiều đầu ra
Trong phạm vi luận văn, phương pháp học được sử dụng là học có giám sát vì vậyphần 1.2.5 sẽ trình bày chi tiết hơn các kỹ thuật học có giám sát trong mạng nơ ron nhântạo
Học không có giám sát (unsupervised learning)
Mạng nơ ron tự tổ chức thực hiện việc sắp xếp các véc tơ đầu vào vào các nhóm khácnhau mà không sử dụng dữ liệu học đã được phân nhóm Khi đó, dữ liệu học chỉ bao gồmcác véc tơ đầu vào mà không có giá trị véc tơ đầu ra Các trọng số trong mạng nơ ron
sẽ được điều chỉnh sao cho những véc tơ đầu vào giống nhau nhất sẽ được gán cho cùngmột giá trị đầu ra
Mạng nơ ron với trọng số cố định
Trong một số trường hợp, mạng nơ ron được thiết kế để giải quyết bài toán tối ưu córàng buộc Mạng nơ ron này có thể giải quyết những bài toán trong đó có các kỹ thuật
Trang 24Hình 1.11: Ví dụ bài toán nhận dạng ký tự sử dụng phương pháp học có giám sát trongmạng nơ ron nhân tạo
phức tạp, ví dụ như các ràng buộc vi phạm lẫn nhau (các ràng buộc có thể không cùngđược thỏa mãn đồng thời) Trong trường hợp này, giải pháp tối ưu lân cận thường được
áp dụng Trong quá trình thiết kế mạng nơ ron, các trọng số được thiết lập để biểu diễncác ràng buộc Một ví dụ giải quyết bài toán tối ưu có ràng buộc trong trường hợp này
Xét bài toán nhận dạng ký tự chữ cái viết tay Giả thiết rằng các chữ cái viết tayđược đọc dưới dạng ảnh nhị phân, bài toán đặt ra là nhận dạng các chữ cái đó vào cáclớp ký tự tương ứng Ví dụ chữ cái a, A đều được xếp vào lớp ký tự A Mô hình bài toánnhận dạng chữ cái sử dụng mạng nơ ron được thể hiện trong hình 1.11
Mạng nơ ron nghiên cứu là mạng nơ ron truyền thẳng một lớp hoặc nhiều lớp Ngoàiđặc trưng về cấu trúc mạng, các trọng số trong mạng cũng đóng vai trò tham số trong
Trang 25Hình 1.12: Ví dụ về bộ dữ liệu học sử dụng trong bài toán nhận dạng ký tự
quá trình học Mục tiêu là tối ưu hóa các tham số này sao cho sai số trong mạng đạt nhỏnhất có thể
Giả thiết bộ dữ liệu học χ gồm có P bộ dữ liệu đầu vào xin(µ), đầu ra tout(µ) đượcđánh chỉ số theo µ trong công thức sau:
χ = xin(µ), tout(µ) ; 1 ≤ µ ≤ P (1.8)Giá trị đầu ra tout(µ) cũng thường được gọi là giá trị đích, viết tắt là tout Ví dụ về bộ
dữ liệu χ được thể hiện trong hình 1.12
Biểu diễn hình học dữ liệu
Về mặt tổng quát, dữ liệu đầu vào xin(µ) có thể được coi là một véc tơ n chiều xin ∈ Rn
với các thành phần xin
k ∈ R, 1 ≤ k ≤ n Giả thiết ảnh đầu vào đều được đưa về kíchthước 16 × 16 Khi đó số chiều véc tơ đầu vào n = 256 Để cho dễ hình dung, giả thiếtkhông gian dữ liệu véc tơ n chiều có dạng như hình 1.13, trong đó mỗi véc tơ dữ liệu đầuvào tương ứng với một điểm trong không gian Với véc tơ đầu vào ứng với giá trị đầu ra
tout(µ) = 1, các điểm tương ứng trong không gian được ký hiệu × Ngược lại véc tơ vớigiá trị đầu ra tout(µ) = 0 được ký hiệu o Trong không gian véc tơ n chiều, bài toán đặt
ra là xác định một mặt phẳng phân chia các điểm thuộc lớp A và các điểm không thuộclớp A
Về mặt toán học, bài toán có thể được đưa về tìm một hàm số dA(xin) với đối số làvéc tơ n chiều xin sao cho dA(xin) > 0 với mọi điểm xin thuộc lớp A và dA(xin) < 0 vớimọi điểm xin không thuộc lớp A Tập các điểm trên mặt phẳng phân chia chính là cácgiá trị sao cho dA(xin) = 0
Phương pháp học trong mạng simple perceptron
Để đơn giản, ta xét mạng nơ ron simple perceptron giải quyết bài toán nhận dạng ký
tự thuộc lớp A Mạng simple perceptron là mạng nơ ron một lớp trong đó lớp đầu ra chỉ
có duy nhất một nơ ron Khối đầu vào có thể được coi gồm có n nơ ron nhận dữ liệu đầuvào là véc tơ n chiều Do nơ ron đầu ra nhận hai giá trị rời rạc nên hàm truyền đạt của
Trang 26Hình 1.13: Không gian dữ liệu véc tơ đầu vào và phân lớp A
Hình 1.14: Mạng simple perceptron giải quyết bài toán nhận dạng ký tự thuộc lớp A
nơ ron đầu ra được lấy là hàm bước nhảy Mô hình mạng simple perceptron giải quyếtbài toán nhận dạng ký tự thuộc lớp A được thể hiện trong hình 1.14
Xét dữ liệu đầu vào là véc tơ n chiều xin(µ), khi đó các nơ ron trong khối đầu vàonhận các giá trị xin
k với 1 ≤ k ≤ n Giá trị nơ ron đầu ra là:
Trang 27Hình 1.15: Véc tơ điều chỉnh trọng số trong quá trình học
Quá trình điều chỉnh trọng số chính là quá trình học trong mạng Luật học có dạngtrong công thức (1.10)
∆w = ηtout(µ) − xout(µ) xin(µ) (1.10)trong đó η > 0 là một tham số dương có giá trị nhỏ, được gọi là hằng số học Ký hiệuδ(µ) = tout(µ) − xout(µ), khi đó luật học trở thành:
∆w = ηδ(µ)xin(µ) (1.11)
Có thể thấy trong công thức (1.11), nếu giá trị đầu ra trong mạng xout(µ) là đúng,σ(µ) sẽ bằng 0 và do đó trọng số trong mạng không đổi Vì vậy công thức (1.11) có thểđược sử dụng với mọi dữ liệu đầu vào Xét một véc tơ dữ liệu đầu vào xin(µ) với giá trịđích tout(µ) = 1 và giá trị đầu ra trong mạng đưa ra kết quả sai xout(µ) = 0 Trong trườnghợp này σ(µ) có giá trị dương và véc tơ điều chỉnh trọng số ∆w có hướng theo véc tơ dữliệu đầu vào x(µ) Có thể minh họa sự thay đổi này trong hình 1.15
Trong hình 1.15, nếu một điểm bị phân lớp sai chẳng hạn điểm x ở phần bên trái củađường phân cách, véc tơ trọng số w là véc tơ pháp tuyến của đường phân cách và véc tơđiều chỉnh trọng số ∆w có hướng theo hướng của điểm x và đường phân cách sẽ quaytheo hướng mong muốn
Phương pháp học dựa trên Gradient descent
Hàm kích hoạt dạng bước nhảy nhị phân thường chỉ được sử dụng đối với bài toánánh xạ dữ liệu đầu vào thành 2 lớp đầu ra Xét bài toán phân lớp tổng quát với hàm kích
Trang 28hoạt được sử dụng là hàm liên tục Khi đó, để đánh giá sai số đầu ra của mạng nơ ron sửdụng hàm sai số được tính dựa trên tổng các bình phương sai số thành phần trong côngthức (1.12).
E (w) = 1
2X
∆wk= −η dE
dwk
(1.13)Trong đó η là tham số học nhận giá trị dương có giá trị tương đối nhỏ
Giá trị gradient dE/dwk có thể được tính dựa trên quy tắc tổng và tích trong đạohàm Ký hiệu h(µ) =P
Trong công thức (1.14), g0 là giá trị đạo hàm của hàm kích hoạt g(h) tại giá trị
h = h(µ) Đặt công thức (1.14) trong công thức (1.13), ta được công thức luật học trong
đó trọng số chỉ được thay đổi sau khi ta đã thực hiện tính tất cả các mẫu trong dữ liệuhọc và tính các giá trị δ(µ) với mọi 1 ≤ µ ≤ P Trường hợp này, luật học được gọi làtheo chế độ lô, hay "batch mode" Trong thực hành, để quá trình học thực hiện nhanhhơn, người ta hay sử dụng luật học theo chế độ trực tuyến, hay "online mode" Khi đó,các giá trị trọng số được thay đổi ngay lập tức sau khi một bộ dữ liệu mẫu được học
∆w = ηδ(µ)xin(µ) (1.15)Công thức (1.15) cũng có dạng như công thức (1.11) trong phần học trong mạngsimple perceptron với hàm kích hoạt là hàm bước nhảy nhị phân, tuy nhiên thành phầnδ(µ) có giá trị khác, với δ(µ) = [tout(µ) − xout(µ)]g0|h(µ), trong đó có thêm thành phần giátrị đạo hàm g0
Tuy nhiên, luật học trong chế độ online mode, không có gì đảm bảo rằng sai số E sẽgiảm tại từng bước Một sự thay đổi δw có thể tốt đối với mẫu đầu vào hiện tại nhưng
Trang 29Hình 1.16: Mô hình mạng nơ ron nhân tạo truyền thẳng nhiều lớp
có thể không tốt với một vài mẫu khác và do đó khiến sai số E có thể tăng Điều này cóthể cải thiện bằng cách khởi tạo hằng số học nhỏ và số vòng lặp đủ lớn
Giải thuật học lan truyền ngược sai số
Giải thuật học lan truyền ngược sai số, hay còn gọi Backpropagation, là giải thuật họcdựa trên luật học gradient descent áp dụng cho mạng nơ ron nhiều lớp
Xét mạng nơ ron nhân tạo truyền thẳng nhiều lớp dạng tổng quát được mô tả tronghình 1.16 Mạng nơ ron nhận dữ liệu đầu vào là véc tơ n chiều xin và đưa ra kết quả đầu
ra là véc tơ m chiều xout Cụ thể, dữ liệu đầu vào là các giá trị xink với 1 ≤ k ≤ n, đầu ra
là các giá trị xouti với 1 ≤ i ≤ m
Trong mỗi lớp, các nơ ron cùng sử dụng một hàm kích hoạt Ví dụ, các nơ ron tronglớp ẩn thứ nhất có hàm kích hoạt g(1) và các nơ ron trong lớp ẩn thứ hai có hàm kíchhoạt g(2) Từ công thức (1.1), mỗi nơ ron i có một giá trị ngưỡng ϑi riêng, giá trị đầu
ra của nơ ron có thể được biểu diễn như sau
Trang 30Giá trị đầu ra trong mạng nơ ron trong hình 1.16 được tính bằng
Trong công thức (1.18), giá trị nơ ron đầu ra có thể coi là hàm số với đối số w(2)ij và
wjk(1), khi đó sai số trong mạng cũng có thể được coi là một hàm số với đối số là các véc
tơ trọng số w(1), w(2) trong công thức sau
E w(1), w(2) = 1
2X
Trong đó tổng được tính trên i chạy trên tất cả nơ ron lớp đầu ra và (µ) chạy trên tất
cả nơ ron trong lớp đầu vào Công thức gradient descent đối với sự điều chỉnh w có dạng:
∆wij(k)= −η dE
dw(k)ij
(1.20)
trong đó chỉ số k thể hiện chỉ số lớp trong mạng
Ký hiệu tổng giá trị đầu vào nơ ron thứ i trong lớp k là h(k)i = P
Trang 31Hình 1.17: Lan truyền ngược sai số trong mạng nơ ron nhiều lớp
Hình 1.18: Trường hợp lý tưởng sai số trong mạng tiến dần về giá trị cực tiểu
Thành phần δ trong các công thức trên có thể xem là sai số cục bộ Trong công thức(1.24), có thể thấy để tính sai số cục bộ tại lớp k − 1, ta cần tính sai số cục bộ tại lớp k,
và do đó thuật toán lan truyền ngược sai số trong mạng Hình 1.17 mô tả tính chất lantruyền ngược sai số trong mạng
Một số vấn đề trong quá trình học theo phương pháp lan truyền ngược sai sốTrong nhiều ứng dụng áp dụng mạng nơ ron, phương pháp lan truyền ngược sai sốthường được sử dụng cùng với một số kỹ thuật để tăng tốc độ hội tụ trong quá trình họccũng như kết quả đầu ra trong mạng đạt độ tin cậy cao nhất
Vấn đề cực tiểu địa phương
Theo phương pháp học lan truyền ngược sai số trong mạng, kỳ vọng sau mỗi lần điềuchỉnh trọng số, giá trị sai số E của mạng đạt đến giá trị nhỏ nhất, hay còn gọi là globalminimum, giá trị nhỏ nhất trên toàn bộ tập giá trị Hình 1.18 minh họa trường hợp lýtưởng khi sai số trong mạng đạt đến giá trị cực tiểu
Tuy nhiên, trong nhiều ứng dụng thực tế, bề mặt của hàm sai số E có dạng phức tạp,
Trang 32Hình 1.19: Cực tiểu địa phương (local minimum) và cực tiểu toàn cục (global minimum)
một ví dụ như ở trong hình 1.19, trong đó thuật toán học lan truyền ngược sai số có thểdẫn đến giá trị cực tiểu hàm sai số trong một khoảng lân cận mà không phải toàn bộ tậpgiá trị, giá trị cực tiểu đó được gọi là cực tiểu địa phương, hay local minimum Khi đó,theo phương pháp lan truyền ngược sai số đã được mô tả, giá trị hàm sai số sẽ khó cóthể thoát khỏi vùng giá trị cực tiểu địa phương và thuật toán học trong mạng có thể kếtthúc nhưng không đạt được độ chính xác mong muốn
Vấn đề khởi tạo các trọng số
Các giá trị được khởi tạo ban đầu cho các trọng số trong mạng trước quá trình họctheo phương pháp lan truyền ngược sai số có ảnh hưởng không nhỏ đến kết quả cuối cùngcủa mạng nơ ron Thông thường, các giá trị này được khởi tạo ngẫu nhiên trong phạm vigiá trị tương đối nhỏ Trường hợp các trọng số được khởi tạo mà giá trị tổng tín hiệu đầuvào tại nơ ron lớn và hàm kích hoạt được sử dụng là hàm sigmoid thì các hàm này có thểtiệm cận giá trị 1 hoặc 0 ngay từ đầu và dẫn tới hệ thống dừng lại tại một cực tiểu địaphương gần giá trị xuất phát
Hằng số học η
Hằng số học η cũng là một yếu tố quan trọng ảnh hưởng đến hiệu quả và độ hội tụcủa giải thuật lan truyền ngược sai số Nhìn chung, không có hằng số học η phù hợp chotất cả các bài toán khác nhau, hằng số học này thường nhận giá trị trong khoảng 0.01đến 0.1 và được chọn bằng thực nghiệm cho mỗi bài toán ứng dụng cụ thể
Trang 33Hệ số quán tính Momentum
Một hướng tiếp cận để thuật toán học nhanh tiến tới hội tụ và cũng đồng thời cóthể thoát khỏi "bẫy" cực tiểu địa phương đó là đưa thêm một yếu tố quán tính, haymomentum, trong công thức học Ý tưởng phương pháp được đưa ra là, tại mỗi bước điềuchỉnh, véc tơ thay đổi trọng số trong mạng vẫn giữ một chút giống với hướng của véc tơthay đổi trọng số ở bước trước, hay còn gọi là quán tính của véc tơ trọng số
Xét lần điều chỉnh trọng số thứ t với wij(k), trong lần điều chỉnh gần nhất trọng số thayđổi một lượng là ∆w(k)ij (t − 1) Trong lần điều chỉnh thứ t, theo phương pháp gradientdescent, giá trị điều chỉnh hay luật học được tính là ∆w(k)ij = −ηdE/dwij(k) Thêm vào yếu
tố quán tính momentum, công thức luật học được tính như sau:
∆w(k)ij (t) = −ηdE/dwij(k)+ α∆wij(k)(t − 1) (1.25)trong đó hằng số 0 < α < 1
phân phối xác suất
Phần này trình bày một số kiến thức cơ bản về xác suất, biến ngẫu nhiên và phânphối xác suất Cơ sở lý thuyết trong phần này được sử dụng để xây dựng mô hình xácsuất trong bài toán dự báo tài chính Các định nghĩa và ví dụ trong phần này được tríchdẫn từ [17]
A = {s, f } (1.26)
Trang 34là một tập hợp gồm hai phần tử, trong đó s và f thể hiện cho success và fail tươngứng.
Tập hợp chứa các phần tử số thực không âm B có thể được mô tả như sau:
B = {x : x ≥ 0} (1.27)Chúng ta thường sử dụng ký hiệu a ∈ A để mô tả phần tử a thuộc tập hợp A Mộttập hợp không chứa phần tử nào được gọi là tập rỗng và được ký hiệu ∅ Người ta cũngphân loại tập hợp thành tập hợp hữu hạn và tập hợp vô hạn như sau
(a) Tập hợp hữu hạn là tập hợp chứa một số lượng hữu hạn các phần tử
(b) Tập hợp vô hạn là tập hợp chứa vô hạn số phần tử Trong tập hợp vô hạn, đượcphân loại tiếp thành tập hợp đếm được và tập hợp không đếm được Một tập hợpđược gọi là tập hợp vô hạn đếm được là tập hợp mà các phần tử của nó có thể ánh
xạ 1-1 với tập các số nguyên dương 1, 2, 3, Tập hợp vô hạn không đếm được làtập hợp mà các phần tử không thể thiết lập ánh xạ 1-1 với tập các số nguyên dương.Một ví dụ về tập hợp vô hạn đếm được chính là tập các số nguyên dương, ví dụ vềtập hợp vô hạn không đếm được là tập hợp các số thực không âm B được mô tả ởtrên
Nếu mọi phần tử của tập hợp A cũng đồng thời là phần tử của tập hợp B, tập A đượcgọi là tập con của tập hợp B và được ký hiệu là A ⊂ B hoặc B ⊃ A Rõ ràng rằng tậprỗng ∅ là tập con của mọi tập hợp Với A ⊂ B và B ⊂ A, khi đó tập A được gọi là bằngtập B, ký hiệu A = B
Giới thiệu về thuật ngữ không gian, hay space Các tập hợp đang xét đều là tập concủa một tập không rỗng cố định Tập hợp lớn nhất này chứa tất cả các phần tử trong tất
cả các tập hợp đang xét và được gọi là không gian, hay space, và được ký hiệu là S.Xét một tập con A trong S Tập tất cả các phần tử nằm trong S mà không thuộc Ađược gọi là phần bù của tập hợp A và được ký hiệu là A Chúng ta có thể suy ra một sốkết luận từ định nghĩa sau đây:
S = ∅, ∅ = S, A = A (1.28)Các phép toán trên tập hợp
Hợp của hai tập hợp A và B, ký hiệu là A ∪ B, là một tập hợp chứa tất cả các phần
tử thuộc A hoặc thuộc B hoặc thuộc cả hai tập hợp A và B
Giao của hai tập hợp A và B, ký hiệu là A ∩ B, cũng còn được ký hiệu là AB, là mộttập hợp chứa tất cả các phần tử chung của A và B
Trường hợp A ∩ B = ∅, tập hợp A và B không có phần tử chung, khi đó ta gọi là haitập hợp độc lập, hay disjoint
Trang 35Một số phép toán trên tập hợp được thể hiện trong các công thức dưới đây.
(A ∪ B) ∪ C = A ∪ (B ∪ C) = A ∪ B ∪ C
A ∪ B = B ∪ A(A ∩ B) ∩ C = A ∩ (B ∩ C) = A ∩ B ∩ C
Không gian mẫu
Trong lý thuyết xác suất, chúng ta quan tâm tới những phép thử mà kết quả phụthuộc vào cơ hội nào đó Các phép thử này được gọi là phép thử ngẫu nhiên, hay randomexperiment Giả thiết rằng tất cả các kết cục có thể của phép thử đó đã biết và tập cáckết cục này nằm trong một tập hợp được gọi làkhông gian mẫu, hay sample space Mỗikết cục có thể của phép thử được gọi là một điểm mẫu, hay sample point Một sự kiệntương ứng với một tập con của không gian mẫu và có thể chứa một vài điểm mẫu.Một đặc điểm quan trọng cần chú ý đó là với một phép thử ngẫu nhiên, không gianmẫu có thể không duy nhất và nó được xây dựng dựa trên góc nhìn của câu hỏi đặt ra
Ví dụ, một nhà máy sản xuất điện trở 100 Ω Sản phẩm sau quá trình sản xuất được đolường kiểm tra giá trị điện trở thực tế trước khi xuất xưởng, và giả thiết rằng giá trị điệntrở đo được chỉ nằm trong khoảng 99 - 101 Ω Phép thử ngẫu nhiên ở đây là việc đo giátrị điện trở thực tế trong quá trình kiểm tra chất lượng, và kết cục của phép thử này cóthể được định nghĩa bằng nhiều cách khác nhau dựa trên mục đích thực hiện phép thử
Ví dụ, một điện trở có giá trị nằm trong khoảng 99.9 Ω - 100.1 Ω được coi là chấp nhậnđược, và ngoài khoảng giá trị đó được gọi là không chấp nhận được Trong trường hợpnày, không gian mẫu gồm có hai phần tử điểm mẫu, chấp nhận được và không chấp nhậnđược Xét một góc nhìn khác, giá trị điện trở có thể nằm trong khoảng 99 - 99.5 Ω, 99.5
- 100 Ω, 100 - 100.5 Ω và 100.5 - 101 Ω Khi đó, không gian mẫu gồm có 4 phần tử điểmmẫu Xét một góc nhìn khác, bất kỳ giá trị đo được đều được coi là một kết cục của phépthử, khi đó không gian mẫu là một tập số thực vô hạn không đếm được trong khoảng 99
- 101 trên trục số
Từ những mô tả về không gian mẫu, điểm mẫu và sự kiện, có thể thấy rằng chúng cómối tương quan đến lý thuyết tập hợp Vì vậy tất cả các mối liên hệ giữa kết cục và sựkiện của phép thử trong lý thuyết xác suất có thể được mô tả bởi tập hợp và các phéptoán trong tập hợp Bảng (1.1) mô tả mối tương quan giữa lý thuyết tập hợp và lý thuyếtxác suất
Trang 36Bảng 1.1: Bảng tương quan giữa lý thuyết tập hợp và lý thuyết xác suất
Lý thuyết tập hợp Lý thuyết xác suất
Không gian S Không gian mẫu S
Tập rỗng ∅ Sự kiện không thể xảy ra
Phần tử a, b, Điểm mẫu hay sự kiện đơn a, b,
Tập hợp A, B, Các sự kiện A, B,
A Sự kiện A xảy ra
A Sự kiện A không xảy ra
A ∪ B Ít nhất sự kiện A và B xảy ra
A ∩ B hay AB Cả hai sự kiện A và B đồng thời xảy ra
A ⊂ B A là tập sự kiện con của B (việc xảy ra A kéo theo xảy ra B)
AB = ∅ A và B là hai sự kiện loại trừ nhau
Độ đo xác suất
Xét một phép thử ngẫu nhiên và không gian mẫu S, một số thực hữu hạn P r(A) đượcgán cho mỗi một sự kiện A nằm trong không gian mẫu S Khi đó P r(A) là một hàm sốtrên tập A và cũng được định nghĩa trên tất cả các tập con trong S, P r(A) được gọi là
độ đo xác suất, probability measure, của sự kiện A, hay gọi ngắn gọn là xác suất của sựkiện A P r(A) có một số đặc trưng sau đây được gọi là tiên đề xác suất:
• Với hai sự kiện A và B, ta luôn có:
P r(A ∪ B) = P r(A) + P r(B) − P r(AB) (1.31)
Trang 37Xác suất có điều kiện
Xác suất có điều kiện của sự kiện A biết rằng sự kiện B đã xảy ra được tính bởi:
P r(A|B) = P r(AB)
P r(B) , viP r(B) 6= 0 (1.32)Hai sự kiện A và B được gọi là độc lập khi và chỉ khi:
P r(AB) = P r(A)P r(B) (1.33)
Biến ngẫu nhiên
Xét một phép thử ngẫu nhiên và kết cục phép thử nằm trong không gian mẫu S Đểxây dựng mô hình biến ngẫu nhiên, giả thiết rằng có thể gán một số thực X(s) cho mỗimột kết cục của phép thử Khi đó X(s) có thể coi là một hàm số trên miền không gianxác suất và giá trị trả ra của hàm số là số thực Từ đó có thể định nghĩa biến ngẫu nhiêndựa trên chương 3, tài liệu [17] như sau:
Định nghĩa 1.3.1 Một hàm số X(s) được gọi là biến ngẫu nhiên nếu thỏa mãn hai điềukiện sau
(a) X(s) là một hàm số có giá trị thực hữu hạn định nghĩa trên không gian xác suất Scủa một phép thử ngẫu nhiên
(b) Với mọi số thực x, tập hợp {s : X(s) ≤ x} là một sự kiện Mối quan hệ X = X(s)lấy tất cả các phần tử s nằm trong không gian mẫu S vào một điểm X trên trục sốthực R = (−∞, ∞)
Điều kiện thứ hai trong định nghĩa 1.3.1 cũng thường được gọi là điều kiện đo lường,đảm bảo tính hợp lý khi xem xét xác suất của sự kiện X ≤ x với mọi x Tổng quát hơn,điều kiện này cũng đảm bảo tính có ý nghĩa khi xem xét xác suất của một tổ hợp các sựkiện
Xét ví dụ một phép thử ngẫu nhiên và kết quả của phép thử chỉ có thành công (success)hoặc thất bại (failure) Nếu chúng ta gán số 1 cho sự kiện thành công và số 0 cho sự kiệnthất bại cho số X, thì X là một biến ngẫu nhiên nhận hai giá trị: 0 và 1 Khi đó, cácmệnh đề dưới đây là tương đương
(a) Kết quả của phép thử là thành công
(b) Kết quả của phép thử bằng 1
(c) X = 1
Trang 38Biến ngẫu nhiên X được gọi là biến ngẫu nhiên rời rạc nếu nó được định nghĩa trênmột không gian mẫu có số lượng phần tử là hữu hạn hoặc vô hạn đếm được Trong trườnghợp này, biến ngẫu nhiên X nhận các giá trị rời rạc, và các giá trị của X có thể liệt kêđược Trong trường hợp không gian mẫu có số lượng phần tử là vô hạn, biến ngẫu nhiêntương ứng được gọi là biến ngẫu nhiên liên tục với giá trị được phân phối trên một hoặcmột vài khoảng liên tục trên trục số thực.
Phân phối xác suất
Định nghĩa 1.3.2 Cho một phép thử ngẫu nhiên và biến ngẫu nhiên X tương ứng vớikết quả của phép thử Xét một số thực x và xác suất của sự kiện {s : X(s) ≤ x}, ký hiệu
P r(X ≤ x) thì xác suất này phụ thuộc vào biến x Hàm số
FX(x) = P r(X ≤ x) (1.34)được gọi là hàm phân phối xác suất, hay probability distribution function (PDF) của biếnngẫu nhiên X
Hàm phân phối xác suất thể hiện giá trị xác suất biến ngẫu nhiên X nhận giá trị nằmtrong một tập con của S, tập con này chứa tất cả các điểm nằm bên trái của x Trườnghợp x tăng, tập con này mở rộng thêm về phía bên phải của trục số thực, và giá trị củahàm phân phối xác suất tiệm cận 1 Dưới đây là một số đặc điểm của hàm phân phối xácsuất:
• Hàm phân phối xác suất đối với biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tụcđều có giá trị nằm giữa 0 và 1
• Hàm phân phối xác suất là hàm không âm, liên tục trái và không giảm với đối sốthực x Cụ thể
FX(−∞) = 0, FX(∞) = 1 (1.35)
• Với hai số thực a và b, a < b, khi đó:
P r(a < X ≤ b) = FX(b) − FX(a) (1.36)Công thức trên là kết quả trực tiếp từ định nghĩa:
P r(X ≤ b) = P r(X ≤ a) + P r(a < X ≤ b) (1.37)
Định nghĩa 1.3.3 Xét X là một biến ngẫu nhiên rời rạc có tập giá trị hữu hạn hoặc vôhạn không đếm được và được đánh số theo thứ tự giá trị tăng dần là x1, x2, với cácgiá trị xác suất tương ứng khác 0 Nếu chúng ta ký hiệu P r(X = xi) = p(xi), i = 1, 2, khi đó:
0 < p(xi) ≤ 1P
Trang 39Hàm số pX(x) = P r(X = x) được gọi là hàm khối xác suất, hay probability mass function(pmf) của biến ngẫu nhiên rời rạc X.
Có thể nhận thấy rằng khái niệm hàm khối xác suất chỉ có ý nghĩa đối với biến ngẫunhiên rời rạc Với biến ngẫu nhiên liên tục, P r(X = x) = 0 với mọi giá trị điểm x, do đóbiến ngẫu nhiên liên tục không tồn tại khái niệm hàm khối xác suất
Một số công thức liên hệ giữa hàm khối xác suất và hàm phân phối xác suất:
fX(x)dx (1.44)
Ví dụ về hàm phân phối xác suất và hàm mật độ xác suất Xét một biến ngẫu nhiên
X có hàm phân phối xác suất được tính theo công thức sau (tham số a > 0):
Trang 40Hình 1.20: Ví dụ hàm mật độ xác suất(a) và hàm phân phối xác suất(b)
Mặc dù hàm phân phối xác suất và hàm mật độ xác suất cho ta thông tin đầy đủ vềbiến ngẫu nhiên, tuy nhiên vẫn cần thiết phải nghiên cứu và đưa ra một vài đặc trưng
số của biến ngẫu nhiêu Những giá trị đặc trưng số quan trọng nhất bao gồm kỳ vọng vàmoment
Kỳ vọng của hàm biến ngẫu nhiên
Định nghĩa 1.3.5 Xét g(X) là một hàm giá trị thực của biến ngẫu nhiên X Kỳ vọng,hay expectation, của g(X) được ký hiệu là E{g(X)} được định nghĩa bởi:
E{g(X)} = X
i
g(xi)pX(xi) (1.46)trong đó tổng lấy trên tất cả các giá trị có thể xi của biến ngẫu nhiên X
Trong trường hợp tập giá trị biến ngẫu nhiên X là vô hạn đếm được, giá trị tổng trongcông thức (1.46) chỉ tồn tại khi tổng này hội tụ, tức là:
∞
X
i=1
|g(xi)|pX(xi) < ∞ (1.47)
Ta gọi ký hiệu E{} được gọi là toán tử kỳ vọng, hay expectation operator
Trong trường hợp biến ngẫu nhiên X là liên tục, giá trị kỳ vọng E{} được định nghĩabởi:
E{g(X)} =
Z ∞
−∞
g(xi)fX(x)dx (1.48)nếu giá trị tích phân mở rộng là hội tụ, tức là:
Z ∞
−∞
|g(xi)|fX(x)dx < ∞ (1.49)