Slide 1 Mạng nơron truyền thẳng và ứng dụng trong dự báo dữ liệu Giáo viên hướng dẫn TRẦN CAO TRƯỞNG Người thực hiện Dương Đỗ Nhuận Vũ Đình Hưng BÁO CÁO TRÍ TUỆ NHÂN TẠO 1 Nội dung 1 Giới thiệu 2 Các.
Trang 1Mạng nơron truyền thẳng
và ứng dụng trong dự báo dữ liệu
Giáo viên hướng dẫn:
TRẦN CAO TRƯỞNG
Người thực hiện:
Dương Đỗ Nhuận
Vũ Đình Hưng BÁO CÁO: TRÍ TUỆ NHÂN TẠO
Trang 2Nội dung
1.Giới thiệu
2.Các khái niêm cơ bản về mạng nơron 3.Mạng nơron truyền thẳng
4.Thu thập phân tích, xử lý dữ liệu.
5.Chương trình dự báo dữ liệu.
Trang 3• Có khả năng thích nghi, nghĩa là “học từ các mẫu” thay vì “lập trình”.
• Các ứng dụng của mạng nơron:
– Phân loại: tín hiệu radar; xem xét các mẫu bệnh,…
– Giảm nhiễu: tiếng nói, ảnh tĩnh bị nhiễu,…
– Dự đoán/Dự báo : lượng sử dụng, thị trường, dự đoán lượng bán,…
Trang 42 Các khái niệm cơ bản về mạng nơron:
Mạng nơron có các đặc trưng:
• Tập các đơn vị xử lý.
• Trạng thái kích hoạt hay đầu ra của đơn vị xử lý
• Liên kết giữa các đơn vị: Mỗi liên kết được định nghĩa bởi một trọng số cho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn
vị k.
• Luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị đầu vào của nó
• Một hàm kích hoạt hay hàm chuyển
• Các đầu vào ngoài dữ liệu (độ lệch - bias).
• Phương pháp thu thập thông tin
Trang 5aj : đầu vào mạng (net – input)
zj : đầu ra của nơron
g(x): hàm chuyển (hàm kích
hoạt)
Trang 6• Mỗi đơn vị nhận đầu vào từ các đơn
vị ở lớp trước đó và gửi các tín hiệu này đến các đơn vị ở lớp kế tiếp.
• Đầu ra được biểu diễn bởi một hàm tường minh của các trọng số và độ lệch.
h
0
) 1 ( ) (
) (
a
0
) 1 (
a
0
) 2
) 1 ( )
2 (
i ji kj
Trang 7• Các mạng không có các lớp ẩn chỉ có khả năng giải quyết các bài toán khả phân tuyến tính
• Các mạng nơron với một lớp ẩn có thể xấp xỉ khá tốt bất kỳ một ánh xạ hàm nào từ không gian hữu hạn một chiều sang một không gian khác
• Các mạng nơron với 2 lớp ẩn có khả năng thể hiện một đường phân chia hay xấp xỉ một ánh xạ mịn bất
kỳ tới một độ chính xác bất kỳ
3.2 Khả năng thể hiện
Trang 83.3 Huấn luyện bằng thuật toán lan truyền ngược:
• Đây là phương pháp thông dụng nhất để huấn luyện cho các mạng nơron truyền thẳng nhiều lớp.
• Có thể áp dụng cho các mạng truyền thẳng với các hàm chuyển và các
T m m m
m
k k
k
k
s b
b
a s W
Trang 93.3 Huấn luyện bằng thuật toán lan truyền ngược:
• Trong đó: P: vector đầu vào (vector cột)
n i : net input (S i x 1)
a i : net output (S i x 1) Công thức tính đầu ra:
Trang 104.Thu thập, phân tích, xử lý dữ liệu
Trang 11a.Thu thập dữ liệu
Gồm 3 nhiệm vụ chính:
Xác định yêu cầu dữ liệu:
Ta phải nhận biết được:
•Dữ liệu nào chắc chắn liên quan đến bài toán
•Dữ liệu nào có thể liên quan
•Dữ liệu nào là phụ trợ
Trang 12Xác định nguồn dữ liệu: Công việc xác định nơi sẽ lấy
dữ liệu qua đó ta xác định những khó khăn thực tế và
phí tổn cho việc thu thập dữ liệu
•Nếu ứng dụng yêu cầu các dữ liệu thời gian thực,thì cần tính đến khả năng chuyển đổi các dữ liệu tương
tự thành dạng số
•Trong một số trường hợp, ta có thể chọn lựa dữ liệu
mô phỏng từ các tình huống thực tế.Tuy nhiên, cần phải quan tâm đến độ chính xác và khả năng thể hiện của dữ liệu đối với các trường hợp cụ thể
Trang 13Xác định lượng dữ liệu:Công việc ước đoán số lượng
dữ liệu cần thiết để có thể sử dụng trong việc xây dựng mạng
b.Phân tích dữ liệu
Có 2 kỹ thuật cơ bản trong phân tích dữ liệu:
•Phân tích thống kê :Là công việc chia dữ liệu thành các lớp lớp, các thử nghiệm thống kê có thể xác định được khả năng phân biệt các lớp trong dữ liệu
Trang 14
•Trực quan hóa dữ liệu: Vẽ biểu đồ trên các dữ liệu theo một dạng thích hợp sẽ cho ta thấy được các đặc trưng phân biệt của dữ liệu(chẳng hạn như: các điểm lệch hay các
điểm đỉnh) Điều này nếu thực hiện được, có thể áp dụng thêm các thao tác tiền xử lý để tăng cường các đặc trưng đó
•Thông thường, phân tích dữ liệu bao gồm cả các kiểm tra thống kê và trực quan hóa Các kiểm tra này sẽ được lặp đi lặp lại Trực quan hóa cho ta sự đánh giá về dữ liệu và các khái niệm sơ khởi về các mẫu nằm sau dữ liệu Trong khi các phương pháp thống kê cho phép ta kiểm thử những
khái niệm này.
Trang 15c.Xử lý dữ liệu
•Dẫn nhập về xử lý dữ liệu:
Chuyển đổi các dữ liệu thô đã thu thập được xang khuôn dạng phù hợp để có thể đưa vào luyện mạng
Ta cần phải thực hiện những công việc sau:
oKiểm tra tính hợp lệ của dữ liệu: Loại bỏ những dữ liệu nếu sử dụng sẽ không cho kết quả tốt (những giá trị ngoài khoảng mà ta mong muốn, những giá trị có phân bố không hợp lệ)
oPhân hoạch dữ liệu: chia dữ liệu thành các tập kiểm định, huấn luyện, kiểm tra
Trang 16Tập kiểm định được sử dụng để xác định kiến trúc của mạng; các tập huấn luyện được dùng để cập nhật các trọng số của mạng; các tập kiểm tra được dùng để kiểm tra hiệu năng của mạng sau khi luyện.
•Tiền xử lý:
Trong ứng dụng mạng Nơron có 1 số phương pháp tiền
xử lý như sau:
Chuyển đổi dữ liệu về khuôn dạng phù hợp đối
với đầu vào mạng nơron làm cho thời gian xử lý của mạng ngắn hơn
Trang 17Các chuyển đổi này có thể bao gồm:
-Áp dụng một hàm toán học (hàm logarit hay
bình phương) cho đầu vào;
-Mã hóa các dữ liệu văn bản trong cơ sở dữ liệu; -Chuyển đổi dữ liệu sao cho nó có giá trị nằm
trong khoảng [0, 1]
-Lấy biến đổi Fourier cho các dữ liệu thời gian
Trang 19Tối thiểu hóa số các đầu vào mạng, tối thiểu số
các mẫu đưa vào có thể đơn giản hóa được bài toán
•Hậu xử lý: là các xử lý áp dụng cho đầu ra của
mạng hậu xử lý hoàn toàn phụ thuộc vào các ứng
dụng cụ thể và có thể bao gồm cả việc phát hiện các tham số có giá trị vượt quá khoảng cho phép hoặc sử dụng đầu ra của mạng như một đầu vào của một hệ khác
Trang 20d.Tổng hợp:
Trong thực tế khi xây dựng các mạng nơron ứng dụng trong lĩnh vực dự báo dữ liệu, việc áp dụng các phương pháp tiền xử lý dữ liệu đầu vào (và sau đó áp dụng
phương pháp hậu xử lý đối với dữ liệu đầu ra) giúp ích rất nhiều trong các ứng dụng Có rất nhiều các phương pháp có thể áp dụng cho dữ liệu ở quá trình tiền xử lý cũng như hậu xử lý Các phương pháp này thực sự hiệu quả cho các bài toán cụ thể bởi lẽ chúng làm giảm bớt đi
độ phức tạp của dữ liệu đầu vào, từ đó làm giảm thời
gian học của mạng nơron
Trang 21Các phương pháp xử lý dữ liệu còn phụ thuộc vào công việc thu thập, phân tích và lựa chọn dữ liệu đầu vào cho mạng Đây cũng là yếu tố quyết định cho sự thành công của các ứng dụng mạng nơron Việc dữ liệu được chuẩn hóa trước khi đưa vào mạng huấn luyện có thể làm giảm bớt thời gian mạng học, làm tăng độ chính xác cho dữ liệu dự báo Điều này rất có ý nghĩa bởi lẽ thuật toán lan truyền ngược khi thực thi rất tốn thời gian!
Trang 22II.Chương trình Dự báo dữ liệu
Bài toán dự báo giá trị tương lai của chỉ số
chứng khoán
Trang 231.Mục tiêu
Nghiên cứu tổng quan về một số phương pháp về
dự báo giá trị tương lai và các giải pháp nhằm tăng khả năng dự đoán của mạng Từ đó có thể áp dụng vào dự đoán chỉ số VNIndex của thị trường chứng khoán Việt Nam
2.Ý nghĩa
Trang 24Trong những năm gần đây xu hướng cổ phần hóa của các công ty trên thị trường Việt Nam ngày càng nhiều, cùng với đó là sự ra đời của các sàn giao dịch chứng khoán ở những trung tâm tài chính lớn, tất cả các giao dịch được thực hiện trên sàn chứng khoán do vậy việc tăng hay giảm chỉ số thị trường chứng khoán mà đặc biệt ở đây là chỉ số VNIndex được nhiều người quan tâm, vì vậy việc nghiên cứu ra một phương pháp để dự đoán sự lên xuống của chỉ số thị trường chứng khoán được nhiều người quan tâm.
Trang 253.Mô hình mạng
Trang 26a.Dữ liệu đầu vào:Chỉ số VnIndex.
b Xử lý dữ liệu đầu vào về khoảng từ 0.1 đến 0.9.
Bằng công thức SV = ((0.9 - 0.1) / (MAX_VAL -
MIN_VAL)) * (OV - MIN_VAL)
Hàm kích hoạt từ tầng nơron ẩn đến tầng đầu ra là hàm
sigmoid
g(x)=
Hàm chuyển qua nơron của các tầng ngoài tầng ẩn đều là hàm đồng nhất.
Trang 28Dùng hệ số bước đà thì hệ số học có thể lớn hơn rất nhiều