1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Đề Tài Nckh) Nghiên Cứu Ứng Dụng Công Cụ Khai Phá Dữ Liệu Trong Bài Toán Về Giao Dịch Tỷ Giá.pdf

45 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Ứng Dụng Công Cụ Khai Phá Dữ Liệu Trong Bài Toán Về Giao Dịch Tỷ Giá
Tác giả TS. Nguyễn Thị Thu Thủy
Trường học Trường Đại Học Thương Mại
Chuyên ngành Tin Học
Thể loại Đề tài nghiên cứu khoa học
Năm xuất bản 2018
Thành phố Hà Nội
Định dạng
Số trang 45
Dung lượng 1,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khóa lu�n t�t nghi�p Trư�ng Đ�i h�c Thương M�i TRƢỜNG ĐẠI HỌC THƢƠNG MẠI BỘ MÔN TIN HỌC  ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƢỜNG NGHIÊN CỨU ỨNG DỤNG CÔNG CỤ KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN VỀ GIAO[.]

Trang 1

TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

BỘ MÔN TIN HỌC



ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP

TRƯỜNG

Người thực hiện: TS Nguyễn Thị Thu Thủy

HÀ NỘI – 2018

Trang 2

2

MỤC LỤC

MỤC LỤC 2

DANH M ỤC HÌNH VẼ 3

CHƯƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 5

1.1 Tính cấp thiết của đề tài 5

1.2 Tổng quan vấn đề nghiên cứu 5

1.3 Mục tiêu cụ thể đặt ra cần giải quyết trong đề tài 6

1.4 Đối tượng và phạm vi nghiên cứu đề tài 7

1.5 Phương pháp thực hiện đề tài 8

1.6 Bố cục của đề tài 8

Chương 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH NGOẠI HỐI 10

2.1 Một số khái niệm cơ bản 10

2.1.1 Các khái niệm về khai phá dữ liệu 10

2.1.2 Các khái niệm liên quan đến giao dịch ngoại hối 16

2.2 Một số công cụ khai phá dữ liệu 18

2.2.1 Công cụ học có giám sát 18

2.2.2 Công cụ học không giám sát 24

2.3 Bài toán giao dịch ngoại hối 25

CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN GIAO DỊCH TỶ GIÁ 26

3.1 Mô hình khai phá dữ liệu trong bài toán giao dịch tỷ giá 26

3.2 Thu thập và xử lý dữ liệu 27

3.2.1 Thu thập và tiền xử lý dữ liệu 27

3.2.2 Phân chia tập huấn luyện 28

3.3 Kết quả thực nghiệm 30

3.3.1 Data 30

3.3.2 Sử dụng phương pháp SVM 32

3.3.3 Sử dụng phương pháp Cây quyết định J48 35

3.3 Thảo luận 41

KẾT LUẬN VÀ KIẾN NGHỊ 43

Kết luận 43

M ột số kiến nghị 43

Trang 3

3

DANH MỤC HÌNH VẼ

Hình 1: Các lĩnh vực liên quan của khai phá dữ liệu 11

Hình 2: Quy trình khai phá dữ liệu 11

Hình 3: Cấp độ hỗ trợ việc ra quyết định kinh doanh và người thực hiện 14

Hình 4: Lịch hoạt động của các trung tâm giao dịch ngoại hối 17

Hình 5: Mô hình của học giám sát 20

Hình 6: Cây quyết định của tập dữ liệu huấn luyện ở Bảng 1 22

Hình 7: Ví dụ về mô hình SVM 23

Hình 8: Mô hình học có giám sát khai phá dữ liệu của bài toán giao dịch tỷ giá 26

Hình 9: Đồ thị hàm biến đổi giá trị thành 28

Hình 10: Biến động của tỷ giá USD/VND trong khoảng thời gian 1 năm 30

Hình 11: Thống kê dữ liệu output 31

Hình 12:: Phân bố của tỉ giá Close tại các thời điểm 31

Hình 13: Phân bố của giao dịch Close 32

Hình 14: Mô hình sử dụng 33

Hình 15: Đồ thị lỗi của mô hình dự báo SVM 35

Hình 16: 1 dòng giao dịch bị dự báo sai 35

Hình 17: Mô hình khung công việc J48 37

Hình 18: Độ chính xác của Kỹ thuật SVM và DT 42

Trang 4

4

L ỜI MỞ ĐẦU

Ngày nay, với sự phát triển mạnh mẽ của khoa học kỹ thuật, các thế hệ máy tính

đã trở nên mạnh mẽ hơn, khả năng tính toán và xử lí thông tin ngày càng nhanh hơn Bên cạnh sự phát triển của khoa học kỹ thuật là sự bùng nổ thông tin dẫn tới lượng dữ

liệu có thể thu thập được ngày càng lớn Không thể phủ nhận khả năng đặc biệt của con người trong việc phân tích thông tin để rút ra tri thức, kinh nghiệm cho mình Tuy nhiên, con người cần những công cụ hỗ trợ có thể tự động phân tích, khai thác thông tin để có thể tìm ra những tri thức trong đó, từ đó có thể ra quyết định tự động hoặc hỗ

trợ con người trong việc ra quyết định

Trong giao dịch ngoại hối, việc dự báo được xu hướng tỷ giá của từng cặp ngoại

hối mà mình sẽ giao dịch là rất quan trọng Việc dự báo này sẽ giúp nhà đầu tư đưa ra được chiến lược giao dịch phù hợp, tăng khả năng mang lại lợi nhuận và hạn chế thấp

nhất nguy cơ rủi ro có thể xảy ra Tỷ giá của mỗi cặp tiền tệ thay đổi theo thời gian và hoàn toàn có thể thu thập, lưu trữ lại thông qua lịch sử giá Việc phân tích dự báo xu hướng tỷ giá của mỗi cặp ngoại hối trong tương lai thường sẽ dựa vào chính những bộ

dữ liệu quá khứ này Việc giao dịch thủ công thường có nhiều hạn chế như: hạn chế về

độ chính xác, hạn chế về thời gian theo dõi … Việc ứng dụng các mô hình giao dịch sẽ

có nhiều ưu thế hơn: đó là khả năng xử lý chính xác, kịp thời, khả năng giám sát liên

tục và không bị ảnh hưởng bởi yếu tố tâm lý

Nhìn chung, hướng tiếp cận cho bài toán dự báo xu hướng tỷ giá ngoại hối là xây

dựng một mô hình học có giám sát, huấn luyện bằng dữ liệu quá khứ và áp dụng để dự báo xu hướng trong tương lai Các công trình đã nghiên cứu trên thế giới chủ yếu dừng

ở việc công bố kết quả nghiên cứu, còn tại Việt Nam, các công trình nghiên cứu về dự báo xu hướng ngoại hối cũng chưa có nhiều, đặc biệt là việc áp dụng vào thực tế Từ những tìm hiểu trên, có thể thấy việc nghiên cứu một số mô hình học máy cho việc phân tích xu hướng ngắn hạn của tỷ giá các cặp ngoại hối và áp dụng vào thực tế với

việc cài đặt cho robot giao dịch ngoại hối tự động là một đề tài thực sự có ý nghĩa cho đời sống kinh tế và xã hội

Trang 5

5

CHƯƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU

1.1 Tính c ấp thiết của đề tài

Trong giao dịch ngoại hối, việc dự báo được xu hướng tỷ giá của từng cặp ngoại

hối mà nhà đầu tư sẽ giao dịch là rất quan trọng Việc dự báo này sẽ giúp nhà đầu tư đưa ra được chiến lược giao dịch phù hợp, tăng khả năng mang lại lợi nhuận và hạn chế thấp nhất nguy cơ rủi ro có thể xảy ra Tỷ giá của mỗi cặp tiền tệ thay đổi theo thời gian và hoàn toàn có thể thu thập, lưu trữ lại thông qua lịch sử giá Việc phân tích dự báo xu hướng tỷ giá của mỗi cặp ngoại hối trong tương lai thường sẽ dựa vào chính

những bộ dữ liệu quá khứ này Quá trình này có thể thực hiện một cách thủ công bằng kinh nghiệm của người giao dịch hoặc tự động dùng các công cụ chỉ báo kỹ thuật với

những quy tắc nhất định (còn gọi là phân tích kỹ thuật) Tuy nhiên việc giao dịch thủ công thường có nhiều hạn chế như: hạn chế về độ chính xác, hạn chế về thời gian theo dõi, hoặc bởi tâm lý của người giao dịch … trong khi việc sử dụng giao dịch tự động

sẽ có nhiều ưu thế hơn: đó là khả năng xử lý chính xác, kịp thời, khả năng giám sát liên tục và không bị ảnh hưởng bởi yếu tố tâm lý Từ nhu cầu thực tế cho thấy việc xây

dựng và ứng dụng các mô hình học có giám sát cho robot giao dịch là một hướng tiếp cận khả quan và hứa hẹn sẽ mang lại hiệu quả

Bắt kịp với các yêu cầu thực tế về nhân lực trong lĩnh vực phân tích dữ liệu và sử

dụng hệ thống thông tin kinh tế, học phần “Khai phá dữ liệu trong kinh doanh” được xây dựng phục vụ cho việc đào tạo các em sinh viên chuyên ngành quản trị hệ thống thông tin ngành hệ thống thông tin quản lý Học phần được xây dựng với thời lượng là

3 tín chỉ và bao gồm các nội dung liên quan đến khai phá dữ liệu, mà cụ thể hơn là tập trung nhiều vào các dữ liệu của các bài toán kinh tế Bài toán giao dịch của tỷ giá trên

thị trường ngoại tệ cũng là một trong số các bài toán có liên quan nhằm giúp cho các

em có một tài liệu tham khảo trong việc học tập của mình

Từ nhu cầu thực tế đó, tôi chọn đề tài: “Nghiên cứu ứng dụng công cụ khai phá d ữ liệu trong bài toán về giao dịch tỷ giá” để nghiên cứu

1.2 T ổng quan vấn đề nghiên cứu

Thị trường ngoại hối là nơi diễn ra các hoạt động trao đổi ngoại tệ thông qua quan hệ cung cầu Việc trao đổi thường bao gồm việc mua một đồng tiền này và đồng

Trang 6

6

thời bán một đồng tiền khác Như vậy, các đồng tiền sẽ được trao đổi từng cặp với nhau Đặc thù của thị trường này là ngoại hối sẽ được giao dịch mua bán qua các ngân hàng, nhà môi giới, chuyên viên ngoại hối, các tổ chức tài chính và các cá nhân trên toàn thế giới Do vậy, ngoại hối được giao dịch liên tục từ 21 giờ (GMT) chủ nhật tới

21 giờ (GMT) thứ 6 hàng tuần

Bài toán về giao dịch trên thị trường ngoại hối sẽ được tập trung giải quyết vào

việc dự báo xu hướng theo ngày của tỷ giá quy đổi của các cặp tiền tệ theo chuỗi thời gian biến động phức tạp để từ đó ra quyết định là giao dịch bán hay mua Đầu vào của bài toán là lịch sử tỷ giá trao đổi của các cặp tiền tệ, số liệu về các sự kiện kinh tế đã

xảy ra… Đầu ra của bài toán chính là xu hướng tăng hay giảm của các cặp tiền tệ cần xét Một số lượng lớn các thuộc tính từ dữ liệu chuỗi thời gian được sinh ra từ lịch sử

tỷ giá các cặp tiền tệ nhằm mục đích chọn ra các tập dữ liệu phù hợp cho bài toán phân

lớp Như vậy, bài toán giao dịch ngoại hối được chuyển về bài toán phân lớp nhị phân

và là bài toán dự đoán xu hướng tăng hay giảm để hỗ trợ đưa ra các quyết định giao

dịch (hoạt động mua, bán, chốt lời, dừng lỗ…) Các mô hình học máy có thể được sử

dụng vào việc dự đoán xu hướng tỷ giá của các cặp tiền tệ

Piche (1995) sử dụng hình ảnh biểu đồ plot để mô tả xu hướng dịch chuyển các dao động của tỷ giá với ma trận xu hướng Việc dự báo tỷ giá sử dụng mô hình dự báo chuỗi

thời gian được biết đến với việc sử dụng phổ biến mô hình Regressive Integrated Moving Average (ARIMA) (Box và Jenkin, 1970; Yu, 2002) Thời gian gần đây, mô hình dự báo chứng khoán và ngoại hối được sử dụng phổ biến là GARCH (Wei, 2009) Ngoài các mô hình mạng nơron (Haykin, 1999; Chan & Teong, 1995; Woon-Seng & Kah-Hwa, 1995; Refenes & Azema-Barac, 1992; Joarder & Ruhul, 2003; Zhang & Kline, 2007; Kotsiantis, 2007) và SVM (Cao and Francis, 2001; Baasher & mohamed, 2010) cũng được biết đến như là các mô hình được sử dụng để dự báo tỷ giá ngoại hối Căn cứ vào những phân tích ở trên, rõ ràng mô hình học có giám sát được sử dụng rất nhiều trong bài toán giao dịch ngoại hối

1.3 M ục tiêu cụ thể đặt ra cần giải quyết trong đề tài.

Mục tiêu nghiên cứu chính của đề tài là đề xuất mô hình khai phá dữ liệu để dự báo xu hướng giao dịch của các cặp tiền tệ dựa trên các giao dịch quá khứ, làm tài liệu tham

khảo cho học phần “khai phá dữ liệu tron kinh doanh”, và làm tài liệu học tập cho sinh viên chuyên ngành quản trị HTTT Cụ thể là:

Trang 7

 Xây dựng mô hình giao dịch tỷ giá VND/USD, USD/EUR,…

 Làm tài liệu tham khảo phục vụ cho việc viết giáo trình học phần “Khai phá dữ

liệu trong kinh doanh” – 2 tín chỉ của chuyên ngành quản trị hệ thống thông tin

của trường ĐH Thương Mại

 Báo cáo có thể làm tài liệu tham khảo cho sinh viên khoa Hệ thống thông tin Kinh tế và Thương mại điện tử, các đối tượng quan tâm đến việc khai phá dữ

liệu trong kinh doanh Hơn nữa, báo cáo của đề tài còn làm tài liệu tham khảo

giảng dạy trong các học phần như CSDL, Quản trị CSDL và nhất là học phần

mới Khai phá dữ liệu trong kinh doanh cho chuyên ngành Quản trị HTTT

1.4 Đối tượng và phạm vi nghiên cứu đề tài

Cách tiếp cận các mẫu khảo sát:

Dữ liệu về giao dịch tỷ giá đã được thu thập online thông qua chương trình cài đặt META TRADER 4 từ các nghiên cứu trước Số mẫu thu thập cho 1 năm, khoảng

thời gian từ 3/2017 đến 3/2018 với các dòng giao dịch hàng ngày

Phương pháp nghiên cứu:

- Loại dữ liệu (định tính, định lượng): Định lượng

Trang 8

8

Đối tượng nghiên cứu:

 Bài toán về giao dịch tỉ giá với các dòng dữ liệu giao dịch Có nhiều cặp tỉ giá

có thể thu thập để lấy làm dữ liệu thực nghiệm vì các thức xử lý và thực nghiệm trong mô hình là tương tự Trong pham vi của đề tài này, cặp USD/VND được

lựa chọn vì cặp tiền này được thường xuyên sử dụng và sẽ gần với các đối

tượng đọc là sinh viên trong khi giảng dạy

 Một số công cụ đưa vào mô hình dự báo tỷ giá: Học có giám sát: SVM và cây quyết định

Phạm vi nghiên cứu:

• Thời gian: từ 03/2017-03/2018

• Không gian, phạm vi: Các dữ liệu tỉ giá

1.5 Ph ương pháp thực hiện đề tài

Các phương pháp được sử dụng trong đề tài là: Sử dụng phương pháp nghiên

cứu tài liệu lý thuyết cơ sở về khai phá dữ liệu với một số mô hình cụ thể, và bài toán giao dịch ngoại hối nói chung Trên cơ sở đó thu thập các dữ liệu sơ cấp trên website giao dịch Mô hình hóa bài toán giao dịch USD/VND với các dữ liệu thu thập được và

thử nghiệm mô hình Cụ thể như sau:

Phương pháp thu thập dữ liệu: Các dữ liệu thứ cấp được thu thập trên web site giao dịch ngoại hối USD/VND thông qua phần mềm META TRADER 4 và Invest.com với một đoạn chương trình nhỏ (Script) để cài thêm (Add- in) vào phần

mềm

- Phương pháp xử lý dữ liệu: Tiền xử lý dữ liệu với phần mềm META TRADER 4; xây dựng mô hình khai phá với tập dữ liệu, và thử nghiệm mô hình

1.6 Bố cục của đề tài

Đề tài được chia thành 3 chương trong đó:

Chương 1: Tổng quan nghiên cứu Chương này nêu rõ tính cấp thiết của đề tài và đồng thời chương này còn chỉ ra phương pháp nghiên cứu và các nghiên cứu liên quan đến đề tài

Chương 2: Tổng quan về khai phá dữ liệu và bài toán giao dịch ngoại hối

Nội dung của chương để cấp đến các khái niệm về khai phá dữ liệu, trí tuệ nhân tạo,

học máy cũng như các khái niệm liên quan đến giao dịch tỷ giá Nội dung chương còn

Trang 9

9

phân loại các công cụ của khai phá dữ liệu (học có giám sát, không giám sát), và đặt bài toán giao dịch tỷ giá

Chương 3: Đề xuất mô hình khai phá dữ liệu trong bài toán giao dịch tỷ giá

Nội dung của chương bao gồm việc đề xuất mô hình khai phá dữ liệu, cách thức thu

thập và xử lý dữ liệu, phân chia tập dữ liệu thực nghiệm Các thực nghiệm cũng được nêu ở chương này với hai phương pháp phổ biến là SVM và cây quyết định Các thảo

luận về thực nghiệm được thực hiện ở phần cuối của chương

Phần kết luận sẽ tóm tắt lại các kết quả đã nghiên cứu đồng thời đề xuất các kiến nghị

liên quan

Trang 10

10

Chương 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH

NGOẠI HỐI

2.1 Một số khái niệm cơ bản

2.1.1 Các khái niệm về khai phá dữ liệu

Khái niệm về dữ liệu

Theo Wikipedia, và theo điều 4 Luật Giao dịch điện tửban hành ngày 29 tháng 11 năm

2005, dữ liệu là thông tin dưới dạng ký hiệu,chữ viết, chữ số, hình ảnh, âm thanh hoặc

dạng tương tự

D ữ liệu thô là các số, ký tự, hình ảnh hay các kết quả khác của các thiết bị chuyển đổi

các lượng vật lý thành các ký hiệu Các dữ liệu thuộc loại này thường được xử lý tiếp bởi người hoặc đưa vào máy tính Trong máy tính, dữ liệu được lưu trữ và xử lý tại đó

hoặc được chuyển (output) cho một người hoặc một máy tính khác Dữ liệu thô là một

thuật ngữ tương đối; việc xử lý dữ liệu thường được thực hiện theo từng bước, và "dữ liệu đã được xử lý" tại bước này có thể được coi là "dữ liệu thô" cho bước tiếp theo Các dạng dữ liệu được lưu trữ:

 Tập tin truyền thống (flat files)

 Cơ sở dữ liệu quan hệ

 Cơ sở dữ liệu giao tác hoặc kho dữ liệu

 Cơ sở dữ liệu tạm thời (data streem)

 …

Khái niệm về khai phá dữ liệu

Theo Tom Mitchell (1999), “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai” Theo Fayyad (1996), “KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.” Như vậy có thể nói là KPDL là

một quá trình học tri thức mới từ những dữ liệu đã thu thập được KPDL được coi là

sự kết hợp của các lĩnh vực khác nhau (xem Hình 1)

Trang 11

11

Hình 1: Các lĩnh vực liên quan của khai phá dữ liệu

(Nguồn: Tom Mitchell, 1999)

Quá trình khai phá d ữ liệu có thể mô tả nhƣ sau:

Hình 2: Quy trình khai phá dữ liệu (Nguồn: Chapman và cộng sự, 2000)

Data Mining

Machine Learning (học máy)

Visualization (mô hình)

Statistics (thống kê)

Data Technology (Công nghệ

dữ liệu) Khác

Trang 12

12

Có thể mô tả như sau:

(1) Tìm hiểu nghiệp vụ và dữ liệu (Data Sources)

(2) Chuẩn bị dữ liệu (Data warehouse)

(3) Mô hình hóa dữ liệu (Data Mining)

(4) Hậu xử lý và đánh giá mô hình (Pattern Evaluation)

(5) Triển khai tri thức (Knowledge)

Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên sự phản

hồi từ kết quả của các giai đoạn sau Tham gia chính trong quá trình KPDL này là các nhà tư vấn (NTV) và phát triển chuyên nghiệp trong lĩnh vực KPDL

Trong giai đoạn đầu tiên, Tìm hiểu nghiệp vụ và dữ liệu, NTV nghiên cứu kiến thức

về lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu trúc về hệ thống và tri thức, các nguồn dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu

Việc nghiên cứu này được thực hiện qua việc tiếp xúc giữa NTV và người dùng Khác

với phương pháp giải quyết vấn đề truyền thống khi bài toán được xác định chính xác

ở bước đầu tiên, NTV tìm hiểu các yêu cầu sơ khởi của người dùng và đề nghị các bài toán tiềm năng có thể giải quyết với nguồn dữ liệu hiện hữu Tập các bài toán tiềm năng được tinh chỉnh và làm hẹp lại trong các giai đoạn sau Các nguồn và đặc tả dữ

liệu có liên quan đến tập các bài toán tiềm năng cũng được xác định

Giai đoạn tiếp theo là chuẩn bị dữ liệu: Giai đoạn này sử dụng các kỹ thuật tiền xử lý

để biến đổi và cải thiện chất lượng dữ liệu để thích hợp với những yêu cầu của các giải thuật học Phần lớn các giải thuật KPDL hiện nay chỉ làm việc trên một tập dữ liệu đơn và phẳng, do đó dữ liệu phải được trích xuất và biến đối từ các dạng cơ sơ dữ liệu phân bố, quan hệ hay hướng đối tượng sang dạng cơ sở dữ liệu quan hệ đơn giản với

một bảng dữ liệu

Các gi ải thuật tiền xử lý tiêu biểu bao gồm:

(a) Xử lý dữ liệu bị thiếu/mất: các dữ liệu bị thiếu sẽ được thay thế bởi các giá

trị thích hợp

(b) Khử sự trùng lắp: các đối tượng dữ liệu trùng lắp sẽ bị loại bỏ đi Kỹ thuật này không được sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu

Trang 13

13

(c) Giảm nhiễu: nhiễu và các đối tượng tách rời (outlier) khỏi phân bố chung sẽ

bị loại đi khỏi dữ liệu

(d) Chuẩn hóa: miền giá trị của dữ liệu sẽ được chuẩn hóa (e) Rời rạc hóa: các

dữ liệu số sẽ được biến đổi ra các giá trị rời rạc

(f) Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có

(g) Giảm chiều: các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt

Các bài toán được giải quyết trong giai đoạn Mô hình hóa dữ liệu Các giải thuật học

sử dụng các dữ liệu đã được tiền xử lý trong giai đoạn hai để tìm kiếm các qui tắc ẩn

và chưa biết Công việc quan trọng nhất trong giai đoạn này là lựa chọn kỹ thuật phù

hợp để giải quyết các vấn đề đặt ra Các bài toán được phân loại vào một trong những nhóm bài toán chính trong KPDL dựa trên đặc tả của chúng

Các mô hình kết quả của giai đoạn ba sẽ được hậu xử lý và đánh giá trong giai đoạn 4 Dựa trên các đánh giá của người dùng sau khi kiểm tra trên các tập thử, các

mô hình sẽ được tinh chỉnh và kết hợp lại nếu cần Chỉ các mô hình đạt được mức yêu

cầu cơ bản của người dùng mới đưa ra triển khai trong thực tế Trong giai đoạn này, các kết quả được biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ và dễ

hiểu hơn cho người dùng

Trong giai đoạn cuối, Triển khai tri thức, các mô hình được đưa vào những hệ thống

thông tin thực tế dưới dạng các môđun hỗ trợ việc đưa ra quyết định Mối quan hệ chặt

chẽ giữa các giai đoạn trong quá trình KPDL là rất quan trọng cho việc nghiên cứu trong KPDL Một giải thuật trong KPDL không thể được phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường được xây dựng để giải quyết một mục tiêu

cụ thể Do đó, sự hiểu biết bối cảnh vận dụng là rất cần thiết Thêm vào đó, các kỹ thuật được sử dụng trong các giai đoạn trước có thể ảnh hưởng đến hiệu quả của các giải thuật sử dụng trong các giai đoạn tiếp theo

Từ các bước của quy trình khai phá dữ liệu, các cấp độ hỗ trợ cho việc ra các quyết định kinh doanh có thể xem ở Hình 3 dưới đây

Trang 14

14

Hình 3: Cấp độ hỗ trợ việc ra quyết định kinh doanh và người thực hiện

Giải thích từ ngữ sử dụng trong Hình 3 như sau:

Data Source (Paper, Files, Information

Providers, Database System, OLTP)

Nguồn dữ liệu: bao gồm giấy tờ, files, nhà cung cấp thông tin, hệ thống CSDL, OLTP Data Warehouse/Data Marts: OLAP,

MDA

Kho dữ liệu: OLAP, MDA

Data Exploration: Statistical Analysis,

Querying and Reporting

Khám phá dữ liệu: Phân tích thống kê, truy

vấn, báo cáo Data Mining: Information Discovery Khai phá dữ liệu: Tìm kiếm thông tin hữu

ích Data Presentation: Visualization

Trang 15

15

Mô tả các cấp độ hỗ trợ và người thực hiện công việc trong quy trình khai phá dữ liệu được thể hiện như sau:

0 Tìm hiểu nghiệp vụ và dữ liệu (Data Sources):

ở giai đoạn sơ khai này công việc chủ yếu là thu

thập và tôt chức dữ liệu thứ cấp

Nhà quản trị CSDL

1 Giai đoạn (Data Warehouse): Trong giai đoạn

này công việc chủ yếu là của nhà quản trị CSDL để tổ chức dữ liệu trong các Warehouse sao cho dễ dàng truy cập (trực tuyến, phân tán, ) cho người dùng ở các giai đoạn sau

Nhà quản trị CSDL

2 Giai đoạn tìm hiểu dữ liệu (Data Exploration):

Các nhà phân tích dữ liệu (Data Analysist) sử dụng các truy vấn, phân tích thống kê,… để tìm

hiểu dữ liệu trong warehouse với các tiêu chí khác nhau

Nhà phân tích dữ liệu

3 Giai đoạn khai phá dữ liệu (Data Mining): các

nhà phân tích dữ liệu sử dụng các công cụ của khai phá dữ liệu để mô hình hóa phục vụ cụ thể cho một tiêu chí nào đó trong hệ thống thông tin kinh doanh Ví dụ như phân lớp, dự báo,

Nhà phân tích dữ liệu

4 Giai đoạn mô hình hóa (Data Presentation):

Việc thể hiện dữ liệu dưới các mô hình giúp cho các nhà phân tích kinh doanh nhìn dữ liệu dưới các góc độ khác nhau Từ đó họ có thể rút trích

ra những tri thức cần thiết hỗ trợ cho bước ra quyết định tiếp theo

Nhà phân tích kinh doanh

5 Giai đoạn ra quyết đinh (Makinh Decision): Nhà quản lý

Trang 16

16

Dựa vào các báo cáo, mô hình tri thức ở bước trước, nhà quản lý (EndUsers) có thể ra các quyết định kinh doanh mà không chỉ dựa trên kinh nghiệm kinh doanh mà còn có sự trợ giúp

của công nghệ khai phá tri thức

2.1.2 Các khái niệm liên quan đến giao dịch ngoại hối

Theo Wikipeadia, từ "Forex" được bắt nguồn từ cụm từ “FoReign Exchange”

(trao đổi ngoại tệ) Đây cũng là tên gọi của thị trường tiền tệ quốc tế với các giao dịch tài chính hàng ngày rất lớn Chính vì khối lượng giao dịch hàng ngày lớn nên nó tạo

ra một thị trường có tính thanh khoản rất cao

Khái ni ệm thị trường ngoại hối

Thị trường ngoại hối là nơi diễn ra các hoạt động mua bán và trao đổi ngoại tệ thông qua quan hệ cung cầu Việc trao đổi bao gồm việc mua một đồng tiền này và đồng thời bán một đồng tiền khác Như vậy, các đồng tiền được trao đổi từng cặp với nhau

Ở các nước phát triển, các quan hệ cung cầu ngoại hối đều tập trung ở thị trường ngoại hối Trung tâm của thị trường ngoại hối là thị trường liên ngân hàng, thông qua

thị trường liên hàng, mọi giao dịch mua bán ngoại hối có thể tiến hành trực tiếp với nhau

Do đặc thù của thị trường này là ngoại hối được giao dịch qua các ngân hàng, nhà môi giới, chuyên viên ngoại hối, các tổ chức tài chính và các cá nhân trên toàn thế

giới Do vậy ngoại hối được giao dịch liên tục từ 21 giờ (GMT) chủ nhật tới 21 giờ (GMT) thứ 6 hàng tuần Do đặc thù về múi giờ khác nhau trên thế giới nên tại mỗi thời điểm sẽ có một số trung tâm hoạt động và một số trung tâm không hoạt động Các trung tâm này hoạt động gối nhau như Hình 3 dưới đây

Trang 17

17

Hình 4: Lịch hoạt động của các trung tâm giao dịch ngoại hối

Nền tảng của thị trường giao dịch ngoại hối là Internet Các nhà đầu tư (nhà giao

dịch) sử dụng nền tảng này để tham gia thị trường Họ có thể mua hoặc bán một cặp tiền

tệ cụ thể để ăn chênh lệch tỷ giá giữa các cặp tiền này Ví dụ, cặp tiền tệ có thể là EURUSD (Euro vs US Dollar), USDJPY (US Dollar Vs Japanese Yen), GBPUSD (Great Britain Pound vs US Dollar) hoặc nhiều sự kết hợp các cặp tiền tệ khác

Các đặc điểm của thị trường ngoại hối

 Lợi nhuận cao Lợi nhuận này có thể có được nhờ giao dịch ngoại hối thực tế cao hơn so với tỉ lệ lạm phát, hoặc nếu có một đồng tiền giảm giá thì có nghĩa là

có một đồng tiền nào đó sẽ tăng giá

 Bảo toàn vốn nếu có biến động về kinh tế Thị trường chứng khoán có thể sụp

đổ nếu có khủng hoảng về kinh tế, nhưng giao dịch ngoại hối vẫn diễn ra bình thường

 Thực hiện liên tục và không phụ thuộc vào vị trí địa lý Do thị trường ngoại hối toàn cầu hoạt động liên tục từ 21 giờ (GMT) chủ nhật tới 21 giờ (GMT) thứ 6 hàng tuần và không phụ thuộc vào vị trí nào do sử dụng mạng Internet

 Luôn cập nhật tin tức trên thế giới các biến động của thị trường

 Trong bất cứ giao dịch ngoại hối nào thì ít nhất có một đồng tiền đóng vai trò làm ngoại tệ

 Ngôn ngữ sử dụng trên thị trường rất ngắn gọn, mang nhiều quy ước nghiệp vụ

rất khó hiểu với người thường

Các thành ph ần tham gia thị trường ngoại hối

 Các ngân hàng thương mại: Ngân hàng tiến hành giao dịch ngoại hối với hai

mục đích: Thực hiện kinh doanh cho chính mình và cho khách hàng Các ngân

Trang 18

 Các ngân hàng trung ương: Ngân hàng trung ương đôi khi là thành phần cơ

bản trên thị trường ngoại hối thông qua hành vi can thiệp trên thị trường, với hai

tư cách:

o Ngân hàng trung ương thực hiện việc mua bán ngoại tệ để đảm bảo tính thanh khoản, cân bằng hoạt động của các khách hàng của mình chủ yếu là các ngân hàng thương mại

o Giám sát hoạt động của thị trường trong khuôn khổ quy định của luật pháp

 Các cá nhân hay các nhà kinh doanh (khách hàng mua bán lẻ) Bao gồm

những công dân trong và ngoài nước có nhu cầu mua bán ngoại tệ trên thị trường ngoại hối để phục vụ cho hoạt động đầu tư, cho vay, đi công tác hay đi

du lịch ở nước ngoài hoặc khi nhận được các khoản lợi tức đầu tư hay chuyển

tiền

 Các nhà môi giới ngoại hối Người môi giới thực hiện các lệnh mua bán ngoại

hối theo yêu cầu của khách hàng và hưởng phí Họ cung cấp tỷ giá chào bán và tỷ giá chào mua cho khách hàng và nhận một khoản phí môi giới

Các doanh nghi ệp Chủ yếu là các doanh nghiệp có chức năng kinh doanh xuất nhập

khẩu Các doanh nghiệp này vừa là chủ thể có nhu cầu về ngoại tệ để thanh toán các hợp đồng thương mại quốc tế, vừa là chủ thể cung ngoại tệ khi có các khoản thu về

việc xuất khẩu hàng hoá dịch vụ…Các doanh nghiệp này được xem như là chủ thể hình thành nên khối lượng mua và bán ngoại hối lớn nhất trên thị trường ngoại hối

2.2 Một số công cụ khai phá dữ liệu

Trang 19

19

data) và là nhãn của dữ liệu đó Nhiệm vụ của học có giám sát là thông qua bộ dữ

liệu đầu vào, dự đoán đầu ra mong muốn

Nói cách khác, học có giám sát tức là máy học dựa vào sự trợ giúp của con người, bởi vì con người dạy cho máy học thông qua việc gán giá trị đầu ra mong muốn định trước Tập dữ liệu huấn luyện hoàn toàn được gán nhãn dựa vào con người cho nên nếu tập càng nhỏ thì máy tính sẽ càng được “học ít”

Ứng dụng chủ yếu của học có giám sát là dành cho 2 nhóm bài toán chính là bài toán hồi quy (regression problem) và bài toán phân lớp (classification problem) Ví dụ, trong bài toán nhận dạng mã vạch tại các bưu cục, các máy đọc này sẽ dịch được mã

vạch tương ứng nhờ vào các bộ dữ liệu huấn luyện được giám sát bởi việc học trong

mô hình phân lớp

Một thành phần không thể thiếu của phương pháp có giám sát này là người dùng Người dùng này sẽ có nhiệm vụ tìm kiếm và tập hợp tất cả các thông tin đầu vào và thông tin đầu ra tương ứng Hệ thống học có giám sát sẽ học dựa vào các tập dữ liệu đầu vào và đầu ra có trước này bằng cách thay đổi các trọng số và các ngưỡng để tạo nên một ánh xạ mà nó có khả năng ánh xạ các đầu vào thành các đầu ra mong muốn cho mục tiêu bài toán Sự thay đổi các trọng số và ngưỡng này được tiến hành nhờ vào

việc so sánh giữa đầu ra thực sự của hệ thống học và đầu ra mong muốn của mình

Cụ thể, tập huấn luyện được thể hiện mối quan hệ giữa thông tin đầu vào và thông tin đầu ra của hệ thống học thường có dạng , , , với là một đầu vào của mô hình và là đầu ra thực tương ứng đã thu thập mà đầu ra của mạng

muốn đạt được sau quá trình học Khi dữ liệu đầu vào được đưa vào hệ thống thì ta thu được đầu ra và được so sánh với các đầu ra đã được thu thập có trước Sai số giữa các đầu ra của mô hình học được sử dụng để điều chỉnh các trọng số và hệ số bias của mô hình sao cho sau quá trình học lặp đi lặp lại mô hình sẽ có đầu ra của mô hình về gần hơn với đầu ra đúng đã có thu thập được Việc kiểm tra tính đúng đắn của mô hình được

sử dụng thông qua tập dữ liệu kiểm thử (test data set) đã được gán nhãn trước Sau đó,

có thể dùng bộ phân lớp để phân lớp cho các dữ liệu

Trang 20

20

Hình 5: Mơ hình của học giám sát

Cĩ hai cách sử dụng tập huấn luyện học, là học lần lượt từng mẫu một cho thành

thạo rồi chuyển sang mẫu khác, hoặc học tất cả các mẫu cùng một lúc cho đến khi thành thạo các mẫu (cĩ thể xem mơ hình học cĩ giám sát ở Hình 5)

Cĩ thể kể đến một số mơ hình học cĩ giám sát như: máy vector hỗ trợ (Support Vector Machine – SVM); K láng giềng gần nhất (K Nearest Neighbours); tiếp cận xác suất

thống kê (Nạve Bayes); Cây quyết định (Decision Tree); mạng nơron (Neural Network);

Việc học cĩ giám sát (Supervised Learning models) là một trong những thành tố quan trọng của hệ thống thơng minh Mục đích của học cĩ giám sát là xây dựng một

mơ hình phân lớp các dữ liệu huấn luyện mà kết quả của việc phân lớp này là một mơ hình được sử dụng để gán nhãn lớp cho các mẫu chưa xác định được nhãn cho các

mẫu dữ liệu mới

Trong mơ hình học giám sát, quá trình học được lặp đi lặp lại đối với các mẫu ở tập

huấn luyện để tạo ra một mơ hình mà cĩ thể sử dụng để phân lớp các mẫu dữ liệu mới Trong bài tốn học giám sát, các mơ hình được xây dựng dựa trên mối quan hệ

giữa Input và Output Mục đích của việc học chính là xác định ánh xạ giữa các biến input và các biến output dựa trên một tập mẫu thể hiện mối quan hệ giữa chúng Các

biến input và output này gọi là tập các thuộc tính của tập dữ liệu Chúng thể hiện mối quan hệ của các giá trị trong thuộc tính phản ánh về đối tượng cần phân lớp Tập các

mẫu thể hiện các đối tượng được gọi là tập huấn luyện Ví dụ như dữ liệu thể hiện ở

bảng dưới mơ tả tập mẫu mà ở đĩ được phân lớp thành Ốm nếu cĩ và

Mơ hình học cĩ giám sát

Hiệu chỉnh Tính sai số

Trang 21

21

Căn cứ vào bộ dữ liệu mẫu để sử dụng phân lớp cho mẫu dữ liệu mới Ví

dụ ta có mẫu dữ liệu mới có giá trị ; và Dựa vào bảng phân lớp

ta có thể kết luận mẫu mới này thuộc về lớp “Ốm”

Trên thực tế, mỗi đối tượng học sẽ sử dụng nhiều kiểu dữ liệu khác nhau như số

thực, số rời rạc, chuỗi thời gian, hình ảnh, Và các biến đầu ra có thể là thể hiện các thông tin phức tạp hơn là ở ví dụ trên với hai giá trị output

Kĩ thuật Logic

Kĩ thuật Logic trong mô hình học có giám sát bao gồm hai kĩ thuật chủ yếu là cây quyết định và phân lớp dựa trên luật (rule-based)

Cây quyết định (Murthy,1998)

Cây quyết định là cây mà phân lớp các mẫu dữ liệu dựa trên việc sắp xếp các dữ

liệu này trên các thuộc tính khóa cần so sánh Mỗi một đỉnh của cây sẽ thể hiện một thuộc tính mà ở đó có sự quyết định phân loại xem sẽ rẽ theo nhánh nào trên cây Các

mẫu sẽ được phân loại bắt đầu từ đỉnh gốc và sắp xếp dựa trên các giá trị thuộc tính Ví

dụ ở Hình 6 dưới đây mô tả cho cây quyết định của tập dữ liệu ở Bảng 1

Thu ộc tính 1

(at1)

Thu ộc tính 2 (at2)

Thu ộc tính 3 (at3)

Thu ộc tính 4 (at4)

Trang 22

22

Bảng 1 Tập dữ liệu huấn luyện cho cây quyết định

Hình 6: Cây quy ết định của tập dữ liệu huấn luyện ở Bảng 1

Bằng cách dùng cây quyết định ở Hình 6, nếu ta có mẫu với các giá trị ( ) thì mẫu sẽ sắp xếp vào các nút , và

cuối cùng là và mô hình sẽ phân mẫu thuộc lớp “Yes”

Để phân loại một mẫu chưa biết, các giá trị thuộc tính của mẫu sẽ được kiểm định trên cây Đường đi từ gốc tới một nút lá cho biết dự đoán lớp đối với mẫu đó Cây quyết định có thể dễ dàng chuyển đổi thành các luật phân loại Với kỹ thuật phân lớp

dựa trên cây quyết định, kết quả của quá trình xây dựng mô hình sẽ cho ra một cây quyết định Cây này được sử dụng trong quá trình phân lớp các đối tượng dữ liệu chưa

biết hoặc đánh giá độ chính xác của mô hình Tương ứng với hai giai đoạn trong quá trình phân lớp là quá trình xây dựng và sử dụng cây quyết định

Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả các mẫu

dữ liệu Sau đó, các mẫu sẽ được phân chia một cách đệ quy dựa vào việc lựa chọn các thuộc tính Nếu các mẫu có cùng một lớp thì nút sẽ trở thành lá, ngược lại ta sử dụng

một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm cơ sở để phân chia các mẫu ra các lớp Theo từng giá trị của thuộc tính vừa chọn, ta tạo ra các nhánh tương ứng và phân chia các mẫu vào các nhánh đã tạo Lặp lại quá trình trên cho tới khi tạo ra được cây quyết định, tất cả các nút triển khai thành lá và được gán nhãn

Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau được thỏa mãn:

1 Tất cả các mẫu thuộc cùng một lớp

Ngày đăng: 13/04/2023, 19:37

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Gujarati, Damodar, Xuân Thành (Biên dịch) and Cao Hào Thi (Hiệu đính), (2009), "Kinh tế lƣợng về chuỗi thời gian - Dự báo với mô hình ARIMA và VAR", Kinh tế lƣợng cơ sở, 3 ed., Chương trình Giảng dạy Kinh tế Fulbright, pp. 2-21.BÀI BÁO Ti ế ng Vi ệ t Sách, tạp chí
Tiêu đề: Kinh tế lƣợng về chuỗi thời gian - Dự báo với mô hình ARIMA và VAR
Tác giả: Gujarati, Damodar, Xuân Thành (Biên dịch) and Cao Hào Thi (Hiệu đính)
Năm: 2009
2. Đặng Công Tâm, Trần Hồng Trang, Dương Minh Đức, (2015), Dự báo thời điểm mua bán chứng khoán kết hợp phương pháp phân đoạn dữ liệu và véc tơ hỗ trợ hồi quy. Tập san Tin học Quản lý, số 1&2, trang 55 -68 Sách, tạp chí
Tiêu đề: Tập san Tin học Quản lý
Tác giả: Đặng Công Tâm, Trần Hồng Trang, Dương Minh Đức
Năm: 2015
5. Phạm Anh Cường và Phạm Văn Hiền, 2011, “Ứng dụng mạng nơron để dự báo phụ tải điện tỉnh Gia Lai,” Tạp chí khoa học và công nghệ, đại học Đà Nẵn g , số 2, pp. 14-19.Ti ế ng Anh Sách, tạp chí
Tiêu đề: Ứng dụng mạng nơron để dự báo phụ tải điện tỉnh Gia Lai,” "Tạp chí khoa học và công nghệ, đại học Đà Nẵng
12. Woon-Seng G. & Kah-Hwa Ng. (2010). Multivariate FOREX Forecasting using Artificial Neural Networks, IEEE Xplore Sách, tạp chí
Tiêu đề: Multivariate FOREX Forecasting using Artificial Neural Networks
Tác giả: Woon-Seng G. & Kah-Hwa Ng
Năm: 2010
3. Giao d ị ch Forex (2017). Th ự c tr ạ ng th ị trườ ng Forex Vi ệ t Nam 2017 Website: https://giaodichforex.net/thuc-trang-thi-truong-forex-viet-nam-2017/ Link
10. Vietnam Retail Banking Forum 2017, web site: http://autoxe.net/doi- song/hyperlogy-gioi-thieu-phan-mem-ung-dung-tri-tue-nhan-tao-vao-cac-ngan-hang-viet.html Link
4. Nguy ễn Đức Cườ ng (2000). T Ổ NG QUAN V Ề KHAI PHÁ D Ữ LI Ệ U . K ỷ Y ế u H ộ i Ngh ị Khoa H ọ c & Công Ngh ệ L ầ n Th ứ 9, ĐH Bách Khoa Tp. HCM, Phân Ban CNTT Khác
1. Cortes, C., Vapnik, V. (1995). Support-vector networks. Machine Learning 20:273-297 Khác
2. Haykin, O.S. (1999). Neural Networks and Learning Machines, 3rd Edition. Pearson Khác
3. Murthy, S.K. (1998). Automatic Construction of Decision Trees from Data: A Multi-Disciplinary Survey. Data Mining and Knowledge Discovery. Vol. 2, 4, pp.345 – 389 Khác
4. Nwokorie, E. C and Nwachukwu, E. O. (2017). A Model for Trading the Foreign Exchange Khác
5. P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. Shearer and R Khác
6. Peter Koning (2017). Artificial Intelligence (AI) for Financial Services. White Paper for Stakeholder Engagement. Website: www.simularity.com Khác
7. Sercan, A., Burc, E., & Adam, G. (2013). Supervised classfication-based stock prediction and portfolio optimization Khác
8. T. Mitchell, Machine Learning and Data Mining, Communications of the ACM, Vol. 42 (1999), No. 11, pp. 30--36 Khác
9. U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurusamy: Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, CA, (1996) Khác
11. WEF (2015). The Future of Financial Services. World Economics Forum 2015 Khác

🧩 Sản phẩm bạn có thể quan tâm

w