Công cụ sử dụng : Ngôn ngữ lập trình: C# Thiết kế, phát triển phần mềm: Ms Visual Studio 2005 Thiết kế CSDL, chạy thuật toán khai phá dữ liệu KPDL: Ms SQL Server 2005 PHẠM VI NGHIÊ
Trang 1LỜI MỞ ĐẦU
LÝ DO CHỌN ĐỀ TÀI
Xu thế hội nhập kinh tế quốc tế và khu vực với sự ra đời của tổ chức thương mại thế giới (WTO), liên minh Châu Âu, các khối thị trường chung; đòi hỏi các quốc gia phải thúc đẩy phát triển kinh tế với tốc độ và hiệu quả cao Thực tế phát triển kinh
tế ở các quốc gia trên thế giới đã khẳng định vai trò quan trọng của thị trường chứng khoán (TTCK) phát triển kinh tế và Việt Nam một nước đang trên đà nước đang phát triển cũng và đang hoạt động thị trường chứng với vai trò quan trọng trong việc phát triển kinh tế
Ở Việt Nam, kể từ khi hoạt động chính thức vào năm 28/7/2000, TTCK đã mang lại cơ hội cũng như rủi ro lớn cho nhà đầu tư Trong những ngày đầu các nhà đầu tư hầu hết không hiểu cách thức chứng khoán hoạt động và hướng phát triển, hầu hết đều đầu tư theo tâm lí đám đông, hoặc bị ảnh hưởng bởi những tin đồn, dẫn đến vô
số trường hợp đáng tiếc, nhiều cá nhân công ty lâm vào cảnh trắng tay vì thiếu kiến thức đầu tư Những năm sau này chứng khoán phát triển,nhà đầu tư cũng am hiểu hơn
và dần chuyên nghiệp hơn trong quá trình đầu tư, kéo theo đó sự phát triển của bộ môn
dự đoán chứng khoán ra đời giúp cho nhà đầu tư có quyết định sáng suốt hơn trong đầu tư, tiêu biểu là ngành phân tích kĩ thuật là một nhánh trong bộ môn dự đoán chứng khoán
Trong xã hội thông tin nói chung và chứng khoán nói riêng ai nắm được nhiều thông tin đều có lợi, vì vậy ngoài những cách thức phân tích truyền thống như định giá công ty, thì hình thức nữa là dựa vào dữ kiện lịch sử để dự đoán bước giá tiếp theo của cổ phiếu[11], hình thức này tốn ít chi phí và nhanh chóng giúp nhà đầu tư có quyết định nhanh nhất Điển hình là những phần mềm như Metastock, Amibroker, VietStock…, các phần mềm này phân tích dữ liệu bằng các thuật toán của bộ môn phân tích kĩ thuật và được thiết kế một cách chuyên nghiệp bởi các công ty lớn và có thu phí Tuy nhiên, các phần mềm như MetaStock lại khó làm quen và sử dụng đòi hỏi kiến thức lớn về phân tích kĩ thuật, hơn nữa các chương trình này đòi hỏi phí sử dụng rất cao
Vì vậy nhóm thực hiện nhận thấy việc thiết kế và xây dựng phần mềm với tiêu chí đơn giản dễ sử dụng những tính năng hiệu quả là cần thiết
Trang 2MỤC TIÊU NGHIÊN CỨU
Xây dựng công cụ hỗ trợ dự đoán và phân tích chứng khoán áp dụng cho
TTCK tại Việt Nam
Đáp ứng các nhu cầu cho các nhà đầu tư những cơ sở phân tích dữ liệu chứng khoán:
Dò tìm và khai phá các quy luật tiềm ẩn về sự biến động giá chứng khoán
Đưa ra các biểu đồ dự báo giá cổ phiếu cho các nhà đầu tư nhà đầu tư
Tìm ra những tương tác giữa các thành phần trong dữ liệu chứng khoán lịch sử
để đưa ra quyết định
PHƯƠNG PHÁP NGHIÊN CỨU
Bước 1: Khảo sát thực tế hiện trạng TTCK tại Việt Nam tìm ra các nhu cầu mà các nhà đầu tư chứng khoán cần
Bước 2: Khảo sát, tìm hiểu và thu thập đầy đủ thông tin về các vấn đề cần giải quyết bao gồm các phương pháp và các phần mềm liên quan
Bước 3: Tận dụng các dữ liệu đã có sẵn từ nguồn cơ sở dữ liệu (CSDL) chứng khoán để xây dựng CSDL sử dụng cho chương trình
Bước 4: Lựa chọn và kế thừa các phương pháp phù hợp với nội dung cần giải quyết
Bước 5: Lập trình xử lý tạo ra ứng dụng
Công cụ sử dụng :
Ngôn ngữ lập trình: C#
Thiết kế, phát triển phần mềm: Ms Visual Studio 2005
Thiết kế CSDL, chạy thuật toán khai phá dữ liệu (KPDL): Ms SQL Server 2005
PHẠM VI NGHIÊN CỨU
Nội dung nghiên cứu của đề tài tập trung giải quyết các vấn đề chính sau:
Tổng quan về các phương pháp phân tích, dự báo chứng khoán hiện nay
Cơ sở lý thuyết tổng quan về KPDL – Data Mining
Xây dựng phần mềm hỗ trợ phân tích, dự báo chứng khoán với ứng dụng KPDL, sử dụng ba phương pháp chính:
Khai phá luật kết hợp (Association Rule Discovery)
Trang 3 Chuỗi thời gian (Time serial)
Cây quyết định (Decision Tree) Nhóm thực hiện đề tài giới hạn chương trình gồm 2 phần:
Phần xử lý dữ liệu bằng thuật toán trên server
Lọc kết quả trên client cho người dùng
TÍNH MỚI CỦA ĐỀ TÀI
Xây dựng một công cụ hỗ trợ dự đoán chứng khoán bằng cách áp dụng các phương pháp KPDL (Data Mining) để tìm ra qui luật biến động giá, dự báo giá cổ phiếu tương lai
KẾT CẤU CỦA ĐỀ TÀI
Luận văn này được trình bày thành ba phần chính: phần mở đầu, phần nội dung
và phần kết luận
LỜI MỞ ĐẦU
Giới thiệu sơ lược về lý do chọn đề tài, lịch sử nghiên cứu, mục tiêu nghiên cứu, đối tượng và phạm vi nghiên cứu, phương pháp nghiên cứu, những đóng góp và những vấn đề tồn tại của đề tài để từ đó đem lại cho mọi người một cái nhìn tổng quan nhất về đề tài
CHƯƠNG 1: THỰC TRẠNG
Nêu những thực trạng các phần mềm hiện có trên thị trường, ứng dụng vào các vấn đề còn tồn tại từ đó đưa ra các giải pháp cần thực hiện
CHƯƠNG 2: CƠ SỞ LÝ LUẬN
Trình bày về các khái niệm chứng khoán, cách thức qui trình tham gia giao dịch chứng khoán, các phương pháp phân tích TTCK đáp ứng nhu cầu cho
nhà đầu tư đánh giá và quyết định tham gia giao dịch
Trình bày các khái niệm KPDL, các ứng dụng, qui trình xử lý khai thác
dữ liệu, các lợi thế và thách thức đối với KPDL
Từ các phương pháp khai thác dữ liệu khác nhau và chọn các phương pháp phù hợp với dự liệu chứng khoán mà chúng ta cần tìm ra qui luật gì Từ đó phân tích bài toán chứng khoán dựa vào phương pháp KPDL để xây dựng công
cụ hỗ trợ dự đoán chứng khoán
CHƯƠNG 3: GIẢI PHÁP HOÀN THIỆN
Trang 4Trình bày các cách thức thu thập dữ liệu chứng khoán, thành phần và ý nghĩa của dữ liệu, xử lý dữ liệu thu thập được và lưu trữ CSDL
Trình bày thành phần dữ liệu, các sơ đồ chức năng chương trình, các mô
Trang 5VietstockTrader là chương trình do công ty cổ phần Tài Việt xây dựng
và phát triển, chương trình cung cấp cho người dùng nhiều tính năng như:
Trader : nó bao gồm các thông tin liên quan để hỗ trợ quá trình giao dịch
Fundamental: gồm các thông tin liên quan đến doanh nghiệp niêm yết và thị trường
News: gồm tin tức TTCK trong và ngoài nước
Research: các bài báo cáo phân tích, nhận định thị trường của Vietstock
Hình 1.1: Giao diện phần mềm VietstockTrader
Trang 61.2.2, Các phần mềm nước ngoài
1.2.2.1, Amibroker
Là một chương trình dự đoán phân tích chứng khoán tích hợp các tính năng trên một giao diện duy nhất nên sử dụng tiện lợi và nhanh chóng, hỗ trợ giao diện tab nên có thể thực hiện nhiều kiểu phân tích cho nhiều cổ phiếu một cách dễ dàng
Hình 1.2: Giao diện phần mềm AmiBroker
1.2.2.2, Metastock
Metastock là phần mềm hiện đang rất phổ biến cho các nhà đầu tư, chương trình có nhiều tính năng khá phong phú, nguồn dữ liệu được cập nhật online dễ dàng từ các website
Một số chức năng của Metastock:
Vẽ biểu đồ và các chỉ số
Chức năng Explorer: tìm những cổ phiếu có tín hiệu mua hay bán
Chức năng Test System: kiểm tra tính hợp lí của hệ thống, công thức, tín hiệu mua và bán của cổ phiếu
Chức năng Inditor: tạo công thức phân tích của mỗi người
Chức năng Expert: đưa ra lời khuyên mua hay bán cổ phiếu
Trang 7Hình 1.3: Giao diện phần mềm MetaStock
1.2.3, Ưu, nhược điểm các chương trình trên
Các phần trên đa số đều có rất nhiều tính năng đa dạng về hỗ trợ dự báo chứng khoán, dữ liệu chứng khoán hằng ngày được cập nhật tự động và đã được xử lý để sử dụng
Do có nhiều tính năng phức tạp nên người dùng phải bỏ một khoảng thời gian để tìm hiểu sử dụng, ngoài ra các phần mềm này để được sử dụng hết các tính năng nhà đầu tư phải trả chi phí khá cao
1.3 KẾT LUẬN CHƯƠNG 1
Từ thực trạng trên cho thấy những phần mềm hiện nay có nhiều tính năng rất tốt trong việc dự đoán phân tích chứng khoán, tuy nhiên việc sử dụng những phần mềm này đối với những nhà đầu tư mới gặp nhiều khó khăn Việc nghiên cứu đề tài này nhằm xây dựng một công cụ hỗ trợ dự báo chứng khoán đơn giản thân thiện phía người dùng
Trang 8CHƯƠNG 2: CƠ SỞ LÝ LUẬN
2.1 TỔNG QUAN THỊ TRƯỜNG CHỨNG KHOÁN VÀ CÁC PHƯƠNG PHÁP PHÂN TÍCH
2.1.1, Khái niệm chứng khoán[1]
Là thuật ngữ về chứng chỉ hoặc bút toán ghi sổ, xác nhận quyền lợi ích hợp pháp của người sở hữu chứng khoán đối với vốn hoặc tài sản của tổ chức phát hành
o Cổ phiếu gồm : Cổ phiếu ưu đãi và cổ phiếu thông thường
Trái phiếu: Là một loại chứng khoán, được phát hành dưới hình thức chứng chỉ hoặc bút toán ghi sổ, xác nhận nghĩa vụ hoàn trả nợ đúng hạn
cả vốn và lãi của chủ thể phát hành đối với người sở hữu chứng khoán
Đặc điểm :
o Có ấn định mệnh giá
o Có thời hạn
o Có quy định lãi suất và thời hạn trả lãi
So sánh cổ phiếu, trái phiếu:
Không hoàn vốn Không ấn định lãi Quyền làm chủ
Chứng khoán nợ có thời hạn hoàn vốn
Ấn định lãi suất chỉ là chủ nợ nhà nước, doanh nghiệp
Huy động vốn tạm thời
Bảng 2.1: So sánh cổ phiếu, trái phiếu
Trang 92.1.2, Tham gia thị trường chứng khoán
Hình 2.1: Các bước tham gia giao dịch TTCK
Bản cáo bạch :
Khi phát hành chứng khoán ra công chúng, công ty phát hành phải công bố cho người mua chứng khoán những thông tin về bản thân công ty, nêu rõ những cam kết của công ty và những quyền lợi cơ bản của người mua chứng khoán để trên cơ sở đó người đầu tư có thể ra quyết định đầu tư hay không Tài liệu phục vụ cho mục đích đó gọi là bản cáo bạch hay bản công bố thông tin
Chỉ số chứng khoán : Gồm có 2 chỉ số chính
Chỉ số Nasdaq 100: Nasdaq 100 (AMEX: QQQ)
Chỉ số trung bình DOW JONES (DJIA)
Giao dịch chứng khoán
Mua trực tiếp tại tổ chức phát hành (công ty): nhà đầu tư phải đăng ký mua và nộp tiền trực tiếp tại tổ chức phát hành chứng khoán Hình thức này rất bất cập, nhất là về mặt địa lý
Mua thông qua trung gian: tức là mua thông qua các nhà đại lý hoặc bảo lãnh phát hành, thông thường là các công ty chứng khoán
Trang 10và các ngân hàng thương mại Nếu bạn mua chứng khoán của tổ chức phát hành chưa niêm yết trên trung tâm giao dịch chứng khoán thì việc chuyển nhượng hoặc bán lại chứng khoán đó cho người khác hiện nay gặp nhiều khó khăn vì không dễ tìm được người mua và bạn cũng phải trực tiếp đến tổ chức phát hành (hoặc uỷ quyền) để thực hiện chuyển nhượng cho người mua
Hình 2.2: Quy trình giao dịch chứng khoán niêm yết tại trung tâm giao dịch
Thuật ngữ HOSE , HNX , VN Index , HASTC Index
HOSE (Ho Chi Minh Stock Exchange): là một đơn vị trực thuộc
ủy ban chứng khoán nhà nước và quản lý hệ thống giao dịch chứng khoán niêm yết của Việt Nam
Vn-index là chỉ số giá cổ phiếu trong một thời gian nhất định (phiên giao dịch, ngày giao dịch) của các công ty niêm yết tại trung tâm này
HNX (Hanoi Stock Exchange): được tổ chức nhằm mục đích đấu giá cổ phần cho các doanh nghiệp, đấu thầu trái phiếu chính phủ,
tổ chức giao dịch chứng khoán theo cơ chế đăng ký giao dịch
HASTC Index là chỉ số giá cổ phiếu trong một thời gian nhất định (phiên giao dịch, ngày giao dịch) của các công ty niêm yết tại trung tâm này
Trang 112.1.3, Các phương pháp phân tích chứng khoán
2.1.3.1, Phương pháp phân tích cơ bản [10]
Là phương pháp phân tích cổ phiếu dựa vào các nhân tố mang tính chất nền tảng có tác động hoặc dẫn tới sự thay đổi giá cả của cổ phiếu nhằm chỉ ra giá trị nội tại (Intrinsic value) của cổ phiếu trên thị trường
Các nhân tố cơ bản cần nghiên cứu bao gồm: phân tích thông tin
cơ bản về công ty, phân tích báo cáo tài chính của công ty; phân tích hoạt động kinh doanh của công ty, phân tích ngành mà công ty đang hoạt động, và phân tích các điều kiện kinh tế vĩ mô ảnh hưởng chung đến giá
cả cổ phiếu Sau khi nghiên cứu, nhà phân tích có nhiệm vụ phải chỉ ra được những dự đoán cho những chỉ tiêu quan trọng như thu nhập kỳ vọng, giá trị sổ sách trên mỗi cổ phiếu, giá trị hợp lý của cổ phiếu, các đánh giá quan trọng cũng như khuyến nghị mua hay bán cổ phiếu trên thị trường
Cụ thể, các nhân tố cần chú trọng trong phân tích cơ bản về cổ phiếu là:
Hoạt động kinh doanh của công ty
Mục tiêu và nhiệm vụ của công ty
Khả năng lợi nhuận (hiện tại và ước đoán)
Nhu cầu đối với sản phẩm và dịch vụ của công ty
Sức ép cạnh tranh và chính sách giá cả
Kết quả sản xuất kinh doanh theo thời gian
Kết quả sản xuất kinh doanh so sánh với công ty tương tự
Trang 12 Phân tích các điều kiện kinh tế vĩ mô
Phân tích thị trường tài chính - chứng khoán
Phân tích ngành mà công ty đang hoạt động
Phân tích công ty
Phân tích cổ phiếu Trong thực tế, tùy vào mục tiêu và khả năng phân tích mà nhà phân tích có thể sử dụng một trong năm mức độ phân tích nêu trên Ví
dụ, trong phân tích về công ty, ta có thể sử dụng phương pháp phân tích phi tài chính, đó là đánh giá về bộ máy quản lý doanh nghiệp, về nguồn nhân lực, khả năng phát triển sản phẩm mới, thị trường và thị phần, khả năng cạnh tranh Cũng trong phân tích công ty, nhà phân tích có thể sử dụng cách tiếp cận thường được gọi là phương pháp SWOT, với việc xác định và đánh giá tập trung vào 4 khía cạnh sau của công ty:
Điểm mạnh (Strengths)
Điểm yếu (Weaknesses)
Cơ hội (Opportunities)
Thách thức (Threats) Một cách phân tích nhanh về cổ phiếu, nhà đầu tư có thể phân loại
cổ phiếu thành 6 loại cơ bản dựa trên tính chất thu nhập mà nó mang lại là: cổ phiếu hàng đầu (blue-chips), cổ phiếu tăng trưởng (ổn định và bùng nổ), cổ phiếu phòng vệ, cổ phiếu chu kỳ, cổ phiếu thời vụ
Riêng trong mức độ cốt lõi nhất và cũng khó khăn nhất là phân tích cổ phiếu, bản chất của phương pháp phân tích cơ bản ở đây là việc định giá cổ phiếu nhằm dự đoán giá trị nội tại của cổ phiếu đó Với mục tiêu này, thông thường có 5 phương pháp định giá cổ phiếu là:
Phương pháp định giá dựa trên luồng cổ tức
Phương pháp định giá dựa trên luồng tiền
Phương pháp định giá dựa trên hệ số P/E
Phương pháp dựa trên các hệ số tài chính
Phương pháp định giá dựa trên tài sản ròng
Trang 132.1.3.2, Phương pháp phân tích kĩ thuật
Những khái niệm ban đầu về phân tích kĩ thuật
Phân tích kỹ thuật là sự nghiên cứu biến động của thị trường, chủ yếu thông qua việc sử dụng các đồ thị nhằm mục đích dự đoán các xu thế biến động của giá trong tương lai
Bốn điểm cơ bản về phân tích kỹ thuật:
Giá trị thị trường của một chứng khoán được xác định duy nhất thông qua tác động qua lại giữa cung và cầu
Cung và cầu chịu ảnh hưởng, ở bất kì thời điểm nào, bởi hàng trăm những yếu tố, một số là ảnh hưởng hợp lý, một số hầu như phi lý Thông tin, ý kiến, tâm lý, dự đoán,…(có thể đúng,
có thể sai,…) về tương lai kết hợp và trộn lẫn với nhau và với những yếu tố cần thiết khác để tạo thành sự cân bằng chung của toàn thị trường Không một cá nhân nào có thể nắm lấy
và định lượng những điều này mà thị trường sẽ tự thực hiện
Bỏ qua những dao động nhỏ thì giá nhìn chung sẽ vận động theo những xu thế giá chung của thị trường, những xu thế này
là ổn định trong một khoảng thời gian tương đối dài
Những thay đổi trong xu thế thị trường thể hiện qua sự dịch chuyển của điểm cân bằng cung cầu dù là vì bất kì nguyên nhân nào đều có thể xác định sớm hơn hoặc muộn hơn thời điểm thị trường biến động
Có 3 giả định làm cơ sở cho việc tiếp cận phân tích kỹ thuật:
có khả năng ảnh hưởng đến giá như tâm lý, chính trị hay các yếu tố tài
Trang 14chính của doanh nghiệp, tổ chức đều được phản ánh rõ trong giá thị trường Do đó có người cho rằng việc nghiên cứu biến động của giá là tất cả những gì ta cần và thực sự không thể phản đối lại ý kiến này
Trên cơ sở nhận thức chung về việc giá phản ánh những biến động trong cung, cầu Các nhà Phân tích kỹ thuật chỉ ra rằng khi giá tăng dù vì bất kì lý do gì thì cầu phải vượt cung và thị trường tăng giá Chúng ta cũng đều biết và đồng ý rằng động lực chính của cung và cầu
là những yếu tố kinh tế căn bản, còn đồ thị thì không tự nó làm cho thị trường dịch chuyển lên hay xuống Đồ thị chỉ có thể phản ánh tình hình thị trường mà thôi
Giá vận động theo xu thế
Khái niệm về xu thế là khái niệm vô cùng quan trọng trong phân tích kỹ thuật do đó cần hiểu kĩ về giả định này trước khi muốn tìm hiểu sâu thêm về nó Mục đích của việc xác lập đồ thị mô tả những biến động giá trên thị trường là nhằm xác định được sớm những xu thế giá, từ đó sẽ tham gia giao dịch trên cơ sở những xu thế này Trên thực tế những kĩ thuật ở đây đều mang tính lặp lại những xu thế giá có từ trước tức là mục đích của phân tích kỹ thuật là nhằm xác định sự lặplại của những dạng biến động của giá đã xuất hiện trong quá khứ để có thể tận dụng kinh nghiệm và đưa ra những quyết định phù hợp
Từ giả định này chúng ta còn có một hệ quả là “một xu thế giá đang vận động sẽ tiếp tục theo xu thế của nó và ít khi có đảo chiều” Hệ quả này rút ra từ định luật 1 về sự vận động của Newton, do đó nó cách phát biểu khác như sau: "một xu thế đang vận động sẽ tiếp tục theo xu thế của nó cho đến khi nó đảo chiều” Nhìn chung tất cả những nghiên cứu nhằm tiếp cận theo các xu thế đều nhằm để đi theo những xu thế giá hiện tại cho đến khi có dấu hiệu đảo chiều
Lịch sử sẽ tự lặp lại
Phần lớn nội dung của phân tích kỹ thuật và việc nghiên cứu biến động thị trường đều phải nhằm vào nghiên cứu tâm lý con người Chẳng hạn như những mô hình giá, những mô hình này đã được xác định và chứng minh từ hơn 100 năm nay, chúng giống như những bức
Trang 15tranh về đồ thị biến động giá Những bức tranh này chỉ ra tâm lý của thị trường đang là lên giá hay xuống giá Việc áp dụng những mô hình này
đã phát huy hiệu quả trong quá khứ và được giả định rằng sẽ vẫn tiếp tục
có hiệu quả trong tương lai bởi chúng dựa trên phân tích nghiên cứu tâm
lý con người mà tâm lý con người thì thường không thay đổi Như thế giả định này có thể được phát biểu là : “Chìa khóa để nắm bắt tương lai nằm trong việc nghiên cứu quá khứ” hay “tương lai chỉ là sự lặp lại của quá khứ”
Các khái niệm và công cụ cơ bản sử dụng trong quá trình phân tích kỹ thuật
Biểu đồ là công cụ được các nhà đầu tư chứng khoán lựa chọn để phân tích kỹ thuật
Có 3 loại biểu đồ được dùng phổ biến nhất là:
Biểu đồ dạng đường (Line chart)
Biểu đồ dạng then chắn (Bar chart)
Biểu đồ dạng ống (Candlestick chart)
Biểu đồ dạng đường (Line chart)
Dạng biểu đồ này từ trước tới nay thường được sử dụng trên TTCK, và cũng là loại biểu đồ được dùng một cách phổ biến nhất trong các ngành khoa học khác dùng để mô phỏng các hiện tượng kinh
tế và xã hội…và nó cũng là loại biểu đồ được con người dùng trong thời gian lâu dài nhất Nhưng hiện nay trên thị trường chứng khoán
do khoa học kỹ thuật phát triển, diễn biến của thị trường chứng khoán ngày càng phức tạp cho nên loại biểu đồ này ngày càng ít được sử dụng nhất là trên các TTCK hiện đại Hiện nay nó chủ yếu được sử dụng trên các thị trường chứng khoán mới đi vào hoạt động trong thời gian ngắn, khớp lệnh theo phương pháp khớp lệnh định kỳ theo từng phiên hoặc nhiều lần trong một phiên nhưng mức độ giao dịch chưa thể đạt được như TTCK dùng phương pháp khớp lệnh liên tục.Ưu điểm của loại biểu đồ này là dễ sử dụng, lý do chính là vì nó được sử dụng trên tất cả các thị trường chứng khoán trên khắp thế giới từ trước tới nay Hiện nay loại biểu đồ này ít được sử dụng để phân tích
Trang 16trên các TTCK hiện đại vì các TTCK hiện đại ngày nay thường diễn biến khá phức tạp, mức độ dao động trong thời gian ngắn với độ lệch khá cao, nếu dùng loại biểu đồ này để phân tích thì thường mang lại hiệu quả thấp trong phân tích
Biểu đồ dạng then chắn (Bar chart)
Trên các TTCK hiện đại trên thế giới hiện nay các chuyên viên phân tích thường dùng loại biểu đồ này trong phân tích là chủ yếu lý do chính vì tính ưu việt của nó đó là sự phản ánh rõ nét sự biến động của giá chứng khoán Hai kí tự mà dạng biểu đồ này sử dụng đó là:
Hình 2.3: Biến động giá chứng khoán kiểu biểu đồ then chắn
Loại biểu đồ này thường được áp dụng để phân tích trên các thị trường chứng khoán hiện đại khớp lệnh theo hình thức khớp lệnh liên tục, độ dao động của giá chứng khoán trong một phiên giao dịch là tương đối lớn
Biểu đồ dạng ống (Candlestick chart)
Đây là dạng biểu đồ cải tiến của biểu đồ dạng then chắn (Bar chart), nó được người Nhật Bản khám phá và áp dụng trên TTCK của họ đầu tiên Giờ đây nó đang dần được phổ biến hầu hết trên các TTCK hiện đại trên toàn thế giới Dạng biểu đồ này phản ánh rõ nét nhất về sự biến động của giá chứng khoán trên thị trường chứng khoán khớp lệnh theo hình thức khớp lệnh định kỳ
Hai kí tự mà loại biểu đồ này sử dụng là:
Trang 17Hình 2.4: Giá khớp lệnh biến động cùa biểu đồ ống
Một trong những hiệu quả cơ bản của dạng biểu đồ này khiến cho người sử dụng ưa thích là khả năng biểu đạt nhiều thông số bằng chính hình vẽ Chẳng hạn, thông qua màu ta có thể biết tình hình chung thị trường, thông qua độ dài thân, độ dài các bấc, ta có thể biết tình hình giá giao dịch Ngoài ra dạng biểu đồ này cũng có thể áp dụng cho mọi loại biểu đồ: liên tục và định kỳ, theo phút, hàng ngày hoặc hàng tháng Những biến dạng khác nhau của mỗi cây nến phản ánh những đặc trưng khác nhau của tình hình thị trường Chẳng hạn biểu đồ dạng Doji (phiên âm từ do-gee) có dạng như ô tròn mình khoanh thêm.Với dạng biểu đồ này, giá đóng cửa trùng với giá mở cửa, do đó mà ta sẽ hầu như không thấy thân nến mà chỉ thấy bấc nến ở đây cũng sẽ có trường hợp giá mở cửa bằng giá đóng cửa và bằng giá thấp nhất hoặc cao nhất trong ngày
2.2 TỒNG QUAN VỀ KHAI PHÁ DỮ LIỆU
2.2.1, Khái niệm về khai phá dữ liệu
Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập
kỷ 80 [7] Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, KPDL liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu
Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong CSDL (Knowledge Discovery and Data Mining-KDD)
để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn
Trang 18Trong đó, KPDL là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu
2.2.2, Các ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được ứng dụng rất thành công trong “CSDL thị trường” (database marketing), đây là một phương pháp phân tích CSDL khách hàng, tìm kiếm các mẫu trong số các khách hàng và sử dụng các mẫu này để lựa chọn các khách hàng trong tương lai Tạp chí Business Week của Mỹ đã đánh giá hơn 50% các nhà bán lẻ đang và có ý định sử dụng “CSDL thị trường” cho hoạt động kinh doanh của họ (Berry 1994) Kết quả ứng dụng cho thấy số lượng thẻ tín dụng American Express bán ra đã tăng 15% - 20% (Berry 1994) Các ứng dụng khác của KPDL trong kinh doanh như phân tích chứng khoán và các văn kiện tài chính; phân tích và báo cáo những thay đổi trong dữ liệu, bao gồm Coverstory của IRI (Schmitz, Armstrong, & Little 1990), Spotlight của A.C Nielsen (nand & Kahn 1992) đối với các dữ liệu bán hàng trong siêu thị, KEFIR của GTE cho CSDL y tế (Matheus, Piatetsky-Shapiro, & McNeil); phát hiện và phòng chống gian lận cũng thường là bài toán của KPDL và phát hiện tri thức Ví dụ như hệ thống phát hiện gian lận trong dịch vụ y tế đã được Major
và Riedinger phát triển tại Travelers insurance năm 1992 Internal Revenue Service đã phát triển một hệ thống chọn thuế thu để kiểm toán Nestor FDS (Blanchard 1994) được phát triển dựa trên mạng neuron để phát hiện ra gian lận trong thẻ tín dụng
Thiên văn học: Hệ thống SKICAT do JPL/Caltech phát triển được sử dụng cho các nhà thiên văn để tự động xác định các vì sao và các dải thiên hà trong một bản khảo sát lớn để có thể phân tích và phân loại (Fayyad, Djorgovski, & Weir)
Phân tử sinh học: Hệ thống tìm kiếm các mẫu trong cấu trúc phân tử (Conklin, Fortier, và Glasgow 1993) và trong các dữ liệu gen (Holder, Cook, và Djoko 1994)
Mô hình hóa những thay đổi thời tiết: các mẫu không thời gian như lốc, gió xoáy được tự động tìm thấy trong các tập lớn dữ liệu mô phỏng và quan sát được (Stolorz et al 1994) Các ứng dụng của khai phá dữ liệu trong khoa học cũng được phát triển:
Trang 19 Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support)
Điều trị y học (medical treatment)
Text mining & Web mining
Tài chính và TTCK (finance & stock market)
Bảo hiểm (insurance)
Nhận dạng (pattern recognition)
2.2.3, Tiến trình thực hiện của khai phá dữ liệu
Hình 2.5: Quá trình xử lý khai phá dữ liệu
Quá trình xử lý KPDL bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật KPDL có thể hiểu được Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v…
Có thể tóm tắt các bươc thực hiện như sau:
Làm sạch dữ liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu không nhất quán
Tích hợp dữ liệu (Data Intergation): Dữ liệu của nhiều nguồn có thể được tổ hợp lại
Trang 20 Lựa chọn dữ liệu (Data Selection): Lựa chọn những dữ liệu phù hợp với nhiệm vụ phân tích trích rút từ CSDL
Chuyển đổi dữ liệu (Data Transformation): Dữ liệu được chuyển đổi hay được hợp nhất về dạng thích hợp cho việc khai phá
Khai phá dữ liệu (Data Mining): Đây là một tiến trình cốt yếu trong đó các phương pháp thông minh được áp dụng nhằm trích rút ra mẫu dữ liệu
Đánh giá mẫu (Pattern Evaluation): Dựa trên một độ đo nào đó xác định lợi ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức
Biểu diễn tri thức (Knowledge Presentation): Ở giai đoạn này các kỹ thuật biểu diễn và hiển thị được sử dụng để đưa tri thức lấy ra cho người dùng
Hình 2.6: Quá trình phát hiện tri thức
2.2.4, Các phương pháp khai phá dữ liệu
2.2.4.1, Một số phương pháp khai thác dữ liệu phổ biến
Phương pháp quy nạp (Induction)
Trang 21Một CSDL là một kho thông tin nhưng các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp :
Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin trong CSDL Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật suy diễn
Phương pháp quy nạp: phương pháp quy nạp suy ra các thông tin được sinh ra từ CSDL Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu với các tri thức đã biết trước Các thông tin mà phương pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong CSDL Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL
Trong KPDL, quy nạp được sử dụng trong cây quyết định và tạo luật
Cây quyết định và luật
Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với các giá trị của thuộc tính của đối tượng tới lá
Hình 2.7: Mẫu kết quả với phương pháp cây quyết định
Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê Các luật có dạng „nếu P thì Q‟, với P là mệnh
đề đúng với một phần trong CSDL, Q là mệnh đề dự đoán
Trang 22Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suy diễn khá dễ hiểu đối với người sử dụng Tuy nhiên, giới hạn của nó là
mô tả cây và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ chính xác của mô hình
Phát hiện các luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần
dữ liệu trong CSDL Mẫu đầu ra của giải thuật KPDL là tập luật kết hợp tìm được
Các phương pháp phân lớp và hồi quy phi tuyến
Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm cho các kết hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sigmoid, hàm spline (hàm mành), hàm đa thức) phù hợp với các kết hợp của các giá trị biến vào Các phương pháp thuộc loại này như mạng neuron truyền thẳng, phương pháp mành thích nghi, v.v… (Friedman 1989, Cheng & Titterington
1994, Elder & Pregibon)
Phân nhóm và phân đoạn (clustering and segmentation)
Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó Mối quan hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm
Mẫu đầu ra của quá trình KPDL sử dụng kỹ thuật này là các tập mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ CSDL Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu ở dạng dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công việc phân tích Đối với CSDL lớn, việc lấy ra các nhóm này là rất quan trọng
Các phương pháp dựa trên mẫu
Sử dụng các mẫu mô tả từ CSDL để tạo nên một mô hình dự đoán các mẫu mới bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong mô hình Các kỹ thuật bao gồm phân lớp theo láng giềng gần nhất, các