Nội dung chính Giới thiệu Các nghiên cứu liên quan Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Tweeter Kết luận Định hướng nghiên cứu... 2009, Schumaker
Trang 1Học viên: Phạm Huyền Trang
GV hướng dẫn: PGS TS Hà Quang Thụy
Dự báo thị trường chứng khoán dựa trên
khai phá dữ liệu Tweeter
Trang 2Nội dung chính
Giới thiệu
Các nghiên cứu liên quan
Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Tweeter
Kết luận
Định hướng nghiên cứu
Trang 3Bài toán dự báo thị trường chứng khoán
Bài toán dự báo thị trường chứng khoán dựa trên Tweeter
Trang 4Nguyên lý Bước đi ngẫu
nhiên (Walk random)
và giả thuyết Thị trường
hiệu quả (Efficient Market)
-Không thể dự đoán thị
trường chứng khoán
Lý thuyết phân tích
cổ phiếu (Chartist theory)
- Có thể dự đoán được dựa vào quá khứ
Có thực sự dự đoán được thị trường
chứng khoán?
Có thực sự dự đoán được thị trường
chứng khoán?
Trang 5Các nghiên cứu liên quan
2005, Gruhl và cộng sự đã nghiên cứu cách làm thế nào để hoạt
động chat online có thể dự đoán được việc bán sách
2006, Mishne và Rijke sử dụng các đánh giá của các quan điểm
được thể hiện trên blog để dự đoán việc bán phim
2007, Liu và cộng sự dự đoán việc bán các sản phẩm sử dụng mô hình phân tích ngữ nghĩa ẩn xác suất (PLSA) để trích xuất các chỉ
sổ của quan điểm từ các blog
2009, Schumaker và Chen điều tra mối quan hệ giữa các tin tức về công ty phá sản với sự thay đổi về giá cả trong thị trường
2010, Asur và Huberman chỉ ra rằng những quan điểm liên quan đến các phim được thể hiện công khai trên Tweeter thực sự có thể
dự đoán được doanh thu phòng vé
Gần đây, 2011, Johan Bollen và công sự đã có nghiên cứu chỉ ra rằng có thể dự đoán thị trường chứng khoán dựa trên các Tweet của các công ty trong thị trường chứng khoán, với độ chính xác lên đến
> 85%
Trang 6Dự báo thị trường chứng khoán
Giả thuyết: Tâm trạng, cảm xúc có thể ảnh hưởng đến giá trị
chứng khoán tương đương với việc các tin tức ảnh hưởng đến thị trường chứng khoán
Bài toán dự báo thị trường chứng khoán chia thành 2 loại:
Dự báo chỉ số chứng khoán sẽ tăng hay giảm
Dự báo chỉ số chứng khoán sẽ tăng lên bao nhiêu hoặc giảm xuống bao nhiêu
Ý nghĩa của bài toán:
Giúp các nhà đầu tư đưa ra được các quyết định đầu tư tức thời =>
Trang 7Dự báo thị trường chứng khoán dựa trên Tweeter
Cộng đồng sử dụng và chia sẻ trạng thái của mình trên Twitter cho biết họ đang cảm thấy như thế nào về ngày hôm đó
dẫn dắt các quyết định mua bán trên thị trường
ảnh hưởng đến giá cả trong thị trường chứng khoán
Có thể dự đoán được chỉ số chứng khoán dựa trên
Tweeter
Trang 8Tại sao chọn Tweeter?
Có thể trích xuất các nội dung tweet để đánh giá được tâm trạng của công chúng trực tiếp, theo thời gian thực một cách nhanh chóng và tiết kiệm
=> Phù hợp đáp ứng cho sự biến động, tăng giảm của chỉ
Trang 9Phương pháp dự báo thị trường chứng khoán dựa trên Tweeter của
Johan Bollen và cộng sự
Các bước
Ưu và nhược điểm
Trang 10Dữ liệu
Nguồn dữ liệu:
9.83.498 Tweet trên trang Tweeter, được post bởi gần 2.7 triệu người dùng trong các công ty trong thị trường DJIA
Các thông tin trích xuất trong mỗi tweet gồm:
Thông tin xác định tweet
Ngày submit
Kiểu submit
Nội dung (không quá 140 ký tự)
Thời gian: 28/2/2008 – 19/12/2008
Các bước chuẩn bị dữ liệu:
Loại bỏ từ dừng, dấu chấm câu
Nhóm các tweet được submit trên cùng ngày vào 1 nhóm
Chú ý:
Chỉ quan tâm những tweet chứa tâm trạng rõ ràng của tác giả
Trang 11Các bước
Phân tích cảm
xúc người dùng
Đo độ trễ cảm xúc
Dự đoán giá cổ phiếu
Trang 12Bước 1: Sinh chuỗi thời gian cảm
xúc (OF và GPOMS)
OpinionFinder:
Phân tích quan điểm ở mức câu
Đo cảm xúc của người dùng: tích cực hay tiêu cực
Xác định tỉ lệ tweet tích cực so với tweet tiêu cực mỗi ngày
GPOMS:
Đo cảm xúc của người dùng trên 6 chiều khác nhau:
Calm, Alert, Sure, Vital, Kind, Happy
Trang 13Bước 2: Đánh giá OF và GPOMS
Trang 14Bước 2: Đánh giá OF và GPOMS – hồi quy đa biến
Trang 15Vây, các sự kiện văn hóa, xã hội có tác động lên cảm xúc, tâm trạng của cộng đồng.
Có thể đoán được cảm xúc của cộng đồng thông qua các tweet của mỗi cá nhân trên Tweeter
Câu hỏi đặt ra: Những tâm trạng, cảm xúc đó liên quan
gì đến sự thay đổi trong thị trường chứng khoán, cụ thể
là chỉ số DJIA?
Trang 16Bước 3: Phân tích mối quan hệ nhân quả giữa tâm trạng và giá DJIA
Giả thuyết: Nếu 1 biến X gây ra Y thì những thay đổi
trong X sẽ xuất hiện 1 cách hệ thống trước những thay
Nếu người dùng có cảm nhận tích cực về mã chứng khoán của 1 công ty thì trong 1 ngày nào đó trong tương lai, giá cổ phiếu của công ty đó sẽ tăng, và ngược lại
Trang 17Bước 3: Phân tích mối quan hệ nhân quả giữa tâm trạng và giá DJIA (cont.)
Trang 18Bước 3: Phân tích mối quan hệ nhân quả giữa tâm trạng và giá DJIA (cont.)
Ý nghĩa:
Đo độ trễ cảm xúc so với chứng khoán, tức là nên đo cảm xúc của ngày thứ bao nhiêu ( i – n) để dự đoán giá chứng khoán ngày i (tác giả chọn giá trị này là 3 ngày))
Giá trị p-values < 0.05
=> Bác bỏ giả thuyết null: chuỗi tâm trạng của người dùng không thể dự đoán được giá trị DJIA
Trang 19Bước 4: Dự đoán thị trường chứng khoán
Sử dụng mô hình Self-organizing Fuzzy neural
Network(SOFNN) để dự đoán giá trị DJIA trên 2 tập đầu vào:
Giá trị DJIA 3 ngày trước
Các hoán vị khác nhau của chuỗi cảm xúc
Để dự đoán giá trị DJIA ngày t, đầu vào cho SOFNN gồm:
Các giá trị DJIA
Các giá trị đo tâm trạng của n ngày trước
Trang 20Bước 4: Dự đoán thị trường chứng khoán (cont.)
Tác giả thử 7 hoán vị của các biến đầu vào đối với mô hình SOFNN:
Trang 21Bước 4: Dự đoán thị trường chứng khoán (cont.)
Kết quả:
Kết luận:
Cảm xúc được đo bởi OF là không hiệu quả
Ngoài Calm, tác giả tìm thấy độ chính xác cao nhất với I1
Happy không có mối quan hệ nhân quả Granger tốt nhưng khi kết hợp với Caml thì dự đoán chính xác hơn
Trang 22Ưu và nhược điểm
Chưa giới hạn được vùng địa lý và ngôn ngữ
Với những sự kiện xảy ra đột ngột (Ví dụ Steve Job mất ,
…) thì độ trễ 3 ngày là quá lớn để dự đoán chứng khoán
Trang 24Mô hình
Trang 25Điểm khác biệt
Tập từ POMS:
J.Bollen: Mở rộng dựa trên n-gram theo Google
Đề xuất: Kết hợp mở rộng dựa trên n-gram theo Google
và tập các từ đồng nghĩa
Dự đoán chỉ số DJIA:
J.Bollen: dùng Mạng noron mờ tự tổ chức (SOFNN)
Đề xuất: Áp dụng phương pháp phân lớp bán giám sát SVM-kNN hoặc EM hoặc …
Trang 26Dự đoán xu hướng
Input:
n: số ngày cảm xúc trễ
Các chỉ số đóng DJIA của n ngày trước đó
Chuỗi tâm trạng theo thời gian của công chúng trong n ngày trước đó tính theo 6 chiều
Output: Xu hướng của chứng khoán ngày t
Tăng so với ngày t-1
Giảm so với ngảy t-1
Bằng ngày t-1
Trang 27Dự đoán xu hướng (cont.)
Vector thể hiện đặc trưng:
Vit = <dt-1, dt-2, …, dt-n, Xi, t-1 , Xi,t-2 , …, Xi,t-n>
vit : vector thể hiện đặc trưng của cảm xúc theo chiều I
dt : giá trị chỉ số DJIA ngày t
X i, t : giá trị cảm xúc chiều i trong ngày t
Trang 29Định hướng nghiên cứu
Cài đặt và thử nghiệm cho mô hình đã đề xuất
Nghiên cứu các mô hình bán giám sát khác và áp dụng với bài toán dự báo thị trường chứng khoán trên
tweeter
Nghiên cứu hướng dự đoán chứng khoán sẽ tăng lên bao nhiêu hoặc giảm xuống bao nhiêu
Trang 30Tài liệu tham khảo
2008 Eugene F.Fama The behavior of Stock- Market Prices
2010 X Zhang, H Fuehres, P.A Gloor, Predicting Stock Market Indicators Through Twitter I Hope It is Not as Bad as I Fear, Collaborative Innovation
Networks (COINs), Savannah, GA,
2011 Johan Bollen và công sự, Twitter mood predicts the stock market
Trang 31Thank you for your listening !