Các nghiên cứu gần đây cũng đã chứng minh được rằng xu hướng giá cổ phiếu có thể đoán được ở một mức độ nào đó dựa trên việc kết hợp giá cổ phiếu trong quá khứ và các chỉ số tâm trạng, c
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM HUYỀN TRANG
MỘT MÔ HÌNH SỬ DỤNG TWITTER VÀ MỘT SỐ PHƯƠNG TIỆN XÃ HỘI KHÁC DỰ BÁO XU HƯỚNG
GIÁ CỔ PHIẾU CỦA APPLE
LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2014
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM HUYỀN TRANG
MỘT MÔ HÌNH SỬ DỤNG TWITTER VÀ MỘT SỐ PHƯƠNG TIỆN XÃ HỘI KHÁC DỰ BÁO XU HƯỚNG
GIÁ CỔ PHIẾU CỦA APPLE
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã Số: 60480104
LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY
HÀ NỘI - 2014
Trang 3Lời cam đoan
Tôi xin cam đoan luận văn “Một mô hình sử dụng Twitter và một số phương tiện xã hội khác dự báo xu hướng giá cổ phiếu của Apple" là công trình nghiên cứu của riêng tôi Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan Ngoại trừ các tài liệu tham khảo này, luận văn hoàn toàn là công việc của riêng tôi
Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Trang 4Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Hà Quang Thụy đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt nghiệp Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập và nghiên cứu tại trường Đại học Công Nghệ
Tôi xin gửi lời cảm ơn tới các bạn trong lớp cao học K18 đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện luận văn tốt nghiệp
Tôi xin chân thành cảm ơn!
Trang 5Tóm tắt nội dung
Dự đoán thị trường chứng khoán đang gây được sự chú ý không chỉ bởi giới học thuật mà còn trong cả giới kinh doanh Đối với các nhà đầu tư, việc dự đoán giá cổ phiếu đặc biệt quan trọng trong việc giảm thiểu rủi ro đầu tư, đồng thời tối đa hóa lợi nhuận Các nghiên cứu gần đây cũng đã chứng minh được rằng xu hướng giá cổ phiếu có thể đoán được ở một mức độ nào đó dựa trên việc kết hợp giá cổ phiếu trong quá khứ và các chỉ số tâm trạng, cảm xúc của cộng đồng được lấy ra từ các trang mạng xã hội trực tuyến như blogs, Twitter feeds,
Luận văn tập trung nghiên cứu một mô hình dự báo xu hướng giá cổ phiếu của Tập đoàn Công nghệ máy tính Apple sử dụng nguồn dữ liệu Twitter và một số phương tiện xã hội khác, cụ thể là nguồn tin tức trên các trang tin có uy tín và nguồn blog của các chuyên gia phân tích tài chính trên thế giới
Thực nghiệm ban đầu trên ba miền dữ liệu: các tweet trên mạng xã hội Twitter, các tin bài trên trang tin tức, các bài viết trên trang blog cho thấy mô hình dự báo xu hướng giá cổ phiếu của Tập đoàn Công nghệ máy tính Apple với độ đo Accuracy cao nhất là 0.75 trên miền dữ liệu tin tức Kết quả trên đã cho thấy phương pháp dự đoán xu hướng giá cổ phiếu dựa trên một số phương tiện xã hội được luận văn đề xuất và triển khai là khả quan
Trang 6Mở đầu
Việc dự đoán các chỉ số và xu hướng của thị trường chứng khoán nhận đang nhận được sự quan tâm lớn của các nhà nghiên cứu, đầu tư, chuyên gia tài chính và giới môi giới chứng khoán [2, 7, 14, 16, 23, 25] Lợi ích của việc đánh giá tốt các diễn biến của thị trường chứng khoán mang lại là khá rõ ràng, nó giúp giảm thiểu rủi ro cho các nhà đầu tư,
và tối đa hóa lợi nhuận Không chỉ vậy, bài toán dự đoán thị trường chứng khoán còn mang lại những thách thức lớn trong việc chứng minh liệu thị trường tài chính có thể dự đoán hay không? Trong những năm gần đây, các mô hình toán học và tính toán từ trí tuệ nhân tạo đã được sử dụng cho mục đích này
Bài toán dự báo thị trường chứng khoán trên cơ sở theo dõi tình cảm, tâm trạng của cộng đồng trên Twitter đã thu hút được nhiều sự chú ý gần đây Bài toán thực hiện xác định tâm trạng chung của cộng đồng, kết hợp với giá cổ phiếu của các ngày trong quá khứ, từ đó đưa ra dự đoán về xu hướng của thị trường trong tương lai Việc mở rộng dữ liệu, không chỉ trên Twitter mà còn trên một số phương tiện xã hội khác cũng đang được các nhà nghiên cứu trên thế giới quan tâm
Trong những năm gần đây, trên thế giới, có khá nhiều nghiên cứu và ý tưởng đưa
ra các giải pháp nhằm giải quyết bài toán dự báo thị trường chứng khoán [2, 14, 16, 25, 30] Trong luận văn này, chúng tôi áp dụng kỹ thuật học bán giám sát để giải quyết bài toán dự báo thị trường chứng khoán, cụ thể là luận văn tập trung vào giá cổ phiếu của Tập đoàn Công nghệ máy tính Apple kết hợp trên ba miền dữ liệu chính là: Twitter, các trang tin tức và các blog Chúng tôi sử dụng kỹ thuật phân lớp bán giám sát SVM-kNN dựa trên việc kết hợp giữa đánh giá tâm trạng, thái độ của cộng đồng và giá cổ phiếu các ngày trong quá khứ để giải quyết bài toán Đây là một phương pháp phân lớp bán giám sát cho kết quả tốt với độ đo F1 khoảng 80 đến 98% với miền dữ liệu tiếng Anh, do Kunlun Li, Xuerong Luo and Ming Jin đề xuất năm 2010 [18] Luận văn đã thực nghiệm mô hình đối với giá cổ phiếu của Tập đoàn Apple với kết quả đạt mức khá khả quan so với kết quả của thế giới
Nội dung của luận văn được chia thành các chương như sau:
Chương 1: Luận văn giới thiệu khái quát về dự đoán thị trường chứng khoán cũng
như một số phương pháp trong việc dự báo xu hướng của thị trường chứng khoán
Chương 2: Luận văn đưa ra một số giới thiệu chung về bài toán dự đoán thị
trường chứng khoán dựa trên Twitter, cũng như đã nêu lên chứng minh của Johan Bollen
về việc có thể dự báo được thị trường chứng khoán dựa trên tâm trạng chung của cộng
đồng Ngoài ra, một số nghiên cứu liên quan cũng được trình bày tại chương này
Trang 7Chương 3: Luận văn giới thiệu về thuật toán phân lớp SVM, kNN Từ đó, trình
bày chi tiết phương pháp phân lớp bán giám sát SVM-kNN được sử dụng để giải quyết bài toán dự báo chứng khoán
Chương 4: Luận văn đề xuất một mô hình giải quyết vấn đề dự báo xu hướng của
giá cổ phiếu của Apple dựa trên phân lớp bán giám sát SVM-kNN trên ba miền dữ liệu: mạng xã hội Twitter, các trang tin tức và weblog Tư tưởng chính của mô hình sẽ được thể hiện trong chương này Đồng thời, luận văn cũng trình bày chi tiết các pha cũng những các bước trong mô hình
Chương 5: Thực nghiệm, kết quả và đánh giá Tiến hành thực nghiệm theo mô
hình đã đề xuất trong chương 4
Phần kết luận: Tóm lược kết quả đạt được của luận văn và định hướng phát triển
tương lai
Trang 8Mục Lục
Danh mục hình vẽ 10
Danh mục bảng biểu 11
Danh mục tóm tắt 12
1 Chương 1 Bài toán dự đoán thị trường chứng khoán 13
1.1 Khái quát về bài toán dự đoán thị trường chứng khoán 13
1.1.1 Một số khái niệm trong thị trường chứng khoán 13
1.1.2 Có thực sự dự đoán được thị trường chứng khoán? 14
1.2 Các phương pháp dự báo thị trường chứng khoán 15
2 Chương 2 Dự đoán thị trường chứng khoán dựa trên Twitter 17
2.1 Giới thiệu chung 17
2.2 Dự đoán thị trường chứng khoán dựa trên tâm trạng cộng đồng và chứng minh của J.Bollen cùng cộng sự 18
2.3 Một số nghiên cứu liên quan trên thế giới 22
3 Chương 3 Phân lớp bán giám sát SVM-kNN 24
3.1 Một số nội dung cơ bản về phân lớp bán giám sát 24
3.1.1.Khái niệm 24
3.1.2 Các phương pháp phân lớp bán giám sát điển hình 25
3.2 Phương pháp luận SVM-kNN dựa trên học bán giám sát 26
3.2.1 Thuật toán học máy vector hỗ trợ (SVM) 26
3.2.2 Thuật toán K người láng giềng gần nhất (kNN) 28
3.2.3 Phương pháp phân lớp bán giám sát SVM-kNN 30
3.2.4 Phương pháp phân lớp bán giám sát SVM-kNN do nhóm nghiên cứu đề xuất 32
4 Chương 4 Đề xuất một mô hình dự báo xu hướng giá cổ phiếu của Tập đoàn Apple sử dụng Twitter và một số phương tiện xã hội khác 36
4.1 Tư tưởng chính của giải pháp đề xuất 36
4.2 Mô hình đề xuất 38
4.2.1 Pha 1: Tiền xử lý 39
Trang 94.2.2 Pha 2: Xác định quan điểm 40
4.2.3 Pha 3: Dự đoán xu hướng của chỉ số APPL 42
Tóm tắt chương 4: 43
5 Chương 5 Thực nghiệm và đánh giá 44
5.1 Môi trường và các công cụ sử dụng thực nghiệm 44
5.2 Xây dựng tập dữ liệu 45
5.3 Thực nghiệm 47
5.3.1 Tiền xử lý 48
5.3.2 Xác định quan điểm của cộng đồng, các chuyên gia 48
5.3.3 Dự đoán xu hướng của chỉ số APPL 51
Tóm tắt chương 5 54
Kết luận 55
Tài liệu tham khảo 56
Trang 10Danh mục hình vẽ
Hình 2.1: Kết quả tâm trạng theo chuỗi thời gian trong khoảng thời gian 2 tháng từ
5/10/2008 tới 05/12/2008 theo nghiên cứu của J.Bollen và cộng sự [16] 20
Hình 2.2: Bảng thể hiện tương quan giữa xu hướng thu được từ bộ từ điển của OF đối với 6 chiều tâm trạng của GPOMS theo nghiên cứu của J.Bollen và cộng sự [16] 21
Hình 2.3: Bảng thể hiện Kết quả phân tích nhân quả Granger theo nghiên cứu của J.Bollen và cộng sự [16] 22
Hình 3.1: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm 27
Hình 3.2: Ví dụ về thuật toán kNN 29
Hình 3.3: Minh họa vector hỗ trợ và vector biên 31
Hình 3.4: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo và Ming Jin[18] 32
Hình 4.1: Mô hình dự báo xu hướng chỉ số APPL đề xuất 39
Hình 5.1: Chỉ số đóng cửa đã điều chỉnh trong khoảng thời gian 01/01/2014 đến 01/05/2014 47
Hình 5.2: Kết quả xác định quan điểm trên miền dữ liệu Twitter trong khoảng thời gian 01/01/2014 đến 01/05/2014 49
Hình 5.3: Kết quả xác định quan điểm trên miền dữ liệu tin tức trong khoảng thời gian 01/01/2014 đến 01/05/2014 49
Hình 5.4: Kết quả xác định quan điểm trên miền dữ liệu blog trong khoảng thời gian 01/01/2014 đến 01/05/2014 50
Hình 5.5: Kết quả xác định quan điểm trên 3 miền dữ liệu trong khoảng thời gian 01/01/2014 đến 01/05/2014 50
Trang 11Danh mục bảng biểu
Bảng 5.1: Cấu hình hệ thống thử nghiệm 44
Bảng 5.2: Công cụ phần mềm sử dụng 44
Bảng 5.3: Dữ liệu Tweet crawl được trong khoảng thời gian 4 tháng đầu năm 45
Bảng 5.4: Dữ liệu tin tức crawl được trong khoảng thời gian 4 tháng đầu năm 46
Bảng 5.5: Dữ liệu blog crawl được trong khoảng thời gian 4 tháng đầu năm 46
Bảng 5.6: Chỉ số đóng cửa đã điều chỉnh trong khoảng thời gian 01/01/2014 đến 01/05/2014 47
Bảng 5.7: Dữ liệu được crawl sau khi lọc những mẫu dữ liệu liên quan 48
Bảng 5.8: Số lượng mẫu dữ liệu dùng cho phân lớp SVM-KNN 51
Bảng 5.9: Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5 với độ trễ cảm xúc là 2 ngày 53
Bảng 5.10: Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5 với độ trễ cảm xúc là 3 ngày 53
Trang 12Danh mục tóm tắt
2 Giả thuyết Thị trường hiệu quả Efficient Market Hypothesis EMH
3 Lý thuyết kinh tế xã hội Socionomic Theory of
5 Công cụ Google-Profile of Mood States GPOMS
6 Chỉ số trung bình công nghiệp Dow Jones DJIA
Trang 131 Chương 1 Bài toán dự đoán thị trường chứng khoán
1.1 Khái quát về bài toán dự đoán thị trường chứng khoán
Bài toán dự đoán biến động của thị trường chứng khoán được đặt ra với động cơ là
dự đoán được giá cổ phiếu trong tương lai nhằm giúp các nhà đầu tư đưa ra các quyết định mua và bán tức thời, mang lại lợi nhuận cao cho các nhà đầu tư Đây là bài toán đặt
ra nhiều thách thức, bởi lẽ giá cả thị trường chứng khoán là không tuyến tính [23, 24] Vậy, một số câu hỏi được đặt ra là Có thực sự dự đoán được thị trường chứng khoán không? Nếu có thì dựa trên những thông tin nào để có thể dự đoán được? Chương 1 của luận văn sẽ trả lời những câu hỏi trên một cách khái quát nhất Trước khi đưa ra các câu trả lời, tôi xin trình bày về một số khái niệm liên quan đến bài toán sẽ được sử dụng trong luận văn này
1.1.1 Một số khái niệm trong thị trường chứng khoán
Thị trường chứng khoán trong điều kiện của nền kinh tế hiện đại, được quan niệm
là nơi diễn ra các hoạt động giao dịch mua bán các loại chứng khoán trung và dài hạn Việc mua bán này được tiến hành ở thị trường sơ cấp khi người mua mua được chứng khoán lần đầu từ những người phát hành, và ở thị trường thứ cấp khi có sự mua đi bán lại các chứng khoán đã được phát hành ở thị trường sơ cấp Như vậy, xét về mặt hình thức, thị trường chứng khoán chỉ là nơi diễn ra các hoạt động trao đổi, mua bán, chuyển nhượng các loại chứng khoán, qua đó thay đổi các chủ thể nắm giữ chứng khoán Thị trường chứng khoán thực chất là quá trình vận động của tư bản tiền tệ Các chứng khoán mua bán trên thị trường chứng khoán có thể đem lại thu nhập cho người nắm giữ nó sau một thời gian nhất định và được lưu thông trên thị trường chứng khoán theo giá cả thị trường, do đó bề ngoài nó được coi như là một tư bản hàng hoá
Các chủ thể tham gia vào thị trường chứng khoán được chia thành 3 nhóm sau:
nhà phát hành, nhà đầu tư và các tổ chức có liên quan đến chứng khoán:
- Nhà phát hành là các tổ chức thực hiện huy động vốn thông qua thị trường
chứng khoán Nhà phát hành là người cung cấp các chứng khoán - hàng hoá của thị trường chứng khoán Công ty là nhà phát hành các cổ phiếu và trái phiếu công ty Ví du: Tập đoàn Apple, Google là các nhà phát hành cổ phiếu
- Nhà đầu tư là những người thực sự mua và bán chứng khoán trên thị trường
chứng khoán Nhà đầu tư có thể được chia thành 2 loại: nhà đầu tư cá nhân và nhà đầu tư có tổ chức
Trang 14Căn cứ vào hàng hóa trên thị trường, thị trường chứng khoán cũng có thể được phân thành các thị trường: thị trường cổ phiếu, thị trường trái phiếu, thị trường các công
cụ chứng khoán phát sinh; trong đó Thị trường cổ phiếu là thị trường giao dịch mua và bán các loại cổ phiếu Cổ phiếu là một loại chứng khoán được phát hành dưới dạng chứng
chỉ hoặc bút toán ghi sổ, xác nhận quyền sở hữu và lợi ích hợp pháp của người sở hữu cổ phiếu đối với tài sản hoặc vốn của một công ty cổ phần
Niêm yết chứng khoán là thủ tục cho phép một chứng khoán nhất định được phép
giao dịch trên Sở giao dịch chứng khoán Cụ thể, đây là quá trình mà Sở giao dịch chứng khoán chấp thuận cho công ty phát hành có chứng khoán được phép niêm yết và giao dịch trên Sở giao dịch chứng khoán nếu công ty đó đáp ứng đầy đủ các tiêu chuẩn về định lượng cũng như định tính mà Sở giao dịch chứng khoán đề ra
Thời gian giao dịch: tại hầu hết các Sở giao dịch chứng khoán trên thế giới, giao
dịch chứng khoán thường diễn ra trong các ngày làm việc trong tuần
- Giá mở cửa: là giá thực hiện tại lần khớp lệnh đầu tiên của chứng khoán trong
o Giá đóng cửa điều chỉnh: là giá đóng cửa chưa điều chỉnh và lợi nhuận
mà nhà đầu tư thu được từ cổ tức và việc tách/thưởng cổ phiếu, vốn
1.1.2 Có thực sự dự đoán được thị trường chứng khoán?
Bài toán dự đoán thị trường chứng khoán gần đây được chú ý nhiều bởi cả giới học thuật cũng như kinh doanh Nhưng có một câu hỏi đã được đặt ra là liệu giá trị cổ phiếu
có thực sự dự đoán được không?
Những nghiên cứu trước đây về việc dự đoán thị trường chứng khoán dựa trên lý thuyết Bước Đi Ngẫu Nhiên (Walk Random - WR) và Giả thuyết Thị trường hiệu quả (Efficient Market Hypothesis - EMH) Lý thuyết "Bước Đi Ngẫu Nhiên" nói rằng sự vận động của giá cả trên thị trường chứng khoán sẽ không đi theo bất kì một khuôn mẫu hay một xu hướng nào đã từng có trước đây Và do đó những biến động giá trong quá khứ sẽ không thể sử dụng được trong việc dự đoán những bước đi tiếp theo của nó trong tương lai Theo như EMH, sẽ có một số lượng lớn các thành viên tham gia thị trường cạnh tranh, mỗi thành viên phân tích và định giá độc lập nhằm tối ưu hóa lợi nhuận của mình Các nhà đầu tư điều chỉnh giá cổ phiếu ngay tức khắc với tất cả các thông tin liên quan sẵn có nhằm phản hồi được ảnh hưởng của thông tin Giá cả thị trường chứng khoán bị điều phối
Trang 15chính bởi các thông tin mới, ví dụ như tin tức, hơn là phụ thuộc vào giá cả hiện tại và quá khứ của cổ phiếu Do tin tức là không thể dự đoán được, do đó giá chứng khoán sẽ đi theo một mẫu bước nhảy ngẫu nhiên và không thể đoán định được chính xác trên 50%
Tuy nhiên, theo một quan điểm hoàn toàn ngược lại, lý thuyết Down đã chỉ ra rằng những biến động thị trường với mọi xu hướng đều có thể được dự đoán trước trên cơ sở biến động giá trên các biểu đồ Charles H Dow đưa ra khái niệm về “chỉ số giá bình quân” nhằm phản ánh xu thế chung của một số cổ phiếu đại diện cho thị trường Theo Lý thuyết Dow, chỉ số bình quân thị trường phản ánh tất cả Bởi vì nó phản ánh những hoạt động có liên kết với nhau của hàng nghìn nhà đầu tư, gồm cả những người có kinh nghiệm dự đoán thị trường giỏi nhất, có những thông tin tốt nhất về xu hướng và các sự kiện, những gì có thể nhận thấy trước và tất cả những gì có thể ảnh hưởng đến cung và cầu của các loại chứng khoán Thậm chí cả những thiên tai hay thảm họa không dự tính được thì ngay khi xảy ra chúng đã được thị trường phản ánh ngay vào giá của các loại chứng khoán Cũng trong lý thuyết Down bao gồm ba xu thế là - xu thế gốc hay xu thế cơ bản (primary trend), xu thế thứ 2 (second trend), và những xu thế nhỏ (minor trends) Xu thế cơ bản (primary trend) là lực lượng chính đằng sau xu thế và giống như một dòng chảy của sông theo một hướng cơ bản Xu thế thứ 2 giống như một nhánh của xu thế chính Nhánh này có thể rẽ ra một lúc nhưng cuối cùng cũng quay lại đi theo dòng của dòng sông chính Xu thế nhỏ thì giống như một dòng suối nhỏ, có lúc chạy theo hướng này và hướng kia nhưng vẫn được dẫn dắt theo một hướng chung của dòng sông
Xu thế cơ bản có thể mất nhiều năm để kết thúc và phát triển theo thời gian Xu thế thứ 2
có thể xảy ra bất cứ ở đâu từ một vài tuần tới một vài tháng nếu tính theo thời gian và xu thế nhỏ có thể đi theo hướng ngược lại của xu thế cơ bản Những xu thế nhỏ như là xu thế hàng ngày kéo dài một vài ngày hoặc tương tự và thường không có gì quá nổi bật Xu thế thứ 2 cũng có thể nghiêng về việc bị lôi kéo bởi các mánh khóe hay tin đồn, nhưng xu thế
cơ bản thì hoàn toàn lãnh đạm với các yếu tố đó Theo lý thuyết này thì thị trường bị ảnh hưởng bởi cảm xúc và nghiêng về phản ứng thái quá cả theo hướng lên hoặc xuống Do
đó, việc có thể dự báo được xu hướng của thị trường chứng khoán là hoàn toàn có thể
1.2 Các phương pháp dự báo thị trường chứng khoán
Căn cứ vào nội dung phương pháp và mục đích của dự báo, người ta chia dự báo thành hai loại [17]: Phương pháp định tính và phương pháp định lượng:
Phương pháp định tính thường phụ thuộc rất nhiều vào kinh nghiệm của một hay nhiều chuyên gia trong lĩnh vực liên quan Phương pháp này thường được áp dụng, kết quả dự báo sẽ được các chuyên gia trong lĩnh vực liên quan nhận xét, đánh giá và đưa ra kết luận cuối
Trang 16Phương pháp định lượng dựa trên mô hình toán với giả thiết rằng mối liên hệ giữa các yếu tố được thiết lập trong quá khứ sẽ lặp lại trong tương lai Nói cách khác, phương pháp định lượng dựa trên dữ liệu quá khứ để phát hiện xu thế thị trường trong tương lai theo một quy luật nào đó Để dự báo xu thế thị trường chứng khoán, người ta có thể sử dụng mô hình chuỗi thời gian, hoặc sử dụng biến nhân quả Ưu điểm của phương pháp này là tín hiệu đưa ra khá khách quan, dựa và tiêu chí của những chỉ tiêu thống kê từ mô hình Những tín hiệu mua bán được đưa ra dựa trên những phân tích khách quan nên giảm thiểu sự sai sót do yếu tố con người Tuy nhiên, phương pháp này có nhược điểm là không dự báo được trong những trường hợp thị trường có một diễn biến đột ngột khiến cho mô hình dự báo có một sự đảo chiều đột ngột Ngoài ra, nếu nguồn dữ liệu đầu vào không được thu thập một cách khoa học, chính xác cũng có thể làm cho tính dự báo thiếu chính xác
Như đã biết, trong thị trường chứng khoán, có rất nhiều yếu tố có thể ảnh hưởng đến giá cổ phiếu Những yếu tố này có thể được bắt nguồn từ việc phát hành tin tức về các công ty hoặc những tin tức về nền kinh tế của các quốc gia lớn Lý do chính của việc kết hợp các thông tin sự kiện nào đó diễn ra trong dự báo thị trường chứng khoán dựa trên một giả định rằng giá trong tương lai của một cổ phiếu một phần phụ thuộc vào các sự kiện chính trị và quốc tế diễn ra Vì vậy, nhiều nghiên cứu đã sử dụng thông tin, tin tức sự kiện (yếu tố định tính) như là các dữ liệu định lượng trong việc dự đoán thị trường chứng khoán
Tóm tắt chương một:
Chương một đã trình bày một cách tổng quan về bài toán dự báo thị trường chứng khoán Có một số cách cơ bản các nhà đầu tư sử dụng để phân tích, từ đó đưa ra những dự đoán cho xu hướng của thị trường chứng khoán, trong đó không thể không nói đến phương pháp kỹ thuật được áp dụng cho bài toán dự đoán thị trường chứng khoán
Chương hai của luận văn sẽ trình bày chi tiết về một trong những cách được sử dụng để dự đoán xu hướng giá cổ phiếu – đó là phương pháp dự đoán dựa trên mạng xã hội Twitter
Trang 172 Chương 2 Dự đoán thị trường chứng khoán dựa trên Twitter
2.1 Giới thiệu chung
Các nhà đầu tư thường sử dụng hai phương pháp cơ bản để phân tích giá cả cổ phiếu và đưa ra các quyết định đầu tư, là: phân tích theo nguyên tắc cơ bản và phương pháp kỹ thuật Phân tích cơ bản là phương pháp truyền thống, liên quan đến việc nghiên cứu các thông tin cơ bản về một công ty cụ thể muốn theo dõi giá cổ phiếu như doanh thu, chi phí, vị trí thị trường, tốc độ tăng trưởng hàng năm [22] Mặt khác, phương pháp phân tích kỹ thuật, là hoàn toàn dựa trên các nghiên cứu về lịch sử biến động giá cả, từ đó đưa
ra mô hình giá để dự báo biến động giá trong tương lai [29] Lý do căn bản của phân tích
kỹ thuật dựa trên ba giả thuyết cơ bản: (1) Giá phản ánh tất cả hành động thị trường; (2) Giá dịch chuyển theo xu hướng; (3) Quá khứ tự nó sẽ lặp lại Thứ nhất, phân tích kỹ thuật được tiến hành dựa trên giả định nền tảng là giá phản ánh tất cả hành động thị trường, chỉ cần bất cứ một thông tin gì mới được đưa ra là nó được phản ánh ngay vào trong giá Không chỉ phản ánh mọi thông tin, giá còn phản ánh tất cả các kiến thức của tất cả những người tham gia vào thị trường, bao gồm các nhà giao dịch, các nhà đầu tư, các nhà quản trị danh mục đầu tư, các nhà phân tích của phía người bán và người mua, các nhà lập chiến lược thị trường, các nhà phân tích cơ bản, phân tích kỹ thuật và nhiều nhà giao dịch khác Phân tích kỹ thuật là sử dụng tất cả các thông tin có trong giá để lý giải về các biểu hiện của thị trường nhằm hình thành nên dự đoán cho tương lai Thứ hai, biến động giá không ngẫu nhiên hoàn toàn mà theo xu hướng Thứ ba, quá khứ tự nó sẽ lặp lại Mục đích của phân tích là dự đoán xu hướng giá trong tương lai Bằng cách chú trọng vào giá
và chỉ duy nhất giá, các nhà phân tích kỹ thuật đã sử dụng phương pháp trực tiếp
Cả hai phương pháp dự báo thị trường đều nhắm vào việc giải quyết cùng một vấn
đề đó là xác định chiều hướng giá cả thị trường có khả năng dịch chuyển thế nào Hai phương pháp này tiếp cận vấn đề từ hai hướng khác nhau Phân tích cơ bản nghiên cứu nguyên nhân của sự dịch chuyển thị trường trong khi phân tích kỹ thuật thì nghiên cứu tác động của các sự dịch chuyển này
Một trong những tác động ảnh hưởng rất lớn đến sự dịch chuyển của thị trường, đó chính là tâm trạng, thái độ của cộng đồng trước một tin tức, một sự kiện nào đó diễn ra Một bộ phận nghiên cứu chuyên sâu vào EMH, cụ thể là từ khía cạnh lý thuyết kinh tế xã hội Socionomic Theory of Finance (STF), kinh tế học hành vi và tài chính hành vi đã có một loạt các nghiên cứu chỉ ra rằng giá cổ phiếu có thể dự đoán được ở một mức độ nào
đó dựa trên cảm xúc, trạng thái tâm trạng, suy nghĩ của cộng đồng Một vài nghiên cứu gần đây cũng gợi ý rằng tin tức là không đoán định được nhưng có những chỉ số được lấy
Trang 18ra từ các trang mạng xã hội trực tuyến (blogs,Twitter feeds, ) được dùng để dự đoán sự thay đổi trong những chỉ số kinh tế và thương mại
Bài toán dự đoán thị trường chứng khoán dựa trên Twitter là bài toán sử dụng dữ liệu là các tweet trên trang mạng xã hội trực tuyến Twitter để dự báo xu hướng của thị trường chứng khoán Theo kinh tế học hành vi, những hành vi (hành động có nhận thức) của các chủ thể kinh tế (người tiêu dùng, người phân phối, bán hay hay người sản xuất) có thể ảnh hưởng đến việc ra các quyết định kinh tế cũng như giá cả thị trường ra sao, hay nói cách khác, kinh tế học hành vi đã chỉ ra rằng cảm xúc có thể gây ảnh hưởng sâu sắc đến những hành vi và các quyết định của mỗi cá nhân, đặc biệt là các quyết định liên quan đến tài chính, kinh tế Từ đó, một câu hỏi đã được đặt ra là Liệu các trạng thái tâm trạng, cảm xúc của cả cộng đồng có tương quan hay thậm chí là yếu tố dự đoán được các chỉ số kinh tế không? Giả thuyết “Tâm trạng cộng đồng có thể dự đoán được thị trường chứng khoán” đã được nêu ra và chứng minh bởi J.Bollen cùng các cộng sự Tôi xin trình bày một cách khái quát về chứng minh của J.Bollen và cộng sự cho giả thuyết “Tâm trạng cộng đồng có thể dự đoán được thị trường chứng khoán” trong phần tiếp theo của luận văn
2.2 Dự đoán thị trường chứng khoán dựa trên tâm trạng cộng đồng và
chứng minh của J.Bollen cùng cộng sự
Các tác giả đã nêu lên giả thuyết “Tâm trạng của cộng đồng có thể dự đoán được giá cả của thị trường chứng khoán” Để chứng minh giả thuyết đó, các tác giả thực hiện 3 pha chính sau:
Đầu tiên, đánh giá tâm trạng dựa trên các công cụ đánh giá tâm trạng OF và GPOMS Các tác giả đưa các tweet lấy được sau khi đã được lọc và xử lý các dấu chấm câu trong giai đoạn từ 28/2/2008 đến 19/12/2008 vào 2 công cụ đánh giá tâm trạng: (1) OpinionFinder (OF) đo tâm trạng tích cực và tiêu cực, (2) Google-Profile of Mood States (GPOMS) đánh giá theo 6 chiều tâm trạng Đồng thời trích ra các giá trị đóng DJIA theo thời gian từ trang Yahoo Finance Đối với công cụ OF, chọn ra các từ tích cực và tiêu cực
mà được đánh dấu là “strong” hoặc “weak” trong bộ từ điển cảm xúc của OF Với mỗi tweet, xác định chúng chứa bao nhiêu từ tích cực và tiêu cực Đối với mỗi lần xuất hiện, thì tăng điểm số tích cực (tiêu cực) tương ứng lên 1 Sau đó, trong mỗi ngày, tính tỉ số tích cực/tiêu cực trên các tweet đã thu được trong ngày Để có thể lấy được ra những chiều cảm nghĩ khác, các tác giả đã tạo ra công cụ phân tích tâm trạng khác, tên là GPOMS, có thể đo được các tâm trạng của con người theo 6 chiều khác nhau, đó là Calm, Alert, Sure, Vital , Kind và Happy Điểm số của mỗi chiều tâm trạng POMS được xác định là tổng của các trọng số co-occurrence của mỗi từ trong tweet mà trùng với một từ trong bộ từ điển POMS
Trang 19Để có thể so sánh được OF và GPOMS, J.Bollen và cộng sự đã chuẩn hóa chúng
về z-score dựa trên một tâm cục bộ và một độ lệch chuẩn trong một cửa sổ k ngày trước
và sau một ngày cụ thể nào đó Việc chuẩn hóa này sẽ làm cho các chuỗi thời gian dao động xung quanh mốc trung bình là 0 và có thể được diễn tả theo độ lệch chuẩn là 1 Tác giả kiểm tra khả năng của OF và GPOMS trong việc nắm bắt được các khía cạnh khác nhau của tâm trạng cộng đồng bằng cách áp dụng chúng cho các tweet được đăng tải lên trong khoảng thời gian 2 tháng từ 5/10/2008 tới 05/12/2008 Giai đoạn này được chọn vì diễn ra một vài sự kiện văn hóa xã hội lớn mà có thể có những ảnh hưởng quan trọng và phức tạp tới tâm trạng của cộng đồng, đó là cuộc bầu cử tổng thống Mỹ (04/11/2008) và Ngày lễ Phục Sinh (27/11/2008) Kết quả tâm trạng theo chuỗi thời gian như trong hình dưới và được mô phỏng theo chuẩn hóa z-score:
Trang 20Hình 2.1: Kết quả tâm trạng theo chuỗi thời gian trong khoảng thời gian 2 tháng từ 5/10/2008 tới 05/12/2008 theo nghiên cứu của J.Bollen và cộng sự [16]
Hình trên cho thấy OF thành công trong việc xác định cảm xúc của cộng đồng đối với việc bầu cử Tổng thống vào 04/11/2008 và lễ phục sinh 27/11/2008 Kết quả của GPOMS cho thấy sự khác biệt của tâm trạng cộng đồng đối với các ngày lễ trên trong khoảng thời gian 3 ngày xung quanh ngày bầu cử (4/11/2008) Ngày 03/11/2008 đặc trưng bởi 1 sự đi xuống mạnh của Calm cho thấy sự lo lắng của cộng đồng tăng lên Trong khi đó ngày bầu cử thì được đặc trưng bởi sự đảo ngược chiều điểm số của Calm cho thấy sự lo lắng giảm đi một cách đảng kể trong cộng đồng, cùng với đó là sự tăng lên đáng kể về điểm số của Vital, Happy cùng Kind Điều này cho thấy một cộng đồng tràn đầy năng lượng, hạnh phúc và thân thiện trong ngày bầu cử Vào ngày 05/11/2008, những chiều trạng thái POMS tiếp tục cho thấy tâm trạng tích cực của cộng đồng, cụ thể là mức điểm của Calm, Sure, Vital và Happy vẫn cao Sau ngày 05/11, tất cả các chiều tâm trạng tiến dần trở về đường cơ sở Tâm trạng của cộng đồng đối với ngày Lễ Phục sinh 27/11/08 cũng có sự khác biệt tương ứng giống như trong ngày bầu cử Vào ngày lễ phục sinh, điểm nhọn đối với giá trị Happy cho thấy mức độ cao đối với sự hạnh phúc của cộng đồng Mặc dù vậy, những chiều trạng thái khác đều không có sự tăng lên trong ngày 27/11 Hơn nữa, giá trị đỉnh của Happy cũng chỉ kéo dài trong 1 ngày, và không thấy có
sự phản ứng đặc biệt nào ngày trước đó
Để xác định mối quan hệ giữa các chiều trạng thái GPOMS với xu hướng tâm trạng của OF, tác giả tiếp tục kiểm tra sự tương quan giữa xu hướng thu được từ bộ từ điển của OF đối với 6 chiều tâm trạng của GPOMS sử dụng hồi quy đa biến Kết quả thu được như sau:
Trang 21Hình 2.2: Bảng thể hiện tương quan giữa xu hướng thu được từ bộ từ điển của OF đối với 6 chiều tâm trạng của GPOMS theo nghiên cứu của J.Bollen và cộng sự [16]
Kết quả hồi quy tuyến tính đa biến như bảng dưới cho thấy rõ ràng YOF có quan hệ mật thiết với X3(Sure), X4(Vital), X5(Happy), nhưng không có quan hệ với X1(Calm), X2(Alert) và X5(Kind) Do đó các tác giả đi đến kết luận rằng một chiều tâm trạng nào đó của GPOMS bao hàm giá trị tâm trạng được xác định bởi OF
Giả thuyết : cảm xúc của cộng đồng đƣợc đo bởi GPOMS và OF có thể dự đoán chỉ số DJIA
Sau khi hình thành chuỗi tâm trạng theo thời gian đối với những sự kiện văn hóa
xã hội như ngày bầu cử tổng thống hay ngày lễ phục sinh, tác giả xem xét giả thuyết
“Tâm trạng của cộng đồng có ảnh hưởng của giá cổ phiếu, cụ thể là giá trị đóng của DJIA” Để chứng minh giả thuyết này, áp dụng một kỹ thuật phân tích nhân quả Granger
đối với những chuỗi thời gian hàng ngày được tính toán bởi GPOMS và OF đối với giá trị của DJIA Phân tích nhân quả Granger dựa trên giả thuyết rằng nếu biến X gây ra Y thì sự thay đổi của X sẽ xảy ra trước khi Y thay đổi Từ đó sẽ tìm được một giá trị độ trễ của X
có ý nghĩa về mặt thống kê thể hiện sự tương quan với Y
Chuỗi thời gian DJIA được ký hiệu là Dt, được định nghĩa là mô tả sự thay đổi trong giá trị cổ phiếu hàng ngày, tức là chênh lệch giá trị giữa ngày t và t -1:
Dt = DJIAt – DJIAt-1
Để có thể kiểm tra rằng chuỗi tâm trạng theo thời gian có thể dự đoán được những thay đổi trong giá cổ phiếu hay không, so sánh sự khác nhau của hai mô hình tuyến tính L1 và L2 lần lượt như sau:
Trang 22Mô hình (L1) chỉ sử dụng giá trị độ trễ n của Dt, tức là (Dt-1, Dt-n) để dự đoán, trong khi mô hình (L2) sử dụng giá trị độ trễ n của cả Dt và các giá trị tâm trạng theo thời gian của GPOMS và OF, ký hiệu là Xt-1, Xt-n Tiến hành phân tích nhân quả Granger đối với 2 mô hình L1và L2 đối với khoảng thời gian từ 28/02 tới 03/11/08 để loại bỏ 2 trường hợp ngoại lệ trong tâm trạng của cộng đồng đối với ngày bầu cử và ngày lễ phục sinh Chuỗi thời gian GPOMS và OF được trích ra từ 342.255 tweet trong khoảng thời gian đó, giá trị hàng ngày của DJIA được lấy từ trang Yahoo!Finance Kết quả phân tích nhân quả Granger được thể hiện bằng bảng sau:
Hình 2.3: Bảng thể hiện Kết quả phân tích nhân quả Granger theo nghiên cứu của
J.Bollen và cộng sự [16]
Dựa trên kết quả của phân tích nhân quả Granger, với chiều Calm giá trị p-value
<0.05, từ đó có thể loại bỏ giả thiết null, rằng chuỗi tâm trạng theo thời gian không thể dự đoán giá trị của DJIA Điều đó có nghĩa là, tâm trạng cộng đồng có thể dự đoán được giá trị của giá cổ phiếu
2.3 Một số nghiên cứu liên quan trên thế giới
Bài toán dự báo thị trường chứng khoán đã và đang nhận được nhiều sự quan tâm trên thế giới Có khá nhiều công trình đã nghiên cứu nhằm tìm ra các phương án tối ưu để giải quyết bài toán, chẳng hạn [2, 9, 24, 26, 27, 28]
Liên quan đến bài toán dự báo, đã có nhiều công trình nghiên cứu Gruhl và cộng
sự [10] chỉ ra cách mà những cuộc đàm thoại trực tuyến có thể dùng để dự đoán việc bán
Trang 23lẻ sách Mishme và Rijke sử dụng việc đánh giá các cảm xúc từ blog để dự đoán việc bán
lẻ các bộ phim Liu và cộng sự [19] dự đoán khả năng bán mặt hàng trong tương lai sử dụng mô hình PLSA để trích xuất ra các chỉ số cảm xúc từ trong các blog Tiếp đó, các truy vấn Google cũng cung cấp những chỉ số ban đầu cho việc dự đoán tỉ lệ nhiễm bệnh
và mức tiêu dùng Schumaker và Chen [25] kiểm tra mỗi quan hệ giữa những tin tức tài chính và sự thay đổi giá cổ phiếu Và gần đây nhất, Asur và Huberman [3] đưa ra một mô phỏng mối quan hệ giữa cảm xúc cộng đồng với những bộ phim được mô tả trên Twitter
có thể dùng để dự đoán khả năng bán vé rạp chiếu phim
Các kỹ thuật theo dõi cảm xúc được phát triển mạnh trong vòng 5 năm trở lại đây
có thể trích xuất các chỉ số tâm trạng cộng đồng từ nội dung các mạng xã hội như blog, và đặc biệt là từ lượng lớn các Twitter feed [26, 27, 28] Mặc dù mỗi tweet bị giới hạn trong
140 từ, tập hợp của hàng triệu các tweet được đưa lên Twitter hàng ngày có thể cung cấp một thể hiện chính xác của tâm trạng cộng đồng Điều này dẫn đến sự phát triển của các công cụ theo dõi cảm xúc thời gian thực như “Pulse of Nation” Thực tế, các công trình gần đây cũng bắt đầu nghiên cứ việc trích xuất các chỉ số tâm trạng cộng đồng từ trong các nguồn trực tuyến và liên hệ chúng với các chỉ số kinh tế
Đối với bài toán dự báo chứng khoán dựa trên Twitter, một số nghiên cứu đã đưa
ra các giải pháp đề xuất [2, 14, 30, 31] Argimiro Arratia và cộng sự, 2011 [2] đã đề xuất phương pháp dự báo giá cổ phiếu bằng cách lọc ra các tweet liên quan chủ đề chứng khoán sử dụng mô hình LDA để loại những tweet thể hiện cảm xúc không liên quan, từ
đó xây dựng một mô hình dự đoán giá cổ phiếu dựa trên những tweet đã được lọc Gần đây, Jasmina Smailović và cộng sự, 2013 [14] đã dùng phân lớp SVM để phân lớp quan điểm người dùng trên dữ liệu là các tweet liên quan đến tài chính và tiến hành thực nghiệm trên dữ liệu tweet về tài chính của 8 công ty Apple, Amazon, Baidu, Cisco, Google, Microsoft, Netflix and Research in Motion Limited (RIM)
Tóm tắt chương hai
Trong chương này, luận văn đã giới thiệu khái quát về bài toán dự báo thị trường chứng khoán dựa trên Twitter Luận văn cũng trình bày một số hướng giải quyết của bài toán trên thế giới
Từ những chứng minh và các phương pháp thực hiện dự đoán chứng khoán dựa trên tâm trạng của cộng đồng thu thập được trên Twitter, chúng tôi đã nghiên cứu và đề xuất một giải pháp dự báo xu hướng giá cổ phiếu của Tập đoàn Công nghệ máy tính Apple dựa trên mạng xã hội Twitter và một số phương tiện xã hội khác sử dụng phương pháp phân lớp bán giám sát SVM-kNN
Chương tiếp theo giới thiệu phương pháp phân lớp bán giám sát SVM-kNN – là một phương pháp phân lớp bán giám sát cho kết quả cao được đề xuất năm 2011 bởi nhóm nghiên cứu [13]
Trang 243 Chương 3 Phân lớp bán giám sát SVM-kNN
3.1 Một số nội dung cơ bản về phân lớp bán giám sát
nhãn ban đầu (thuờng gọi là seed set) để xây dựng một bộ phân lớp thậm chí là tốt hơn
Trong quá trình học như thế, phương pháp sẽ tận dụng được những thông tin phong phú
của dữ liệu chưa gán nhãn (unlabeled data), mà chỉ yêu cầu một số luợng nhỏ các dữ liệu
đã gán nhãn (labeled data) [34, 35] Như tổng hợp của X.J Zhu, 2008 [34], học bán giám
sát nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu về học máy
Theo X.J Zhu, 2008 [34], X Zhu và A B Goldberg, 2009 [35], học bán giám sát
Việc học bán giám sát sẽ là hữu ích khi có nhiều dữ liệu không gán nhãn hơn là dữ liệu gán nhãn Trong thực tế, tồn tại nhiều dữ liệu không gán nhãn hơn là dữ liệu gán nhãn; bởi vì dữ liệu không gán nhãn có thể dễ dàng được thu thập với chi phí thấp, nhưng công việc gán nhãn cho các dữ liệu lại tốn rất nhiều thời gian, công sức và tiền bạc [34, 35] Chính vì khả năng tận dụng cả dữ liệu đã gán nhãn để đạt được kết quả cao hơn học giám sát nên học bán giám sát mang giá trị thực tiễn cao
Trang 25b Phân lớp bán giám sát
Phân lớp bán giám sát đang là một lĩnh vực nhận được nhiều sự quan tâm trong cả
lý thuyết và thực tiễn Phân lớp bán giám sát là một dạng đặc biệt trong bài toán phân lớp [34] Nó sử dụng cả dữ liệu chưa gán nhãn, và dữ liệu đã gán nhãn – điều này chính là một sự mở rộng so với bài toán phân lớp giám sát
Giả sử tập dữ liệu huấn luyện bao gồm l ví dụ đã gán nhãn {(x ,y )}l 1
i i i , trong đó yilà nhãn tương ứng với vị dụ xi; và u ví dụ chưa gán nhãn {x }l u 1
j j l
Trong phân lớp bán giám
sát, số lượng dữ liệu chưa gán nhãn là lớn hơn nhiều so với dữ liệu đã gán nhãn, tức là u
>> l Mục tiêu của phân lớp bán giám sát là huấn luyện một bộ phân lớp f từ l và u; trong
khi đó, phân lớp giám sát lại tạo ra một bộ phân lớp chỉ từ những dữ liệu đã gãn nhãn Trong quá trình học, việc phân lớp bán giám sát sẽ tận dụng được những thông tin phong phú của dữ liệu chưa gán nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã gán nhãn
3.1.2 Các phương pháp phân lớp bán giám sát điển hình
Các thuật toán bán giám sát đã và đang được phát triển một cách nhanh chóng trong những năm gần đây Hiện nay, có rất nhiều phương pháp học bán giám sát như: self-learning và self-labeling – là hai trong số những phương pháp phân lớp bán giám sát sớm nhất, chúng vẫn được sử dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên; hoặc phương pháp SSSVM (SVM bán giám sát) với ý tưởng tìm một biên quyết định trong các vùng mật độ thấp; hay phương pháp dựa trên đồ thị - phương pháp này xây dựng một đồ thị có trọng số trên những ví dụ đã gán nhãn và ví dụ chưa gán nhãn và giả thiết rằng giữa hai ví dụ có một kết nối mạnh thì có khuynh hướng có cùng nhãn và giải quyết bài toán tối ưu hóa; một phương pháp phân lớp bán giám sát khác là sử dụng mô hình sinh, hỗn hợp phân bố Gaussian trong thuật toán EM (K Li và cộng sự, 2010 [18])
Vì vậy, trước khi quyết định lựa chọn phương pháp học cho một bài toán cụ thể cần phải xem xét các giả thiết của mô hình Theo [35], nên sử dụng phương pháp học mà giả thiết của nó phù hợp với cấu trúc của bài toán Việc lựa chọn này có thể là khó khăn trong thực tế, tuy nhiên có thể thử các gợi ý sau: Nếu các lớp tạo ra dữ liệu có tính phân cụm cao thì EM với mô hình trộn sinh có thể là một sự lựa chọn tốt; nếu các thuộc tính
có sự phân chia tự nhiên thành hai tập thì co-training có thể phù hợp; nếu hai mẫu dữ liệu với các thuộc tính tương tự nhau hướng tới thuộc về cùng một lớp thì có thể sử dụng các phương pháp dựa trên đồ thị; nếu các bộ phân lớp giám sát được xây dựng từ trước là phức tạp và khó sửa đổi thì self-training sẽ là một lựa chọn ưu tiên
Trang 26Hiệu quả của những thuật toán phân lớp bán giám sát phụ thuộc vào chất lượng của các ví dụ gán nhãn được thêm vào ở mỗi vòng lặp và được đánh giá dựa trên hai tiêu chí [4, 34]:
- Các ví dụ được thêm vào phải được gán nhãn một cách chính xác
- Các ví dụ được thêm vào phải mang lại thông tin hữu ích cho bộ phân lớp (hoặc
dữ liệu huấn luyện)
3.2 Phương pháp luận SVM-kNN dựa trên học bán giám sát
Phương pháp phân lớp bán giám sát SVM-kNN tỏ ra rất hiệu quả trong bài toán phân lớp nếu chọn các tham số phù hợp Phương pháp này có độ chính xác cao hơn so với thuật toán phân lớp SVM bởi vì nó thực hiện việc cải tiến độ chính xác của mỗi bộ phân lớp SVM qua nhiều lần lặp [18] Trước hết, chúng tôi xin giới thiệu về thuật toán SVM, kNN và sau đó trình bày các bước trong SVM-kNN
3.2.1 Thuật toán học máy vector hỗ trợ (SVM)
Giải thuật Máy vector hỗ trợ (SVM) dựa trên nguyên lý tối thiểu hóa rủi ro cấu trúc (Structural Risk Minimization) trong lý thuyết thống kê [8, 12, 15] Xét bài toán phân
lớp văn bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn luyện các cặp (xi , y i ),
i = 1, …, l; trong đó x i R n là không gian vector đặc trưng n chiều; yi {-1, 1}, các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gán nhãn yi = 1 và các mẫu âm là các mẫu xi không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1 Bài toán đặt ra là khi đưa ra một vector đặc trưng x mới, cần dự đoán được y sao cho khả năng lỗi xảy ra là
tối thiểu
a.Trường hợp khả tách tuyến tính
Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với lềcực đại, được xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng lề tối ưu nhất (hình 3.1) Các mặt siêu phẳng
trong không gian đối tượng có phương trình là w T x + b = 0, trong đó w là vector pháp tuyến, b là tham số mô hình phân lớp Khi thay đổi w và b, hướng và khoảng cách từ gốc
tọa độ đến mặt siêu phẳng thay đổi
Trang 27Hình 3.1: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm
Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(w T x + b) (1.1), trong đó:
sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0
Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x thuộc
về lớp âm
Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các
lớp dữ liệu dương và âm Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng quát hóa của bộ phân lớp càng giảm
Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau:
Trang 28chỉ có các vector hỗ trợ, ta vẫn có thể xây dựng mặt siêu phẳng lề tối ưu như khi có một tập dữ liệu huấn luyện đầy đủ
b Trường hợp không khả tách tuyến tính
Với dữ liệu huấn luyện không khả tách tuyến tính thì ta có thể giải quyết theo hai cách
Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số mẫu
huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch toàn phương có thêm một cận trên C dương - tham số do người sử dụng lựa chọn Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai
Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu vào
sang một không gian mới có số chiều cao hơn
Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu Một mặt quyết định tuyến tính trong không gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong không gian ban đầu
Với k là một hàm nhân thoả mãn:
k(x i , x j ) = Φ(x i ) T Φ(x j ) (1.6) Nếu chọn một hàm nhân phù hợp, ta có thể xây dựng được nhiều bộ phân loại khác nhau Có một số hàm nhân cơ bản sau đây:
trong đó gamma, coef0 và degreelà các tham số nhân
3.2.2 Thuật toán K người láng giềng gần nhất (kNN)
Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phân lớp dựa trên bộ nhớ, đơn giản vì nó không phải thực hiện quá trình học mô hình, thay thế điều
đó, phương pháp cần sử dụng tất cả các đối tượng trong tập huấn luyện khi phân lớp cho một đối tượng dữ liệu mới
Trang 29Để phân lớp cho một điểm dữ liệu mới x, trước hết bộ phân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấn luyện Qua đó tìm được tập N(x, D, k) gồm k điểm dữ liệu mẫu có khoảng cách đến x là gần nhất Ví dụ nếu các dữ
liệu mẫu được biểu diễn bởi không gian vector thì chúng ta có thể sử dụng khoảng cách Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau Sau khi xác định được tập
N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong tập N(x, D, k) Mặc dù rất đơn giản, nhưng thuật toán K người láng giềng gần nhất đã cho
kết quả tốt trong nhiều ứng dụng thực tế Cũng như SVM, k-NN được xếp vào 10 thuật toán khai phá dữ liệu điển hình nhất [33]
Để áp dụng thuật toán k-NN vào tài liệu văn bản, chúng ta sử dụng hàm tính trọng
số cho mỗi lớp theo biểu thức (2.1) Trong đó NC (x, D, k) là tập con chỉ chứa các đối tượng thuộc lớp c của tập N(x, D, k)
'
' ( , , )