TRƯỜNG ĐẠI HỌC CÔNG NGHỆ --- NGÔ THỊ HOA PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015... ĐẠI HỌC QUỐC
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -
NGÔ THỊ HOA
PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI
ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -
NGÔ THỊ HOA
PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI
ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA
Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI
TS NGUYỄN CẨM TÚ
Hà Nội - 2015
Trang 3LỜI CẢM ƠN
Lời cảm ơn đầu tiên tôi xin gửi đến TS Đặng Thanh Hải và TS Nguyễn Cẩm Tú Thầy cô là người đưa ra ý tưởng chọn đề tài và cung cấp cho tôi tài liệu, phương pháp nghiên cứu và theo sát tôi trong suốt quá trình tôi làm luận văn Tôi xin chân thành cảm ơn các bạn, các em trong phòng KT-Lab đã chỉ dẫn
và động viên mỗi khi tôi gặp vướng mắc trong lý thuyết và thực nghiệm
Tôi xin chân thành cảm ơn các thầy trong Khoa Công nghệ thông tin - Phòng Đào tạo sau đại học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa học này Đồng thời, tôi cũng xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích và giúp đỡ tôi trong mọi hoàn cảnh khó khăn
Tác giả luận văn
Ngô Thị Hoa
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi thực hiện dưới sự hướng dẫn của TS Đặng Thanh Hải và TS Nguyễn Cẩm Tú, không sao chép ở bất kỳ một luận văn, luận án của các tác giả khác Nếu có vấn
đề gì tôi xin hoàn toàn chịu trách nhiệm
Tác giả luận văn
Ngô Thị Hoa
Trang 5MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
MỤC LỤC 3
DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT 5
DANH SÁCH CÁC BẢNG 6
DANH SÁCH CÁC HÌNH 7
MỞ ĐẦU 8
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN ĐIỂM 10
1.1 Khai phá dữ liệu 10
1.2 Các phương pháp khai phá dữ liệu Error! Bookmark not defined 1.3 Các kỹ thuật khai phá dữ liệu Error! Bookmark not defined 1.4 Các thách thức trong khai phá dữ liệu Error! Bookmark not defined 1.5 Ứng dụng khai phá dữ liệu Error! Bookmark not defined 1.6 Phân tích và khai phá quan điểm Error! Bookmark not defined 1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu Error! Bookmark not
defined
1.6.2 Các thách thức của khai phá quan điểm Error! Bookmark not
defined
CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM Error!
Bookmark not defined
2.1 Kỹ thuật học có giám sát Error! Bookmark not defined 2.2 Lựa chọn đặc trưng Error! Bookmark not defined 2.3 Các phương pháp phân lớp quan điểm Error! Bookmark not defined 2.3.1 Mô hình học máy SVM Error! Bookmark not defined 2.3.2 Mô hình cây quyết định Error! Bookmark not defined 2.3.3 Mô hình xác suất Bayes Error! Bookmark not defined 2.3.4 Thuật toán KNN Error! Bookmark not defined 2.4 Đánh giá mô hình phân lớp Error! Bookmark not defined
Trang 6CHƯƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MÔ HÌNH QUI HỒI
LOGISTIC Error! Bookmark not defined 3.1 Cơ sở lý thuyết Error! Bookmark not defined 3.1.1 Các khái niệm Error! Bookmark not defined 3.1.2 Mô hình qui hồi Logistic Error! Bookmark not defined 3.1.3 Phương pháp tìm tham số và tối ưu mô hình qui hồi Logistic Error!
Bookmark not defined
3.2 Mô hình qui hồi Logistic áp dụng bài toán phân lớp quan điểm Error!
Bookmark not defined
CHƯƠNG 4: THỰC NGHIỆM Error! Bookmark not defined 4.1 Môi trường và mô hình thực nghiệm Error! Bookmark not defined 4.2 Thu thập và xử lý dữ liệu Error! Bookmark not defined 4.2.1 Dữ liệu về các dự thảo đề án quốc gia Error! Bookmark not defined 4.2.2 Xử lý dữ liệu Error! Bookmark not defined
4.4 Đánh giá kết quả thực nghiệm Error! Bookmark not defined CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO Error!
Bookmark not defined
TÀI LIỆU THAM KHẢO 11
Trang 7DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT
phân lớp
Trang 8DANH SÁCH CÁC BẢNG
Bảng 1: Môi trường thực nghiệm
Bảng 2: Các phần mềm sử dụng
Bảng 3: Tổng hợp dữ liệu thực nghiệm
Bảng 4: Tổng hợp kết quả với các kích thước tập huấn luyện
Bảng 5: Độ đo phân lớp mô hình qui hồi Logistic và thuật toán KNN
Trang 9DANH SÁCH CÁC HÌNH
Hình 1: Quá trình khai phá dữ tri thức
Hình 2: Các kỹ thuật Khai phá dữ liệu
Hình 3: Thuật toán KNN phân lớp quan điểm
Hình 4: Mô hình thực nghiệm
Hình 5: Quy trình xử lý dữ liệu
Hình 6: Mô tả dữ liệu thực nghiệm
Hình 7: Kết quả thực nghiệm với L1, L2
Hình 8: Kết quả phân lớp
Hình 9: Biểu diễn đánh giá mô hình qui hồi Logistic và KNN
Trang 10MỞ ĐẦU
Khai phá tri thức là lĩnh vực rất phát triển trong những năm gần đây và được ứng dụng trong nhiều lĩnh vực Khi quyền tự do ngôn luận ngày càng được Nhà nước ta chú trọng, công dân có quyền được tham gia bàn bạc, thảo luận và đóng góp ý kiến vào những vấn đề chung của đất nước đã đặt ra Bài toán cho khai phá tri thức, cụ thể là khai phá quan điểm: “Làm thế nào để phân tích các quan điểm được trao đổi trên các phương tiện thông tin đại chúng, để từ đó đưa
Nhận thấy các dự thảo đề án quốc gia luôn có tác động lớn đến nền kinh
tế, đời sống xã hội, luôn nhận được nhiều ý kiến đóng góp của các chuyên gia và nhân dân Các ý kiến đóng góp cũng có tác động ngược lại đến đề án trong suốt quá trình khởi tạo và diễn ra dự án
Luận văn “Phân loại quan điểm trên phương tiện xã hội đối với dự
thảo đề án quốc gia” đưa ra một giải pháp giải quyết vấn đề Bài toán phân tích
quan điểm trên phương tiện thông tin đại chúng, cụ thể là môi trường mạng Để làm được việc này, luận văn tiến hành nghiên cứu các cơ sở lý thuyết, đề xuất giải pháp thực hiện và áp dụng thực nghiệm trên miền dữ liệu về các dự thảo đề
án quốc gia
Cấu trúc l uận văn gồm bốn chương đi từ tổng quan đến chi tiết vấn đề, giải pháp và thực nghiệm:
Chương 1: Trình bày tổng quan về khai phá dữ liệu, khai phá quan điểm
Xuất phát điểm từ những kiến thức nền tảng cần nắm được trong lĩnh vực khai phá tri thức, khai phá quan điểm, luận văn trình bày các cơ sở lý thuyết theo
toán được trình bày trong chương 2
Chương 2: Nghiên cứu các phương pháp phân lớp quan điểm
Có nhiều phương pháp để phân lớp quan điểm , mỗi phương pháp có một lịch sử, tư tưởng và đă ̣c trưng riêng phù hợp giải quyết từng vấn đề
Chương 3: Phân lớp quan điểm với qui hồi Logistic
Mô hình qui hồi Logistic là phương pháp mà luâ ̣n văn lựa cho ̣n để phân lớp quan điểm và dự báo, qua đó phân tích kết quả thự c nghiê ̣m Mô hình phân
Trang 11tích mối tương quan biến dự đoán phân loại và biến kết quả dự đoán, mô hình phù hợp dữ liệu bài toán phân tích quan điểm tiêu cực hay tích cực
Chương 4: Thực nghiệm phân lớp quan điểm với dự thảo đề án quốc gia
và đánh giá trên kết quả thực nghiệm
điểm thảo luâ ̣n về các dự thảo đề án quốc gia
cực đối với các dự thảo đề án trên mô hình qui hồi Logistis
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN
ĐIỂM 1.1 Khai phá dữ liệu
Công nghệ thông tin ngày càng phát triển thì các hệ thống thông tin ngày càng mở rộng để lưu trữ một lượng lớn các dữ liệu đã có và đang tích tụ thêm, thêm vào đó là việc lưu trữ dữ liệu trực tuyến với dung lượng lớn nhiều khi đã làm cho ta choáng ngợp và không biết làm thế nào để có những thông tin hữu ích đang cần Quá trình lấy ra được những dữ liệu hữu ích được gọi quá trình khai phá tri thức Những dữ liệu đó là các tri thức học được
Có nhiều khái niệm về khai phá dữ liệu, trong đó có khái niệm sau đây dễ nhớ, dễ hiểu:
“Khai phá tri thức là tìm ra tri thức trong dữ liệu” [E1]
Quá trình khai phá tri thức:
Hình 1: Quá trình khai phá dữ tri thức
Trang 13TÀI LIỆU THAM KHẢO
Tiếng Việt
[V1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn
Thu Trang, Nguyễn Cẩm Tú,“Giáo trình khai phá dữ liệu Web”, Nhà xuất bản
giáo dục Việt Nam, 2009
Tiếng Anh
[E0] Pantelis Agathangelou, Ioannis Katakis, Fotios Kokkoras, Konstantinos
Ntonas,“Mining Domain-Specific Dictionaries of Opinion Words”
[E1] S Vasantharaj, A Martin, A Meiappane, J Madhusudnan, “A Survey on
Sentiment Analysis Applied in Opinion Mining”, Journal of Network
Communications and Emerging Technologies (JNCET), www.jncet.org Volume
1, Issue 1, March (2015)
[E2] Qiang Yang, Xindong Wu, “10 Challenging Problems In Data Mining
Research”, International Journal of Information Technology & Decision Making
Vol.5,No.4(2006)597-604, World Scientific Publishing Company, p 597 - 604
[E3] Lun-Wei Ku, Yu-Ting Liang and Hsin-Hsi Chen, “Opinion Extraction,
Summarization andTrackingin News and Blog Corpora”, American
AssociationforArtificialIntelligence(www.aaai.org),2006
[E4] Michael D Lee and Eric - Jan Wagenmakers, “Bayesian Cognitive
Modeling:A Practical Course”, P 3 – 6
[E5] Chao-Ying Joanne Peng, Kuk Lida Lee, Gary M Ingersoll, “An
Introduction to Logistic RegressionAnalysis and Reporting”, Indiana
University-Bloomington
[E6] Chapter12, Logistic Regression
[E7] Xiaojin Zhu, “Text Categorization with Logistic Regression”, Advanced
NLP, CS838-1, 2007
[E8] G.Angulakshmi, Dr.R.ManickaChezian, “An Analysis on Opinion Mining:
TechniquesandTools”, International Journal of Advanced Research in Computer
andCommunicationEngineering, Vol 3, Issue 7, July 2014
Trang 14[E9] Ayesha Rashid1, Naveed Anwer2, Dr Muddaser Iqbal3, Dr Muhammad
Sher, “A Survey Paper: Areas, Techniques and Challenges of
Opinion Mining”, IJCSI International Journal of Computer Science Issues, Vol
10, Issue 6, No 2, November 2013
[E10] Arti Buche, Dr M B Chandak, Akshay Zadgaonkar, “Opinion Mining and Analysis: A Survey”, International Journal on Natural Language Computing (IJNLC) Vol 2, No.3, June 2013
[E11] Reza Entezari-Maleki, Arash Rezaei, Behrouz Minaei-Bidgoli,
“Comparison of Classification Methods Based on the Type of Attributes and Sample Size”, Department of Computer Engineering, Iran University of Science
& Technology (IUST), Tehran, Iran
[E12] James Wilson, Edited by Andrew Nobel, “Logistic Regression and k Nearest Neighbors”
Các website
[W] Website: http://vi.wikipedia.org/wiki
[W1] Website: http://www.tutorialspoint.com/data_mining/dm_overview.htm