1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

14 267 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 352,82 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ --- NGÔ THỊ HOA PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015... ĐẠI HỌC QUỐC

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -

NGÔ THỊ HOA

PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI

ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -

NGÔ THỊ HOA

PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI

ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA

Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm

Mã số: 60480103

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI

TS NGUYỄN CẨM TÚ

Hà Nội - 2015

Trang 3

LỜI CẢM ƠN

Lời cảm ơn đầu tiên tôi xin gửi đến TS Đặng Thanh Hải và TS Nguyễn Cẩm Tú Thầy cô là người đưa ra ý tưởng chọn đề tài và cung cấp cho tôi tài liệu, phương pháp nghiên cứu và theo sát tôi trong suốt quá trình tôi làm luận văn Tôi xin chân thành cảm ơn các bạn, các em trong phòng KT-Lab đã chỉ dẫn

và động viên mỗi khi tôi gặp vướng mắc trong lý thuyết và thực nghiệm

Tôi xin chân thành cảm ơn các thầy trong Khoa Công nghệ thông tin - Phòng Đào tạo sau đại học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa học này Đồng thời, tôi cũng xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích và giúp đỡ tôi trong mọi hoàn cảnh khó khăn

Tác giả luận văn

Ngô Thị Hoa

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi thực hiện dưới sự hướng dẫn của TS Đặng Thanh Hải và TS Nguyễn Cẩm Tú, không sao chép ở bất kỳ một luận văn, luận án của các tác giả khác Nếu có vấn

đề gì tôi xin hoàn toàn chịu trách nhiệm

Tác giả luận văn

Ngô Thị Hoa

Trang 5

MỤC LỤC

LỜI CẢM ƠN 1

LỜI CAM ĐOAN 2

MỤC LỤC 3

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT 5

DANH SÁCH CÁC BẢNG 6

DANH SÁCH CÁC HÌNH 7

MỞ ĐẦU 8

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN ĐIỂM 10

1.1 Khai phá dữ liệu 10

1.2 Các phương pháp khai phá dữ liệu Error! Bookmark not defined 1.3 Các kỹ thuật khai phá dữ liệu Error! Bookmark not defined 1.4 Các thách thức trong khai phá dữ liệu Error! Bookmark not defined 1.5 Ứng dụng khai phá dữ liệu Error! Bookmark not defined 1.6 Phân tích và khai phá quan điểm Error! Bookmark not defined 1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu Error! Bookmark not

defined

1.6.2 Các thách thức của khai phá quan điểm Error! Bookmark not

defined

CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM Error!

Bookmark not defined

2.1 Kỹ thuật học có giám sát Error! Bookmark not defined 2.2 Lựa chọn đặc trưng Error! Bookmark not defined 2.3 Các phương pháp phân lớp quan điểm Error! Bookmark not defined 2.3.1 Mô hình học máy SVM Error! Bookmark not defined 2.3.2 Mô hình cây quyết định Error! Bookmark not defined 2.3.3 Mô hình xác suất Bayes Error! Bookmark not defined 2.3.4 Thuật toán KNN Error! Bookmark not defined 2.4 Đánh giá mô hình phân lớp Error! Bookmark not defined

Trang 6

CHƯƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MÔ HÌNH QUI HỒI

LOGISTIC Error! Bookmark not defined 3.1 Cơ sở lý thuyết Error! Bookmark not defined 3.1.1 Các khái niệm Error! Bookmark not defined 3.1.2 Mô hình qui hồi Logistic Error! Bookmark not defined 3.1.3 Phương pháp tìm tham số và tối ưu mô hình qui hồi Logistic Error!

Bookmark not defined

3.2 Mô hình qui hồi Logistic áp dụng bài toán phân lớp quan điểm Error!

Bookmark not defined

CHƯƠNG 4: THỰC NGHIỆM Error! Bookmark not defined 4.1 Môi trường và mô hình thực nghiệm Error! Bookmark not defined 4.2 Thu thập và xử lý dữ liệu Error! Bookmark not defined 4.2.1 Dữ liệu về các dự thảo đề án quốc gia Error! Bookmark not defined 4.2.2 Xử lý dữ liệu Error! Bookmark not defined

4.4 Đánh giá kết quả thực nghiệm Error! Bookmark not defined CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO Error!

Bookmark not defined

TÀI LIỆU THAM KHẢO 11

Trang 7

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT

phân lớp

Trang 8

DANH SÁCH CÁC BẢNG

Bảng 1: Môi trường thực nghiệm

Bảng 2: Các phần mềm sử dụng

Bảng 3: Tổng hợp dữ liệu thực nghiệm

Bảng 4: Tổng hợp kết quả với các kích thước tập huấn luyện

Bảng 5: Độ đo phân lớp mô hình qui hồi Logistic và thuật toán KNN

Trang 9

DANH SÁCH CÁC HÌNH

Hình 1: Quá trình khai phá dữ tri thức

Hình 2: Các kỹ thuật Khai phá dữ liệu

Hình 3: Thuật toán KNN phân lớp quan điểm

Hình 4: Mô hình thực nghiệm

Hình 5: Quy trình xử lý dữ liệu

Hình 6: Mô tả dữ liệu thực nghiệm

Hình 7: Kết quả thực nghiệm với L1, L2

Hình 8: Kết quả phân lớp

Hình 9: Biểu diễn đánh giá mô hình qui hồi Logistic và KNN

Trang 10

MỞ ĐẦU

Khai phá tri thức là lĩnh vực rất phát triển trong những năm gần đây và được ứng dụng trong nhiều lĩnh vực Khi quyền tự do ngôn luận ngày càng được Nhà nước ta chú trọng, công dân có quyền được tham gia bàn bạc, thảo luận và đóng góp ý kiến vào những vấn đề chung của đất nước đã đặt ra Bài toán cho khai phá tri thức, cụ thể là khai phá quan điểm: “Làm thế nào để phân tích các quan điểm được trao đổi trên các phương tiện thông tin đại chúng, để từ đó đưa

Nhận thấy các dự thảo đề án quốc gia luôn có tác động lớn đến nền kinh

tế, đời sống xã hội, luôn nhận được nhiều ý kiến đóng góp của các chuyên gia và nhân dân Các ý kiến đóng góp cũng có tác động ngược lại đến đề án trong suốt quá trình khởi tạo và diễn ra dự án

Luận văn “Phân loại quan điểm trên phương tiện xã hội đối với dự

thảo đề án quốc gia” đưa ra một giải pháp giải quyết vấn đề Bài toán phân tích

quan điểm trên phương tiện thông tin đại chúng, cụ thể là môi trường mạng Để làm được việc này, luận văn tiến hành nghiên cứu các cơ sở lý thuyết, đề xuất giải pháp thực hiện và áp dụng thực nghiệm trên miền dữ liệu về các dự thảo đề

án quốc gia

Cấu trúc l uận văn gồm bốn chương đi từ tổng quan đến chi tiết vấn đề, giải pháp và thực nghiệm:

Chương 1: Trình bày tổng quan về khai phá dữ liệu, khai phá quan điểm

Xuất phát điểm từ những kiến thức nền tảng cần nắm được trong lĩnh vực khai phá tri thức, khai phá quan điểm, luận văn trình bày các cơ sở lý thuyết theo

toán được trình bày trong chương 2

Chương 2: Nghiên cứu các phương pháp phân lớp quan điểm

Có nhiều phương pháp để phân lớp quan điểm , mỗi phương pháp có một lịch sử, tư tưởng và đă ̣c trưng riêng phù hợp giải quyết từng vấn đề

Chương 3: Phân lớp quan điểm với qui hồi Logistic

Mô hình qui hồi Logistic là phương pháp mà luâ ̣n văn lựa cho ̣n để phân lớp quan điểm và dự báo, qua đó phân tích kết quả thự c nghiê ̣m Mô hình phân

Trang 11

tích mối tương quan biến dự đoán phân loại và biến kết quả dự đoán, mô hình phù hợp dữ liệu bài toán phân tích quan điểm tiêu cực hay tích cực

Chương 4: Thực nghiệm phân lớp quan điểm với dự thảo đề án quốc gia

và đánh giá trên kết quả thực nghiệm

điểm thảo luâ ̣n về các dự thảo đề án quốc gia

cực đối với các dự thảo đề án trên mô hình qui hồi Logistis

Trang 12

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN

ĐIỂM 1.1 Khai phá dữ liệu

Công nghệ thông tin ngày càng phát triển thì các hệ thống thông tin ngày càng mở rộng để lưu trữ một lượng lớn các dữ liệu đã có và đang tích tụ thêm, thêm vào đó là việc lưu trữ dữ liệu trực tuyến với dung lượng lớn nhiều khi đã làm cho ta choáng ngợp và không biết làm thế nào để có những thông tin hữu ích đang cần Quá trình lấy ra được những dữ liệu hữu ích được gọi quá trình khai phá tri thức Những dữ liệu đó là các tri thức học được

Có nhiều khái niệm về khai phá dữ liệu, trong đó có khái niệm sau đây dễ nhớ, dễ hiểu:

“Khai phá tri thức là tìm ra tri thức trong dữ liệu” [E1]

Quá trình khai phá tri thức:

Hình 1: Quá trình khai phá dữ tri thức

Trang 13

TÀI LIỆU THAM KHẢO

Tiếng Việt

[V1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn

Thu Trang, Nguyễn Cẩm Tú,“Giáo trình khai phá dữ liệu Web”, Nhà xuất bản

giáo dục Việt Nam, 2009

Tiếng Anh

[E0] Pantelis Agathangelou, Ioannis Katakis, Fotios Kokkoras, Konstantinos

Ntonas,“Mining Domain-Specific Dictionaries of Opinion Words”

[E1] S Vasantharaj, A Martin, A Meiappane, J Madhusudnan, “A Survey on

Sentiment Analysis Applied in Opinion Mining”, Journal of Network

Communications and Emerging Technologies (JNCET), www.jncet.org Volume

1, Issue 1, March (2015)

[E2] Qiang Yang, Xindong Wu, “10 Challenging Problems In Data Mining

Research”, International Journal of Information Technology & Decision Making

Vol.5,No.4(2006)597-604, World Scientific Publishing Company, p 597 - 604

[E3] Lun-Wei Ku, Yu-Ting Liang and Hsin-Hsi Chen, “Opinion Extraction,

Summarization andTrackingin News and Blog Corpora”, American

AssociationforArtificialIntelligence(www.aaai.org),2006

[E4] Michael D Lee and Eric - Jan Wagenmakers, “Bayesian Cognitive

Modeling:A Practical Course”, P 3 – 6

[E5] Chao-Ying Joanne Peng, Kuk Lida Lee, Gary M Ingersoll, “An

Introduction to Logistic RegressionAnalysis and Reporting”, Indiana

University-Bloomington

[E6] Chapter12, Logistic Regression

[E7] Xiaojin Zhu, “Text Categorization with Logistic Regression”, Advanced

NLP, CS838-1, 2007

[E8] G.Angulakshmi, Dr.R.ManickaChezian, “An Analysis on Opinion Mining:

TechniquesandTools”, International Journal of Advanced Research in Computer

andCommunicationEngineering, Vol 3, Issue 7, July 2014

Trang 14

[E9] Ayesha Rashid1, Naveed Anwer2, Dr Muddaser Iqbal3, Dr Muhammad

Sher, “A Survey Paper: Areas, Techniques and Challenges of

Opinion Mining”, IJCSI International Journal of Computer Science Issues, Vol

10, Issue 6, No 2, November 2013

[E10] Arti Buche, Dr M B Chandak, Akshay Zadgaonkar, “Opinion Mining and Analysis: A Survey”, International Journal on Natural Language Computing (IJNLC) Vol 2, No.3, June 2013

[E11] Reza Entezari-Maleki, Arash Rezaei, Behrouz Minaei-Bidgoli,

“Comparison of Classification Methods Based on the Type of Attributes and Sample Size”, Department of Computer Engineering, Iran University of Science

& Technology (IUST), Tehran, Iran

[E12] James Wilson, Edited by Andrew Nobel, “Logistic Regression and k Nearest Neighbors”

Các website

[W] Website: http://vi.wikipedia.org/wiki

[W1] Website: http://www.tutorialspoint.com/data_mining/dm_overview.htm

Ngày đăng: 26/08/2016, 16:58

HÌNH ẢNH LIÊN QUAN

Hình 1: Quá trình khai phá dữ tri thức - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Hình 1 Quá trình khai phá dữ tri thức (Trang 12)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w