1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại quan điểm cộng đồng được phát hiện trên mạng xã hội sử dụng thuật toán conga và VSM

13 479 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 309,71 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN QUANG THỊNH PHÂN LOẠI QUAN ĐIỂM CỘNG ĐỒNG ĐƯỢC PHÁT HIỆN TRÊN MẠNG XÃ HỘI SỬ DỤNG THUẬT TOÁN CONGA VÀ SVM LUẬN VĂN THẠC SĨ HỆ TH

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN QUANG THỊNH

PHÂN LOẠI QUAN ĐIỂM CỘNG ĐỒNG ĐƯỢC PHÁT HIỆN TRÊN MẠNG XÃ HỘI SỬ DỤNG THUẬT TOÁN

CONGA VÀ SVM

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội – 2015

Trang 2

ii

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN QUANG THỊNH

PHÂN LOẠI QUAN ĐIỂM CỘNG ĐỒNG ĐƯỢC PHÁT

HIỆN TRÊN MẠNG XÃ HỘI SỬ DỤNG THUẬT TOÁN

CONGA VÀ SVM

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.ĐẶNG THANH HẢI

Hà Nội – 2015

Trang 3

LỜI CẢM ƠN

Đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới thầy Đặng Thanh Hải, người đã trực tiếp hướng dẫn em hoàn thành tốt luận văn tốt nghiệp này

Em cũng xin cảm ơn thầy Hà Quang Thụy, là người đã tạo điều kiện cho

em thực hiện tốt luận văn và trình bày các seminar tại Phòng Thí nghiệm KT-Lab, cũng như tận tình đóng góp những ý kiến quý báu trong suốt quá trình

em làm luận văn

Tiếp theo em xin gửi lời cảm ơn đến đến các thầy cô giáo trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội, đã tận tâm truyền đạt những kiến thức, kinh nghiệm trong quá trình em học tập cao học tại đây

Sau cùng, em xin được cảm ơn vợ, cha mẹ, bạn bè và người thân, những người đã ở bên em, khuyến khích và động viên em trong quá trình viết và hoàn thiện luận văn này

Học viên

Trần Quang Thịnh

Trang 4

iv

LỜI CAM ĐOAN

Tôi xin cam đoan mô hình phát hiện cộng đồng và quan điểm cộng đồng trong mạng xã hội thực nghiệm dựa trên thuật toán Conga (thuộc họ thuật toán Girvan-Newman), bao gồm các thuật toán CONGA, CONGO, Peacock, COPRA, và thuật toán học máy SVM được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của TS Đặng Thanh Hải và PGS TS Hà Quang Thụy

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng, tường minh từ danh mục tài liệu tham khảo trong luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về nguồn tài liệu tham khảo

Hà Nội, ngày … tháng … năm 2015

Học viên

Trần Quang Thịnh

Trang 5

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Ký hiệu,

từ viết tắt

Diễn giải

CONGA Cluster Overlap Newman-Girvan Algorithm

CONGO CONGA Optimized

PEACOCK Transformation algorithm

COPRA Community Overlap PRopagation Algorithm

SVM Support vector machine

MXH Mạng xã hội

LPA Label Propagation Algorithm

FNCA Fast Complex Network Clustering Algorithm Using Local Detection RAK Thuật toán của Raghavan và cộng sự (The algorithm is based on the

label propagation technique of Raghavan, Albert and Kumara, but is able to detect communities that overlap)

Trang 6

vi

DANH SÁCH BẢNG BIỂU

Bảng 2.1 Ví dụ về bảng đặc trƣng 56

Bảng 3.1 Ví dụ về lựa chọn đặc trƣng 72

Bảng 3.2 Bảng phân tích độ đo 74

Bảng 4.1 Kết quả tìm kiếm cộng đồng 82

Bảng 4.2 Phân tích kết quả 82

Bảng 4.3 Kết quả Copra 83

Bảng 4.4 Kết quả chung 83

Trang 7

DANH SÁCH HÌNH VẼ

Hình 1.1 Mạng trao đổi email giữa 436 nhân viên HP Research Lab 8

Hình 1.2 Cộng đồng mạng xã hội đơn giản với 3 cộng đồng 11

Hình 1.3 Phương pháp phân vùng đồ thị 12

Hình 1.4 Ví dụ cho thấy các cộng đồng trải ra bởi 4 phe nhóm liền kề Các đỉnh chồng chéo được chỉ ra bằng các chấm lớn hơn 14

Hình 1.5 là mạng lưới của các thành viên trong câu lạc bộ Karate (Zachary, 1977)

15

Hình 1.6: Mô hình mạng lưới cộng tác của các nhà khoa học làm việc tại SFI 15 Hình 1.7: Mạng biểu diễn loài cá heo sống ở Doubtful Sound, New Zealand 16 Hình 1.8: Lược đồ chung xây dựng bộ phân lớp văn bản 21

Hình 1.9 Siêu phẳng h phân chia dữ liệu huấn luyện thành 2 lớp 23

Hình 2.1: Ví dụ về phép phân chia một đỉnh trong đồ thị 28

Hình 2.2: Tìm phép phân chia tối ưu 29

Hình 2.3 Mô hình thuật toán Peacock 31

Hình 2.4 Ví dụ về phân chia đỉnh 32

Hình 2.5 Ví dụ về cập nhật nhãn đỉnh 35

Hình 2.6a Thuật toán COPRA 37

Hình 2.6b Thuật toán COPRA 39

Hình 2.7 Siêu phẳng phân tách hai lớp với lề cực đại và một số trường hợp khác 45 Hình 2.8: Quy chiếu (mapping) không tuyến tính từ không gian mẫu tới không gian đặc trưng 47

Hình 2.9 SVM nhị phân mềm 48

Hình 2.10 Phân nhãn đa lớp 50

Hình 2.11 Ví dụ Transductive SVM 55

Hình 2.12: Thuật toán cho đào tạo Transductive Support Vector Machines 57

Hình 3.1 Ví dụ về trao đổi thông tin trên một đề tài (topic) trên diễn đàn 66

Hình 3.2 Các bước xử lý dữ liệu bình luận để đưa ra tập kết quả 67

Trang 8

viii Hình 3.3 Hai người sử dụng cùng comment vào một chủ đề (topic) 69

Trang 9

MỞ ĐẦU Error! Bookmark not defined.

Chương 1 GIỚI THIỆU TỔNG QUAN MẠNG XÃ HỘI, PHÁT HIỆN VÀ ĐÁNH GIÁ QUAN

ĐIỂM CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI Error! Bookmark not defined.

1.1 Giới thiệu khái quát về mạng xã hội Error! Bookmark not defined.

1.2 Bài toán phát hiện cộng đồng trên mạng xã hội Error! Bookmark not defined.

1.2.1.Cộng đồng mạng xã hội Error! Bookmark not defined 1.2.2.Phát hiện cộng đồng trong mạng xã hội Error! Bookmark not defined

1.3 Bài toán khai phá quan điểm người sử dụng mạng xã hội.Error! Bookmark not defined.

1.3.1 Giới thiệu bài toán Error! Bookmark not defined 1.3.2 Phân loại quan điểm Error! Bookmark not defined

CHƯƠNG 2 THUẬT TOÁN TÌM KIẾM CỘNG ĐỒNG VÀ KHAI PHÁ QUAN ĐIỂM CỘNG

ĐỒNG Error! Bookmark not defined.

2.1 Họ thuật toán Girvan-Newman Error! Bookmark not defined.

2.1.1 Thuật toán Girvan-Newman nguyên thủy Error! Bookmark not defined 2.1.2 Họ thuật toán Girvan-Newman Error! Bookmark not defined 2.1.3 Thuật toán CONGA Error! Bookmark not defined 2.1.4 Thuật toán Peacock Error! Bookmark not defined 2.1.5 Thuật toán COPRA Error! Bookmark not defined

2.2 Thuật toán phân lớp SVM Error! Bookmark not defined.

2.2.1 Một số thuật toán phân lớp phổ biến Error! Bookmark not defined 2.2.2 Thuật toán học máy phân lớp SVM – Support Vector MachineError! Bookmark not

defined.

SVM tuyến tính (cơ bản) Error! Bookmark not defined.

Huấn luyện SVM Error! Bookmark not defined.

2.2.4 Các ưu thế của SVM trong phân lớp văn bản Error! Bookmark not defined 2.2.5 Một số thuật toán SVM tiên tiến Error! Bookmark not defined

CHƯƠNG 3 TRIỂN KHAI MÔ HÌNH ĐÁNH GIÁ QUAN ĐIỂM CỘNG ĐỒNG TRÊN MẠNG

XÃ HỘI LAMCHAME Error! Bookmark not defined.

3.1 Mô hình đánh giá quan điểm cộng đồng trên Diễn đàn LamchameError! Bookmark

not defined.

Trang 10

x

3.3 Khai phá quan điểm cộng đồng trên mạng xã hội làm cha mẹError! Bookmark not

defined.

3.3.1 Biểu diễn quan điểm Error! Bookmark not defined 3.3.2 Triển khai trên mạng xã hội làm cha mẹ Error! Bookmark not defined

CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ Error! Bookmark not defined.

4.1 Mô tả thực nghiệm Error! Bookmark not defined.

4.1.1 Mô tả dữ liệu Error! Bookmark not defined 4.1.2 Môi trường thực nghiệm Error! Bookmark not defined 4.1.3 Các công cụ và phầm mềm sử dụng Error! Bookmark not defined

4.2 Thực nghiệm và đánh giá Error! Bookmark not defined.

4.2.1 Thực nghiệm Error! Bookmark not defined 4.2.2 Đánh giá Error! Bookmark not defined

KẾT LUẬN Error! Bookmark not defined.

Trang 11

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt:

[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá dữ liệu, NXBGD, 2009

Tài liệu tiếng Anh:

[2] M Girvan, M E J Newman (2002) Community structure in social and biological networks, Proc Natl Acad Sci., 99(12), 7821 (2002)

[3] Steve Gregory: An Algorithm to Find Overlapping Community Structure in Networks PKDD 2007

[4] Santo Fortunato (2010), Community detection in graphs, Technical Report, Complex Networks and Systems Lagrange Laboratory, ISI Foundation, Torino, ITALY, arXiv:0906.0612v2 (2010)

[5] T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999

[6] T Joachims (2003) Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297

[7] V Sindhwani, S S Keerthi (2006) Large Scale Semi-supervised Linear SVMs SIGIR 2006

[8] V Sindhwani, S.S Keerthi (2007) Newton Methods for Fast Solution of Semisupervised Linear SVMs Large Scale Kernel Machines, MIT Press, 2005

[9] Hu, M and Liu, B (2006) Opinion extraction and summarization on the Web, Proceedings of the 21th National Conference on Artificial Intelligence (AAAI),

2006

[10] Bermingham, Adam and Smeaton, Alan F (2010) Classifying sentiment in microblogs: is brevity an advantage? International Conference on Information and Knowledge Management (CIKM 2010 - 19th)

[11] M.E.J Newman and M Girvan (2003) Finding and evaluating community structure in networks Preprint cond-mat/0308217

[12] Jiyang Chen (2010) Community Mining - Discovering Communities in Social Networks Thesis, University of Alberta

[13] David Easley and Jon Kleinberg (2010) Networks, Crowds, and Markets: Reasoning about a Highly Book of Cambridge University Press

[14] What Types of Social Networks Exist? (Lovetoknow.com, by Mary Gormandy White, M.A., SPHR - Social Media Trainer & Consultant)

Trang 12

12

[15] Li-ping Jing, Hou-Kuan Huang, Hong-Bo Shi (2002) Improved feature selection approach TFTDF in text mining, Proceedings of the First International Conference on Machine Learning and Cybernetics, Beijing, 4-5 November 2002

[16] J Leskovec, D Huttenlocher, J Kleinberg, “Predicting Positive and Negative Links in Online Social Networks”, In Proceedings of WWW’2010, ACM Press, New York, 2010

[17] Matthew A Russell (2011) Mining the social web

[18] Kristin P Bennett, Ayhan Demiriz (1998) Semi-Supervised Support Vector Machines NIPS 1998: 368-374

[19] Xiaojin Zhu (2005) Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005

[20] Xiaojin Zhu (2006) Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006

[21] Hu X.H and Cercone N (1995), “Learning in relational databases: a rough set approach”, International Journal of computational intelligence, pp 323-338

[22] Alan E Mislove (2009), Online Social Networks: Measurement, Analysis, and Applications to Distributed Information Systems, Thesis, RICE university

[23] Chun Nam Yu (2011), Improved learning of structural support vector machines: training with latent variables and nonlinear kernels, Ph.D., Cornell University

[24] Corinna Cortes, Vladimir Vapnik, “Support-Vector Networks, Machine Learning”, AT&T Bell Labs,Holmdel, NJ 07733, USA, 1995

[25] L H Phuong, N T.M Huyen, R Azim, H T Vinh A hybrid approach to word segmentation of Vietnamese texts Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196, Tarragona, Spain, 2008

[26] Steve Gregory: Finding Overlapping Communities Using Disjoint Community Detection Algorithms PKDD 2009

[27] Steve Gregory: A fast algorithm to find overlapping communities in networks PKDD 2008

[28] Pierre Baldi, Paolo Fransconi, Padhraic Smyth Modeling the Internet and the Web, Probabilistic Methods and Algorithms 2003

[29 ] G Fung and O L Mangasarian, Proximal support vector machine classifiers In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 77–86, 2001

[30] Raghavan U N, Albert R and Kumara S, Near linear time algorithm to detect community structures in large-scale networks, Physical Review E, page 76, 2007

Trang 13

[31] Leung I X Y, Hui P, Liò P and Crowcroft J, Towards real-time community detection in large networks, Physical Review E, page 79, 2009

Tham khảo web

[32] http://people.cs.uchicago.edu/~vikass/svmlin.html

[33] Website: http://vdict.com

Ngày đăng: 26/08/2016, 16:46

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w