Nhiệm vụ của mô hình TART là khám phá chủ đề quan tâm và phân tích vai trò của cá nhân đối với chủ đề trong thông điệp được trao đổi trên mạng xã hội; gán nhãn chủ đề; dùng yếu tố thời g
Trang 1ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Trang 2ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS ĐỖ PHÚC
THÀNH PHỐ HỒ CHÍ MINH - 2018
Trang 3LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và sâu sắc đến Thầy PGS.TS Đỗ Phúc, người Thầy luôn tận tình hướng dẫn, động viên và định hướng cho tôi trong suốt quá làm nghiên cứu sinh và hoàn thành luận án
Tôi mong muốn bày tỏ lòng biết ơn đến GS.TS Phan Thị Tươi, PGS.TS Trần Văn Lăng, PGS.TS Đỗ Văn Nhơn, PGS TS Quản Thành Thơ, PGS TS Nguyễn Phi Khứ, PGS.TS Hồ Bảo Quốc, PGS.TS Nguyễn Đình Thuân, PGS.TS Nguyễn Hoàng Tú Anh, TS Dương Minh Đức và TS Ngô Thanh Hùng đã có những lời khuyên quí báo cho tôi trong các buổi báo cáo chuyên đề, tiểu luận tổng quan, báo cáo học thuật tại đơn vị chuyên môn và trong quá trình viết luận án
Tôi xin chân thành gửi lời cảm ơn đến những Thầy/Cô phản biện đã có những lời nhận xét và góp ý vô cùng quí báo để tôi có thể hoàn thành luận án
Tiếp theo, tôi xin gửi lời cảm ơn đến Quí lãnh đạo, Thầy/Cô Trường Đại học Công nghệ thông tin đã giúp đỡ, đóng góp ý kiến quí báo cho tôi trong suốt quá trình học tập, nghiên cứu và hỗ trợ thủ tục hoàn thành luận án
Sự biết ơn của tôi xin được gửi đến Quí lãnh đạo, Thầy/Cô Trường Đại học Kinh tế - Luật nơi tôi đang công tác, đã tạo điều kiện cho tôi hoàn thành luận án
Kế đến, tôi xin được cảm ơn đến các anh chị nghiên cứu sinh và các bạn trong nhóm nghiên cứu phân tích mạng xã hội đã có những ý đóng góp quí báo cho tôi trong quá trình nghiên cứu
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến Cha, Mẹ, Vợ và hai con trai đã luôn sát cánh, động viên và chăm sóc tôi để tôi có thể hoàn thành luận án này
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, báo cáo, kết quả nghiên cứu trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác ngoại trừ các công trình, tư liệu được trích dẫn trong phần tài liệu tham khảo
Tác giả luận án
Hồ Trung Thành
Trang 5MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH MỤC HÌNH viii
DANH MỤC BẢNG x
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ xii
TÓM TẮT xiv
ABSTRACT xv
TỔNG QUAN VỀ LUẬN ÁN 1
1 Động cơ nghiên cứu 1
2 Mục tiêu nghiên cứu 4
3 Sơ đồ nghiên cứu tổng thể luận án 7
4 Đóng góp của luận án 9
5 Bố cục của luận án 10
CHƯƠNG 1 PHÂN TÍCH MẠNG XÃ HỘI VÀ CÁC NGHIÊN CỨU LIÊN QUAN 12
1.1 Giới thiệu chương 12
1.2 Khái niệm mạng xã hội 13
1.3 Phương pháp phân tích mạng xã hội 14
1.3.1 Khái niệm về phân tích mạng xã hội 14
1.3.2 Phân tích MXH theo hướng phân tích nội dung 15
1.3.3 Phân tích MXH dựa theo mô hình chủ đề 17
1.3.3.1 Khái niệm chủ đề 17
1.3.3.2 Mô hình chủ đề trong phân tích MXH 18
1.3.3.3 Một số mô hình chủ đề 19
Trang 61.4 Lý thuyết mạng Bayes và các phân bố xác suất 21
1.4.1 Lý thuyết mạng Bayes 21
1.4.2 Phân bố Dirichlet – hàm Gamma – hàm Beta 23
1.4.3 Phân bố hậu nghiệm 24
1.4.4 Lý thuyết về phương pháp lấy mẫu Gibbs 25
1.4.4.1 Lý thuyết xích Markov 25
1.4.4.2 Kỹ thuật lấy mẫu Gibbs 26
1.5 Các nghiên cứu liên quan đến phân tích MXH dựa theo mô hình chủ đề 27
1.5.1 Khám phá chủ đề quan tâm của cá nhân trên MXH 28
1.5.1.1 Khái niệm chủ đề quan tâm của cá nhân 28
1.5.1.2 Mô hình Author và mô hình Author-Topic 28
1.5.1.3 Mô hình khám phá chủ đề ART 29
1.5.1.4 Mô hình Dynamic Topic Model 31
1.5.1.5 Mô hình Topic-Over-Time 31
1.5.1.6 Mô hình Author-Topic-Time 32
1.5.2 Các nghiên cứu liên quan khám phá chủ đề quan tâm của cộng đồng trên MXH 32 1.5.2.1 Mô hình khám phá nhóm GT 32
1.5.2.2 Mô hình khám phá cộng đồng CUT 32
1.5.2.3 Mô hình khám phá cộng đồng CART 33
1.5.2.4 Mô hình Author-Topic-Community 33
1.6 Nhận định chung và động lực nghiên cứu 34
CHƯƠNG 2 KHÁM PHÁ VÀ GÁN NHÃN CHỦ ĐỀ ẨN TỪ THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI 38
2.1 Giới thiệu chương 38
Trang 72.2 Khám phá chủ đề ẩn từ thông điệp trên MXH áp dụng mô hình chủ đề 38
2.2.1 Khái niệm vector chủ đề 39
2.2.2 Khái niệm vector thông điệp 39
2.2.3 Phát biểu bài toán khám phá chủ đề ẩn từ thông điệp trên MXH 39
2.3 Mô hình chủ đề LDA 40
2.3.1 Phân bố xác suất liên hợp cho mô hình LDA 42
2.3.2 Kỹ thuật lấy mẫu Gibbs cho mô hình LDA 43
2.4 Thử nghiệm khám phá chủ đề ẩn bằng mô hình LDA 48
2.4.1 Mô tả dữ liệu thử nghiệm 49
2.4.2 Tiền xử lý thông điệp tiếng Việt 51
2.4.3 Thử nghiệm mô hình LDA trên dữ liệu diễn đàn và mạng xã hội Facebook 52
2.4.4 Thử nghiệm mô hình LDA trên dữ liệu của trang báo điện tử VnExpress.net 53
2.4.5 Hạn chế của mô hình LDA 54
2.5 Phương pháp gán nhãn chủ đề ẩn 54
2.5.1 Ý tưởng phương pháp gán nhãn cho chủ đề ẩn 54
2.5.2 Xây dựng cây phân cấp chủ đề 57
2.5.2.1 Khái niệm cây phân cấp chủ đề 57
2.5.2.2 Quy trình xây dựng cây phân cấp chủ đề 58
2.5.3 Thử nghiệm phương pháp gán nhãn và đánh giá kết quả 62
2.6 Kết luận chương 67
CHƯƠNG 3 KHÁM PHÁ CHỦ ĐỀ QUAN TÂM CỦA CÁ NHÂN DỰA THEO MÔ HÌNH CHỦ ĐỀ 69
3.1 Giới thiệu chương 69
3.2 Khám phá chủ đề quan tâm của cá nhân trên MXH theo thời gian 69
3.2.1 Khái niệm chủ đề quan tâm của cá nhân theo thời gian 69
Trang 83.2.2 Bài toán khám phá chủ đề quan tâm của cá nhân trên MXH có yếu tố thời gian 70
3.3 Mô hình khám phá chủ đề quan tâm cá nhân theo thời gian 71
3.3.1 Xây dựng mô hình TART 71
3.3.2 Phân bố xác suất liên hợp cho mô hình TART 73
3.3.3 Kỹ thuật lấy mẫu Gibbs cho mô hình TART 77
3.4 Thử nghiệm mô hình TART và thảo luận kết quả 80
3.4.1 Mô tả dữ liệu thử nghiệm 80
3.4.2 Thử nghiệm mô hình TART trên dữ liệu diễn đàn sinh viên và MXH 84
3.4.3 Thử nghiệm mô hình TART trên dữ liệu trang báo điện tử VnExpress.net 89
3.4.4 Khảo sát sự thay đổi chủ đề quan tâm của cá nhân theo thời gian 91
3.4.5 Tổng hợp so sánh mô hình TART với mô hình LDA và ART 93
3.4.5.1 So sánh tham số mô hình 93
3.4.5.2 So sánh kết quả thử nghiệm 94
3.5 Kết luận chương 97
CHƯƠNG 4 KHÁM PHÁ CHỦ ĐỀ QUAN TÂM CỦA CỘNG ĐỒNG DỰA THEO MÔ HÌNH CHỦ ĐỀ 99
4.1 Giới thiệu chương 99
4.2 Khám phá cộng đồng trên mạng xã hội 100
4.3 Xây dựng phương pháp khám phá cộng đồng dựa theo mô hình chủ đề 101
4.3.1 Ý tưởng về khám phá cộng đồng 101
4.3.2 Phương pháp gom cụm và vấn đề trực quan hóa dữ liệu 103
4.3.3 Xây dựng phương pháp khám phá cộng đồng 105
4.3.4 Phát biểu bài toán khám phá chủ đề quan tâm của cộng đồng trên MXH 106
4.4 Thử nghiệm phương pháp khám phá cộng đồng 108
4.4.1 Mô tả dữ liệu thử nghiệm 108
Trang 94.4.2 Chuẩn hoá vector nhập 110
4.4.3 Thử nghiệm phương pháp khám phá cộng đồng 110
4.4.4 Khảo sát sự biến thiên số cộng đồng dựa trên lớp ra Kohonen 114
4.5 Phân tích sự biến thiên đặc trưng của cộng đồng theo thời gian 115
4.5.1 Sự biến thiên đặc trưng của cộng đồng 116
4.5.2 Phương pháp phân tích sự biến thiên đặc trưng của cộng theo thời gian 116
4.5.3 Kết quả thử nghiệm 117
4.6 Đánh giá kết quả thử nghiệm phương pháp khám phá cộng đồng 118
4.6.1 Đánh giá kết quả thông qua khảo sát hệ số Precision, Recall và độ đo F 118
4.6.2 Đánh giá kết quả thông qua so sánh với phương pháp gom cụm K-Medoids 120
4.7 Kết luận chương 123
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 124
1 Kết luận 124
2 Hạn chế và hướng phát triển 125
DANH MỤC CÁC CÔNG BỐ CHÍNH 128
DANH MỤC CÁC CÔNG BỐ LIÊN QUAN 129
THAM GIA ĐỀ TÀI 129
TÀI LIỆU THAM KHẢO 130 PHỤ LỤC 1: CÂY PHÂN CẤP CHỦ ĐỀ a PHỤ LỤC 2: XÂY DỰNG PHẦN MỀM PHÂN TÍCH MẠNG XÃ HỘI d
PHỤ LỤC 3: DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ TỰ ĐẶC BIỆT ĐƯỢC DÙNG TRONG THÔNG ĐIỆP TRÊN MXH j PHỤ LỤC 4 QUY TRÌNH LẤY DỮ LIỆU m
Trang 10DANH MỤC HÌNH
Hình 1 Mối liên kết xã hội giữa các cá nhân (actors) trên MXH 1
Hình 2 Sơ đồ nghiên cứu tổng thể của luận án 7
Hình 1.1 Mô hình MXH 13
Hình 1.2 Mô hình PLSI khám phá chủ đề ẩn 19
Hình 1.3 Chủ đề trong thông điệp được chia sẻ và trao đổi trên MXH 28
Hình 1.4 Mô hình sinh của ART 30
Hình 1.5 Mô hình Topic over Time (TOT) 31
Hình 1.6 Mô hình ATT 32
Hình 2.1 Một ví dụ về kết quả khám phá chủ đề ẩn từ thông điệp của mô hình chủ đề 40
Hình 2.2 Mô hình LDA và phân bố xác suất liên hợp 41
Hình 2.3 Một số ví dụ về nội dung trao đổi của cá nhân trên MXH 50
Hình 2.4 Tổ chức hệ thống chủ đề trên trang báo điện tử VnExpress.net 50
Hình 2.5 Tổ chức bài viết và nội dung bình luận trên trang báo điện tử VnExpress.net 50
Hình 2.6 Phương pháp gán nhãn chủ đề ẩn 55
Hình 2.7 Phân cấp chủ đề và tập từ đặc trưng thuộc chủ đề 58
Hình 2.8 Quy trình phát triển ontology 59
Hình 2.9 Phương pháp xây dựng cây phân cấp chủ đề trong trường đại học dựa theo phương pháp xây dựng ontology 61
Hình 2.10 Một phần cây phân cấp chủ đề trong trường đại học 61
Hình 2.11 Một phần cây phân cấp chủ đề trên trang báo điện tử VnExpress.net 62
Hình 3.1 Mô hình TART khám phá chủ đề quan tâm của cá nhân theo thời gian 72
Hình 3.2 Lịch sử thông điệp được gửi theo từng năm trong kho ngữ liệu thu thập 81
Hình 3.3 Lịch sử số cá nhân tham gia gửi nhận thông điệp theo từng tháng và năm 82
Hình 3.4 Lịch sử thông điệp được gửi nhận bởi các cá nhân 82
Hình 3.5 Lịch sử thông điệp đươc gửi và nhận trong giai đoạn từ năm 2011 đến năm 2015 83
Hình 3.6 Lịch sử số cá nhân tham gia gửi nhận thông điệp theo từng tháng và năm từ năm 2011 đến năm 2015 84
Hình 3.7 Lịch sử thông điệp được gửi nhận bởi các cá nhân 84
Hình 3.8 Kết quả phân tích sự thay đổi khả năng xuất hiện của từ “sinh_viên” trong chủ đề “Giáo dục” 87
Hình 3.9 Kết quả phân tích trên 15 chủ đề trong thời gian từ tháng 01 đến tháng 12 năm 2015 87
Trang 11Hình 3.10 Kết quả phân tích sự biến thiên số cá nhân gửi và nhận 25 chủ đề theo thời gian 88Hình 3.11 Kết quả phân tích 25 chủ đề trong thời gian từ tháng 01 đến tháng 06 năm
2015 91Hình 3.12 Kết quả phân tích số cá nhân gửi hoặc nhận 25 chủ đề trong thời gian từ tháng 01 đến tháng 06 năm 2015 92Hình 3.13 Sự biến thiên quan tâm đến chủ đề “Thời sự” của 13 cá nhân thể hiện bằng
ID (chọn ngẫu nhiên) trong giai đoạn từ tháng 01-2015 đến tháng 06-2015 92Hình 3.14 Sự biến thiên xác suất quan tâm đến 25 chủ đề của 7444 cá nhân trong khoảng thời gian từ tháng 01-2014 đến 11-2014 93Hình 3.15 So sánh mô hình TART với mô hình LDA và mô hình ART 93Hình 3.16 Kết quả phân tích sự thay đổi xác suất xuất hiện của từ “dịch_vụ” trong chủ
đề “Thương mại điện tử” 97Hình 4.1 Các cộng đồng có liên hệ trong MXH 100Hình 4.2 Các cộng đồng rời rạc trong MXH 100Hình 4.3 Phương pháp khám phá cộng đồng cá nhân theo chủ đề và phân tích sự biến thiên chủ đề quan tâm của cá nhân 105Hình 4.4 Xác định nơron chiến thắng và vùng lân cận của mạng nơron Kohonen 108Hình 4.5 Trực quan hóa kết quả khám phá cộng đồng cá nhân trong tháng 01-2015 hiển thị trực quan trên lớp ra Kohonen 111Hình 4.6 Danh sách các chủ đề và xác suất quan tâm của cộng đồng 35 trên lớp ra Kohonen 111Hình 4.7 Trực quan hóa kết quả cộng đồng 35 và các đặc trưng trong cộng đồng 112Hình 4.8 Trực quan hóa kết quả khám phá chủ đề 5 được các cộng đồng quan tâm 112Hình 4.9 Kết quả phân tích cộng đồng dựa trên bảng kết quả 4.7 113Hình 4.10 Kết quả phân tích cộng đồng trong tháng 01-2015 113Hình 4.11 Số cộng đồng tham gia MXH quan tâm đến 15 chủ đề theo từng giai đoạn thời gian thể hiện trên lớp ra Kohonen 114Hình 4.12 Sự biến thiên số cộng đồng theo từng giai đoạn thời gian 115Hình 4.13 Cộng đồng quan tâm đến 9 chủ đề trong từng giai đoạn thời gian từ tháng 12-2008 đến tháng 07-2009 117Hình 4.14 Sự thay đổi mức độ quan tâm của cá nhân đối với chủ đề: “Tuyển sinh” theo từng giai đoạn thời gian 118
Trang 12DANH MỤC BẢNG
Bảng 2.1 Một số ký hiệu được dùng trong mô hình LDA 41
Bảng 2.2 Tham số đầu vào cho mô hình LDA để thử nghiệm khám phá chủ đề ẩn 49
Bảng 2.3 Thống kê số thông điệp thu thập từ diễn đàn và MXH (tính đến tháng 12-2015) 49
Bảng 2.4 Kết quả bước cải tiến tiền xử lý dữ liệu 52
Bảng 2.5 Danh sách 4 chủ đề (4 vector chủ đề) được khám phá (chưa gán nhãn) cùng tập từ đặc trưng (kèm xác suất) đại diện cho mỗi chủ đề 53
Bảng 2.6 Danh sách 4 chủ đề (4 vector chủ đề) được khám phá (chưa gán nhãn) và tập từ đặc trưng cùng với xác suất kèm theo xuất hiện trong mỗi chủ đề cụ thể 53
Bảng 2.7 Quá trình phân lớp để gán nhãn bằng phương pháp SVM kết hợp cây phân cấp chủ đề 63
Bảng 2.8 Trình bày 4 chủ đề đã được gán nhãn (4 vector chủ đề) dựa trên cây phân cấp chủ đề 64
Bảng 2.9 Đánh giá kết quả gán nhãn chủ đề bằng phương pháp SVM và cây phân cấp chủ đề trên dữ liệu MXH 65
Bảng 2.10 Trình bày 4 chủ đề đã được gán nhãn (4 vector chủ đề) dựa trên cây phân cấp chủ đề 66
Bảng 2.11 Đánh giá kết quả gán nhãn chủ đề bằng phương pháp SVM và cây phân cấp chủ đề trên dữ liệu trang VnExpress.net 67
Bảng 3.1 Bảng các ký hiệu được sử dụng trong mô hình TART 72
Bảng 3.2 Bảng giá trị cho tham số Dirichlet 𝛾 80
Bảng 3.3 Bảng tham số đầu vào cho mô hình TART 80
Bảng 3.4 Bảng thống kê số thông điệp thu thập từ diễn đàn và MXH trong trường đại học (tính đến tháng 12-2015) 81
Bảng 3.5 Trình bày kết quả phân tích 4 chủ đề quan tâm của cá nhân trong tháng 08-2014 85
Bảng 3.6 Kết quả phân tích chủ đề “Giáo dục” được cá nhân quan tâm trong giai đoạn tháng 01-2014 đến tháng 07-2014 86
Bảng 3.7 Kết quả phân tích 4 chủ đề quan tâm của cá nhân trong giai đoạn tháng 08-2015 89
Bảng 3.8 Kết quả phân tích chủ đề “Thương mại điện tử” được cá nhân quan tâm trong tháng 02-2015 đến tháng 06-2015 90
Bảng 3.9 So sánh ba mô hình TART, LDA và ART 94
Bảng 3.10 Kết quả khám phá chủ đề “Thương mại điện tử” của mô hình chủ đề LDA 94
Trang 13Bảng 3.11 Kết quả khám phá chủ đề “Thương mại điện tử” của mô hình ART 95Bảng 3.12 Kết quả khám phá chủ đề “Thương mại điện tử”của mô hình chủ đề TART 96Bảng 4.1 Tập vector các chủ đề quan tâm của cá nhân 102Bảng 4.2 Tập vector các chủ đề quan tâm của cá nhân 103Bảng 4.3 Một số mẫu vector quan tâm chủ đề (vector nhập) của cá nhân tại tháng 08-
2014 109Bảng 4.4 Một số mẫu vector quan tâm chủ đề (vector nhập) của cá nhân tại tháng 01-
2015 109Bảng 4.5 Vector trọng 𝑤𝑖 với thành phần là xác suất quan tâm chủ đề của từng cộng đồng trong giai đoạn tháng 01-2015 112Bảng 4.6 Kết quả tính độ đo F giữa gom cụm bằng tay dựa trên dữ liệu được phân lớp chủ đề trên diễn đàn và máy (Kohonen) trong thời gian tháng 03/2009 119Bảng 4.7 Kết quả tính độ đo F giữa gom cụm bằng tay dựa trên dữ liệu được phân lớp chủ đề trên diễn đàn và máy (Kohonen) trong thời gian tháng 04/2009 120Bảng 4.8 Bảng kết quả giá trị trung bình RMSSTD dựa trên thử nghiệm hai phương pháp gom cụm 122Bảng 4.9 Bảng kết quả giá trị trung bình RS dựa trên thử nghiệm hai phương pháp gom cụm 122
Trang 14DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ
ART Author-Recipient-Topic Mô hình Tác giả-Người nhận-Chủ đề
ATC Author-Topic-Community Mô hình Tác giả-Chủ đề-Cộng đồng ATT Author-Topic-Time Mô hình Tác giả-Chủ đề-Thời gian
Community-Author-Recipient-Topic
Mô hình Cộng đồng-Tác giả-Người nhận-Chủ đề
CB-SNA Content-Based Social
Gibbs sampling Gibbs sampling Lấy mẫu Gibbs
LDA Latent Dirichlet Allocation Mô hình LDA
LSI Latent Semantic Indexing Mô hình LSI
PLSI Probabilistic Latent Semantic
SNA Social Network Analysis Phân tích mạng xã hội
Social links Social links Các liên kết xã hội
SOM Self-Organizing Maps Mạng nơron tự tổ chức
Trang 15SVM Support Vector Machine Phương pháp máy học SVM TART Temporal-Author-Recipient-
Topic
Trang 16TÓM TẮT
Ngày nay, mạng xã hội có vai trò quan trọng trong lĩnh vực như kinh tế, xã hội, chính trị, giáo dục và nhiều lĩnh vực khác Mạng xã hội cho phép cá nhân hay cộng đồng có thể chia sẻ thông điệp, thảo luận hay góp ý kiến với những chủ đề quan tâm thông qua các liên kết xã hội Trong đó, thông điệp là liên kết xã hội tiềm ẩn nhiều thông tin và tri thức hữu ích Mỗi thông điệp có nhiều đặc trưng, trong đó chủ đề quan tâm và cá nhân gửi nhận chủ đề là các đặc trưng quan trọng Khác với tiếp cận truyền thống xem mỗi thông điệp thuộc về một chủ đề, tiếp cận dựa theo mô hình chủ đề chỉ ra rằng mỗi thông điệp có sự pha trộn nhiều chủ đề, mỗi chủ đề có nhiều cá nhân hay cộng đồng quan tâm
Tiếp cận theo mô hình chủ đề phù hợp cho hướng nghiên cứu phân tích mạng xã hội Tuy nhiên, các nghiên cứu trước vẫn còn những hạn chế về việc khám phá, gán nhãn
và phân tích sự biến thiên chủ đề quan tâm của cá nhân và cộng đồng dựa trên các liên kết xã hội có yếu tố thời gian Luận án đặt ra mục tiêu nghiên cứu trên cơ sở những hạn chế của các nghiên cứu trước Trong đó, luận án tập trung vào hai mục tiêu chính: (i) Xây dựng mô hình Thời gian-Tác giả-Người nhận-Chủ đề (mô hình TART) dựa theo
mô hình chủ đề Nhiệm vụ của mô hình TART là khám phá chủ đề quan tâm và phân tích vai trò của cá nhân đối với chủ đề trong thông điệp được trao đổi trên mạng xã hội; gán nhãn chủ đề; dùng yếu tố thời gian để chia nhỏ các yếu tố như: tập cá nhân gửi và nhận chủ đề, tập chủ đề và tìm ra sự biến thiên chủ đề quan tâm của cá nhân theo thời gian; phân tích sự thay đổi chủ đề quan tâm của cá nhân; (ii) Xây dựng phương pháp khám phá cộng đồng trên mạng xã hội dựa theo mô hình chủ đề có yếu tố thời gian và phương pháp mạng nơron Kohonen Nhiệm vụ của phương pháp khám phá cộng đồng
là gom cụm cá nhân dựa trên các đặc trưng như chủ đề, mức độ quan tâm để tìm ra các cộng đồng cá nhân cùng quan tâm chủ đề; phân tích sự biến thiên đặc trưng của cộng đồng trên mạng xã hội
Qua thử nghiệm các mô hình và phương pháp được đề xuất trên hai tập ngữ liệu thông điệp tiếng Việt (thu thập từ mạng xã hội trong các trường đại học và trang báo điện tử) bằng hệ thống phần mềm được xây dựng để phân tích mạng mạng xã hội, luận án đã hoàn thành mục tiêu
Trang 17ABSTRACT
At present, social networks play an important role in the many fields of economy, society, politics, education, etc Social networks allow actors or communities to share messages, discuss and comment opinions on interested topics by social links in which the message contains a lot of useful information and knowledge Each message has many special features, in which the interested topics and actors which send and receive the topics are important features Unlike the traditional approach about viewing each message belonging to a topic, the topic model-based approach indicates that each message has the mixture of many topics where each topic has a lot of topic-interest actors and communities The topic model-based approach is suitable to the research orientation on the Social Network Analysis (SNA) However, the previous researches have still had limitations about discovering, labeling and analyzing the variation of interested topics of actors and communities from social links with the temporal factor The dissertation sets research goals based on limitations of previous researches with
the two main goals: (i) Developing the model Temporal-Author-Recipient-Topic
(TART) based on the topic model The tasks of TART model are discovering interested topics and analyzing the role of actors on social networks with the temporal factor; labeling topics; applying the temporal factor to divide the elements, such as authors, recipients, set of topics in the corpus and finding out the variation of interested topics
of actors in each period of time; and analyzing the changes of interested topics of actors; (ii) Proposing the method for discovering communities on social networks based on the topic model with the temporal factor The tasks of this method are: clustering actors based on features, such as interested topics, topic interest probability
to find out communities of actors; and analyzing the variation of community features
on social networks
Through experimenting the proposed models and methods on two message corpora in Vietnamese (collected from social networks at universities and online newspapers) by the software system built for the Social Network Analysis, the dissertation is completed
as the planned goals
Trang 18TỔNG QUAN VỀ LUẬN ÁN
1 Động cơ nghiên cứu
Mạng xã hội trực tuyến (MXH) đã đạt được những thành tựu lớn trong nhiều lĩnh vực như kinh tế, chính trị, xã hội, giáo dục,… Mục tiêu phân tích MXH là phân tích sự tương tác giữa con người, tổ chức với nhau và khám phá những thông tin, tri thức tiềm ẩn thông qua
sự tương tác đó [27][28][41][59] Xu hướng gần đây, các nghiên cứu tập trung vào khai thác và phân tích MXH MXH trực tuyến đã phát triển nhanh chóng vì cho phép cá nhân,
tổ chức tương tác dễ dàng Chính MXH đã tạo nên sự không lệ thuộc vào không gian và thời gian khi giao tiếp của cá nhân và cộng đồng Mỗi cá nhân trên MXH đều có thể kết bạn và trò chuyện với bất kỳ một cá nhân khác trên cùng MXH đó Một số MXH trực tuyến điển hình như Facebook1, LinkedIn2, MySpace3, Twitter4,… Các MXH này mang lại lượng lớn dữ liệu là thông điệp trao đổi của cá nhân thông qua các liên kết xã hội Hình 1 biểu diễn mối liên kết giữa các cá nhân trong MXH
Hình 1 Mối liên kết xã hội giữa các cá nhân (actors) trên MXH 5
Có thể biểu diễn dữ liệu này bằng cấu trúc đồ thị của MXH và nội dung dữ liệu là thông tin trao đổi giữa các thành viên trên MXH trong đó bao gồm dữ liệu thông điệp, dữ liệu
Trang 19đa phương tiện, Đây chính là nguồn dữ liệu để phân tích MXH tìm ra những thông tin, tri thức tiềm ẩn được chứa đựng trong dữ liệu trên MXH [28][31][41]
Nhiều ứng dụng được xây dựng và tích hợp trên MXH để hỗ trợ phân tích MXH như: rút trích thông tin, khai phá dữ liệu, phân tích dữ liệu văn bản, phân tích dữ liệu hình ảnh và phim [17][28][41][42][59], tìm cụm dữ liệu tiếp cận theo lý thuyết thông tin [55] Hơn thế nữa, vấn đề phân tích sự tiến hóa của cấu trúc MXH rất được quan tâm vì qua đó có thể tìm ra sự thay đổi và dự đoán sự ảnh hưởng lan truyền thông tin trong cộng đồng MXH [20][39][43][61][78] Bên cạnh đó, MXH trực tuyến dễ tiếp cận để thu thập dữ liệu với lượng lớn Do đó, vấn đề tính toán lưu trữ và xử lý dữ liệu không cấu trúc (văn bản) cần được quan tâm
Với sự gia tăng ngày càng nhiều số lượng cá nhân, tổ chức sử dụng và khai thác nguồn tài nguyên trên MXH, các MXH ngày nay đã tạo ra nguồn dữ liệu phong phú và ngày càng phát triển tạo nền tảng hoạt động cho nhiều lĩnh vực khác nhau như giáo dục, kinh tế, xã hội, chính trị, Để phát triển các dịch vụ trên MXH, một vấn đề quan trọng là phân tích liên kết xã hội giữa các thực thể (gồm cá nhân, thông điệp được trao đổi, chủ đề của thông điệp, ) trên MXH Xét ví dụ điển hình: một hệ thống dịch vụ quản lý khách hàng của một công ty trên MXH, có thể đặt vấn đề như sau: nếu hai khách hàng cùng mua một mặt hàng giống nhau hoặc giữa hai cá nhân cùng quan tâm đến sản phẩm, dịch vụ dựa trên việc cùng trao đổi các chủ đề có liên quan nhau thì có thể giữa họ đã xuất hiện một liên kết xã hội cùng quan tâm đến các chủ đề và điều này giúp công ty có thể hiểu được ý kiến của khách hàng, khách hàng quan tâm đến chủ đề gì để công ty thực hiện chiến lược bán hàng, tiếp thị lan truyền (viral marketing) hiệu quả hơn
Thông điệp được cá nhân trao đổi trên MXH, diễn đàn hay hệ thống e-mail,… có sự pha trộn nhiều chủ đề [11] Chủ đề trong thông điệp được cá nhân quan tâm trao đổi và chia
sẻ tạo nên sự lan truyền thông tin từ cá nhân này đến cá nhân khác hình thành cộng đồng MXH cùng quan tâm đến các chủ đề Khai thác chủ đề quan tâm của cá nhân cũng như phân tích mối liên kết xã hội giữa các cá nhân qua những thông điệp, dữ liệu trao đổi là một công việc nhiều thách thức [11][69][79], đặc biệt chủ đề thường xuyên được thay đổi
Trang 20theo thời gian hoặc đôi khi một chủ đề có thể được trao đổi thường xuyên, liên tục trong một khoảng thời gian nào đó Chẳng hạn, cá nhân A trong tháng 01/2009 có quan tâm đến chủ đề “giáo dục” nhưng đến tháng 02/2009 lại quan tâm đến chủ đề “chính trị” hay “xã hội” Bên cạnh đó, chủ đề của thông điệp được thảo luận có thể là khác nhau tuỳ theo sở thích, hành vi, mức độ quan tâm, trao đổi của từng cá nhân theo từng giai đoạn thời gian Khám phá chủ đề quan tâm và phân tích vai trò của cá nhân trên MXH là một thách thức đặt ra cho bài toán với mục tiêu trả lời được các câu hỏi “cá nhân đã trao đổi chủ đề gì trên MXH theo thời gian?”, “mức độ quan tâm của cá nhân đến chủ đề cụ thể như thế nào?”, “có bao nhiêu cá nhân quan tâm đến chủ đề?”, “chủ đề nào được quan tâm nhiều nhất?” và “có thay đổi gì về sự quan tâm đến các chủ đề của cá nhân theo từng giai đoạn thời gian?”
Bên cạnh việc khám phá vai trò cá nhân trên MXH, một thách thức khác đặt ra là phân tích MXH để khám phá nhóm cá nhân (cộng đồng) cùng quan tâm chủ đề theo từng giai đoạn thời gian Khám phá nhóm cá nhân hay khám phá cộng đồng là cách để nhận biết nhóm các cá nhân có mối liên kết xã hội với nhau trên MXH và cùng chủ đề quan tâm [2][19][22][49][74][81], đồng thời giúp hiểu được sự quan tâm của từng cá nhân trong cộng đồng MXH theo từng chủ đề cụ thể Những thay đổi xảy ra trong cộng đồng thường liên quan đến các đặc trưng của cộng đồng như: chủ đề quan tâm, số cá nhân tham gia cộng đồng, mức độ quan tâm chủ đề của cộng đồng tại từng thời điểm khác nhau, và sự thay đổi chủ đề quan tâm trong cộng đồng dẫn đến thay đổi hành vi, sự quan tâm và trao đổi chủ đề của các cá nhân trong cộng đồng Nghiên cứu đặt ra là làm thế nào để có thể khám phá cộng đồng cá nhân cùng quan tâm đến một hay một nhóm chủ đề thông qua những nội dung thông điệp được trao đổi của tập cá nhân trên MXH? Với một hay nhóm chủ đề cụ thể có những cộng đồng nào trên MXH quan tâm trao đổi? sự biến thiên chủ đề quan tâm và cá nhân tham gia cộng đồng? Tìm giải pháp cho các câu hỏi này rõ ràng là việc không đơn giản nhưng kết quả nghiên cứu sẽ giúp cho việc phân tích và khám phá chủ đề được cá nhân quan tâm hay tìm ra những cá nhân có ảnh hưởng trong cộng đồng
để phục vụ cho những chiến lược phát triển như quản lý cộng đồng cá nhân của công ty,
Trang 21tổ chức hay của một quốc gia; hiểu cá nhân để thực hiện chiến lược tiếp thị hiệu quả, phát triển loại hình đào tạo trực tuyến trong trường đại học,
2 Mục tiêu nghiên cứu
Từ những động cơ nghiên cứu trên, luận án xây dựng hai mục tiêu chính và các nhiệm vụ nghiên cứu cụ thể Trong đó, luận án xây dựng các mô hình và phương pháp trong phân tích MXH dựa theo mô hình chủ đề để khám phá chủ đề quan tâm, vai trò của cá nhân và cộng đồng trên MXH theo từng giai đoạn thời gian Cụ thể hai mục tiêu chính sau:
(i) Xây dựng mô hình khám phá và gán nhãn chủ đề quan tâm của cá nhân trên MXH
dựa theo mô hình chủ đề có yếu tố thời gian và phân tích sự biến thiên chủ đề quan tâm của cá nhân
Nhiệm vụ nghiên cứu của mục tiêu (i) bao gồm:
- Xây dựng phương pháp gán nhãn chủ đề quan tâm của cá nhân theo thời gian dựa trên cây phân cấp chủ đề (Topic Taxonomy)
- Xây dựng mô hình TART dựa theo mô hình chủ đề để khám phá chủ đề quan tâm và phân tích vai trò của cá nhân trên MXH đối với từng chủ đề quan tâm cụ thể theo từng giai đoạn thời gian
(ii) Xây dựng phương pháp khám phá cộng đồng (gom cụm cá nhân có cùng đặc
trưng: chủ đề, mức độ và thời gian quan tâm chủ đề) trên MXH dựa theo mô hình chủ đề có yếu tố thời gian và phân tích sự biến thiên những đặc trưng trong cộng đồng MXH
Nhiệm vụ nghiên cứu của mục tiêu (ii) bao gồm:
- Xây dựng phương pháp khám phá cộng đồng trên MXH có cùng các chủ đề quan tâm theo từng giai đoạn thời gian
- Xây dựng phương pháp khảo sát sự biến thiên các đặc trưng của cộng đồng Trong đó, luận án tập trung vào hai đặc trưng là chủ đề quan tâm và cá nhân tham gia cộng đồng
Các đối tượng trọng tâm trong nghiên cứu của luận án:
Trang 22- Mô hình chủ đề LDA
- Các phương pháp, mô hình phân tích MXH dựa theo mô hình chủ đề
- Các liên kết xã hội: chủ đề và thông điệp được cá nhân trao đổi trên MXH
- Vai trò (cá nhân và cộng đồng): cá nhân là người gửi, người nhận6 chủ đề và cộng đồng là nhóm những cá nhân có cùng sự quan tâm trao đổi các chủ đề
- Thời gian cá nhân quan tâm đến chủ đề thông qua liên kết xã hội là thông điệp
Từ hai mục tiêu chính và các nhiệm vụ nghiên cứu, hai bài toán chính được đặt ra trong phạm vi luận án, bao gồm:
Bài toán 1 Khám phá chủ đề quan tâm của cá nhân dựa theo mô hình chủ đề có yếu
tố thời gian
Xây dựng mô hình TART dựa theo mô hình chủ đề để khám phá chủ đề quan tâm và phân tích vai trò của cá nhân trên MXH theo từng giai đoạn thời gian và xây dựng phương pháp gán nhãn chủ đề ẩn dựa trên cây phân cấp chủ đề [CB02][CB03][CB04][CB05] [CB09]
Bài toán 1 được chia làm hai bài toán nhỏ: (i) Bài toán 1.1 Khám phá và gán nhãn chủ đề
ẩn từ thông điệp trên MXH; (ii) Bài toán 1.2 Khám phá chủ đề quan tâm của cá nhân trên MXH có yếu tố thời gian
Nội dung thực hiện của bài toán 1.1 bao gồm:
- Nghiên cứu cho trường hợp dữ liệu là thông điệp tiếng Việt trên MXH Thông điệp trên MXH chứa đựng nhiều từ viết tắt, từ không rõ nghĩa, các ký hiệu Trước khi phân tích thông điệp, luận án phải tiến hành tiền xử lý dữ liệu bằng cách lọc đi những từ dừng (stopwords) và hệ thống các từ viết tắt và ký hiệu được ánh xạ sang từ rõ nghĩa,
từ đó hiểu được nội dung thông điệp để phân tích
- Các nghiên cứu truyền thống xem mỗi thông điệp chỉ thuộc về duy nhất một chủ đề Tuy nhiên, theo tiếp cận mô hình chủ đề, mỗi thông điệp tiềm ẩn nhiều chủ đề và mỗi
6
Trong các phương pháp và mô hình được luận án phát triển, cụm từ “Author - Tác giả” được luận án xem là “Cá nhân gửi” và cụm từ “Recipient - Người nhận” được xem là “Cá nhân nhận” để dễ dàng hơn khi trình bày các vấn đề trong phân tích liên kết xã hội của cá nhân trên MXH của luận án Tuy nhiên, những nội dung trình bày các mô hình được khảo sát và tham khảo, luận án vẫn trình bày theo cụm từ là “Author - Tác giả” và “Recipient - Người nhận”
Trang 23chủ đề được đặc trưng bởi tập từ đồng hiện trong thông điệp Như vậy, vấn đề đặt ra là làm thế nào để khám phá chủ đề ẩn trong thông điệp?
- Chủ đề ẩn được khám phá từ thông điệp chưa được gán nhãn (tên của chủ đề) Như vậy, để gán nhãn và chỉ rõ được chủ đề trao đổi, bài toán 1.1 xây dựng phương pháp xây dựng cây phân cấp chủ đề và phương pháp học máy SVM để gán nhãn chủ đề Bài toán 1.1 được trình bày chi tiết trong chương 2
Nội dung thực hiện của Bài toán 1.2 bao gồm:
- Xây dựng mô hình Khám phá chủ đề, phân tích mức độ quan tâm chủ đề của cá nhân
- Phân tích vai trò của cá nhân quan tâm chủ đề trên MXH theo từng giai đoạn thời gian
- Dùng yếu tố thời gian để chia nhỏ các yếu tố trong mô hình ART như tập cá nhân gửi, tập cá nhân nhận, tập chủ đề và tìm ra được sự thay đổi chủ đề quan tâm của cá nhân trong tập thông điệp theo từng khoảng thời gian so với chủ đề quan tâm trong kho ngữ liệu thông điệp
- Khảo sát sự biến thiên chủ đề quan tâm của từng cá nhân để chỉ ra trong từng giai đoạn thời gian từng cá nhân quan tâm đến chủ đề gì Tìm ra chủ đề được cá nhân quan tâm nhiều nhất trên MXH
Bài toán 1.2 được trình bày chi tiết trong chương 3
Bài toán 2 Khám phá chủ đề quan tâm của cộng đồng dựa theo mô hình chủ đề có yếu tố thời gian
Xây dựng phương pháp khám phá cộng đồng trên MXH có cùng các chủ đề quan tâm theo từng giai đoạn thời gian và phương pháp khảo sát sự biến thiên các đặc trưng của cộng đồng [CB01][CB06][CB10]
Nội dung thực hiện bài toán 2 bao gồm:
- Một cộng đồng quan tâm nhiều chủ đề và một chủ đề có nhiều cộng đồng quan tâm Theo tính chất của MXH, nhiều người trao đổi với nhiều người khác về một hay một
số chủ đề mà không chịu sự giới hạn của không gian và thời gian Mục tiêu tìm ra đặc trưng của cộng đồng bao gồm: chủ đề quan tâm, số cá nhân và mức độ quan tâm đến từng chủ đề cụ thể
Trang 24- Các đặc trưng của cộng đồng sẽ thay đổi theo từng giai đoạn thời gian Vì vậy, khảo sát sự biến thiên của đặc trưng chủ đề như: số lượng chủ đề quan tâm, số cá nhân tham gia cộng đồng trong từng thời gian để tìm ra xu thế quan tâm chủ đề của cá nhân và cộng đồng trên MXH
- Trực quan hoá kết quả khám phá cộng đồng cũng là vấn đề được xem xét trong bài toán 2
- Xây dựng phương pháp phân tích sự biến thiên các đặc trưng của cộng đồng
Bài toán 2 được trình bày chi tiết trong chương 4
3 Sơ đồ nghiên cứu tổng thể luận án
Hình 2 trình bày quy trình nghiên cứu của luận án Sơ đồ được chia làm 6 mô-đun
http://msft-dnl.digitalrivercontent.net/msoffice/pub/X12-30351/X12-30351.exe
M2 Khám phá chủ đề tiềm ẩn trong thông điệp dựa theo mô hình chủ đề (mô hình LDA)
M3 Thực hiện phương pháp gán nhãn cho chủ đề tiềm ẩn (mô hình LDA + cây phân cấp chủ đề + phương pháp SVM)
M1 Tiền xử lý dữ liệu (lọc dữ liệu, tách từ và gán nhãn từ
loại)
M4 Khám phá vai trò gửi và nhận của cá nhân đối với chủ đề quan tâm theo thời gian (mô hình TART)
Tập dữ liệu huấn luyện để gán nhãn
M6 Khảo sát sự biến thiên
những đặc trưng của cộng đồng
M5 : Khám phá cộng đồng cá nhân trên MXH dựa theo mô hình chủ đề (TART) kết hợp mạng nơ ron Kohonen
Kho dữ liệu mạng xã hội (thông điệp
và thông tin
cá nhân)
Kho tập ngữ liệu thông điệp
đã qua bước tiền xử lý
Thu thập
Tập chủ đề đã có nhãn
Khảo sát sự biến thiên chủ đề quan tâm của cá nhân
Tập vector chủ đề quan tâm của cá nhân theo thời gian
Hình 2 Sơ đồ nghiên cứu tổng thể của luận án
Mô-đun 1 (M1): Xử lý thu thập và tích hợp dữ liệu từ nguồn dữ liệu trên MXH, diễn đàn,
trang báo điện tử Trong giai đoạn này dữ liệu cần được tiền xử lý, phân tách từ loại và
Trang 25gán nhãn cho từ loại, bởi vì các thông tin trao đổi trên MXH luôn có những thông tin, dữ liệu nhiễu như các ký hiệu giao tiếp đặc biệt,… Chính vì thế việc tiền xử lý dữ liệu là quan trọng, hệ thống sẽ lọc các thông tin nhiễu hay nội dung rác ra khỏi thông điệp, sau
đó dùng các phương pháp tách từ như JVNTextPro7
để xác định từ loại là từ đơn, từ ghép trong tiếng Việt Tiếp đến công cụ JVnTagger8
được sử dụng để xác định nhãn từ loại của mỗi từ đã được phân tách là danh từ, tính từ, động từ hoặc trạng từ…
Mô-đun 2 (M2): Sau khi làm sạch dữ liệu, tại mô-đun này sẽ phân tích các thông điệp
được cá nhân trao đổi, thông điệp được phân lớp vào nhiều chủ đề, tuy nhiên chỉ chọn chủ
đề nào có độ chính xác cao để phân lớp cho thông điệp đó Tại mô-đun này, mô hình LDA được dùng để khám phá chủ đề ẩn từ thông điệp Kết quả thu được của mô-đun này
là các thông tin trao đổi được phân tách theo từng chủ đề riêng Tuy nhiên, các chủ đề lúc này vẫn chưa được gán nhãn mà chỉ đánh số thứ tự chẳng hạn như: chủ đề 1, chủ đề 2… chủ đề n Ứng với mỗi chủ đề là tập từ đặc trưng được rút trích thông qua nội dung trao đổi dựa trên tính chất đồng hiện của từ trong kho ngữ liệu thông điệp
Mô-đun 3 (M3): Kết quả thu được ở mô-đun 2 là tập hợp danh sách các chủ đề ẩn chưa
được gán nhãn, nhiệm vụ của mô-đun M3 phân lớp chủ đề tương ứng với nhãn nội dung (gán nhãn chủ đề) Để thực hiện nhiệm vụ này, luận án xây dựng cây phân cấp chủ đề Cây phân cấp chủ đề được xây dựng cùng lĩnh vực với nội dung dữ liệu khảo sát và phân tích Mục đích việc xây dựng cây phân cấp chủ đề nhằm tạo tập dữ liệu huấn luyện cho quá trình phân lớp văn bản và gán nhãn chủ đề Kết hợp cùng với phương pháp máy học SVM (Support Vector Machine) [63][64] và bộ dữ liệu có được sau khi được phân tách thành từng nhóm chủ đề ẩn ở giai đoạn trên Giai đoạn này thực hiện phân lớp để gán nhãn cho các chủ đề ẩn được khám phá trước đó Kết quả là tập các thông điệp được phân lớp và chủ đề ẩn được gán nhãn
Mô-đun 4 (M4): Xây dựng mô hình TART để khám phá chủ đề quan tâm và vai trò của
cá nhân (người nhận và người gửi) trên MXH có yếu tố thời gian dựa theo mô hình chủ
đề Mô hình TART được công bố trong [CB05] và một phần trong [CB01] Mô hình
Trang 26TART phân tích chủ đề quan tâm của cá nhân trên MXH trong từng giai đoạn thời gian và chỉ ra sự liên quan, tương tự nhau về nội dung và chủ đề ẩn trong thông điệp mà cá nhân MXH cùng quan tâm trao đổi Bên cạnh những nội dung trao đổi, thông tin của cá nhân (profile) trên MXH được luận án khai thác để thực hiện nhiệm vụ của mô hình TART, kết quả mô hình TART cũng chỉ ra rằng trong từng giai đoạn thời gian, chủ đề nào được cá nhân quan tâm nhiều và mức độ (xác suất) quan tâm đến từng chủ đề cụ thể Cuối cùng, mô-đun này sẽ phân tích sự biến thiên chủ đề quan tâm của cá nhân
Mô-đun 5 (M5): Xây dựng và thực hiện phương pháp khám phá cộng đồng cá nhân theo
thời gian Phương pháp khám phá cộng đồng được xây dựng dựa vào mô hình chủ đề TART kết hợp phương pháp mạng nơron Kohonen Cụ thể, luận án khai thác kết quả của
mô hình TART là tập vector chủ đề quan tâm của cá nhân (hay còn gọi là vector nhập) để khám phá cộng đồng cá nhân theo chủ đề Mô hình trong mô-đun 5 này được thực hiện bằng cách gom cụm các vector nhập có những đặc trưng giống nhau sử dụng phương pháp mạng nơron Kohonen hay còn gọi là mạng nơron tự tổ chức - Self Organizing Map (SOM) [40][60]
Mô-đun 6 (M6): Xây dựng phương pháp phân tích sự biến thiên đặc trưng của cộng đồng
theo từng giai đoạn thời gian dựa trên kết quả từ mô-đun 5
4 Đóng góp của luận án
- Áp dụng mô hình chủ đề vào phân tích MXH để khám phá chủ đề từ nội dung thông điệp trên MXH Kết quả thể hiện trong các công bố [CB07][CB08][CB09] Luận án xây dựng phương pháp kết hợp khám phá chủ đề từ mối liên kết xã hội là thông điệp được cá nhân trao đổi trên MXH và gán nhãn chủ đề dựa trên cây phân cấp chủ đề Phương pháp này còn làm nền tảng cho những nghiên cứu tiếp theo về việc khám phá chủ đề, phân tích nội dung và gán nhãn chủ đề nhằm tìm ra những tri thức mới từ các mối liên kết xã hội Kết quả này được thể hiện trong các công
bố [CB03][CB04]
- Xây dựng mô hình TART để khám phá vai trò của cá nhân quan tâm chủ đề dựa theo mô hình chủ đề có yếu tố thời gian Mô hình này đóng vai trò quan trọng
Trang 27trong việc tìm ra các liên kết xã hội của cá nhân trên MXH dựa theo mô hình chủ
đề thông qua việc phân tích chủ đề của thông điệp Kết quả này được thể hiện trong các công bố [CB02][CB05]
- Xây dựng phương pháp khám phá cộng đồng cá nhân dựa theo mô hình chủ đề Phương pháp khám phá cộng đồng là sự kết hợp giữa mô hình TART và phương pháp mạng nơron Kohonen để khám phá ra các cộng đồng những cá nhân có cùng chủ đề quan tâm Xây dựng phương pháp phân tích sự biến thiên đặc trưng của cộng đồng trên MXH theo từng giai đoạn thời gian Kết quả này được thể hiện trong các công bố [CB01][CB06][CB10]
- Để tiến hành thử nghiệm, luận án đã xây dựng một hệ thống phần mềm phân tích MXH thực hiện đầy đủ 6 mô-đun trên sơ đồ nghiên cứu tổng thể của luận án (hình
2 phần tổng quan) từ mô-đun thu thập, tiền xử lý dữ liệu, thực nghiệm khám phá
và gán nhãn chủ đề ẩn, thực nghiệm mô hình TART và phương pháp khám phá cộng đồng
5 Bố cục của luận án
Luận án được cấu trúc thành phần Tổng quan, 4 chương và kết luận như sau:
Phần tổng quan luận án Giới thiệu tổng quan về động cơ nghiên cứu, mục tiêu nghiên
cứu, đối tượng và phạm vi nghiên cứu, các bài toán chính đặt ra và những đóng góp chính của luận án Trong đó, luận án trình bày chi tiết quy trình thực hiện các phương pháp và
mô hình trong luận án
Chương 1 Chương này trình bày nền tảng lý thuyết về MXH, các phương pháp phân tích
MXH Tiếp cận nghiên cứu về phân tích MXH của luận án dựa theo mô hình chủ đề, trong chương này luận án trình bày chi tiết lý thuyết về mô hình chủ đề, lý thuyết mạng Bayes và các mô hình xác suất liên quan được áp dụng trong mô hình chủ đề Sau đó, luận án trình bày phân bố hậu nghiệm, phân phối ẩn Dirichlet và kỹ thuật lấy mẫu Gibbs cho việc ước lượng hậu nghiệm áp dụng trong mô hình chủ đề Phần sau cùng, chương này trình bày các nghiên cứu liên quan đến luận án như: mô hình khám phá chủ đề quan tâm của cá nhân, các phương pháp và mô hình khám phá nhóm, cộng đồng cá nhân trên
Trang 28MXH dựa theo mô hình chủ đề Từ đó, luận án trình bày nhận định ưu điểm và hạn chế của các nghiên cứu trước để làm cơ sở xây dựng hướng nghiên cứu của luận án
Chương 2: Chương này trình bày chi tiết về mô hình LDA, kỹ thuật lấy mẫu Gibbs cho
mô hình LDA Thử nghiệm và thảo luận các ưu điểm và hạn chế của mô hình Từ đó, xây dựng mô hình và phương pháp khắc phục hạn chế của mô hình LDA Trong đó, luận án xây dựng phương pháp gán nhãn chủ đề ẩn từ kết quả của mô hình LDA và thử nghiệm phương pháp trên tập ngữ liệu thông điệp tiếng Việt Phần cuối chương 2 trình bày nội
dung đánh giá kết quả thử nghiệm của phương pháp gán nhãn chủ đề
Chương 3 Chương này trình bày chi tiết nội dung xây dựng mô hình khám phá chủ đề
quan tâm, phân tích vai trò của cá nhân trên MXH có yếu tố thời gian (mô hình TART) và xây dựng phương pháp phân tích sự biến thiên chủ đề quan tâm của cá nhân trên MXH Trong đó, luận án xây dựng mô hình TART dựa theo mô hình chủ đề Luận án tiến hành xây dựng các công thức xác suất, ước lượng tham số và xây dựng phương pháp lấy mẫu Gibbs cho mô hình TART Cuối cùng là phần thử nghiệm, thảo luận và đánh giá kết quả thử nghiệm của mô hình TART
Chương 4 Chương này trình bày chi tiết về xây dựng phương pháp khám phá cộng đồng
dựa trên mô hình chủ đề có yếu tố thời gian Trong đó, luận án khai thác mô hình TART
và kết hợp với phương pháp mạng nơron Kohonen để xây dựng phương pháp gom cụm cá nhân (khám phá cộng đồng) dựa trên các đặc trưng của cá nhân trên MXH như chủ đề quan tâm, xác suất và thời gian quan tâm Bên cạnh đó, luận án giới thiệu về phương pháp phân tích sự biến thiên chủ đề quan tâm của cộng đồng cá nhân trên mạng được luận án xây dựng Cuối cùng, luận án trình bày về quá trình thử nghiệm và đánh giá kết quả thử nghiệm của mô hình
Kết luận và hướng phát triển Trình bày kết luận, những đóng góp của luận án và
hướng phát triển Phần cuối trình bày các công bố của luận án, tài liệu tham khảo và phần phụ lục gồm các kết quả thực hiện như xây dựng cây phân cấp chủ đề, phần mềm phân tích MXH được nghiên cứu sinh xây dựng để thử nghiệm các mô hình và phương pháp trong luận án, giới thiệu các ứng dụng của phân tích MXH Và cuối cùng là phần phụ lục
Trang 29CHƯƠNG 1 PHÂN TÍCH MẠNG XÃ HỘI VÀ CÁC NGHIÊN CỨU
LIÊN QUAN 1.1 Giới thiệu chương
Mục tiêu của phân tích MXH là khám phá thông tin và tri thức tiềm ẩn từ những liên kết
xã hội của cá nhân, cộng đồng Phân tích MXH giúp các nhà nghiên cứu, nhà quản lý hiểu
rõ mối quan hệ giữa các đối tượng, khám phá tri thức và tìm ra các đặc trưng, hành vi [55]
và các nguy cơ trong MXH từ những liên kết xã hội để phục vụ cho công tác nghiên cứu
và quản lý Ban đầu, phương pháp phân tích MXH thường tập trung vào việc tìm hiểu sự tương tác giữa các cá nhân trong MXH mà chưa quan tâm đến nội dung thông tin được chia sẻ Tuy nhiên, do nhu cầu thực tế mà việc phân tích MXH theo hướng nội dung ngày càng được nhiều nghiên cứu quan tâm [12][28][59][69] Phân tích MXH để hiểu nội dung thông điệp được trao đổi trên MXH của từng cá nhân, xác định được các cộng đồng MXH [28][38][59][62], phân tích sự lan truyền thông tin trên MXH [28][62], ứng dụng MXH đồng tác giả để phân tích tìm ra lĩnh vực nghiên cứu của các nhà khoa học được đăng tải trên các bài báo khoa học và tìm kiếm chủ đề yêu thích [9][51], khai thác thái độ, suy nghĩ và hành vi của cá nhân thông qua những nội dung thảo luận trên MXH [10][29], ứng dụng phân tích những vấn đề chính trị trên MXH trong quân đội [13], phân tích vấn đề về hạt nhân [73]
Để tìm hiểu chi tiết về MXH, phân tích MXH và là cơ sở để thực hiện các mục tiêu nghiên cứu của luận án, chương 2 được trình bày theo cấu trúc gồm các phần chính với nội dung tổng quan về MXH, các phương pháp phân tích MXH, phương pháp tiếp cận của luận án và khảo sát các nghiên cứu liên quan Cụ thể, trong phần 2 trình bày về lý thuyết MXH; phần 3 khảo sát các cách tiếp cận phân tích MXH và trình bày chi tiết lý thuyết mà luận án áp dụng; phần 4 trình bày chi tiết về mô hình chủ đề, lý thuyết mạng Bayes và các mô hình xác suất liên quan được áp dụng trong mô hình chủ đề, lý thuyết về phân bố xác suất hậu nghiệm, phân bố ẩn Dirichlet, hàm Gamma, hàm Beta và kỹ thuật lấy mẫu Gibbs cho mô hình chủ đề; phần 5 trình bày khảo sát chi tiết về các nghiên cứu liên quan về phân tích MXH dựa theo mô hình chủ đề
Trang 301.2 Khái niệm mạng xã hội
MXH là một cấu trúc xã hội của con người, có sự liên hệ trực tiếp hay gián tiếp với nhau thông qua những liên kết xã hội hoặc thông qua việc cùng quan tâm một vấn đề nào đó trong xã hội [41][59] Theo Stanley Wasserman và Katherine Faust, 1994 [59], MXH là
sự phản ánh mối quan hệ giữa các cá nhân của một xã hội trong thế giới thực vào trong máy tính được được biểu diễn ở dạng đồ thị
MXH được mô hình hóa bằng đồ thị G = (V,E) với V là tập các cá nhân (actor), E là tập
các liên kết xã hội (social link) giữa các cá nhân:
- Mỗi cá nhân v V có các đặc trưng, vai trò giống hay khác nhau
- Mỗi liên kết e E cùng có các loại liên kết khác nhau như: liên kết trao đổi thông
tin, kết bạn, thích, chia sẻ,…
- MXH cung cấp dữ liệu với lượng lớn thông qua các liên kết xã hội
- MXH ứng dụng trong nhiều lĩnh vực như kinh tế, giáo dục, chính trị, xã hội,… Trong MXH, các cá nhân được liên thông qua các liên kết xã hội [41][42][59] hay còn gọi
là liên kết xã hội Hình 1.1 biểu diễn mô hình MXH [59]
Hình 1.1 Mô hình MXH
Liên kết xã hội được chia làm hai loại: liên kết xã hội trực tiếp và liên kết xã hội gián tiếp Liên kết xã hội trực tiếp thông qua việc kết bạn trực tiếp hay gửi nhận thông điệp trực tiếp Đối với liên kết xã hội gián tiếp là thông qua trung gian là một hay nhiều bạn nào đó
Trang 31Để xây dựng mối quan hệ giữa các cá nhân trong một MXH cụ thể, trước tiên cần phải có phương pháp biểu diễn dữ liệu phù hợp Trong thực tế, biểu diễn MXH thường được biểu diễn ở dạng đồ thị, phương pháp này có ưu điểm là biểu diễn mọi dạng hình thái của MXH [59]
1.3 Phương pháp phân tích mạng xã hội
1.3.1 Khái niệm về phân tích mạng xã hội
Phân tích MXH (Social Network Analysis - SNA) là phương pháp phân tích những liên kết xã hội giữa người với người hay giữa người và tổ chức [59] Quay trở lại các nghiên cứu trước đây, SNA được thực hiện bằng phương pháp lý thuyết đồ thị [3][59] và được ứng dụng trong nhiều lĩnh vực như phân tích tâm lý tổ chức, xã hội học và nhân học SNA
tập trung vào bốn mục tiêu: (i) trực quan hoá sự giao tiếp và những mối quan hệ khác
nhau giữa người với người hay giữa người với tổ chức bằng các biểu đồ Trực quan hoá
MXH có truyền thống lâu đời và được một khảo sát đưa ra trong [30]; (ii) nghiên cứu các
yếu tố ảnh hưởng đến các mối quan hệ như tuổi tác, nền tảng đào tạo liên quan, ) và nghiên cứu mối tương quan giữa các mối quan hệ đó Điều này thực hiện bằng các kỹ thuật thống kê truyền thống như phân tích mối tương quan, phương sai, phân tích các yếu
tố [89]; (iii) rút trích thông tin và khám phá tri thức trong dữ liệu là thông điệp được trao đổi trên MXH [37]; (iv) mục tiêu thứ tư của SNA là tạo ra các khuyến nghị để cải thiện sự giao tiếp của con người và quy trình làm việc trong tổ chức [7]
Sự xuất hiện của các MXH trực tuyến trong những thập kỷ qua đã dẫn đến gia tăng khối lượng lớn thông tin cá nhân, các hoạt động của con người, sự kết nối giữa các cá nhân hoặc nhóm, và các ý kiến và suy nghĩ của con người được trao đổi trên MXH [28] Phần lớn các dữ liệu này liên quan đến các cá nhân hay nhóm và được xem là các nút trong một
đồ thị [28] Việc phân tích MXH của cá nhân hay nhóm để tìm ra các nhãn liên quan như: nhãn về nhân khẩu học (tuổi, giới tính và vị trí); nhãn đại diện cho quan điểm chính trị hoặc tôn giáo; nhãn về lợi ích, sở thích, đảng phái, nhiều đặc điểm khác nắm bắt các khía cạnh từ những thông tin và hành vi của một cá nhân trên MXH Các nhãn này thường xuất hiện trên các dữ liệu của cá nhân trên MXH, hoặc gắn liền với các đối tượng dữ liệu
Trang 32khác trong mạng như hình ảnh, dữ liệu truyền thông đa phương tiện, Những ứng dụng trong khai phá dữ liệu trên MXH như:
- Xây dựng các kết nối mới hoặc địa chỉ liên lạc cho các cá nhân, dựa trên việc tìm kiếm những người khác nhau có cùng sở thích giống nhau về nhân khẩu học, sở thích hoặc kinh nghiệm
- Hệ thống khuyến nghị đề xuất đối tượng nội dung như âm nhạc, phim ảnh, bài báo khoa học, các hoạt động khác dựa trên lợi ích và sở thích của cá nhân
- Hệ thống hiển thị quảng cáo đến các cá nhân để làm sao có nhiều khả năng cá nhân đó quan tâm và tiếp nhận quảng cáo về một chủ đề cụ thể
- Nghiên cứu xã hội học các cộng đồng, chẳng hạn như mức độ mà các cộng đồng hình thành xung quanh lợi ích, sở thích, tôn giáo, đảng phái
- Phân tích MXH còn là việc tính toán, ánh xạ các mối quan hệ giữa con người, các nhóm, các tổ chức, các máy tính và các đối tượng có kết nối hoặc chia sẻ thông tin Các phương pháp trên dùng để khai thác tài nguyên dữ liệu trên MXH tập trung vào các
kỹ thuật phân tích MXH, trong đó có phương pháp gom cụm, phân loại các nút (cá nhân), phân tích hành vi và nội dung quan tâm của cá nhân thông qua các liên kết xã hội
1.3.2 Phân tích MXH theo hướng phân tích nội dung
Phân tích MXH dựa theo hướng phân tích nội dung là cách tiếp cận kết hợp giữa phương pháp phân tích MXH và khai thác dữ liệu văn bản [39][52][69] hay gom cụm văn bản [2] Phân tích MXH cung cấp công cụ để tìm ra mối quan hệ giữa các cá nhân trong cộng đồng MXH Khai thác văn bản giúp phân tích nội dung văn bản được tạo ra từ việc trao đổi trên những ứng dụng Web 2.0, điển hình là ứng dụng MXH [38][39][69] Mô hình Content-Based Social Network Analysis (CB-SNA) [69] là một điển hình phương pháp kết hợp phân tích MXH và khai thác văn bản và được gọi chung là phân tích MXH dựa trên nội dung
Mô hình CB-SNA [69] xây dựng một đồ thị G CBSNA = <V, E> gồm:
- Tập V: tập đỉnh là tập các cá nhân trong mạng
Trang 33- Tập E: tập cạnh biểu diễn sự phụ thuộc giữa các cá nhân Mỗi cạnh được gán một
trọng số thể hiện độ mạnh của sự phụ thuộc đó
Trong CB-SNA, MXH được thể hiện gồm các cá nhân tham gia vào mạng và có sự trao đổi nội dung với nhau Nội dung được trao đổi bởi các cá nhân được phân tích và gom nhóm vào từng chủ đề cụ thể Một cá nhân tham gia trao đổi một hoặc nhiều chủ đề Trong mô hình này, sự phụ thuộc giữa các cá nhân thể hiện sự tương đồng về chủ đề giữa các cá nhân, các cá nhân càng tương đồng về chủ đề thì phụ thuộc này càng mạnh [69]
Mô hình CB-SNA được thực hiện qua 3 giai đoạn sau:
- Giai đoạn 1 Rút trích ra tập các từ khóa từ các nội dung trao đổi gọi là tập các khái
niệm của lĩnh vực quan tâm
- Giai đoạn 2 Tìm ra các chủ đề trao đổi trên mạng bằng cách gom nhóm các khái niệm
thành các cụm khái niệm Mỗi cụm khái niệm phản ánh một chủ đề được trao đổi
- Giai đoạn 3 Là khám phá ra mô hình CB-SNA Các nội dung trao đổi của từng cá
nhân sẽ được phân tích Từ nội dung trao đổi này sẽ tính ra được tập các chủ đề mà cá nhân quan tâm, khoảng cách giữa hai cá nhân gần nhau nếu tập chủ đề mà hai cá nhân quan tâm gần giống nhau Khoảng cách này quyết định độ phụ thuộc giữa hai cá nhân
và từ đó xây dựng mô hình CB-SNA
Khi mô hình CB-SNA được xây dựng, một số độ đo phân tích mạng xã hội sẽ được áp dụng để phân tích mạng xã hội Nghiên cứu [69] xây dựng độ đo trung bình trung tâm Average Degree Centrality (ADC) để phân tích mạng (công thức 1.1) và cho biết mức độ kết nối giữa các nút trong MXH:
Kỹ thuật khám phá chủ đề trong mô hình CB-SNA được thực hiện theo giải thuật gom
cụm trên tập V Sau khi thực hiện giải thuật gom cụm, được tập hợp các cụm C = {C 1 , C 2,
, C K } Với C i là cụm thứ i và K là số cụm
Trang 34Mô hình CB-SNA được nhiều công trình áp dụng để phân tích nội dung tài liệu [12][31][38][69] Tuy nhiên, giải thuật gom cụm để tìm chủ đề của mô hình CB-SNA dựa theo độ đo tương đồng về nghĩa của từ, vì vậy mô hình này chưa phù hợp với hướng nghiên cứu của luận án là nghiên cứu phân tích MXH dựa theo mô hình chủ đề Mô hình chủ đề thực hiện khám phá chủ đề bằng cách gom cụm các từ đồng hiện (cùng xuất hiện) trong tập ngữ liệu [24]
1.3.3 Phân tích MXH dựa theo mô hình chủ đề
1.3.3.1 Khái niệm chủ đề
Một số thuật ngữ và khái niệm liên quan đến mô hình chủ đề [24]:
- Từ: một từ được ký hiệu w là một đơn vị cơ bản của dữ liệu rời rạc, từ được định nghĩa là một phần tử của tập từ vựng được đánh chỉ mục bởi {1, 2, , N}
- Tài liệu 9 (thông điệp): một thông điệp được ký hiệu d là tập hợp được biểu diễn bằng
một dãy gồm N từ (w 1 ,w 2 , ,w N ) trong đó w i là từ thứ i của dãy trong tài liệu d
- Kho ngữ liệu: kho ngữ liệu là tập hợp M thông điệp được ký hiệu là 𝒟 = (d 1 , d 2 , …,
d M ) trong đó d i là dãy từ biểu diễn cho thông điệp thứ i của kho ngữ liệu 𝒟 Mỗi thông điệp d i𝒟 chứa một tập từ W
- Chủ đề (theo R Swan cùng cộng sự, 2000 [54] và theo W.M Pottenger cùng cộng sự,
2001 [70]) là:
o Đại diện bởi mô hình n-grams cho biết tần suất xuất hiện của từ liên tiếp nhau
có trong dữ liệu của kho ngữ liệu và sự đồng hiện của từ w
o Tập các từ w có quan hệ ngữ nghĩa với nhau
- Chủ đề (theo mô hình chủ đề David Blei cùng cộng sự, 2003 [24]) là:
o Một phân bố của nhiều từ w Những từ được phân bố trong cùng chủ đề có sự đồng hiện với nhau trong thông điệp d Chủ đề trong mô hình chủ đề được ký hiệu là z
9
Trong luận án cụm từ “tài liệu” đôi khi được thay thế bằng từ “thông điệp” và ngược lại để phù hợp cho ngữ cảnh của từng bài toán phân tích MXH trong luận án
Trang 35Theo mô hình chủ đề [24], chủ đề z được xác định trước khi tạo lập thông điệp d và chủ
đề chi phối đến quá trình tạo sinh thông điệp, mà chủ yếu là chi phối việc chọn từ w để
đưa vào thông điệp10
Chủ đề được đặc trưng bằng tập hợp các từ có liên quan đến chủ đề
Ví dụ chủ đề “đào tạo” trong trường đại học có các từ liên quan là “giảng viên”, “sinh viên”, “giảng dạy”, “thi cử”, Bài toán đặt ra là cho trước một thông điệp, tìm các chủ đề
có trong thông điệp dựa trên tập các từ có trong thông điệp đó Chẳng hạn với chủ đề là
“ùn tắc giao thông”, người tạo lập thông điệp triển khai các từ liên quan đến chủ đề “ùn tắc giao thông” như: “kẹt xe” (gần nghĩa với “ùn tắc giao thông”), “ý thức tham gia giao thông” (liên quan với “ùn tắc giao thông”), “giáo dục ý thức tham gia giao thông” (liên quan với “ý thức tham gia giao thông”),… Qua ví dụ trên cho thấy khái niệm “ùn tắc giao thông” được chọn làm chủ đề, khi thông điệp có chứa nhiều từ, các từ có liên quan đến chủ đề được chọn để đưa vào chủ đề “ùn tắc giao thông”, từ đó hình thành một chủ đề kèm theo tập từ đặc trưng cho chủ đề
Trong nghiên cứu của luận án, khái niệm chủ đề trong mô hình chủ đề của David Blei cùng cộng sự [24] được luận án áp dụng để xây dựng các mô hình và phương pháp
1.3.3.2 Mô hình chủ đề trong phân tích MXH
Mô hình chủ đề được nhiều công trình nghiên cứu áp dụng trong phân tích MXH để khám phá tri thức là chủ đề ẩn từ thông điệp [42][59][62][69] Chủ đề thể hiện chủ ý, sở thích của cá nhân khi tạo lập thông điệp, do đó khám phá chủ đề là khám phá được thông tin, tri thức quan trọng về sở thích, hành vi, của cá nhân hay cộng đồng cá nhân trên MXH [19][49][59] Chủ đề được xem là tập hợp nhóm các từ đặc trưng nhằm mô tả một khái niệm Chẳng hạn như chủ đề “đào tạo” có các từ đặc trưng như “giảng viên”, “sinh viên”,
“học phí”, Đối với MXH không tổ chức trước chủ đề cho thông điệp Do vậy, việc khám phá chủ đề ẩn trong nội dung thông điệp được trao đổi bởi các cá nhân là một bài toán phức tạp trong lĩnh vực rút trích thông tin, đặc biệt là thông tin trên kho ngữ liệu thông điệp tiếng Việt Khám phá chủ đề từ thông điệp sẽ hiểu được nội dung trao đổi của thông điệp đó
10
https://academic.cuesta.edu/acasupp/as/308.HTM (truy cập lần cuối ngày 25-12-2017)
Trang 36Mô hình chủ đề được Deerwester cùng cộng sự đề xuất năm 1990 [57] Mô hình chủ đề cho phép kiểm tra và khai thác tập thông điệp dựa trên việc tìm kiếm và thống kê các từ
có liên quan đến chủ đề trong mỗi thông điệp, và khám phá ra những chủ đề ẩn trong thông điệp đó11
Mục đích của mô hình chủ đề sẽ tìm ra một mô tả từ một văn bản có nhiều chiều thành một văn bản có số chiều ít hơn
Một số tiếp cận hiện nay trong việc mô hình nội dung thông điệp bằng chủ đề dựa trên ý tưởng là tính phân bố xác suất của mỗi từ đặc trưng trong thông điệp Phân bố này xem mỗi thông điệp là sự pha trộn của nhiều chủ đề, mỗi chủ đề là sự kết hợp của nhiều từ kèm phân bố xác suất riêng cho từng từ trong chủ đề [15][24][33][57]
1.3.3.3 Một số mô hình chủ đề
i Mô hình Latent Semantic Indexing (LSI) nhằm khám phá chủ đề ẩn trong kho ngữ
liệu thông điệp Mô hình LSI [24] đề xuất mô hình tự động rút trích thông tin và lập chỉ mục từ dựa trên mối quan hệ ngữ nghĩa giữa các từ xuất hiện trong thông điệp hay các chủ đề tồn tại trong thông điệp đó kết hợp mô hình không gian vector của từng thông điệp, chủ đề Bên cạnh đó, khái niệm ma trận từ và thông điệp cũng được đề xuất trong nghiên cứu này
ii Mô hình Probabilistic Latent Semantic Indexing (PLSI) được công bố vào năm
1999 bởi Hofmann cùng cộng sự [33], mô hình này được phát triển dựa trên cải tiến mô hình LSI và kết hợp với mô hình xác suất Ý tưởng chính của mô hình là mỗi thông điệp
là sự pha trộn của nhiều chủ đề và mỗi chủ đề là một phân bố xác suất trên nhiều từ Mô hình PLSI là một mô hình cải tiến hữu ích trong việc mô hình hoá thông điệp trên MXH
Trang 37- Mỗi từ w được tạo ra từ một chủ đề, những từ w khác nhau được tạo từ các chủ đề
khác nhau
- Mội thông điệp d được xem là sự pha trộn của nhiều từ w và chủ đề z
Xác suất của từ w thứ n trên thông điệp được xác định bởi công thức xác suất sau [33]:
Trong đó, P(d,w n)là xác suất từ w thứ n trên thông điệp d, P(z|d)là xác xuất của chủ đề
z trong thông điệp d
Mô hình PLSI chưa xây dựng ma trận phân bố xác suất chủ đề và thông điệp [24] Điều này dẫn đến hai vấn đề: (i) số tham số trong mô hình sẽ gia tăng tuyến tính theo kích thước của kho ngữ liệu có nhiều thông điệp, điều đó dẫn đến vấn đề gặp phải khi phân phối xác suất cho một thông điệp nằm ngoài tập dữ liệu học Ngoài ra, số lượng các tham
số tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng (nói cách khác, trong
trường hợp này khả năng sẽ xảy ra hiện tượng overfitting – quá vừa dữ liệu) Hiện tượng
overfitting đề cập đến vấn đề xảy ra khi sử dụng phương pháp học máy, nghĩa là số lượng
dữ liệu của tập huấn luyện quá nhỏ, không đại diện cho toàn bộ tập dữ liệu có hay toàn bộ phân bố dữ liệu của bài toán12; (ii) ngoài ra số lượng các tham số tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng, nhưng mô hình PLSI lại chưa chỉ ra phương pháp
để gán xác suất đến từng thông điệp bên ngoài tập thông điệp huấn luyện
iii Mô hình chủ đề Latent Dirichlet Allocation (LDA) Những hạn chế của mô hình
PLSI được David Blei cùng cộng sự đề xuất cải tiến trong mô hình chủ đề LDA [24] Mô hình LDA là một mô hình sinh xác suất cho kho ngữ liệu rời rạc Về bản chất, LDA là một mô hình mạng Bayes theo ba cấp [15][24][44], trong đó mỗi thông điệp được mô tả dưới dạng kết hợp ngẫu nhiên của một tập các chủ đề Mỗi chủ đề là một phân bố rời rạc của một tập các từ Nhiều nghiên cứu phân tích MXH theo hướng rút trích thông tin, khám phá tri thức đã dựa theo mô hình chủ đề LDA [42][59][62][69] Chi tiết mô hình LDA được trình bày chi tiết trong chương 2 của luận án
12
https://class.coursera.org/ml-005/lecture/39 (truy cập lần cuối ngày 25-12-2017)
Trang 38Mô hình chủ đề được nhiều công trình nghiên cứu áp dụng trong phân tích MXH để khám phá những chủ đề ẩn từ thông điệp được cá nhân trao đổi trên MXH [42][59][62][69] Chủ đề thể hiện chủ ý, sở thích của cá nhân khi tạo lập thông điệp, do đó khám phá chủ đề
là khám phá thông tin, tri thức trong thông điệp được cá nhân trao đổi trên MXH [59] Theo tiếp cận truyền thống xem xét một thông điệp chỉ thuộc về một chủ đề Tiếp cận theo mô hình chủ đề chỉ ra rằng, mỗi thông điệp được biểu diễn bằng nhiều chủ đề mà thông điệp đó đề cập đến, mỗi chủ đề được biểu diễn bằng tập từ đặc trưng Mô hình LDA theo cách tiếp cận của mô hình chủ đề Đối với MXH không tổ chức trước chủ đề,
vì vậy hiểu được chủ đề thì hiểu được nội dung trao đổi của thông điệp đó
1.4 Lý thuyết mạng Bayes và các phân bố xác suất
Tiếp cận phân tích MXH dựa theo mô hình chủ đề, luận án dựa trên nền tảng lý thuyết mạng xác suất Bayes và kỹ thuật Gibbs để xây dựng mô hình và giải quyết các bài toán đặt ra
1.4.1 Lý thuyết mạng Bayes
Mạng Bayes là một mô hình đồ thị xác suất thường được áp dụng để biểu diễn tri thức về một kết luận không chắc chắn [14] Mạng Bayes là sự kết hợp giữa lý thuyết đồ thị và lý thuyết xác suất thống kê, cho phép biểu diễn một cách trực quan và phương pháp tính phân bố xác suất chung của các biến ngẫu nhiên [14]
Theo định lý Bayes, xác suất xảy ra X khi biết Y được ký hiệu là 𝑃(𝑋|𝑌) phụ thuộc vào ba yếu tố [14]:
- Xác suất xảy ra X, không quan tâm đến Y Ký hiệu là P(X) Đại lượng này gọi là xác
suất tiên nghiệm
- Xác suất xảy ra Y, không quan tâm đến X Kí hiệu là P(Y) Đại lượng này gọi là hằng
số chuẩn hóa không phụ thuộc vào sự kiện X đang muốn biết
- Xác suất xảy ra Y khi biết X xảy ra Kí hiệu là P(Y|X) Đại lượng này gọi là khả năng nghĩa là khả năng xảy ra Y khi biết X xảy ra
Khi biết ba yếu tố trên, xác suất của X khi biết Y được cho bởi công thức (1.3) sau [14]:
Trang 39𝑃(𝑋|𝑌) = 𝑃(𝑌|𝑋)𝑃(𝑋)
𝑃(𝑌)
(1.3)
Theo công thức (1.3), xác suất của X khi biết Y được gọi là xác suất điều kiện hay cách
gọi khác là xác suất hậu nghiệm, ký hiệu là P(X|Y) Xác suất hậu nghiệm của một biến cố
ngẫu nhiên hoặc một mệnh đề không chắc chắn là xác suất có điều kiện mà nó nhận được khi một bằng chứng có liên quan được xét đến Phân bố xác suất hậu nghiệm hay phân bố hậu nghiệm của một biến ngẫu nhiên khi cho trước giá trị của một biến khác được tính
theo Bayes bằng cách nhân phân bố xác suất tiên nghiệm P(X) với hàm khả năng 𝑃(𝑌|𝑋)
rồi chia cho mẫu số là hằng số chuẩn hóa 𝑃(𝑌) 𝑃(𝑌) còn được gọi là phân phối biên để
chắc chắn rằng P(X|Y) là một hàm mật độ xác suất
Bằng việc tiếp cận mô hình thống kê Bayes để phân tích dữ liệu, cho một tập dữ liệu bao gồm nhiều điểm dữ liệu 𝒟 ={x1, x2, …., xN} được giả định được tạo ra từ những phân bố xác suất có tham số là 𝜃 Giả định phân bố xác suất đó được biễu diễn bởi hàm khả năng 𝑃(𝒟|𝜃) Trong đó, mặc dù 𝜃 chưa biết, nhưng cho một số tri thức tiên nghiệm đến mô hình được tạo ra bởi phân bố 𝑃(𝜃|𝛼), trong đó 𝛼 là giá trị biết trước gọi là tham số Dirichlet Đây là một ý tưởng cơ sở của tiếp cận thống kê Bayes được so sánh với những tiếp cận thống kê truyền thống mà trong đó tham số 𝜃 được giả định có một giá trị cố định Phân bố xác suất liên hợp của kho ngữ liệu quan sát được và những tham số được định nghĩa trong mô hình xác suất sau [24][68]:
Theo thống kê Bayes, cả kho ngữ liệu 𝒟 và tham số 𝜃 được xem là những biến ngẫu
nhiên Do đó, ứng dụng lý thuyết mạng Bayes để tính phân bố hậu nghiệm của tham số 𝜃 như sau:
𝑃(𝜃|𝒟; 𝛼) = 𝑃(𝒟|𝜃)𝑃(𝜃|𝛼)𝑃(𝒟|𝛼) (1.5) Tích phân hai vế của (1.5) theo 𝜃 để tính phân phối biên 𝑃(𝒟|𝛼) của tập dữ liệu 𝒟 Kết quả 𝑃(𝒟|𝛼) được được tính dựa theo hàm khả năng 𝑃(𝒟|𝜃) và phân bố tiên nghiệm 𝑃(𝜃|𝛼) như sau:
Trang 40Mô hình chủ đề LDA [24] được xây dựng dựa theo mô hình mạng Bayes Vì vậy, các yếu
tố và thành phần trong mạng Bayes luôn được xem xét trong mô hình chủ đề LDA Luận
án kế thừa những ưu điểm của mạng Bayes và tiếp cận dựa theo mô hình chủ đề Chính vì thế, các nội dung nghiên cứu trong chương 2 và chương 3, luận án luôn xem xét đến các yếu tố và thành phần trình bày trên để xây dựng phương pháp và mô hình
1.4.2 Phân bố Dirichlet – hàm Gamma – hàm Beta
i Phân bố Dirichlet
Trong xác suất và thống kê, phân bố Dirichlet được ký hiệu Dir( ), là một họ của phân
bố xác suất liên tục nhiều chiều Trong đó, vector có thành phần là số thực dương
Để xây dựng mô hình xác suất cho kho ngữ liệu 𝒟, phân bố tiên nghiệm cho tham số đa thức 𝜃 cần phải được cụ thể Phân bố xác suất Dirichlet được chọn để thực hiện bởi vì là một phân bố tiên nghiệm liên hợp cho phân bố đa thức [32] Trong trường hợp này, phân
bố Dirichlet là phân bố xác suất liên tục, ký hiệu là Dir(𝜃| ) gồm một vector 𝜃 =
{𝜃1, 𝜃2, … , 𝜃𝐾} với ∑𝐾 𝜃𝑘
𝑘=1 = 1, biểu diễn xác suất xảy ra các biến cố và vector tham số
= { 1, , K} là một tham số K chiều cho biết số lần xảy ra biến cố cụ thể [32] Phân bố Dirichlet của bậc K >= 2 với các tham số 1 , , K > 0 có một hàm mật độ
xác suất dùng để biểu diễn một phân bố xác suất theo tích phân với kỳ vọng là độ đo
Lebesgue trên không gian Euclide R K-1 được cho bởi:
ii Hàm Beta và hàm Gamma
Phân phối Dirichlet là tổng quát hoá của hàm Beta Hàm Beta13
B( ) là hàm để chuẩn hóa các xác suất hội tụ về giá trị 1
Hằng số chuẩn hoá trong Bayes là hàm Beta nhiều chiều, hàm Beta được tính dựa trên hàm Gamma14:
13
http://mathworld.wolfram.com/BetaFunction.html (truy cập lần cuối ngày 25-12-2017)