- Dùng mô hình phân cấp cây nhị phân tác giả đã tìm ra được xác suất phản ánh khả năng mỗi cá nhân tham gia vào cộng đồng và xác suất này tăng theo mỗi quan hệ của cá nhân đó với cộng đồ
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Trang 23
LỜI CÁM ƠN
Trước tiên, tôi xin gửi lời cảm ơn tới thầy hướng dẫn luận văn của tôi, PGS TS Đỗ Phúc, đã tạo mọi điều kiện, động viên và giúp đỡ tôi hoàn thành tốt luận văn này Trong suốt quá trình nghiên cứu, thầy đã kiên nhẫn hướng dẫn, quan tâm, giúp đỡ, thảo luận và đưa ra những chỉ dẫn, đề nghị cho luận văn của tôi Sự hiểu biết sâu sắc về khoa học, cũng như kinh nghiệm của thầy chính là tiền đề giúp tôi đạt được những thành tựu và kinh nghiệm quý báu
Xin cám ơn quí Thầy Cô, Khoa Khoa Học Máy Tính, Phòng sau đại học, Trường đại học Công Nghệ Thông Tin đã tận tình truyền đạt kiến thức trong những năm tôi học tập Với vốn kiến thức được tiếp thu trong quá trình học không chỉ là nền tảng cho quá trình nghiên cứu luận văn mà còn là hành trang quí báu để tôi bước vào đời một cách vững chắc và tự tin
Tôi cũng xin cảm ơn bạn bè và gia đình đã luôn bên tôi, cổ vũ và động viên tôi những lúc khó khăn để có thể vượt qua và hoàn thành tốt luận văn này
Tôi xin chân thành cảm ơn!
TP Hồ Chí Minh, tháng 3 năm 2016
Đỗ Thiện Vũ
Trang 34
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của PGS.TS Đỗ Phúc Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo
Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như
số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình
TP Hồ Chí Minh, tháng 3 năm 2016
Tác giả luận văn
Đỗ Thiện Vũ
Trang 45
MỤC LỤC
LỜI CÁM ƠN 3
LỜI CAM ĐOAN 4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 8
DANH MỤC CÁC BẢNG 9
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10
TÓM TẮT 12
CHƯƠNG 1: TỔNG QUAN 13
1.TÍNH THIẾT THỰC CỦA ĐỀ TÀI 13
2.CÁC KHÁI NIỆM CƠ BẢN 13
3.TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 15
4.MỤC ĐÍCH VÀ NỘI DUNG LUẬN VĂN 17
5.ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 18
6.BỐ CỤC LUẬN VĂN 18
7.GIỚI THIỆU MẠNG XÃ HỘI 19
8.KẾT CHƯƠNG 23
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 24
1.KHAIPHÁDỮLIỆU 24
2.KỸTHUẬTXỬLÝVĂNBẢN 25
2.1 Đặc điểm của từ vựng tiếng Việt 25
2.2 Tiền xử lí dữ liệu 26
2.3 Tách từ tiếng Việt 27
2.3.1 Giới thiệu 27
2.3.2 Phương pháp so khớp cực đại MM 27
3.MÔHÌNHPHÂNTÍCHCHỦĐỀẨNVÀGÁNNHÃNCHỦĐỀ 28
3.1 Giới thiệu về mô hình phân tích chủ đề ẩn 28
3.2 Mô hình LDA 29
3.2 Thuật toán Gibbs Sampling cho mô hình LDA 33
Trang 56
2.3 Gán nhãn chủ đề 34
2.3.1 Giới thiệu 34
2.3.2 Phương pháp Naive Bayes 35
3.GIẢITHUẬTGOMCỤM 39
3.1 Khái niệm 39
3.2 Các kiểu dữ liệu trong bài toán gom cụm 40
3.3 Các độ đo 42
3.4 Thuật Toán K-Means 43
3.5 Thuật toán Multi K-Means 47
4.KHAIPHÁLUẬTDÃY 48
4.1 Giới thiệu 48
4.1.1 Một số khái niệm về luật kết hợp 48
4.1.2 Thuật toán Apriori khai phá luật kết hợp 49
4.1.4 Một số khái niệm và phương pháp khai phá luật dãy 53
4.2 Thuật toán khai phá luật dãy GSP 55
5.KẾT CHƯƠNG 60
CHƯƠNG 3 XÂY DỰNG HỆ THỐNG VÀ THU THẬP DỮ LIỆU 61
1.MÔHÌNHHỆTHỐNG 61
1.1 Quá trình tìm chủ đề 61
1.3 Quá trình gom cụm 63
1.4 Quá trình khai phá luật dãy 63
1.5 Triết lý việc dùng các thuật toán 63
2.THUTHẬPDỮLIỆU 64
2.1 Giới thiệu NodeXL 64
2.2 Một số tính năng điển hình của NodeXL 64
2.3 Thu thập dữ liệu Facebook với NodeXL 65
2.4 Nguồn dữ liệu 67
2.4.1 Dữ liệu huấn luyện 67
2.4.2 Dữ liệu GroupFacebook 68
CHƯƠNG 4: THỬ NGHIỆM VÀ THỰC NGHIỆM 69
Trang 67
1.THỬNGHIỆM: 69
1.1 Thử nghiệm mô hình LDA và gán nhãn chủ đề 69
1.1.1 Dữ liệu thử nghiệm 69
1.1.2 Môi trường và công cụ tích hợp 69
1.1.3 Quá trình thực hiện 69
1.1.4 Kết quả và đánh giá 70
1.2 Thử nghiệm gom cụm Multi-Kmeans 72
1.2.1 Môi trường và công cụ 72
1.2.2 Quá trình thực hiện 72
1.3 Thử nghiệm với thuật toán GSP 75
1.3.1 Dữ liệu thử nghiệm 75
1.3.2 Môi trường và công cụ 75
1.1.3 Quá trình thực hiện 75
1.4 Kết luận thử nghiệm 78
2.THỰC NGHIỆM 79
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 88
1.KẾTQUẢĐẠTĐƯỢC 88
1.1 Về mặt khoa học 88
1.2 Về mặt thực tiễn 88
2.HẠNCHẾ 89
3.HƯỚNGPHÁTTRIỂN 89
TÀI LIỆU THAM KHẢO 90
Trang 7o DBLP: DataBase systems and Logic Programming
o IGATEC: Internet and Genetics Algorithm based Text Categorization
o GS: Gibbs Sampling
o GSP: Generalized Sequential Patterns
o KNN: K–Nearest Neighbor
o LDA: Latent Dirichlet Allocation
o LLSF: Linear Least Squares Fit
o LRMM: Left Right Maximum Matching
o LSA: Latent Semantic Analysis
o NB: Nạve Bayes
o PLSA: Probabilistic Latent Semantic Analysis
o SD: Sequence Database
o SPADE: Sequential Pattern Discovery using Equivalent Class
o SVM: Support Vector Machine
o SNA: Social Network Analysis
o TBL: Transformation – Based Learning
Trang 89
DANH MỤC CÁC BẢNG
Bảng 1 1: Thống kê người dùng các mạng xã hội lớn trên thế giới 21
Bảng 2 1: Các qui ước ký hiệu trong mô hình LDA 31
Bảng 2 2: Các qui ước trong NB 35
Bảng 2 3: Số lượng từ trong tập huấn luyện 37
Bảng 2 4: Tần suất của từ đặc trưng 37
Bảng 2 5 Giá trị xác suất các từ đặc trưng theo chủ đề 38
Bảng 2 6: CSDL TDB 51
Bảng 2 7: Kết quả tập luật kết hợp 52
Bảng 2 8: CSDL minh họa các khái niệm luật dãy 53
Bảng 2 9: CSDL minh họa thuật toán GSP 57
Bảng 2 10: Phân tích GSP các ứng viên C2 có 2 phần tử 57
Bảng 2 11: Phân tích GSP các ứng viên C2 có 1 phần tử 58
Bảng 2 12: Minh họa dãy phổ biến chiều dài 2 và 2 phần tử 58
Bảng 2 13: Minh họa dãy phổ biến chiều dài 2 và 1 phần tử 59
Bảng 4 1: Thời gian 1 lần thử nghiệm 70
Bảng 4 2: Thử nghiệm lần 1 71
Bảng 4 3: Thử nghiệm lần 2 71
Bảng 4 4: Thử nghiệm lần 3 71
Bảng 4 5: Kết quả thử nghiệm Multi-Kmeans 73
Bảng 4 6: Kiểm tra thực tế trong CSDL 78
Bảng 4 7: Môi trường và công cụ thực nghiệm 79
Bảng 4 8: Tổng kết thời gian thực nghiệm 80
Trang 910
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1 1: Cấu trúc mạng xã hội 19
Hình 2 1: Mô hình khai phá dữ liệu 25
Hình 2 2: Mô hình LDA 30
Hình 2 3: Quá trình sinh tài liệu trong mô hình LDA 31
Hình 2 4: Quá trình sinh 1 tài liệu 32
Hình 2 5: Thuật toán LDA Gibbs Sampling 33
Hình 2 6: Ma trận dữ liệu 40
Hình 2 7: Ma trận phân biệt 40
Hình 2 8: Thuật toán K-means 44
Hình 2 9: Các bước của thuật toán K-means 44
Hình 2 10: CSDL ví dụ K-means 45
Hình 2 11: Bước 1 trong k-means 45
Hình 2 12: Bước 2 trong k-means 45
Hình 2 13: Bước 3 thuật toán K-means 46
Hình 2 14: Bước 4 thuật toán K-means 46
Hình 2 15: Bước dừng thuật toán K-means 47
Hình 2 16: Thuật toán Multi K-Means 48
Hình 2 17: Thuật toán Apriori 50
Hình 2 18: Độ phức tạp thuật toán Apriori 51
Hình 2 19: Mô tả quá trình tìm tập phổ biến của Apriori 52
Hình 2 20: Thuật toán GSP 55
Hình 2 21: Minh họa phân tích GSP 59
Hình 3 1: Mô hình hệ thống 61
Hình 3 2: Cấu trúc mạng xã hội 65
Hình 3 3: Giao diện kết nối MXH 65
Hình 3 4: Giao diện Import dữ liệu MXH Facebook 66
Hình 3 5: Đăng nhập Facebook 66
Trang 1011
Hình 3 6: Danh sách người dùng 67
Hình 3 7: Dữ liệu huấn luyện 68
Hình 3 8: Dữ liệu Group Facebook 68
Hình 4 1: CSDL thử nghiệm K-means 72
Hình 4 2: Kết quả gom cụm chưa tối ưu 74
Hình 4 3: Kết quả gom cụm đã tối ưu 74
Hình 4 4: CSDL thử nghiệm GSP 75
Hình 4 6: Dãy bệnh tật phổ biến 76
Hình 4 5: Tham chiếu mã ICD 76
Hình 4 7: Chủ đề quan tâm của cộng đồng 81
Hình 4 8: Chủ đề theo thời gian 82
Hình 4 9: Danh sách gom cụm 83
Hình 4 10: Một khối thông tin cá nhân 83
Hình 4 11: Dãy phổ biến chủ đề theo thời gian 84
Hình 4 12: Trích chọn thông tin nhanh 85
Hình 4 13: Trích chọn nhanh đối tượng nổi trội 86
Hình 4 14: Menu song ngữ Anh-Việt 86
Hình 4 15: Danh sách lưu trữ đã sàng lọc 87
Trang 1112
TÓM TẮT
Mục đích chính của luận văn là khảo sát xu thế thay đổi các chủ đề quan tâm của một cộng đồng trong mạng xã hội Để đạt được mục tiêu này, bài luận văn sẽ trình bày mô hình khảo sát xu thế thay đổi chủ đề quan tâm theo thời gian của người dùng trên mạng xã hội Để thưc hiện được mô hình đầu tiên bài luận sẽ tiếp cận mô hình phát hiện chủ đề ẩn [6] và phân loại văn bản [9] để tìm ra các chủ đề theo thời gian của các thành viên trong cộng đồng Tiếp đến
là tiếp cận thuật toán gom cụm Multi-Kmeans [18], đây thực chất là thuật toán
mở rộng của thuật toán K-means [13] qua việc tối ưu kết quả của thuật toán này nhằm mục tiêu là gom nhóm thành viên trong cộng đồng theo các tiêu chí khác nhau Cuối cùng là tiếp cận thuật toán khai phá luật dãy GSP [16] để tìm ra tập dãy các chủ đề phổ biến của các nhóm trong cộng đồng theo thời gian
Trang 1213
CHƯƠNG 1: TỔNG QUAN
1 Tính thiết thực của đề tài
Cùng với quá trình toàn cầu hóa và sự phát triển của CNTT, mạng Internet trên thế giới và Việt Nam ngày càng phát triển mạnh mẽ Sự tham gia của các trang
cá nhân, nhóm trên mạng ngày càng tích cực và nhu cầu chia sẻ thông tin, kết nối bạn
bè là nhu cầu thiết yếu Làm thúc đẩy sự ra đời và phát triển của các mạng xã hội như Facebook, Twitter, Zingme Những ứng dụng về khai thác mạng xã hội ở Việt Nam hiện tại vẫn còn rất khiêm tốn, chưa đáp ứng đầy đủ với nhu cầu khai thác rất lớn , phát triển mạnh của mạng xã hội , đa phần chỉ ở mức thống kê, đánh giá mức độ sử dụng, số lượng người dùng mà quan tâm chưa nhiều tới nội dung trao đổi, cấu trúc của mạng xã hội
2 Các khái niệm cơ bản
2.1.Mạng xã hội
Mạng xã hội (hay gọi là mạng xã hội ảo) là dịch vụ nối kết các thành viên cùng
sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian Những người tham gia vào mạng xã hội còn được gọi là cư dân mạng [19]
Trang 132.5 Hành vi cá nhân
Hành vi cá nhân là những hành động thể hiện những sở thích, mối quan tâm của một cá nhân Hành vi là một giá trị có thể thay đổi theo thời gian
Theo Bách khoa tự điển Việt Nam thì hành vi là một chuỗi các hành động lặp
đi lặp lại Là hành động hoặc phản ứng của đối tượng hoặc sinh vật, thường sử dụng trong sự tác động đến môi trường, xã hội Hành vi có thể thuộc về ý thức, tiềm thức, công khai hay bí mật, và tự giác hoặc không tự giác Hành vi là một giá trị có thể thay đổi qua thời gian
Ví dụ: Một cá nhân trong tháng 1 thường gửi các bài lên mạng xã hội quan tâm tới vấn đề chính trị và trong tháng 2 người này lại gởi các bài khác quan tâm tới vấn đề khoa học Vậy hành vi cá nhân trong tháng 1 là quan tâm tới chủ đề chính trị
và hành vi trong tháng 2 là quan tâm chủ đề khoa học
2.5 Hành vi tập thể
Hành vi tập thể: là sự kết hợp hành vi của các cá nhân trong môi trường kết nối, hành vi của các cá nhân này có xu hướng phụ thuộc lẫn nhau dẫn đến hành vi tương quan giữa những người tham gia kết nối
Trang 1415
3 Tổng quan tình hình nghiên cứu
3.1 Các công trình nghiên cứu ngoài nước
Trong những năm gần đây, các công trình nghiên cứu về phân tích, khai thác mạng xã hội rất phổ biến và đặc biệt là quan tâm tới nội dung trao đổi trong mạng xã hội Một số công trình nghiên cứu tiêu biểu thông qua các bài báo sau:
3.1.1 Nghiên cứu sự hình thành nhóm trong mạng xã hội
Nghiên cứu sự hình thành nhóm trong mạng xã hội [11], trong đó trình bày các vấn đề sau:
i.) Những đặc trưng cấu trúc nào làm ảnh hưởng đến những cá nhân sẽ tham gia cộng đồng
ii.) Những cộng đồng nào sẽ phát triển nhanh chóng
iii.) Điểm tương đồng giữa hai cộng đồng thay đổi theo thời gian
- Dùng mô hình phân cấp cây nhị phân tác giả đã tìm ra được xác suất phản ánh khả năng mỗi cá nhân tham gia vào cộng đồng và xác suất này tăng theo mỗi quan hệ của cá nhân đó với cộng đồng và dự đoán được sự phát triển của các cộng đồng trong dữ liệu của tác giả
- Dùng mô hình bùng phát thông tin tác giả chỉ ra các chủ đề thay đổi theo thời gian trên dữ liệu DBLP ( DBLP được thu thập qua 87 cuộc hội thảo trong khoảng thời gian ít nhất là 15 năm)
3.1.2 Nghiên cứu dự đoán hành vi tập thể
Nghiên cứu dự đoán hành vi tập thể [12], trong đó trình bày các vấn đề sau: i.) Dự đoán hành vi tập thể trong mạng xã hội qua việc đưa về một chiều xã hội ( cộng đồng) để xét
ii.) Xác định các mối quan hệ dựa trên kết nối mạng trong cộng đồng để dự đoán hành vi
Tác giả đã tiếp cận vấn đề theo hướng phân cụm dữ liệu mạng theo nút View) và phân cụm theo cạnh (Edge-View) Bằng thực nghiệm trên các dữ liệu BlogCatlog, Flicks, Youtube, tác giả chỉ ra rằng việc phân cụm dữ liệu theo hướng Node-View và Edge-View tương đối tương đồng, nhưng hướng tiếp cận Edge-View
(Node-có thể xác định được các người dùng thuộc cồng đồng nào
Trang 1516
3.1.3 Khảo sát hành vi tập thể trong mạng xã hội
Khảo sát hành vi tập thể trong mạng xã hội [14], trong đó khảo sát các vấn đề: i.) Hành vi cộng đồng
ii.) Suy luận tập thể
iii.) Sự ảnh hưởng của các mối quan hệ trong mạng xã hội
Bài báo đã có các kết luận sau:
i) Hành vi tập thể: Là sự kết hợp hành vi của các cá nhân trong môi trường kết nối, hành vi của các cá nhân này có xu hướng phụ thuộc lẫn nhau dẫn đến hành
vi tương quan giữa những người tham gia kết nối
ii) Suy luận tập thể: Giả định hành vi của mỗi cá nhân phụ thuộc vào mối quan
hệ bạn bè, suy luận tập thể giúp làm cân bằng và giảm thiểu sự không thống nhất giữa các nhân trong môi trường kết nối
iii) Sự ảnh hưởng của các mối liên kết : Những người có liên kết với nhau có khả năng chia sẻ lợi ích, đặc điểm cá nhân, và điều này xảy ra tương tự với người bạn chung Những người có lợi ích chung có xu hướng trở thành bạn bè
3.2 Các công trình nghiên cứu trong nước
Các công trình nghiên cứu về mạng xã hội trong nước cũng đang được chú ý đặc biệt trong những năm gần đây, điển hình là tên một số công trình tiêu biểu sau:
Nghiên cứu về hành vi sử dụng Facebook của con người [1] Trong đó, tác giả
đã đưa ra những số liệu về việc sử dụng Facebook đã dẫn đến hàng loạt vấn
đề cụ thể như hành vi, trạng thái và những diễn tiến phức tạp trong đời sống con người Bằng những số liệu thống kê, tác giả cũng đưa ra kết luận là Facebook có sức lan tỏa rất lớn và người dùng có xu hướng bị triệu chứng nghiện Facebook
Mô hình tích hợp khám phá, phân lớp và gán nhãn chủ đề tiếp cận theo mô hình chủ đề [2] Trong đó, tác giả đề xuất một mô hình tích hợp khám phá chủ
đề nhằm phân tích các thông điệp trao đổi của người dùng trên mạng xã hội Phương pháp mà tác giả sử dụng là sử dụng phương pháp máy học trên tập dữ liệu huấn luyện để gán nhãn chủ đề
Trang 1617
Nghiên cứu ứng dụng mạng xã hội Facebook trong việc đổi mới giảng dạy tại trường đại học [5] Trong đó, tác giả sử dụng mô hình khám phá chủ đề và gán nhãn chủ đề [2] và kết hợp các yếu tố thời gian để tìm ra chủ đề quan tâm của người dùng mạng xã hội theo thời gian Ngoài ra, để tăng hiệu quả, đầy đủ và khái quát hơn cho việc thực hiện phân tích chủ đề, tác giả đề xuất thêm 2 mô hình là mô hình ART (Author-Recipient-Topic) và mô hình TART (Temporal- Author-Recipient-Topic)
4 Mục đích và nội dung luận văn
Hướng tiếp cận giải quyết vấn đề là sử dụng mô hình LDA[6] và gán nhãn chủ
đề [9] Đầu vào của mô hình là tập các nội dung văn bản trao đổi thông tin của các
cá nhân Đầu ra là chủ đề quan tâm và các giá trị xác suất của các chủ đề trên từng nội dung trao đổi thông tin của từng cá nhân
Nhiệm vụ của nội dung này gồm các công việc sau:
- Thu thập dữ liệu một cộng đồng để khảo sát mạng xã hội Facebook
- Thu thập dữ liệu huấn luyện các chủ đề quan tâm
- Lọc và xử lí dũ liệu tiếng Việt
- Tìm hiểu mô hình LDA và gán nhãn chủ đề
- Thử nghiệm
4.1.2 Nội dung 2: Gom nhóm
Gom nhóm được những cá nhân có tổ hợp các đặc điểm thông tin cá nhân, chủ
đề quan tâm tương đồng như các giá trị xác suất của giới tính, số lần gởi bài (total post), số like nhận được (like-received), số like tạo (like-created), số lần nhận xét
Trang 1718
(comment-created), số lần được nhận xét (comment-received) và giá trị trung bình tần suất (xác suất) của các chủ đề quan tâm của cá nhân trong thời gian khảo sát
Hướng giải quyết vấn đề là sử dụng giải thuật gom cụm Multi-Kmeans [18]
để phân loại các nhóm theo đặc điểm profile Với đầu vào là giá trị xác suất của các đặc điểm profile và đầu ra là các nhóm có đặc điểm cá nhân tương đồng với nhau
Nhiệm vụ của nội dung này gồm các công việc sau:
- Tìm hiểu các độ đo tương đồng
- Tìm hiểu thuật toán gom cụm Multi-Kmeans
- Thử nghiệm
4.2.3 Nội dung 3: Khảo sát xu thế thay đổi chủ đề theo thời gian
Nội dung chính là tìm các mẫu về chủ đề quan tâm chính của cộng đồng trong các khoảng thời gian tuần tự và rút ra các luật từ các mẫu tuần tự này
Hướng giải quyết vấn đề là sử dụng thuật toán khai phá luật dãy GSP [16] Đầu vào là các dãy mẫu phổ biến tuần tự chủ đề quan tâm chính của người dùng tham gia cộng đồng trong thời gian khảo sát Và đầu ra là các chuỗi phổ biến về chủ đề quan tâm chính của cộng đồng
Nhiệm vụ nghiên cứu của nội dung này là tìm hiểu thuật toán GSP
4.2.4 Nội dung 4: Xây dựng ứng dụng
5 Đối tượng và phạm vi nghiên cứu
5.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu là một cá nhân, một nhóm, một cộng đồng cụ thể của mạng xã hội Facebook
5.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu là những cộng đồng thuộc mạng xã hội
6 Bố cục luận văn
Bố cục chính của luận văn gồm 4 chương:
- Chương 1: Tổng quan Nội dung chương này trình bày các mục tiêu, nội dung, nhiệm vụ bài luận văn sẽ thực hiện cùng với khái niệm sơ lược về mạng xã hội
Trang 1819
- Chương 2: Cơ sở lý thuyết Nội dung của chương sẽ trình bày các cơ sở lý thuyết liên quan mà bài luận văn sử dụng làm cơ sở cho việc xây dựng hệ thống khai phá xu thế chủ đề quan tâm của người dùng mạng xã hội
- Chương 3: Xây dựng mô hình hệ thống và thu thập dữ liệu Nội dung của chương trình bày mô hình hệ thống chung của luận văn và các nguồn dữ liệu sử dụng
- Chương 4: Thử nghiệm và thực nghiệm Nội dung trình bày các thử nghiệm cùng với sự đánh giá các thư viện, các công cụ, các modul trong việc tích hợp vào triển khai mô hình chung mà bài luận văn đã đặt ra Tiếp đến là thực nghiệm mô hình
hệ thống chung cùng kết luận và hướng phát triển
7 Giới thiệu mạng xã hội
7.1 Khái niệm:
Mạng xã hội thường được mô hình hóa như đồ thị (hình 1.1) gồm các nút và các đường liên kết trong đó mỗi nút tương ứng cho từng cá nhân và các liên kết giao tiếp truyền thông Các thông tin truyền thông trên mạng xã hội thường là hình thức văn bản như thư điện tử), cũng có thể là tập tin như hình ảnh, phim ảnh,
Mạng xã hội liên kết các thành viên, người dùng trên mạng Internet lại với nhau dựa theo tiêu chí nào đó, với nhiều mục đích khác nhau, không phân biệt thời
Hình 1 1: Cấu trúc mạng xã hội
Trang 197.2 Sự phát triển mạng xã hội:
Sự ra đời của mạng máy tính đã làm nền tảng cho sự xuất hiện và phát triển của mạng xã hội Có nhiều khái niệm khác nhau về mạng xã hội đã được định nghĩa trên các trang Web như trang Wikipedia, trang VnExpres, Khái niệm đầu tiên cho rằng mạng xã hội là nơi để mọi người tương tác với nhau thông qua việc chia sẻ thông tin cá nhân, nói chuyện trực tuyến qua các phòng trò chuyện, trao đổi ý tưởng qua các chủ đề được tạo lập trên những trang cá nhân, mà về sau này được gọi là blog Khái niệm thứ hai thì cho rằng mạng xã hội là nơi mà các thành viên có thể kết nối với nhau thông qua địa chỉ thư điện tử của họ Mạng xã hội đầu tiên của dạng này
là mạng xã hội Classmaster, ra đời vào năm 1995 với mục đích kết nối các bạn học với nhau Mạng xã hội tiếp tục phát triển Vào năm 1997 là sự xuất hiện của MXH
SixDegress, mục đích chính của MXH này là giao lưu kết bạn dựa theo sở thích
Tiếp đến là sự ra đời của MXH Friendster vào năm 2002 Friendster đã mau chóng trở thành trào lưu tại Mỹ Tuy vậy do phát triển quá nhanh mà thiếu đi sự tính toán kết nối cũng như lưu trữ đã khiến các máy chủ của dịch vụ này hay bị xảy ra hiện tượng quá tải Công ty này sau đó được Google đề nghị mua lại tuy nhiên thương vụ không thành công Năm 2004, mạng xã hội MySpace hình thành và nhanh chóng nổi bật với các tính năng mới hấp dẫn, trong đó phải kể đến tính năng chia sẻ nhạc Tính năng này đã thu hút được rất nhiều những thành viên quan tâm và rồi làm cho MySpace trở thành mạng xã hội lớn nhất thế giới Thời kỳ đỉnh cao của mình, MySpace từng có hơn 100 triệu thành viên Tuy nhiên do việc các thành viên đăng tải những nội dung xấu cũng như thiết lập bài hát tự động làm rất nhiều người sử dụng khó chịu và dần ít quan tâm tới mạng xã hội này Cũng trong năm 2004 mạng xã hội Facebook được ra đời, tới năm 2006 thì Facebook đã mở rộng phạm vi ra toàn cầu
Trang 2021
Facebook là một mạng xã hội mở, thông qua việc cung cấp một nền tảng lập trình gọi là Facebook Platform Mạng xã hội này cho phép những thành viên lập trình có thể tương tác tạo ra các ứng dụng cho chính cá nhân cũng như các thành viên khác
sử dụng Chỉ trong thời gian ngắn, Facebook có được rất nhiều các ứng dụng đáp ứng được đông đảo các đối tượng người dùng theo các sở thích khác nhau Năm 2006, một trào lưu mới xuất hiện nhưng cũng đã phát triển hết sức nhanh chóng và phổ biến toàn cầu, đó là Twitter Twitter là mạng xã hội miễn phí cho phép người dùng đọc, nhắn và cập nhật những mẫu tin ngắn gọi là tweet Những mẩu tweet được giới hạn tối đa 140 ký tự được lan truyền nhanh chóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được phổ biến rộng rãi cho mọi người Những tweet có thể chỉ là dòng tin vặt cá nhân cho đến những cập nhật thời sự tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính thống [1, 20]
Nói chung việc hình thành các mạng xã hội là sự cần thiết để đáp ứng nhu cầu ngày càng cao của con người Việc càng có nhiều người quan tâm tới mạng xã hội đã được trang WiKi chỉ ra qua bảng thông kê vào vào tháng 5 năm 2012 qua bảng 1.1
Bảng 1 1: Thống kê người dùng các mạng xã hội lớn trên thế giới
(triệu
Windows Live paces Blog 120
Twitter Mạng nhắn tin nhanh, blog nhỏ 100
Orkut Rất phổ biến ở Brasil và Ấn Độ 37
Netlog Rất phổ biến tại Bỉ 35
Friendster Rất phổ biến ở Philippines, Malaysia,
Indonesia và Singapore 115 Flixster Thiết kế dành cho những người yêu phim
Trang 21Chú thích: Nguồn số liệu được trích dẫn từ Wikipedia [20]
7.3 Ưu điểm của mạng xã hội
Mạng xã hội được phát triển mạnh mẽ như hiện nay là do có nhiều ưu điểm đáng kể mà chúng mang lại so với các cách truyền thông truyền thống
Do các mạng xã hội hiện nay hầu hết cho phép đăng ký và sử dụng miễn phí nên chi phí tham gia mạng xã hội của người dùng cá nhân hay tổ chức là tương đối thấp Ngoài ra, việc tham gia làm thành viên của một mạng xã hội giúp các thành viên có được rất nhiều thông tin hữu ích cho mối quan tâm, sự phát triển của mình
Ví dụ như một công ty sau khi tham gia một mạng xã hội, chỉ cần vài thao tác nhấp chuột là đã có thể tìm hiểu về các sở thích của người dùng và xu hướng của những sở thích đó Từ đó, công ty có thể phát hiện ra được những khách hàng tiềm năng, vạch
ra một chiến lược chăm sóc khách hàng hoặc mở ra hướng kinh doanh mới Những việc làm này rất cần thiết và giúp ích rất nhiều cho công ty trong môi trường kinh doanh
Nhờ vào việc đọc được những bài viết mang tính chất riêng tư, tâm sự của bạn bè, hay con cái các thành viên mạng xã hội có thể có được những hiểu biết rõ ràng hơn về bạn bè, con cái của mình, thấy được vấn đề mà người kia đang gặp phải,
từ đó giúp họ giải quyết vấn đề dễ dàng hơn Nghiên cứu cho thấy, giới trẻ đang có
xu hướng kể ra những vấn đề cá nhân trên blog, mạng xã hội dễ dàng hơn là nói chuyện trực tiếp với các bậc phụ huynh, hay cả với bạn bè Khi ấy niềm tin trong mối quan hệ cũng được nâng lên đáng kể
Cũng nhờ vào mạng xã hội, người dùng ban đầu có thể thiết lập một mối quan
hệ với bất cứ ai, đơn giản chỉ khởi đầu bằng việc gửi đi một lời nhắn đề nghị được kết bạn Sau khi được chấp nhận bởi phía bên kia, việc cần làm để gìn giữ mối quan
hệ đó là cố gắng cân bằng giữa việc cho đi và nhận lại Việc này ở trên mạng xã hội
Trang 2223
tỏ ra đơn giản hơn so với việc duy trì mối quan hệ trong xã hội bình thường, bởi cho
đi và nhận về trong mạng xã hội nhiều khi chỉ nằm ở mức có những bình luận trong những bài viết của bạn bè
tự viết Vấn đề này xuất hiện khá nhiều trên các phương tiện thông tin đại chúng gần đây Hoặc vấn đề về sự cố các tài khoản mạng xã hội của những người nổi tiếng bị hacker kiểm soát, những thông tin nhạy cảm được tung ra
Việc tham gia một mạng xã hội, việc kiểm tra các thay đổi gần đây từ bạn bè,
cập nhật những thay đổi, thông tin cho chính các thành viên làm tiêu tốn rất nhiều thời gian của người tham gia Theo những phân tích gần đây thì có tình trạng khá
nhiều người trẻ bị hội chứng nghiện khi tham gia mạng xã hội Nếu tình trạng này
xảy ra ở diện rộng thì sẽ có rất nhiều hiệu ứng không tốt xảy ra [1,20]
8 Kết chương
Chương này đã trình bày được một số khái niệm cơ bản về mạng xã hội, đưa
ra được những mục tiêu và nhiệm vụ cụ thể cho việc khai thác thông tin mạng xã hội Ngoài ra, chương cũng trình bày được sự phát triển của mạng xã hội nhằm cho thấy việc phân tích và khai thác thông tin mạng xã hội là nhu cầu cần thiết hiện nay
Để thực hiện các mục tiêu, nội dung mà phần đầu chương này đã đặt ra, tiếp đến bài luận văn sẽ trình bày phần cơ sở lý thuyết về các kỹ thuật, thuật toán liên quan
ở chương 2, phần cơ sở lý thuyết sẽ làm cơ sở trong việc xây dựng mô hình chung trong việc khai phá xu thế chủ đề quan tâm của người dùng mạng xã hội
Trang 23Giáo sư Tom Mitchell đã đưa ra định nghĩa về KPDL “KPDL là việc sử dụng
dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”
Một cách tiếp cận cụ thể hơn, Tiến sĩ Fayyad đã phát biểu: “KPDL, thường được
xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”
Ngoài ra theo tài liệu của Weldon năm 1996, khai phá dữ liệu là việc phát hiện tri thức nhờ các công cụ hoàn thiện sử dụng thống kê truyền thống, trí tuệ nhân tạo
và đồ họa máy tính
Nói tóm lại, KPDL là một quá trình học tri thức mới từ những dữ liệu đã thu thập được KPDL đã và đang được áp dụng trong nhiều lĩnh vực khác nhau như thiên văn học, y tế, thể thao, giáo dục,
Quá trình KPDL không chỉ là một quá trình tuần tự từ bước ban đầu cho đến bước cuối cùng mà là một quá trình lặp và có quay lại các bước đã thực hiện Các bước cơ bản trong quá trình KPDL từ dữ liệu thu thập ban đầu gồm các bước như phân nhóm hay còn được gọi là gom nhóm dữ liệu, trích lọc dữ liệu, tiền xử lý dữ liệu, khai phá dữ liệu thông qua mô hình, Các bước cơ bản này được biểu diễn trực quan qua hình 2.1
Trang 2425
2 KỸ THUẬT XỬ LÝ VĂN BẢN
2.1 Đặc điểm của từ vựng tiếng Việt
Tiếng Việt được biết đến là một ngôn ngữ đơn lâ ̣p, tức là mỗi mô ̣t tiếng (âm tiết) được phát âm tách rời nhau và được thể hiê ̣n bằng mô ̣t chữ viết Đă ̣c điểm này thể hiê ̣n rõ rê ̣t ở tất cả các mă ̣t ngữ âm, từ vựng, ngữ pháp Khác với các ngôn ngữ châu Âu, mỗi từ là một nhóm các ký tự có nghĩa được cách nhau bởi một khoảng trắng Còn tiếng Việt, và các ngôn ngữ đơn lập khác, thì khoảng trắng không phải
là căn cứ để nhận diện từ Trong tiếng Việt mỗi tiếng đều có ý nghĩa Từ tiếng có thể tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng ví dụ như karaoke, thư điện tử (e-mail), phiên bản (version), Ngoài ra tiếng Việt rất coi trọng việc sắp xếp trật tự của từ Khi các từ kết hợp với nhau theo quan hệ chính phụ thì từ đứng
sau giữ vai trò phụ, từ đứng sau giữ vai trò chính, ví dụ như từ tình cảm sẽ khác với
Trang 2526
2.2 Tiền xử lí dữ liệu
Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các
mô hình là rất cần thiết, bước này nhằm cải thiện chất lượng và làm sạch dữ liệu có được ban đầu qua thu thập dữ liệu và có thể áp dụng được tương thích với các mô hình khai phá dữ liệu cụ thể Các công việc cơ bản của tiền xử lý dữ liệu bao gồm những công việc như:
- Phân nhóm: dữ liệu thu thập từ internet sẽ ở nhiều định dạng khác nhau do vậy cần phân loại chúng cho việc xử lý kế tiếp
- Trích lọc dữ liệu thô là dữ liệu được thu thập trên các trang mạng xã hội, diễn đàn, lấy tin tức từ các trang website, Dữ liệu này còn được gọi là dữ liệu gốc, chúng sau khi được phân loại sẽ được sàng lọc lại và lưu trữ những thông tin cần thiết
- Làm sạch gồm một số bước cơ bản như:
Tách ngữ là bước xóa bỏ các ký tự đặc biệt, các con số không có ý nghĩa, có thể nhờ các dấu câu mà ta tách ngữ trong quá trình phân tích
Loại bỏ từ dừng (stop-words) là việc bỏ đi những loại từ xuất hiện quá nhiều lần trong các văn bản nhưng về phần ý nghĩa thì không quan trọng, không liên quan đến chủ đề Các từ dừng không giúp ích trong việc phân biệt nội dung của các tài liệu văn bản Việc loại bỏ đi các từ dừng giúp cho việc xử lý văn bản được cải thiện về mặt thời gian Một
số từ dừng điển hình là các từ “và”, “hoặc”, “cũng”, “là”, “mỗi”, “bởi”,
Tách từ: đây là khâu quan trọng để gán nhãn từ loại được chính xác giúp việc khai phá dữ liệu được hiệu quả hơn Trong khai phá văn bản, nếu tách từ không chính xác thì khó mà đạt kết quả cao được
Trang 26từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese), IGATEC là một hướng tiếp cận kết hợp giữa thuật toán di truyền với dữ liệu thống
kê được lấy từ Internet mà không cần dùng đến một từ điển hay tập ngữ liệu học nào; Một phương pháp khác là phương pháp tiếp cận dựa trên tập ngữ liệu đã được đánh dấu TBL (Transformation – based Learning), với TBL chỉ cần cho máy học các tập câu mẫu máy sẽ tự rút ra qui luật của ngôn ngữ để từ đó sẽ áp dụng chính xác khi có những câu đúng theo luật mà máy đã rút ra, TBL đòi hỏi phải có một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ; Một phương pháp phổ biến khác nữa là phương pháp so khớp cực đại MM (Maximum Matching) hay còn gọi là LRMM (Left Right Maximum Matching) MM
có ưu điểm là tách từ đơn giản và chỉ cần dựa vào tự điển từ vựng để thực hiện Ngoài ra MM được áp dụng vào công cụ tách từ VnTokenizer mà đã được tích hợp vào nhiều công trình nghiên cứu xử lý ngôn ngữ tự nhiên VnTokenizer cũng chính
là công cụ mà bài luận sẽ sử dụng để tích hợp vào hệ thống Sau đây bài luận văn sẽ trình bày sâu hơn về ý tưởng của phương pháp tách từ so khớp cực đại MM [4]
2.3.2 Phương pháp so khớp cực đại MM
Ý tưởng chính của phương pháp so khớp cực đại [8] là sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực
Trang 27đi |nhanh”
Dạng phức tạp: dạng này giống dạng đơn giản nhưng hạn chế được một số lỗi nhập nhằng gặp phải trong dạng đơn giản Đầu tiên thuật toán kiểm tra xem S1 có mặt trong từ điển không, sau đó kiểm tra tiếp S1-S2 có mặt trong từ điển không Nếu S1-
S2 đều có mặt trong từ điển (đây là vấn đề gây ra sự nhập nhằng) thì thuật toán thực hiện chiến thuật chọn 3 từ tốt nhất Tiêu chuẩn 3 từ tốt nhất được Chen và Liu (1992) đưa ra như sau:
- Độ dài trung bình của 3 từ là dài nhất Ví dụ với chuỗi “ông già” nếu kiểm tra thấy có sự nhập nhằng sẽ được tách thành “ông_già”, thay vì “ông | già”
- Sự chênh lệch độ dài của 3 từ là nhỏ nhất Ví dụ với chuỗi “công nghiệp hóa chất phát triển” sẽ được tách từ thành “công_ nghiệp | hóa _chất | phát_ triển” thay vì tách từ sai thành “công_ nghiệp_ hóa | chất | phát_ triển” Cả 2 cách tách từ này đều có độ dài trung bình bằng nhau, nhưng cách tách từ đúng có
sự chênh lệch độ dài 3 từ ít hơn
3 MÔ HÌNH PHÂN TÍCH CHỦ ĐỀ ẨN VÀ GÁN NHÃN CHỦ ĐỀ
3.1 Giới thiệu về mô hình phân tích chủ đề ẩn
Việc mô hình hóa dữ liệu văn bản để khai thác mối quan hệ giữa các dữ liệu ngày càng trở nên phức tạp và tinh vi hơn Đã có rất nhiều công trình nghiên cứu nhằm giải quyết về vấn đề này Mô hình chủ đề ẩn là một bước tiến lớn và quan trọng trong việc mô hình hóa dữ liệu văn bản Mô hình chủ đề ẩn được xây dựng dựa trên
ý tưởng rằng mỗi tài liệu có một xác suất phân phối vào các chủ đề, và mỗi chủ đề là
sự phân phối kết hợp giữa các từ Việc biểu diễn các từ và tài liệu đưa về dạng phân
Trang 2829
phối xác suất có lợi ích rất lớn so với mô hình không gian véc tơ thông thường Mô hình không gian vectơ là một mô hình đại số biểu diễn thông tin văn bản như một vector, các thuộc tính của vector này thể hiện mức độ quan trọng của một từ và cả sự xuất hiện hay không xuất hiện của nó trong một tài liệu Trong mô hình chủ đề ẩn
để tạo ra một tài liệu mới, việc đầu tiên là chọn ra một phân phối xác suất những chủ
đề cho tài liệu đó, điều này có nghĩa tài liệu được tạo nên từ những chủ đề khác nhau, với những phân phối xác suất khác nhau Tiếp đó, để sinh các từ cho tài liệu ta có thể lựa chọn ngẫu nhiên các từ dựa vào phân phối xác suất của các từ trên các chủ đề Ngược lại, nếu cho một tập các tài liệu thì có thể xác định một tập các chủ đề ẩn cho mỗi tài liệu và phân phối xác suất của các từ trên từng chủ đề Hai mô hình chủ đề ẩn phổ biến là Probabilistic Latent Semantic Analysis (PLSA) [17] và Latent Dirichlet Allocation (LDA) [6] PLSA là mô hình sử dụng kỹ thuật thống kê nhằm phân tích những dữ liệu xuất hiện đồng thời Nó được phát triển dựa trên Latent Semantic Analysis (LSA) kết hợp với một mô hình xác suất Tuy nhiên, theo sự đánh giá và phân tích của David M Blei là người phát minh ra mô hình LDA thì PLSA vẫn còn chưa hoàn thiện trong việc mô hình hóa dữ liệu văn bản ở chỗ chưa xây dựng được một mô hình xác suất tốt ở mức độ tài liệu Hạn chế của PLSA dẫn đến vấn đề gặp phải khi phân phối xác suất cho một tài liệu nằm ngoài tập dữ liệu học, ngoài ra số lượng các tham số có thể tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng David M Blei đã đưa ra mô hình LDA, là một mô hình hoàn thiện hơn so với PLSA và có thể khắc phục được những nhược điểm ở trên [6, 17]
Mô hình chủ đề ẩn LDA của David M Blei sẽ được tích hợp trong phần xây dựng hệ thống khai phá xu thế chủ đề quan tâm của người dùng mạng xã hội Sau đây là phần trình bày về mô hình LDA
3.2 Mô hình LDA
Mô hình LDA được phát minh bởi Blei [6] là mô hình hóa tập ngữ liệu nhằm phát hiện ra các chủ đề tiềm ẩn của các ngữ liệu Mô hình LDA dựa trên ý tưởng là mỗi tài liệu là sự pha trộn của K chủ đề như hình 2.2 Trong đó, mỗi tài liệu (document) là sự pha trộn nhiều chủ đề (topic), mỗi chủ đề là một phân phối xác suất các từ, mỗi từ được trích xuất ra từ những chủ đề Về cơ bản, LDA là một mô hình
Trang 2930
Bayesian 3 cấp gồm cấp ngữ liệu (corpus), cấp tài liệu (document), cấp từ (word) trong đó mỗi phần của mô hình được coi như một mô hình trộn hữu hạn trên cơ sở tập các xác suất chủ đề
Quá trình sinh tài liệu trong mô hình LDA như sau : Cho một tập ngữ liệu của
M tài liệu được biểu diễn bởi D={d1,d2, …, dM}, mỗi tài liệu m trong ngữ liệu bao
gồm Nm từ wi rút từ một tập từ vựng và các qui ước (bảng 2.1) Do mỗi tài liệu được cấu tạo từ nhiều chủ đề khác nhau với sự phân phối khác nhau Nên để sinh ra một tài liệu mới, ta chọn một phân phối chủ đề cho tài liệu Tiếp theo, để sinh ra các từ trong tài liệu, ta chọn ngẫu nhiên các từ dựa vào phân phối từ trên chủ đề đã chọn ở bước trước
Quá trình sinh ra một tập các từ wm,n cho các tài liệu bằng cách (hình 2.3):
- Mỗi tài liệu m sinh ra phân phối chủ đề 𝜗⃗m cho tài liệu theo α
- Mỗi từ, zm,n được lấy mẫu dựa vào phân phối chủ đề 𝜗⃗m
- Mỗi chủ đề zm,n được sinh ra dựa vào phân phối φ⃗⃗⃗k , wm,n.
Hình 2 2: Mô hình LDA
Trang 3031
Với các qui ước ký hiệu như bảng sau:
Bảng 2 1: Các qui ước ký hiệu trong mô hình LDA
D Một tài liệu trong tập ngữ liệu
W Một từ trong tài liệu
M Số lượng tài liệu D={d1, d2, d3, ,dM}
K Số chủ đề ẩn
Nm Số lượng từ trong tài liệu thứ m (hay còn gọi là độ dài văn bản dm)
nd,k Số lượng các từ được gán vào chủ đề k trong tài liệu d
nk,w Số lần từ 𝑤 được gán vào chủ đề
nk Tổng số lần bất kỳ từ nào được gán vào chủ đề k
θd Phân phối xác suất chủ đề của mỗi tài liệu
∅k Phân phối xác suất trên tập từ đối với mỗi chủ đề
α Tham số đầu vào ở mức ngữ liệu
zm,n Chủ đề của từ wn trong tài liệu dm
Hình 2 3: Quá trình sinh tài liệu trong mô hình LDA
Trang 3132
wm,n Từ thứ n trong tài liệu dm chỉ bởi zm,n
𝜗⃗m
Phân phối chủ đề trong mỗi tài liệu dm
φ Phân phối từ trong chủ đề K
Ví dụ: Chúng ta cần tạo ra một tài liệu D gồm 5 từ, tài liệu này chứa 1/2 chủ đề
về an ninh chính trị và 1/2 chủ đề về giáo dục
- Chọn từ “Quân_đội” thuộc về chủ đề an ninh chính trị và đưa vào tài liệu D
- Chọn từ “tập_huấn” thuộc về cả hai chủ đề an ninh chính trị và chủ đề giáo
dục đưa vào tài liệu D
- Chọn từ “quốc_phòng” thuộc chủ đề an ninh chính trị và đưa vào tài liệu D
- Chọn từ “học_sinh” thuộc về chủ đề giáo dục và đưa vào tài liệu D
- Chọn từ “trung_học” thuộc về chủ đề giáo dục và đưa vào tài liệu D
Ta sẽ được một tài liệu như sau (hình 2.4):
Hình 2 4: Quá trình sinh 1 tài liệu
Trang 3233
Hình 2 5: Thuật toán LDA Gibbs Sampling
Quá trình sinh ra các tài liệu một cách tự nhiên thì cũng có thể đảo ngược lại để suy diễn từ các tài liệu để tìm được các chủ đề trong tài liệu Để ước lượng tham số cho mô hình LDA người ta thường sử dụng nhiều các phương pháp xấp xỉ trong đó điển hình là Gibbs Sampling(GS) GS được xem là một phương pháp lấy mẫu nhanh
và hiệu quả để huấn luyện LDA GS thực hiện việc tìm chủ nào đã sinh ra tập tài liệu
D qua việc tìm phân phối xác suất trên tập từ đối với mỗi chủ đề và tìm phân phối xác suất chủ đề của mỗi tài liệu Sau đây là thuật toán GS [7]
3.2 Thuật toán Gibbs Sampling cho mô hình LDA
Trang 33Với đầu vào là tập các từ 𝑤 của tập văn bản 𝑑 và đầu ra là các phép gán chủ
đề ẩn và các biến đếm 𝑛𝑑,𝑘, 𝑛𝑘,𝑤, 𝑛𝑘 Ở mỗi vịng lặp Gibbs cĩ độ phức tạp O(NKM)
và thuật tốn được mơ tả bằng mã giả như hình 2.5 ở trên zk
2.3 Gán nhãn chủ đề
2.3.1 Giới thiệu
Gán nhãn chủ đề là quá trình xác định nhãn cho mỗi tài liệu, quá trình này thực chất là quá trình phân lớp văn bản Cĩ nhiều phương pháp phân lớp văn bản như Support Vector Machine (SVM), K–Nearest Neighbor (KNN), Linear Least Squares Fit (LLSF), Neural Network (NN), Nạve Bayes (NB), Centroid–Based… Điểm tương đồng của các phương pháp này đều dựa vào xác suất thống kê hoặc dựa vào trọng số của các từ, cụm từ trong văn bản Ở mỗi phương pháp đều cĩ cách giải quyết vấn đề khác nhau, tuy nhiên chúng cĩ một số bước chung ban đầu là đều dựa vào tần số về sự xuất hiện của các từ trong văn bản để biểu diễn thành dạng vector Sau
đĩ bằng các cơng thức tính tốn khác nhau tùy từng phương pháp phân lớp để phân loại các tập văn bản dưa trên các tập vectơ ban đầu nhằm mục đích đạt được kết quả phân loại chính xác nhất Qua nhiều cơng trình nghiên cứu phát triển thì phương pháp phân lớp NB được ứng dụng rộng rãi trong lĩnh vực máy học và nhiều lĩnh vực khác như gom nhĩm, phân loại văn bản, phân loại mail spam, So sánh tồn diện với các phương pháp phân loại văn bản khác, phương pháp NB [9] cho kết quả phân loại tốt
và nhanh Do đĩ trong bài luận văn này sử dụng phương pháp NB để gán nhãn chủ
đề thực trên các tập văn bản đã được phân lớp chủ đề ẩn Ý tưởng chính là tính xác suất xuất hiện của các từ 𝑤𝑖 trong từng chủ đề ẩn đối với danh sách các từ đặc trưng của từng chủ đề huấn luyện Giá trị xác suất thuộc chủ đề huấn luyện nào lớn nhất thì
sẽ được gán nhãn chủ đề huấn luyện cho chủ đề ẩn tương ứng
(2.1)
(2.2)
Trang 3435
2.3.2 Phương pháp Naive Bayes
Phương pháp NB [9] có ưu điểm là cài đặt và thời gian thực hiện nhanh, thuận tiện trong việc cập nhật dữ liệu mới và có tính độc lập cao với dữ liệu huấn luyện Với giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau,
ý tưởng cơ bản của phương pháp NB là sử dụng xác suất có điều kiện trên các từ hoặc cụm từ và chủ đề để tìm ra xác suất chủ đề của một tài liệu cần phân loại
Bảng 2 2: Các qui ước trong NB
P(xk|Ci) Xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp i
|docsi| Số lần xuất hiện của từ wk có trong file huấn luyện
|docsxki| Số tài liệu trong trong phân lớp i có đặc trưng thứ k mang giá trị xk
|total docs|
Tổng số lượng từ có trong tất cả file huấn luyện (không tính các từ đã trùng lặp)
m Số phân lớp
M Tổng số lần xuất hiện của các từ đặc trưng có trong file huấn luyện
dk Số giá trị có thể có của đặc trưng thứ k
Trang 35Theo định lý Bayes, ta có:
P(Ci|X) =P(X|Ci)P(Ci)
P(X)
Theo tính chất độc lập điều kiện, ta có công thức tính xác suất thuộc phân lớp
i khi biết trước mẫu X:
Thuật toán NB gồm 2 giai đoạn là huấn luyện và phân lớp
Giai đoạn huấn luyện
Đầu vào:
Các vector từ đặc trưng của tài liệu trong tập huấn luyện
Tập nhãn các vector đặc trưng của tập huấn luyện
Trang 3637
Ví dụ: Giả sử, ta có các từ huấn luyện như bảng 2.3 và sau bước phân tích chủ
đề ẩn, tin tức M thuộc Topic1 Đây là chủ đề ẩn với các từ đặc trưng cho trước Vì vậy, ta tiến hành tính xác suất Bayes để tìm chủ đề thực so với dữ liệu huấn luyện
Bảng 2 3: Số lượng từ trong tập huấn luyện
tính luôn từ trùng lặp)
Tổng số lượng từ (không tính từ đã lặp)
Ta thực hiện như sau:
Giai đoạn huấn luyện: Tính xác suất số từ đặc trưng của Topic1 xuất hiện
trong các file huấn luyện
- Thống kê tần suất xuất hiện các từ đặc trưng theo các chủ đề huấn luyện ta được bảng các giá trị sau (bảng 2.4):
Bảng 2 4: Tần suất của từ đặc trưng
Trang 3738
- Do topic1 có 10 từ đặc trưng nên k=1 10
- Do có 3 chủ đề huấn luyện nên i=1 3
- m: Tổng số lần xuất hiện của các từ đặc trưng có trong file huấn luyện (m=7+2+4+8+4+3+10+3+5+1)
o |total docs|: Tổng số lượng từ có trong tất cả file huấn luyện (không
tính các từ đã trùng lặp) Theo ví dụ trên ta có
|total docs|: = 191 +312 + 300 =803
- |docsi|: là số lần xuất hiện của từ wk có trong file huấn luyện Ví dụ từ
“Trường_học” xuất hiện 7 lần trong file huấn luyện nên |docsi| = 7
- Áp dụng công thức (2.6) ta tính được các giá trị xác suất các từ đặc trưng theo chủ đề Chẳng hạn như:
P(Trường_học |GiaoDuc) = |docsi|+1
|total docs|+m = (7+1)/(47+803)= 0.0095 Tương tự, ta có các giá trị xác suất của từ đặc trưng theo chủ đề giáo dục như bảng 2.5 dưới đây:
Bảng 2 5 Giá trị xác suất các từ đặc trưng theo chủ đề
Trang 3839
Giai đoạn phân lớp: Thực hiện tính xác suất chủ đề ẩn theo chủ đề huấn luyện
- Ta có công thức tính xác xuất cho Topic1|GiaoDuc là:
A=P(Topic1|GiaoDuc)=P(GiaoDuc) x P(Trường_học|GiaoDuc) x P(thi_cử|GiaoDuc) x P(Giáo_khoa|GiaoDuc) x P(Tốt_nghiệp|GiaoDuc) x P(Học_sinh |GiaoDuc) x P(Giảng_dạy|GiaoDuc) x P(Trường|GiaoDuc) x P(Giáo_viên |GiaoDuc) x P(Nghiên_cứu |GiaoDuc) x P(Luận_văn |GiaoDuc)
Trang 3940
Hình 2 6: Ma trận dữ liệu
Hình 2 7: Ma trận phân biệt
Mục đích gom cụm dữ liệu là tìm những mẫu đại diện hoặc gom dữ liệu tương
tự nhau ( theo một chuẩn đánh giá nào đó) thành những cụm Các điểm dữ liệu trong các cụm khác nhau có độ đo tương tự thấp hơn các điểm nằm trong cùng một cụm [3]
3.2 Các kiểu dữ liệu trong bài toán gom cụm
Trong gom cụn, có thể dùng ma trận dữ liệu biểu diễn không gian dữ liệu gồm
n đối tượng theo p thuộc tính Ma trận này biểu diễn mối quan hệ đối tượng theo p thuộc tính như trong hình 2.6
Ngoài ra, để biểu diễn khoảng cách giữa 2 điểm (đối tượng) trong không gian
dữ liệu gồm n đối tượng theo p thuộc tính ta dùng ma trận phân biệt như trong hình 2.7 Nó lưu trữ một tập hợp các trạng thái về mặt thời gian, không gian, cho tất cả n cặp đối tượng
Trong đó d(i,j) là khoảng cách giữa đối tượng i và j, thể hiện sự khác biệt giữa đối tượng i và j, được tính tùy thuộc vào kiểu của các biến hay thuộc tính
d(i,j) >= 0, d(i,i) = 0, d(i,j) = d(j,i), d(i,j) <= d(i,k) + d(k,j)
Trang 4041
Ma trận phân biệt còn được gọi là ma trận không tương đồng hay ma trận một chế độ (1-mode) Ma trận dữ liệu còn được gọi là ma trận 2 chế độ (2-mode) Các thuật toán gom cụm thao tác trên ma trận phân biệt Nếu dữ liệu được đưa ra dưới dạng ma trận dữ liệu thì có thể được chuyển đổi sang ma trận phân biệt trước khi áp dụng các thuật toán gom cụm
Biến trị khoảng
Các biến trị khoảng là độ đo liên tục của các đại lượng tuyến tính đơn giản như trọng lượng, chiều cao, nhiệt độ, tuổi… Đơn vị đo có thể ảnh hưởng đến kết quả gom cụm, do đó để tránh sự phụ thuộc vào đơn vị đo cần chuẩn hóa các độ đo
Phương pháp chuẩn hóa các độ đo:
- Sai số tuyệt đối trung bình, được định nghĩa bởi (2.7):
f
x - m
Z =
SSai số tuyệt đối trung bình càng lớn thì hiện tượng cá biệt càng giảm Do đó
độ đo được chọn sẽ ảnh hưởng đến kết quả phân tích mẫu cá biệt
Biến nhị phân
Để tính toán độ tương đồng giữa các đối tượng được mô tả bởi các biến nhị phân đối xứng hoặc không đối xứng Biến nhị phân là biến mang giá trị 0 hoặc 1, với
giá trị 0 là biến vắng mặt, 1 là biến có mặt Ví dụ: Cho trước biến “tiểu đường” mô
tả một bệnh nhân Áp dụng biến nhị phân, giá trị 1 chỉ ra bệnh nhân bị bệnh tiểu đường, giá trị 0 cho biết bệnh nhân không bị tiểu đường
Một biến nhị phân là đối xứng nếu như cả hai trạng thái của nó có cùng giá trị
và mang cùng trọng số Ví dụ: giới tính có thể là nam hoặc nữ Độ tương đồng dựa trên các biến nhị phân đối xứng được gọi là đô đo tương đồng bất biến Đối với độ
(2.7)
(2.8)
(2.9)