KHẢO sát XU THẾ THAY đổi CHỦ đề QUAN tâm của một CỘNG ĐỒNG TRONG MẠNG xã hội THEO THỜI GIAN

- Dùng mô hình phân cấp cây nhị phân tác giả đã tìm ra được xác suất phản ánh khả năng mỗi cá nhân tham gia vào cộng đồng và xác suất này tăng theo mỗi quan hệ của cá nhân đó với cộng đồ

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

3

LỜI CÁM ƠN

Trước tiên, tôi xin gửi lời cảm ơn tới thầy hướng dẫn luận văn của tôi, PGS TS Đỗ Phúc, đã tạo mọi điều kiện, động viên và giúp đỡ tôi hoàn thành tốt luận văn này Trong suốt quá trình nghiên cứu, thầy đã kiên nhẫn hướng dẫn, quan tâm, giúp đỡ, thảo luận và đưa ra những chỉ dẫn, đề nghị cho luận văn của tôi Sự hiểu biết sâu sắc về khoa học, cũng như kinh nghiệm của thầy chính là tiền đề giúp tôi đạt được những thành tựu và kinh nghiệm quý báu

Xin cám ơn quí Thầy Cô, Khoa Khoa Học Máy Tính, Phòng sau đại học, Trường đại học Công Nghệ Thông Tin đã tận tình truyền đạt kiến thức trong những năm tôi học tập Với vốn kiến thức được tiếp thu trong quá trình học không chỉ là nền tảng cho quá trình nghiên cứu luận văn mà còn là hành trang quí báu để tôi bước vào đời một cách vững chắc và tự tin

Tôi cũng xin cảm ơn bạn bè và gia đình đã luôn bên tôi, cổ vũ và động viên tôi những lúc khó khăn để có thể vượt qua và hoàn thành tốt luận văn này

Tôi xin chân thành cảm ơn!

TP Hồ Chí Minh, tháng 3 năm 2016

Đỗ Thiện Vũ

Trang 3

4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của PGS.TS Đỗ Phúc Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo

Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như

số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình

TP Hồ Chí Minh, tháng 3 năm 2016

Tác giả luận văn

Đỗ Thiện Vũ

Trang 4

5

MỤC LỤC

LỜI CÁM ƠN 3

LỜI CAM ĐOAN 4

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 8

DANH MỤC CÁC BẢNG 9

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10

TÓM TẮT 12

CHƯƠNG 1: TỔNG QUAN 13

1.TÍNH THIẾT THỰC CỦA ĐỀ TÀI 13

2.CÁC KHÁI NIỆM CƠ BẢN 13

3.TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 15

4.MỤC ĐÍCH VÀ NỘI DUNG LUẬN VĂN 17

5.ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 18

6.BỐ CỤC LUẬN VĂN 18

7.GIỚI THIỆU MẠNG XÃ HỘI 19

8.KẾT CHƯƠNG 23

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 24

1.KHAIPHÁDỮLIỆU 24

2.KỸTHUẬTXỬLÝVĂNBẢN 25

2.1 Đặc điểm của từ vựng tiếng Việt 25

2.2 Tiền xử lí dữ liệu 26

2.3 Tách từ tiếng Việt 27

2.3.1 Giới thiệu 27

2.3.2 Phương pháp so khớp cực đại MM 27

3.MÔHÌNHPHÂNTÍCHCHỦĐỀẨNVÀGÁNNHÃNCHỦĐỀ 28

3.1 Giới thiệu về mô hình phân tích chủ đề ẩn 28

3.2 Mô hình LDA 29

3.2 Thuật toán Gibbs Sampling cho mô hình LDA 33

Trang 5

6

2.3 Gán nhãn chủ đề 34

2.3.1 Giới thiệu 34

2.3.2 Phương pháp Naive Bayes 35

3.GIẢITHUẬTGOMCỤM 39

3.1 Khái niệm 39

3.2 Các kiểu dữ liệu trong bài toán gom cụm 40

3.3 Các độ đo 42

3.4 Thuật Toán K-Means 43

3.5 Thuật toán Multi K-Means 47

4.KHAIPHÁLUẬTDÃY 48

4.1 Giới thiệu 48

4.1.1 Một số khái niệm về luật kết hợp 48

4.1.2 Thuật toán Apriori khai phá luật kết hợp 49

4.1.4 Một số khái niệm và phương pháp khai phá luật dãy 53

4.2 Thuật toán khai phá luật dãy GSP 55

5.KẾT CHƯƠNG 60

CHƯƠNG 3 XÂY DỰNG HỆ THỐNG VÀ THU THẬP DỮ LIỆU 61

1.MÔHÌNHHỆTHỐNG 61

1.1 Quá trình tìm chủ đề 61

1.3 Quá trình gom cụm 63

1.4 Quá trình khai phá luật dãy 63

1.5 Triết lý việc dùng các thuật toán 63

2.THUTHẬPDỮLIỆU 64

2.1 Giới thiệu NodeXL 64

2.2 Một số tính năng điển hình của NodeXL 64

2.3 Thu thập dữ liệu Facebook với NodeXL 65

2.4 Nguồn dữ liệu 67

2.4.1 Dữ liệu huấn luyện 67

2.4.2 Dữ liệu GroupFacebook 68

CHƯƠNG 4: THỬ NGHIỆM VÀ THỰC NGHIỆM 69

Trang 6

7

1.THỬNGHIỆM: 69

1.1 Thử nghiệm mô hình LDA và gán nhãn chủ đề 69

1.1.1 Dữ liệu thử nghiệm 69

1.1.2 Môi trường và công cụ tích hợp 69

1.1.3 Quá trình thực hiện 69

1.1.4 Kết quả và đánh giá 70

1.2 Thử nghiệm gom cụm Multi-Kmeans 72

1.2.1 Môi trường và công cụ 72

1.3 Thử nghiệm với thuật toán GSP 75

1.3.1 Dữ liệu thử nghiệm 75

1.3.2 Môi trường và công cụ 75

1.4 Kết luận thử nghiệm 78

2.THỰC NGHIỆM 79

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 88

1.KẾTQUẢĐẠTĐƯỢC 88

1.1 Về mặt khoa học 88

1.2 Về mặt thực tiễn 88

2.HẠNCHẾ 89

3.HƯỚNGPHÁTTRIỂN 89

TÀI LIỆU THAM KHẢO 90

Trang 7

o DBLP: DataBase systems and Logic Programming

o IGATEC: Internet and Genetics Algorithm based Text Categorization

o GS: Gibbs Sampling

o GSP: Generalized Sequential Patterns

o KNN: K–Nearest Neighbor

o LDA: Latent Dirichlet Allocation

o LLSF: Linear Least Squares Fit

o LRMM: Left Right Maximum Matching

o LSA: Latent Semantic Analysis

o NB: Nạve Bayes

o PLSA: Probabilistic Latent Semantic Analysis

o SD: Sequence Database

o SPADE: Sequential Pattern Discovery using Equivalent Class

o SVM: Support Vector Machine

o SNA: Social Network Analysis

o TBL: Transformation – Based Learning

Trang 8

9

DANH MỤC CÁC BẢNG

Bảng 1 1: Thống kê người dùng các mạng xã hội lớn trên thế giới 21

Bảng 2 1: Các qui ước ký hiệu trong mô hình LDA 31

Bảng 2 2: Các qui ước trong NB 35

Bảng 2 3: Số lượng từ trong tập huấn luyện 37

Bảng 2 4: Tần suất của từ đặc trưng 37

Bảng 2 5 Giá trị xác suất các từ đặc trưng theo chủ đề 38

Bảng 2 6: CSDL TDB 51

Bảng 2 7: Kết quả tập luật kết hợp 52

Bảng 2 8: CSDL minh họa các khái niệm luật dãy 53

Bảng 2 9: CSDL minh họa thuật toán GSP 57

Bảng 2 10: Phân tích GSP các ứng viên C2 có 2 phần tử 57

Bảng 2 11: Phân tích GSP các ứng viên C2 có 1 phần tử 58

Bảng 2 12: Minh họa dãy phổ biến chiều dài 2 và 2 phần tử 58

Bảng 2 13: Minh họa dãy phổ biến chiều dài 2 và 1 phần tử 59

Bảng 4 1: Thời gian 1 lần thử nghiệm 70

Bảng 4 2: Thử nghiệm lần 1 71

Bảng 4 5: Kết quả thử nghiệm Multi-Kmeans 73

Bảng 4 6: Kiểm tra thực tế trong CSDL 78

Bảng 4 7: Môi trường và công cụ thực nghiệm 79

Bảng 4 8: Tổng kết thời gian thực nghiệm 80

Trang 9

10

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1 1: Cấu trúc mạng xã hội 19

Hình 2 1: Mô hình khai phá dữ liệu 25

Hình 2 2: Mô hình LDA 30

Hình 2 3: Quá trình sinh tài liệu trong mô hình LDA 31

Hình 2 4: Quá trình sinh 1 tài liệu 32

Hình 2 5: Thuật toán LDA Gibbs Sampling 33

Hình 2 6: Ma trận dữ liệu 40

Hình 2 7: Ma trận phân biệt 40

Hình 2 8: Thuật toán K-means 44

Hình 2 9: Các bước của thuật toán K-means 44

Hình 2 10: CSDL ví dụ K-means 45

Hình 2 11: Bước 1 trong k-means 45

Hình 2 12: Bước 2 trong k-means 45

Hình 2 13: Bước 3 thuật toán K-means 46

Hình 2 14: Bước 4 thuật toán K-means 46

Hình 2 15: Bước dừng thuật toán K-means 47

Hình 2 16: Thuật toán Multi K-Means 48

Hình 2 17: Thuật toán Apriori 50

Hình 2 18: Độ phức tạp thuật toán Apriori 51

Hình 2 19: Mô tả quá trình tìm tập phổ biến của Apriori 52

Hình 2 20: Thuật toán GSP 55

Hình 2 21: Minh họa phân tích GSP 59

Hình 3 1: Mô hình hệ thống 61

Hình 3 2: Cấu trúc mạng xã hội 65

Hình 3 3: Giao diện kết nối MXH 65

Hình 3 4: Giao diện Import dữ liệu MXH Facebook 66

Hình 3 5: Đăng nhập Facebook 66

Trang 10

11

Hình 3 6: Danh sách người dùng 67

Hình 3 7: Dữ liệu huấn luyện 68

Hình 3 8: Dữ liệu Group Facebook 68

Hình 4 1: CSDL thử nghiệm K-means 72

Hình 4 2: Kết quả gom cụm chưa tối ưu 74

Hình 4 3: Kết quả gom cụm đã tối ưu 74

Hình 4 4: CSDL thử nghiệm GSP 75

Hình 4 6: Dãy bệnh tật phổ biến 76

Hình 4 5: Tham chiếu mã ICD 76

Hình 4 7: Chủ đề quan tâm của cộng đồng 81

Hình 4 8: Chủ đề theo thời gian 82

Hình 4 9: Danh sách gom cụm 83

Hình 4 10: Một khối thông tin cá nhân 83

Hình 4 11: Dãy phổ biến chủ đề theo thời gian 84

Hình 4 12: Trích chọn thông tin nhanh 85

Hình 4 13: Trích chọn nhanh đối tượng nổi trội 86

Hình 4 14: Menu song ngữ Anh-Việt 86

Hình 4 15: Danh sách lưu trữ đã sàng lọc 87

Trang 11

12

TÓM TẮT

Mục đích chính của luận văn là khảo sát xu thế thay đổi các chủ đề quan tâm của một cộng đồng trong mạng xã hội Để đạt được mục tiêu này, bài luận văn sẽ trình bày mô hình khảo sát xu thế thay đổi chủ đề quan tâm theo thời gian của người dùng trên mạng xã hội Để thưc hiện được mô hình đầu tiên bài luận sẽ tiếp cận mô hình phát hiện chủ đề ẩn [6] và phân loại văn bản [9] để tìm ra các chủ đề theo thời gian của các thành viên trong cộng đồng Tiếp đến

là tiếp cận thuật toán gom cụm Multi-Kmeans [18], đây thực chất là thuật toán

mở rộng của thuật toán K-means [13] qua việc tối ưu kết quả của thuật toán này nhằm mục tiêu là gom nhóm thành viên trong cộng đồng theo các tiêu chí khác nhau Cuối cùng là tiếp cận thuật toán khai phá luật dãy GSP [16] để tìm ra tập dãy các chủ đề phổ biến của các nhóm trong cộng đồng theo thời gian

Trang 12

13

CHƯƠNG 1: TỔNG QUAN

1 Tính thiết thực của đề tài

Cùng với quá trình toàn cầu hóa và sự phát triển của CNTT, mạng Internet trên thế giới và Việt Nam ngày càng phát triển mạnh mẽ Sự tham gia của các trang

cá nhân, nhóm trên mạng ngày càng tích cực và nhu cầu chia sẻ thông tin, kết nối bạn

bè là nhu cầu thiết yếu Làm thúc đẩy sự ra đời và phát triển của các mạng xã hội như Facebook, Twitter, Zingme Những ứng dụng về khai thác mạng xã hội ở Việt Nam hiện tại vẫn còn rất khiêm tốn, chưa đáp ứng đầy đủ với nhu cầu khai thác rất lớn , phát triển mạnh của mạng xã hội , đa phần chỉ ở mức thống kê, đánh giá mức độ sử dụng, số lượng người dùng mà quan tâm chưa nhiều tới nội dung trao đổi, cấu trúc của mạng xã hội

2 Các khái niệm cơ bản

2.1.Mạng xã hội

Mạng xã hội (hay gọi là mạng xã hội ảo) là dịch vụ nối kết các thành viên cùng

sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian Những người tham gia vào mạng xã hội còn được gọi là cư dân mạng [19]

Trang 13

2.5 Hành vi cá nhân

Hành vi cá nhân là những hành động thể hiện những sở thích, mối quan tâm của một cá nhân Hành vi là một giá trị có thể thay đổi theo thời gian

Theo Bách khoa tự điển Việt Nam thì hành vi là một chuỗi các hành động lặp

đi lặp lại Là hành động hoặc phản ứng của đối tượng hoặc sinh vật, thường sử dụng trong sự tác động đến môi trường, xã hội Hành vi có thể thuộc về ý thức, tiềm thức, công khai hay bí mật, và tự giác hoặc không tự giác Hành vi là một giá trị có thể thay đổi qua thời gian

Ví dụ: Một cá nhân trong tháng 1 thường gửi các bài lên mạng xã hội quan tâm tới vấn đề chính trị và trong tháng 2 người này lại gởi các bài khác quan tâm tới vấn đề khoa học Vậy hành vi cá nhân trong tháng 1 là quan tâm tới chủ đề chính trị

và hành vi trong tháng 2 là quan tâm chủ đề khoa học

2.5 Hành vi tập thể

Hành vi tập thể: là sự kết hợp hành vi của các cá nhân trong môi trường kết nối, hành vi của các cá nhân này có xu hướng phụ thuộc lẫn nhau dẫn đến hành vi tương quan giữa những người tham gia kết nối

Trang 14

15

3 Tổng quan tình hình nghiên cứu

3.1 Các công trình nghiên cứu ngoài nước

Trong những năm gần đây, các công trình nghiên cứu về phân tích, khai thác mạng xã hội rất phổ biến và đặc biệt là quan tâm tới nội dung trao đổi trong mạng xã hội Một số công trình nghiên cứu tiêu biểu thông qua các bài báo sau:

3.1.1 Nghiên cứu sự hình thành nhóm trong mạng xã hội

Nghiên cứu sự hình thành nhóm trong mạng xã hội [11], trong đó trình bày các vấn đề sau:

i.) Những đặc trưng cấu trúc nào làm ảnh hưởng đến những cá nhân sẽ tham gia cộng đồng

ii.) Những cộng đồng nào sẽ phát triển nhanh chóng

iii.) Điểm tương đồng giữa hai cộng đồng thay đổi theo thời gian

- Dùng mô hình phân cấp cây nhị phân tác giả đã tìm ra được xác suất phản ánh khả năng mỗi cá nhân tham gia vào cộng đồng và xác suất này tăng theo mỗi quan hệ của cá nhân đó với cộng đồng và dự đoán được sự phát triển của các cộng đồng trong dữ liệu của tác giả

- Dùng mô hình bùng phát thông tin tác giả chỉ ra các chủ đề thay đổi theo thời gian trên dữ liệu DBLP ( DBLP được thu thập qua 87 cuộc hội thảo trong khoảng thời gian ít nhất là 15 năm)

3.1.2 Nghiên cứu dự đoán hành vi tập thể

Nghiên cứu dự đoán hành vi tập thể [12], trong đó trình bày các vấn đề sau: i.) Dự đoán hành vi tập thể trong mạng xã hội qua việc đưa về một chiều xã hội ( cộng đồng) để xét

ii.) Xác định các mối quan hệ dựa trên kết nối mạng trong cộng đồng để dự đoán hành vi

Tác giả đã tiếp cận vấn đề theo hướng phân cụm dữ liệu mạng theo nút View) và phân cụm theo cạnh (Edge-View) Bằng thực nghiệm trên các dữ liệu BlogCatlog, Flicks, Youtube, tác giả chỉ ra rằng việc phân cụm dữ liệu theo hướng Node-View và Edge-View tương đối tương đồng, nhưng hướng tiếp cận Edge-View

(Node-có thể xác định được các người dùng thuộc cồng đồng nào

Trang 15

16

3.1.3 Khảo sát hành vi tập thể trong mạng xã hội

Khảo sát hành vi tập thể trong mạng xã hội [14], trong đó khảo sát các vấn đề: i.) Hành vi cộng đồng

ii.) Suy luận tập thể

iii.) Sự ảnh hưởng của các mối quan hệ trong mạng xã hội

Bài báo đã có các kết luận sau:

i) Hành vi tập thể: Là sự kết hợp hành vi của các cá nhân trong môi trường kết nối, hành vi của các cá nhân này có xu hướng phụ thuộc lẫn nhau dẫn đến hành

vi tương quan giữa những người tham gia kết nối

ii) Suy luận tập thể: Giả định hành vi của mỗi cá nhân phụ thuộc vào mối quan

hệ bạn bè, suy luận tập thể giúp làm cân bằng và giảm thiểu sự không thống nhất giữa các nhân trong môi trường kết nối

iii) Sự ảnh hưởng của các mối liên kết : Những người có liên kết với nhau có khả năng chia sẻ lợi ích, đặc điểm cá nhân, và điều này xảy ra tương tự với người bạn chung Những người có lợi ích chung có xu hướng trở thành bạn bè

3.2 Các công trình nghiên cứu trong nước

Các công trình nghiên cứu về mạng xã hội trong nước cũng đang được chú ý đặc biệt trong những năm gần đây, điển hình là tên một số công trình tiêu biểu sau:

Nghiên cứu về hành vi sử dụng Facebook của con người [1] Trong đó, tác giả

đã đưa ra những số liệu về việc sử dụng Facebook đã dẫn đến hàng loạt vấn

đề cụ thể như hành vi, trạng thái và những diễn tiến phức tạp trong đời sống con người Bằng những số liệu thống kê, tác giả cũng đưa ra kết luận là Facebook có sức lan tỏa rất lớn và người dùng có xu hướng bị triệu chứng nghiện Facebook

Mô hình tích hợp khám phá, phân lớp và gán nhãn chủ đề tiếp cận theo mô hình chủ đề [2] Trong đó, tác giả đề xuất một mô hình tích hợp khám phá chủ

đề nhằm phân tích các thông điệp trao đổi của người dùng trên mạng xã hội Phương pháp mà tác giả sử dụng là sử dụng phương pháp máy học trên tập dữ liệu huấn luyện để gán nhãn chủ đề

Trang 16

17

Nghiên cứu ứng dụng mạng xã hội Facebook trong việc đổi mới giảng dạy tại trường đại học [5] Trong đó, tác giả sử dụng mô hình khám phá chủ đề và gán nhãn chủ đề [2] và kết hợp các yếu tố thời gian để tìm ra chủ đề quan tâm của người dùng mạng xã hội theo thời gian Ngoài ra, để tăng hiệu quả, đầy đủ và khái quát hơn cho việc thực hiện phân tích chủ đề, tác giả đề xuất thêm 2 mô hình là mô hình ART (Author-Recipient-Topic) và mô hình TART (Temporal- Author-Recipient-Topic)

4 Mục đích và nội dung luận văn

Hướng tiếp cận giải quyết vấn đề là sử dụng mô hình LDA[6] và gán nhãn chủ

đề [9] Đầu vào của mô hình là tập các nội dung văn bản trao đổi thông tin của các

cá nhân Đầu ra là chủ đề quan tâm và các giá trị xác suất của các chủ đề trên từng nội dung trao đổi thông tin của từng cá nhân

Nhiệm vụ của nội dung này gồm các công việc sau:

- Thu thập dữ liệu một cộng đồng để khảo sát mạng xã hội Facebook

- Thu thập dữ liệu huấn luyện các chủ đề quan tâm

- Lọc và xử lí dũ liệu tiếng Việt

- Tìm hiểu mô hình LDA và gán nhãn chủ đề

- Thử nghiệm

4.1.2 Nội dung 2: Gom nhóm

Gom nhóm được những cá nhân có tổ hợp các đặc điểm thông tin cá nhân, chủ

đề quan tâm tương đồng như các giá trị xác suất của giới tính, số lần gởi bài (total post), số like nhận được (like-received), số like tạo (like-created), số lần nhận xét

Trang 17

18

(comment-created), số lần được nhận xét (comment-received) và giá trị trung bình tần suất (xác suất) của các chủ đề quan tâm của cá nhân trong thời gian khảo sát

Hướng giải quyết vấn đề là sử dụng giải thuật gom cụm Multi-Kmeans [18]

để phân loại các nhóm theo đặc điểm profile Với đầu vào là giá trị xác suất của các đặc điểm profile và đầu ra là các nhóm có đặc điểm cá nhân tương đồng với nhau

Nhiệm vụ của nội dung này gồm các công việc sau:

- Tìm hiểu các độ đo tương đồng

- Tìm hiểu thuật toán gom cụm Multi-Kmeans

- Thử nghiệm

4.2.3 Nội dung 3: Khảo sát xu thế thay đổi chủ đề theo thời gian

Nội dung chính là tìm các mẫu về chủ đề quan tâm chính của cộng đồng trong các khoảng thời gian tuần tự và rút ra các luật từ các mẫu tuần tự này

Hướng giải quyết vấn đề là sử dụng thuật toán khai phá luật dãy GSP [16] Đầu vào là các dãy mẫu phổ biến tuần tự chủ đề quan tâm chính của người dùng tham gia cộng đồng trong thời gian khảo sát Và đầu ra là các chuỗi phổ biến về chủ đề quan tâm chính của cộng đồng

Nhiệm vụ nghiên cứu của nội dung này là tìm hiểu thuật toán GSP

4.2.4 Nội dung 4: Xây dựng ứng dụng

5 Đối tượng và phạm vi nghiên cứu

5.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu là một cá nhân, một nhóm, một cộng đồng cụ thể của mạng xã hội Facebook

5.2 Phạm vi nghiên cứu

Phạm vi nghiên cứu là những cộng đồng thuộc mạng xã hội

6 Bố cục luận văn

Bố cục chính của luận văn gồm 4 chương:

- Chương 1: Tổng quan Nội dung chương này trình bày các mục tiêu, nội dung, nhiệm vụ bài luận văn sẽ thực hiện cùng với khái niệm sơ lược về mạng xã hội

Trang 18

19

- Chương 2: Cơ sở lý thuyết Nội dung của chương sẽ trình bày các cơ sở lý thuyết liên quan mà bài luận văn sử dụng làm cơ sở cho việc xây dựng hệ thống khai phá xu thế chủ đề quan tâm của người dùng mạng xã hội

- Chương 3: Xây dựng mô hình hệ thống và thu thập dữ liệu Nội dung của chương trình bày mô hình hệ thống chung của luận văn và các nguồn dữ liệu sử dụng

- Chương 4: Thử nghiệm và thực nghiệm Nội dung trình bày các thử nghiệm cùng với sự đánh giá các thư viện, các công cụ, các modul trong việc tích hợp vào triển khai mô hình chung mà bài luận văn đã đặt ra Tiếp đến là thực nghiệm mô hình

hệ thống chung cùng kết luận và hướng phát triển

7 Giới thiệu mạng xã hội

7.1 Khái niệm:

Mạng xã hội thường được mô hình hóa như đồ thị (hình 1.1) gồm các nút và các đường liên kết trong đó mỗi nút tương ứng cho từng cá nhân và các liên kết giao tiếp truyền thông Các thông tin truyền thông trên mạng xã hội thường là hình thức văn bản như thư điện tử), cũng có thể là tập tin như hình ảnh, phim ảnh,

Mạng xã hội liên kết các thành viên, người dùng trên mạng Internet lại với nhau dựa theo tiêu chí nào đó, với nhiều mục đích khác nhau, không phân biệt thời

Hình 1 1: Cấu trúc mạng xã hội

Trang 19

7.2 Sự phát triển mạng xã hội:

Sự ra đời của mạng máy tính đã làm nền tảng cho sự xuất hiện và phát triển của mạng xã hội Có nhiều khái niệm khác nhau về mạng xã hội đã được định nghĩa trên các trang Web như trang Wikipedia, trang VnExpres, Khái niệm đầu tiên cho rằng mạng xã hội là nơi để mọi người tương tác với nhau thông qua việc chia sẻ thông tin cá nhân, nói chuyện trực tuyến qua các phòng trò chuyện, trao đổi ý tưởng qua các chủ đề được tạo lập trên những trang cá nhân, mà về sau này được gọi là blog Khái niệm thứ hai thì cho rằng mạng xã hội là nơi mà các thành viên có thể kết nối với nhau thông qua địa chỉ thư điện tử của họ Mạng xã hội đầu tiên của dạng này

là mạng xã hội Classmaster, ra đời vào năm 1995 với mục đích kết nối các bạn học với nhau Mạng xã hội tiếp tục phát triển Vào năm 1997 là sự xuất hiện của MXH

SixDegress, mục đích chính của MXH này là giao lưu kết bạn dựa theo sở thích

Tiếp đến là sự ra đời của MXH Friendster vào năm 2002 Friendster đã mau chóng trở thành trào lưu tại Mỹ Tuy vậy do phát triển quá nhanh mà thiếu đi sự tính toán kết nối cũng như lưu trữ đã khiến các máy chủ của dịch vụ này hay bị xảy ra hiện tượng quá tải Công ty này sau đó được Google đề nghị mua lại tuy nhiên thương vụ không thành công Năm 2004, mạng xã hội MySpace hình thành và nhanh chóng nổi bật với các tính năng mới hấp dẫn, trong đó phải kể đến tính năng chia sẻ nhạc Tính năng này đã thu hút được rất nhiều những thành viên quan tâm và rồi làm cho MySpace trở thành mạng xã hội lớn nhất thế giới Thời kỳ đỉnh cao của mình, MySpace từng có hơn 100 triệu thành viên Tuy nhiên do việc các thành viên đăng tải những nội dung xấu cũng như thiết lập bài hát tự động làm rất nhiều người sử dụng khó chịu và dần ít quan tâm tới mạng xã hội này Cũng trong năm 2004 mạng xã hội Facebook được ra đời, tới năm 2006 thì Facebook đã mở rộng phạm vi ra toàn cầu

Trang 20

21

Facebook là một mạng xã hội mở, thông qua việc cung cấp một nền tảng lập trình gọi là Facebook Platform Mạng xã hội này cho phép những thành viên lập trình có thể tương tác tạo ra các ứng dụng cho chính cá nhân cũng như các thành viên khác

sử dụng Chỉ trong thời gian ngắn, Facebook có được rất nhiều các ứng dụng đáp ứng được đông đảo các đối tượng người dùng theo các sở thích khác nhau Năm 2006, một trào lưu mới xuất hiện nhưng cũng đã phát triển hết sức nhanh chóng và phổ biến toàn cầu, đó là Twitter Twitter là mạng xã hội miễn phí cho phép người dùng đọc, nhắn và cập nhật những mẫu tin ngắn gọi là tweet Những mẩu tweet được giới hạn tối đa 140 ký tự được lan truyền nhanh chóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được phổ biến rộng rãi cho mọi người Những tweet có thể chỉ là dòng tin vặt cá nhân cho đến những cập nhật thời sự tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính thống [1, 20]

Nói chung việc hình thành các mạng xã hội là sự cần thiết để đáp ứng nhu cầu ngày càng cao của con người Việc càng có nhiều người quan tâm tới mạng xã hội đã được trang WiKi chỉ ra qua bảng thông kê vào vào tháng 5 năm 2012 qua bảng 1.1

Bảng 1 1: Thống kê người dùng các mạng xã hội lớn trên thế giới

(triệu

Windows Live paces Blog 120

Twitter Mạng nhắn tin nhanh, blog nhỏ 100

Orkut Rất phổ biến ở Brasil và Ấn Độ 37

Netlog Rất phổ biến tại Bỉ 35

Friendster Rất phổ biến ở Philippines, Malaysia,

Indonesia và Singapore 115 Flixster Thiết kế dành cho những người yêu phim

Trang 21

Chú thích: Nguồn số liệu được trích dẫn từ Wikipedia [20]

7.3 Ưu điểm của mạng xã hội

Mạng xã hội được phát triển mạnh mẽ như hiện nay là do có nhiều ưu điểm đáng kể mà chúng mang lại so với các cách truyền thông truyền thống

Do các mạng xã hội hiện nay hầu hết cho phép đăng ký và sử dụng miễn phí nên chi phí tham gia mạng xã hội của người dùng cá nhân hay tổ chức là tương đối thấp Ngoài ra, việc tham gia làm thành viên của một mạng xã hội giúp các thành viên có được rất nhiều thông tin hữu ích cho mối quan tâm, sự phát triển của mình

Ví dụ như một công ty sau khi tham gia một mạng xã hội, chỉ cần vài thao tác nhấp chuột là đã có thể tìm hiểu về các sở thích của người dùng và xu hướng của những sở thích đó Từ đó, công ty có thể phát hiện ra được những khách hàng tiềm năng, vạch

ra một chiến lược chăm sóc khách hàng hoặc mở ra hướng kinh doanh mới Những việc làm này rất cần thiết và giúp ích rất nhiều cho công ty trong môi trường kinh doanh

Nhờ vào việc đọc được những bài viết mang tính chất riêng tư, tâm sự của bạn bè, hay con cái các thành viên mạng xã hội có thể có được những hiểu biết rõ ràng hơn về bạn bè, con cái của mình, thấy được vấn đề mà người kia đang gặp phải,

từ đó giúp họ giải quyết vấn đề dễ dàng hơn Nghiên cứu cho thấy, giới trẻ đang có

xu hướng kể ra những vấn đề cá nhân trên blog, mạng xã hội dễ dàng hơn là nói chuyện trực tiếp với các bậc phụ huynh, hay cả với bạn bè Khi ấy niềm tin trong mối quan hệ cũng được nâng lên đáng kể

Cũng nhờ vào mạng xã hội, người dùng ban đầu có thể thiết lập một mối quan

hệ với bất cứ ai, đơn giản chỉ khởi đầu bằng việc gửi đi một lời nhắn đề nghị được kết bạn Sau khi được chấp nhận bởi phía bên kia, việc cần làm để gìn giữ mối quan

hệ đó là cố gắng cân bằng giữa việc cho đi và nhận lại Việc này ở trên mạng xã hội

Trang 22

23

tỏ ra đơn giản hơn so với việc duy trì mối quan hệ trong xã hội bình thường, bởi cho

đi và nhận về trong mạng xã hội nhiều khi chỉ nằm ở mức có những bình luận trong những bài viết của bạn bè

tự viết Vấn đề này xuất hiện khá nhiều trên các phương tiện thông tin đại chúng gần đây Hoặc vấn đề về sự cố các tài khoản mạng xã hội của những người nổi tiếng bị hacker kiểm soát, những thông tin nhạy cảm được tung ra

Việc tham gia một mạng xã hội, việc kiểm tra các thay đổi gần đây từ bạn bè,

cập nhật những thay đổi, thông tin cho chính các thành viên làm tiêu tốn rất nhiều thời gian của người tham gia Theo những phân tích gần đây thì có tình trạng khá

nhiều người trẻ bị hội chứng nghiện khi tham gia mạng xã hội Nếu tình trạng này

xảy ra ở diện rộng thì sẽ có rất nhiều hiệu ứng không tốt xảy ra [1,20]

8 Kết chương

Chương này đã trình bày được một số khái niệm cơ bản về mạng xã hội, đưa

ra được những mục tiêu và nhiệm vụ cụ thể cho việc khai thác thông tin mạng xã hội Ngoài ra, chương cũng trình bày được sự phát triển của mạng xã hội nhằm cho thấy việc phân tích và khai thác thông tin mạng xã hội là nhu cầu cần thiết hiện nay

Để thực hiện các mục tiêu, nội dung mà phần đầu chương này đã đặt ra, tiếp đến bài luận văn sẽ trình bày phần cơ sở lý thuyết về các kỹ thuật, thuật toán liên quan

ở chương 2, phần cơ sở lý thuyết sẽ làm cơ sở trong việc xây dựng mô hình chung trong việc khai phá xu thế chủ đề quan tâm của người dùng mạng xã hội

Trang 23

Giáo sư Tom Mitchell đã đưa ra định nghĩa về KPDL “KPDL là việc sử dụng

dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”

Một cách tiếp cận cụ thể hơn, Tiến sĩ Fayyad đã phát biểu: “KPDL, thường được

xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”

Ngoài ra theo tài liệu của Weldon năm 1996, khai phá dữ liệu là việc phát hiện tri thức nhờ các công cụ hoàn thiện sử dụng thống kê truyền thống, trí tuệ nhân tạo

và đồ họa máy tính

Nói tóm lại, KPDL là một quá trình học tri thức mới từ những dữ liệu đã thu thập được KPDL đã và đang được áp dụng trong nhiều lĩnh vực khác nhau như thiên văn học, y tế, thể thao, giáo dục,

Quá trình KPDL không chỉ là một quá trình tuần tự từ bước ban đầu cho đến bước cuối cùng mà là một quá trình lặp và có quay lại các bước đã thực hiện Các bước cơ bản trong quá trình KPDL từ dữ liệu thu thập ban đầu gồm các bước như phân nhóm hay còn được gọi là gom nhóm dữ liệu, trích lọc dữ liệu, tiền xử lý dữ liệu, khai phá dữ liệu thông qua mô hình, Các bước cơ bản này được biểu diễn trực quan qua hình 2.1

Trang 24

25

2 KỸ THUẬT XỬ LÝ VĂN BẢN

2.1 Đặc điểm của từ vựng tiếng Việt

Tiếng Việt được biết đến là một ngôn ngữ đơn lâ ̣p, tức là mỗi mô ̣t tiếng (âm tiết) được phát âm tách rời nhau và được thể hiê ̣n bằng mô ̣t chữ viết Đă ̣c điểm này thể hiê ̣n rõ rê ̣t ở tất cả các mă ̣t ngữ âm, từ vựng, ngữ pháp Khác với các ngôn ngữ châu Âu, mỗi từ là một nhóm các ký tự có nghĩa được cách nhau bởi một khoảng trắng Còn tiếng Việt, và các ngôn ngữ đơn lập khác, thì khoảng trắng không phải

là căn cứ để nhận diện từ Trong tiếng Việt mỗi tiếng đều có ý nghĩa Từ tiếng có thể tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng ví dụ như karaoke, thư điện tử (e-mail), phiên bản (version), Ngoài ra tiếng Việt rất coi trọng việc sắp xếp trật tự của từ Khi các từ kết hợp với nhau theo quan hệ chính phụ thì từ đứng

sau giữ vai trò phụ, từ đứng sau giữ vai trò chính, ví dụ như từ tình cảm sẽ khác với

Trang 25

26

2.2 Tiền xử lí dữ liệu

Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các

mô hình là rất cần thiết, bước này nhằm cải thiện chất lượng và làm sạch dữ liệu có được ban đầu qua thu thập dữ liệu và có thể áp dụng được tương thích với các mô hình khai phá dữ liệu cụ thể Các công việc cơ bản của tiền xử lý dữ liệu bao gồm những công việc như:

- Phân nhóm: dữ liệu thu thập từ internet sẽ ở nhiều định dạng khác nhau do vậy cần phân loại chúng cho việc xử lý kế tiếp

- Trích lọc dữ liệu thô là dữ liệu được thu thập trên các trang mạng xã hội, diễn đàn, lấy tin tức từ các trang website, Dữ liệu này còn được gọi là dữ liệu gốc, chúng sau khi được phân loại sẽ được sàng lọc lại và lưu trữ những thông tin cần thiết

- Làm sạch gồm một số bước cơ bản như:

 Tách ngữ là bước xóa bỏ các ký tự đặc biệt, các con số không có ý nghĩa, có thể nhờ các dấu câu mà ta tách ngữ trong quá trình phân tích

 Loại bỏ từ dừng (stop-words) là việc bỏ đi những loại từ xuất hiện quá nhiều lần trong các văn bản nhưng về phần ý nghĩa thì không quan trọng, không liên quan đến chủ đề Các từ dừng không giúp ích trong việc phân biệt nội dung của các tài liệu văn bản Việc loại bỏ đi các từ dừng giúp cho việc xử lý văn bản được cải thiện về mặt thời gian Một

số từ dừng điển hình là các từ “và”, “hoặc”, “cũng”, “là”, “mỗi”, “bởi”,

 Tách từ: đây là khâu quan trọng để gán nhãn từ loại được chính xác giúp việc khai phá dữ liệu được hiệu quả hơn Trong khai phá văn bản, nếu tách từ không chính xác thì khó mà đạt kết quả cao được

Trang 26

từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese), IGATEC là một hướng tiếp cận kết hợp giữa thuật toán di truyền với dữ liệu thống

kê được lấy từ Internet mà không cần dùng đến một từ điển hay tập ngữ liệu học nào; Một phương pháp khác là phương pháp tiếp cận dựa trên tập ngữ liệu đã được đánh dấu TBL (Transformation – based Learning), với TBL chỉ cần cho máy học các tập câu mẫu máy sẽ tự rút ra qui luật của ngôn ngữ để từ đó sẽ áp dụng chính xác khi có những câu đúng theo luật mà máy đã rút ra, TBL đòi hỏi phải có một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ; Một phương pháp phổ biến khác nữa là phương pháp so khớp cực đại MM (Maximum Matching) hay còn gọi là LRMM (Left Right Maximum Matching) MM

có ưu điểm là tách từ đơn giản và chỉ cần dựa vào tự điển từ vựng để thực hiện Ngoài ra MM được áp dụng vào công cụ tách từ VnTokenizer mà đã được tích hợp vào nhiều công trình nghiên cứu xử lý ngôn ngữ tự nhiên VnTokenizer cũng chính

là công cụ mà bài luận sẽ sử dụng để tích hợp vào hệ thống Sau đây bài luận văn sẽ trình bày sâu hơn về ý tưởng của phương pháp tách từ so khớp cực đại MM [4]

2.3.2 Phương pháp so khớp cực đại MM

Ý tưởng chính của phương pháp so khớp cực đại [8] là sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực

Trang 27

đi |nhanh”

Dạng phức tạp: dạng này giống dạng đơn giản nhưng hạn chế được một số lỗi nhập nhằng gặp phải trong dạng đơn giản Đầu tiên thuật toán kiểm tra xem S1 có mặt trong từ điển không, sau đó kiểm tra tiếp S1-S2 có mặt trong từ điển không Nếu S1-

S2 đều có mặt trong từ điển (đây là vấn đề gây ra sự nhập nhằng) thì thuật toán thực hiện chiến thuật chọn 3 từ tốt nhất Tiêu chuẩn 3 từ tốt nhất được Chen và Liu (1992) đưa ra như sau:

- Độ dài trung bình của 3 từ là dài nhất Ví dụ với chuỗi “ông già” nếu kiểm tra thấy có sự nhập nhằng sẽ được tách thành “ông_già”, thay vì “ông | già”

- Sự chênh lệch độ dài của 3 từ là nhỏ nhất Ví dụ với chuỗi “công nghiệp hóa chất phát triển” sẽ được tách từ thành “công_ nghiệp | hóa _chất | phát_ triển” thay vì tách từ sai thành “công_ nghiệp_ hóa | chất | phát_ triển” Cả 2 cách tách từ này đều có độ dài trung bình bằng nhau, nhưng cách tách từ đúng có

sự chênh lệch độ dài 3 từ ít hơn

3 MÔ HÌNH PHÂN TÍCH CHỦ ĐỀ ẨN VÀ GÁN NHÃN CHỦ ĐỀ

3.1 Giới thiệu về mô hình phân tích chủ đề ẩn

Việc mô hình hóa dữ liệu văn bản để khai thác mối quan hệ giữa các dữ liệu ngày càng trở nên phức tạp và tinh vi hơn Đã có rất nhiều công trình nghiên cứu nhằm giải quyết về vấn đề này Mô hình chủ đề ẩn là một bước tiến lớn và quan trọng trong việc mô hình hóa dữ liệu văn bản Mô hình chủ đề ẩn được xây dựng dựa trên

ý tưởng rằng mỗi tài liệu có một xác suất phân phối vào các chủ đề, và mỗi chủ đề là

sự phân phối kết hợp giữa các từ Việc biểu diễn các từ và tài liệu đưa về dạng phân

Trang 28

29

phối xác suất có lợi ích rất lớn so với mô hình không gian véc tơ thông thường Mô hình không gian vectơ là một mô hình đại số biểu diễn thông tin văn bản như một vector, các thuộc tính của vector này thể hiện mức độ quan trọng của một từ và cả sự xuất hiện hay không xuất hiện của nó trong một tài liệu Trong mô hình chủ đề ẩn

để tạo ra một tài liệu mới, việc đầu tiên là chọn ra một phân phối xác suất những chủ

đề cho tài liệu đó, điều này có nghĩa tài liệu được tạo nên từ những chủ đề khác nhau, với những phân phối xác suất khác nhau Tiếp đó, để sinh các từ cho tài liệu ta có thể lựa chọn ngẫu nhiên các từ dựa vào phân phối xác suất của các từ trên các chủ đề Ngược lại, nếu cho một tập các tài liệu thì có thể xác định một tập các chủ đề ẩn cho mỗi tài liệu và phân phối xác suất của các từ trên từng chủ đề Hai mô hình chủ đề ẩn phổ biến là Probabilistic Latent Semantic Analysis (PLSA) [17] và Latent Dirichlet Allocation (LDA) [6] PLSA là mô hình sử dụng kỹ thuật thống kê nhằm phân tích những dữ liệu xuất hiện đồng thời Nó được phát triển dựa trên Latent Semantic Analysis (LSA) kết hợp với một mô hình xác suất Tuy nhiên, theo sự đánh giá và phân tích của David M Blei là người phát minh ra mô hình LDA thì PLSA vẫn còn chưa hoàn thiện trong việc mô hình hóa dữ liệu văn bản ở chỗ chưa xây dựng được một mô hình xác suất tốt ở mức độ tài liệu Hạn chế của PLSA dẫn đến vấn đề gặp phải khi phân phối xác suất cho một tài liệu nằm ngoài tập dữ liệu học, ngoài ra số lượng các tham số có thể tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng David M Blei đã đưa ra mô hình LDA, là một mô hình hoàn thiện hơn so với PLSA và có thể khắc phục được những nhược điểm ở trên [6, 17]

Mô hình chủ đề ẩn LDA của David M Blei sẽ được tích hợp trong phần xây dựng hệ thống khai phá xu thế chủ đề quan tâm của người dùng mạng xã hội Sau đây là phần trình bày về mô hình LDA

3.2 Mô hình LDA

Mô hình LDA được phát minh bởi Blei [6] là mô hình hóa tập ngữ liệu nhằm phát hiện ra các chủ đề tiềm ẩn của các ngữ liệu Mô hình LDA dựa trên ý tưởng là mỗi tài liệu là sự pha trộn của K chủ đề như hình 2.2 Trong đó, mỗi tài liệu (document) là sự pha trộn nhiều chủ đề (topic), mỗi chủ đề là một phân phối xác suất các từ, mỗi từ được trích xuất ra từ những chủ đề Về cơ bản, LDA là một mô hình

Trang 29

30

Bayesian 3 cấp gồm cấp ngữ liệu (corpus), cấp tài liệu (document), cấp từ (word) trong đó mỗi phần của mô hình được coi như một mô hình trộn hữu hạn trên cơ sở tập các xác suất chủ đề

Quá trình sinh tài liệu trong mô hình LDA như sau : Cho một tập ngữ liệu của

M tài liệu được biểu diễn bởi D={d1,d2, …, dM}, mỗi tài liệu m trong ngữ liệu bao

gồm Nm từ wi rút từ một tập từ vựng và các qui ước (bảng 2.1) Do mỗi tài liệu được cấu tạo từ nhiều chủ đề khác nhau với sự phân phối khác nhau Nên để sinh ra một tài liệu mới, ta chọn một phân phối chủ đề cho tài liệu Tiếp theo, để sinh ra các từ trong tài liệu, ta chọn ngẫu nhiên các từ dựa vào phân phối từ trên chủ đề đã chọn ở bước trước

Quá trình sinh ra một tập các từ wm,n cho các tài liệu bằng cách (hình 2.3):

- Mỗi tài liệu m sinh ra phân phối chủ đề 𝜗⃗m cho tài liệu theo α

- Mỗi từ, zm,n được lấy mẫu dựa vào phân phối chủ đề 𝜗⃗m

- Mỗi chủ đề zm,n được sinh ra dựa vào phân phối φ⃗⃗⃗k , wm,n.

Hình 2 2: Mô hình LDA

Trang 30

31

Với các qui ước ký hiệu như bảng sau:

Bảng 2 1: Các qui ước ký hiệu trong mô hình LDA

D Một tài liệu trong tập ngữ liệu

W Một từ trong tài liệu

M Số lượng tài liệu D={d1, d2, d3, ,dM}

K Số chủ đề ẩn

Nm Số lượng từ trong tài liệu thứ m (hay còn gọi là độ dài văn bản dm)

nd,k Số lượng các từ được gán vào chủ đề k trong tài liệu d

nk,w Số lần từ 𝑤 được gán vào chủ đề

nk Tổng số lần bất kỳ từ nào được gán vào chủ đề k

θd Phân phối xác suất chủ đề của mỗi tài liệu

∅k Phân phối xác suất trên tập từ đối với mỗi chủ đề

α Tham số đầu vào ở mức ngữ liệu

zm,n Chủ đề của từ wn trong tài liệu dm

Hình 2 3: Quá trình sinh tài liệu trong mô hình LDA

Trang 31

32

wm,n Từ thứ n trong tài liệu dm chỉ bởi zm,n

𝜗⃗m

Phân phối chủ đề trong mỗi tài liệu dm

φ Phân phối từ trong chủ đề K

Ví dụ: Chúng ta cần tạo ra một tài liệu D gồm 5 từ, tài liệu này chứa 1/2 chủ đề

về an ninh chính trị và 1/2 chủ đề về giáo dục

- Chọn từ “Quân_đội” thuộc về chủ đề an ninh chính trị và đưa vào tài liệu D

- Chọn từ “tập_huấn” thuộc về cả hai chủ đề an ninh chính trị và chủ đề giáo

dục đưa vào tài liệu D

- Chọn từ “quốc_phòng” thuộc chủ đề an ninh chính trị và đưa vào tài liệu D

- Chọn từ “học_sinh” thuộc về chủ đề giáo dục và đưa vào tài liệu D

- Chọn từ “trung_học” thuộc về chủ đề giáo dục và đưa vào tài liệu D

Ta sẽ được một tài liệu như sau (hình 2.4):

Hình 2 4: Quá trình sinh 1 tài liệu

Trang 32

33

Hình 2 5: Thuật toán LDA Gibbs Sampling

Quá trình sinh ra các tài liệu một cách tự nhiên thì cũng có thể đảo ngược lại để suy diễn từ các tài liệu để tìm được các chủ đề trong tài liệu Để ước lượng tham số cho mô hình LDA người ta thường sử dụng nhiều các phương pháp xấp xỉ trong đó điển hình là Gibbs Sampling(GS) GS được xem là một phương pháp lấy mẫu nhanh

và hiệu quả để huấn luyện LDA GS thực hiện việc tìm chủ nào đã sinh ra tập tài liệu

D qua việc tìm phân phối xác suất trên tập từ đối với mỗi chủ đề và tìm phân phối xác suất chủ đề của mỗi tài liệu Sau đây là thuật toán GS [7]

3.2 Thuật toán Gibbs Sampling cho mô hình LDA

Trang 33

Với đầu vào là tập các từ 𝑤 của tập văn bản 𝑑 và đầu ra là các phép gán chủ

đề ẩn và các biến đếm 𝑛𝑑,𝑘, 𝑛𝑘,𝑤, 𝑛𝑘 Ở mỗi vịng lặp Gibbs cĩ độ phức tạp O(NKM)

và thuật tốn được mơ tả bằng mã giả như hình 2.5 ở trên zk

2.3 Gán nhãn chủ đề

2.3.1 Giới thiệu

Gán nhãn chủ đề là quá trình xác định nhãn cho mỗi tài liệu, quá trình này thực chất là quá trình phân lớp văn bản Cĩ nhiều phương pháp phân lớp văn bản như Support Vector Machine (SVM), K–Nearest Neighbor (KNN), Linear Least Squares Fit (LLSF), Neural Network (NN), Nạve Bayes (NB), Centroid–Based… Điểm tương đồng của các phương pháp này đều dựa vào xác suất thống kê hoặc dựa vào trọng số của các từ, cụm từ trong văn bản Ở mỗi phương pháp đều cĩ cách giải quyết vấn đề khác nhau, tuy nhiên chúng cĩ một số bước chung ban đầu là đều dựa vào tần số về sự xuất hiện của các từ trong văn bản để biểu diễn thành dạng vector Sau

đĩ bằng các cơng thức tính tốn khác nhau tùy từng phương pháp phân lớp để phân loại các tập văn bản dưa trên các tập vectơ ban đầu nhằm mục đích đạt được kết quả phân loại chính xác nhất Qua nhiều cơng trình nghiên cứu phát triển thì phương pháp phân lớp NB được ứng dụng rộng rãi trong lĩnh vực máy học và nhiều lĩnh vực khác như gom nhĩm, phân loại văn bản, phân loại mail spam, So sánh tồn diện với các phương pháp phân loại văn bản khác, phương pháp NB [9] cho kết quả phân loại tốt

và nhanh Do đĩ trong bài luận văn này sử dụng phương pháp NB để gán nhãn chủ

đề thực trên các tập văn bản đã được phân lớp chủ đề ẩn Ý tưởng chính là tính xác suất xuất hiện của các từ 𝑤𝑖 trong từng chủ đề ẩn đối với danh sách các từ đặc trưng của từng chủ đề huấn luyện Giá trị xác suất thuộc chủ đề huấn luyện nào lớn nhất thì

sẽ được gán nhãn chủ đề huấn luyện cho chủ đề ẩn tương ứng

(2.1)

(2.2)

Trang 34

35

2.3.2 Phương pháp Naive Bayes

Phương pháp NB [9] có ưu điểm là cài đặt và thời gian thực hiện nhanh, thuận tiện trong việc cập nhật dữ liệu mới và có tính độc lập cao với dữ liệu huấn luyện Với giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau,

ý tưởng cơ bản của phương pháp NB là sử dụng xác suất có điều kiện trên các từ hoặc cụm từ và chủ đề để tìm ra xác suất chủ đề của một tài liệu cần phân loại

Bảng 2 2: Các qui ước trong NB

P(xk|Ci) Xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp i

|docsi| Số lần xuất hiện của từ wk có trong file huấn luyện

|docsxki| Số tài liệu trong trong phân lớp i có đặc trưng thứ k mang giá trị xk

|total docs|

Tổng số lượng từ có trong tất cả file huấn luyện (không tính các từ đã trùng lặp)

m Số phân lớp

M Tổng số lần xuất hiện của các từ đặc trưng có trong file huấn luyện

dk Số giá trị có thể có của đặc trưng thứ k

Trang 35

Theo định lý Bayes, ta có:

P(Ci|X) =P(X|Ci)P(Ci)

P(X)

Theo tính chất độc lập điều kiện, ta có công thức tính xác suất thuộc phân lớp

i khi biết trước mẫu X:

Thuật toán NB gồm 2 giai đoạn là huấn luyện và phân lớp

 Giai đoạn huấn luyện

Đầu vào:

 Các vector từ đặc trưng của tài liệu trong tập huấn luyện

 Tập nhãn các vector đặc trưng của tập huấn luyện

Trang 36

37

Ví dụ: Giả sử, ta có các từ huấn luyện như bảng 2.3 và sau bước phân tích chủ

đề ẩn, tin tức M thuộc Topic1 Đây là chủ đề ẩn với các từ đặc trưng cho trước Vì vậy, ta tiến hành tính xác suất Bayes để tìm chủ đề thực so với dữ liệu huấn luyện

Bảng 2 3: Số lượng từ trong tập huấn luyện

tính luôn từ trùng lặp)

Tổng số lượng từ (không tính từ đã lặp)

Ta thực hiện như sau:

Giai đoạn huấn luyện: Tính xác suất số từ đặc trưng của Topic1 xuất hiện

trong các file huấn luyện

- Thống kê tần suất xuất hiện các từ đặc trưng theo các chủ đề huấn luyện ta được bảng các giá trị sau (bảng 2.4):

Bảng 2 4: Tần suất của từ đặc trưng

Trang 37

38

- Do topic1 có 10 từ đặc trưng nên k=1 10

- Do có 3 chủ đề huấn luyện nên i=1 3

- m: Tổng số lần xuất hiện của các từ đặc trưng có trong file huấn luyện (m=7+2+4+8+4+3+10+3+5+1)

o |total docs|: Tổng số lượng từ có trong tất cả file huấn luyện (không

tính các từ đã trùng lặp) Theo ví dụ trên ta có

|total docs|: = 191 +312 + 300 =803

- |docsi|: là số lần xuất hiện của từ wk có trong file huấn luyện Ví dụ từ

“Trường_học” xuất hiện 7 lần trong file huấn luyện nên |docsi| = 7

- Áp dụng công thức (2.6) ta tính được các giá trị xác suất các từ đặc trưng theo chủ đề Chẳng hạn như:

P(Trường_học |GiaoDuc) = |docsi|+1

|total docs|+m = (7+1)/(47+803)= 0.0095 Tương tự, ta có các giá trị xác suất của từ đặc trưng theo chủ đề giáo dục như bảng 2.5 dưới đây:

Bảng 2 5 Giá trị xác suất các từ đặc trưng theo chủ đề

Trang 38

39

Giai đoạn phân lớp: Thực hiện tính xác suất chủ đề ẩn theo chủ đề huấn luyện

- Ta có công thức tính xác xuất cho Topic1|GiaoDuc là:

Trang 39

40

Hình 2 6: Ma trận dữ liệu

Hình 2 7: Ma trận phân biệt

Mục đích gom cụm dữ liệu là tìm những mẫu đại diện hoặc gom dữ liệu tương

tự nhau ( theo một chuẩn đánh giá nào đó) thành những cụm Các điểm dữ liệu trong các cụm khác nhau có độ đo tương tự thấp hơn các điểm nằm trong cùng một cụm [3]

3.2 Các kiểu dữ liệu trong bài toán gom cụm

Trong gom cụn, có thể dùng ma trận dữ liệu biểu diễn không gian dữ liệu gồm

n đối tượng theo p thuộc tính Ma trận này biểu diễn mối quan hệ đối tượng theo p thuộc tính như trong hình 2.6

Ngoài ra, để biểu diễn khoảng cách giữa 2 điểm (đối tượng) trong không gian

dữ liệu gồm n đối tượng theo p thuộc tính ta dùng ma trận phân biệt như trong hình 2.7 Nó lưu trữ một tập hợp các trạng thái về mặt thời gian, không gian, cho tất cả n cặp đối tượng

Trong đó d(i,j) là khoảng cách giữa đối tượng i và j, thể hiện sự khác biệt giữa đối tượng i và j, được tính tùy thuộc vào kiểu của các biến hay thuộc tính

d(i,j) >= 0, d(i,i) = 0, d(i,j) = d(j,i), d(i,j) <= d(i,k) + d(k,j)

Trang 40

41

Ma trận phân biệt còn được gọi là ma trận không tương đồng hay ma trận một chế độ (1-mode) Ma trận dữ liệu còn được gọi là ma trận 2 chế độ (2-mode) Các thuật toán gom cụm thao tác trên ma trận phân biệt Nếu dữ liệu được đưa ra dưới dạng ma trận dữ liệu thì có thể được chuyển đổi sang ma trận phân biệt trước khi áp dụng các thuật toán gom cụm

Biến trị khoảng

Các biến trị khoảng là độ đo liên tục của các đại lượng tuyến tính đơn giản như trọng lượng, chiều cao, nhiệt độ, tuổi… Đơn vị đo có thể ảnh hưởng đến kết quả gom cụm, do đó để tránh sự phụ thuộc vào đơn vị đo cần chuẩn hóa các độ đo

Phương pháp chuẩn hóa các độ đo:

- Sai số tuyệt đối trung bình, được định nghĩa bởi (2.7):

f

x - m

Z =

SSai số tuyệt đối trung bình càng lớn thì hiện tượng cá biệt càng giảm Do đó

độ đo được chọn sẽ ảnh hưởng đến kết quả phân tích mẫu cá biệt

Biến nhị phân

Để tính toán độ tương đồng giữa các đối tượng được mô tả bởi các biến nhị phân đối xứng hoặc không đối xứng Biến nhị phân là biến mang giá trị 0 hoặc 1, với

giá trị 0 là biến vắng mặt, 1 là biến có mặt Ví dụ: Cho trước biến “tiểu đường” mô

tả một bệnh nhân Áp dụng biến nhị phân, giá trị 1 chỉ ra bệnh nhân bị bệnh tiểu đường, giá trị 0 cho biết bệnh nhân không bị tiểu đường

Một biến nhị phân là đối xứng nếu như cả hai trạng thái của nó có cùng giá trị

và mang cùng trọng số Ví dụ: giới tính có thể là nam hoặc nữ Độ tương đồng dựa trên các biến nhị phân đối xứng được gọi là đô đo tương đồng bất biến Đối với độ

(2.7)

(2.8)

(2.9)

Định dạng
Số trang	90
Dung lượng	10,89 MB