Xây dựng ontology các khái niệm trong trường đại học 15 Chương 3: Mô hình hóa tài liệu theo chủ đề Chương 4: Phát hiện chủ đề trao đổi thông tin trên mạng xã hội Chương 5: Tìm người có
Trang 1Chương 2:Xây dựng ontology các chủ đề trao đổi trong trường đại học
2.4 Xây dựng ontology các khái niệm trong trường đại học 15
Chương 3: Mô hình hóa tài liệu theo chủ đề
Chương 4: Phát hiện chủ đề trao đổi thông tin trên mạng xã hội
Chương 5: Tìm người có ảnh hưởng nhất theo chủ đề trên mạng xã hội
Trang 2ii
Chương 6: Phát hiện chủ đề yêu thích và chủ đề nổi bật trên mạng xã hội
Chương 7: Phát hiện cộng đồng trên mạng xã hội theo chủ đề
Chương 8: Hiện thực mạng xã hội trong trường học bằng mạng xã hội
ELGG
Trang 3TÓM TẮT
Đề tài tập trung vào việc phân tích, khai phá dữ liệu từ các nội dung thông tin trao đổi trên mạng xã hội qua đó phát hiện các chủ đề trao đổi thông tin trên mạng xã hội, phát hiện phần tử trội theo chủ đề, phát hiện cộng đồng theo chủ đề Đề tài đã nghiên cứu giải quyết các nội dung sau:
Nội dung 1: Phân lớp các chủ đề trao đổi trên trên mạng xã hội Mỗi chủ đề được
đặc trưng bằng một tập các từ khóa Để giải quyết bài toán phát hiện chủ đề của các thông điệp trao đổi trên mạng xã hội, mô hình LDA, Author-Recipient-Topic (ART) và giải thuật gán nhãn tự động cho các chủ đề đã được sử dụng Chúng tôi
đã phát triển mô hình phân tích chủ đề theo thời gian Temporal Topic (TART) cho phép khám phá chủ đề của actor trong từng giai đoạn
Author-Recipient-Nội dung 2: Tìm kiếm các phần tử gây ảnh hưởng trên mạng xã hội Chúng tôi
nghiên cứu xác định chuyên gia (người có ảnh hưởng lớn nhất) theo từng chủ đề Chúng tôi sử dụng mô hình lan truyền, tính xác suất ảnh hưởng của người dùng này lên người dùng khác Từ mô hình lan truyển và xác suất ảnh hưởng, chúng tôi phát triển kỹ thuật nhằm xác định người có ảnh hưởng lớn nhất theo từng chủ đề
Nội dung 3: Phân loại các node trên mạng xã hội Bài toán được phát biểu như sau:
cho một đồ thị mạng G có chứa hai tập K và U theo đó K là tập các phần tử cá nhân của G đã biết các tính chất cần quan tâm và U là tập chưa biết các tính chất
cần quan tâm Vấn đề là làm thế nào chúng ta có thể lấy thông tin từ các phần tử
đã biết các tính chất cần quan tâm trong K để dự báo tính chất chưa biết của các phần tử trong U Đây là bài toán phân lớp đối tượng trong mạng Dựa trên giải
thuật Fast Algorithm để gán nhãn nới lỏng và dựa trên giải thuật phân lớp lập,
chúng tôi phát triển giải thuật để giải quyết bài toán trên Bên cạnh đó, chúng tôi dùng lý thuyết lão hóa để khám phá chủ đề nổi bật, được nhiều người quan tâm trên mạng xã hội
Nội dung 4: Phát hiện các cộng đồng qua gom cụm các node trên mạng xã hội
Mỗi actor trong mạng xã hội được biểu diễn bằng một vector có thành phần là các phân bố xác suất của các chủ đề quan tâm của actor đó Chúng tôi dùng mô hình TART để tạo vector thể hiện quan tâm của actor Sau đó, chúng tôi dùng mạng SOM để phát hiện các actors có chung các chủ để quan tâm
Nội dung 5: Chúng tôi xây dựng mạng xã hội và triển khai các chức năng phân tích
mạng xã hội đã xây dựng
Trang 4ABSTRACT
In this project, we focus on the analysis of the information content exchanging on social networks and discover the topics of exchange information, find the key elements and community of topics We have studied the following contents:
Contents #1: Classify topics of the exchange information on social network Each
topic is represented by a set of keywords To solve the problem of detecting the topics
of messages exchanged on social networks, we selected a combination of tools to extract terms, model of social network analysis such as LDA, Author - Recipient - Topic (ART) and automatic topic labeling We have developed the model named
Temporal Author-Recipient-Topic (TART), this model can discover the topics of actor
over time period
Content #2: Find the most influential users in social network We use the propagation model, calculate the user's influence probabilities to anther users For the propagation model and influence probabilities, we have developed the method to find the most influential users in social network
Content #3: Classify nodes in social networks The problem is stated as follows:
given a network graph G with two sets K and U, K is the set of elements of actors with known characteristics and U is the set of actors with unknown characteristics The problem is how we can get information from the elements with known characteristics
in K to predict the characteristics of unknown elements in U This is the problem of object classification We based on Fast Algorithm for relaxation labeling and iterative classification algorithm, we develop algorithm to solve the problem Besides, we use the aging theory to discover hot topics on social network These topics are interesting for many actors on social networks
Content #4: Detecting the communities through the cluster on social networks Each
actor in the social network is represented by a vector with component is the probability distribution of the preferred topics of that actor We use the TART model
to produce vector expressing preference of actors Then, we use the SOM network to detect the clusters of actors with the common interest
Content #5: We built a social networking and implemented the topic based social
network analysis functions
Trang 5DANH MỤC BẢNG
Bảng 4.1: Kết quả phân loại chủ đề so với thực tế trên 2000 bài viết 35
Bảng 4.2 Quá trình thực hiện phân lớp và gán nhãn bằng phương pháp SVM 36
Bảng 4.4 Giải thích những ký hiệu sử dụng trong mô hình TART 38
Bảng 4.6 Kết quả phân tích chủ đề “hoạt động đoàn hội” 42
Bảng 4.8 Kết quả phân tích chủ đề “tuyển dụng việc làm” 44
Bảng 5.4 Phân bố thông điệp theo các hành động của chủ đề 0 55 Bảng 5.5 Xác suất ảnh hưởng theo hành động của chủ đề 55 Bảng 5.6 Nhóm người dùng ảnh hưởng nhất cho chủ đề 0 (các loại hợp đồng) 56
Bảng 6.3 So sánh kết quả dự báo và kết quả gốc của chủ đề “K0003” 63 Bảng 6.4: Kết quả thử nghiệm cho chủ đề “K0003” với các ngưỡng khác nhau 64 Bảng 6.5: Kết quả thử nghiệm cho chủ đề “K0004” với các ngưỡng khác nhau 64 Bảng 6.6: Kết quả thử nghiệm cho chủ đề “K0019” với các ngưỡng khác nhau 65
Bảng 6.9 So sánh tổng quan về những cải tiến mà đề tài đã thực hiện được 78
Trang 6Bảng 7.2 Ma trận phân bố chủ đề theo tác giả (AxT) 89
Bảng 7.7 Tập dữ liệu vector chủ đề quan tâm của người dùng trong tháng
Trang 7DANH MỤC HÌNH VẼ
Hình 2.1 Cấu trúc chủ đề của sinh viên quan tâm trong trường đại học 9
Hình 2.9 Mẫu ví dụ về thực thể giảng viên thuộc lớp con người 17 Hình 2.10 Mô hình xây dựng ontology trong lĩnh vực giáo dục đại học 18 Hình 2.11 Một phần ontology giáo dục đại học được cài đặt và quản lý trên
phần mềm Protégé
19
Hình 3.1 Minh họa l ý do bệnh đau lưng bằng mạng Bayes 21
Hình 4.2 Mô hình tổng quát hệ thống khám phá chủ đề và phân lớp 34 Hình 4.3 Biểu đồ thể hiện kết quả phân loại chủ đề trên 2000 bài viết 36
Hình 4.5 Mô hình tổng quát thực hiện môn hình TART và phân tích sự thay
đổi mối quan tâm chủ đề của người dùng mạng thay đổi theo thời gian
40
Hình 5.1 Quá trình tính xác suất ảnh hưởng từ tập tin action log trong mạng
xã hội
47
Trang 8Hình 6.3 Phương trình đường cong ROC cho chủ đề “K0003” 65 Hình 6.4 Phương trình đường cong ROC cho chủ đề “K0004” 65 Hình 6.5 Phương trình đường cong ROC cho chủ đề “K0019” 66
Hình 6.7 : Mô tả kết quả phát hiện chủ đề nổi bật theo thời gian thực 77 Hình 7.1 Mô hình khám phá cộng đồng người dùng theo chủ đề và phân tích
xu thế thay đổi chủ đề quan tâm và yêu thích của người dùng
82
Hình 7.3 Cập nhật neuron chiến thắng và các neuron lân cận trong vùng
vector nhập được đánh dấu x Những đường liền đậm và đường chấm tương
đương với trước và sau khi cập nhật neuron chiến thắng
86
Hình 7.4 Khám phá cộng đồng áp dụng phương pháp mạng Kohonen 88 Hình 7.5 Kết quả khám phá cộng động được hiển thị bởi tập neurons trên lớp
ra Kohonen
92
Hình 7.6 Kết quả khám phá cộng đồng trên lớp ra Kohonen trong khoảng
thời gian 1 năm từ 12-2008 đến 01-2010 với 100 neurons lớp ra
92
Trang 9Các nghiên cứu về xử lý văn bản tiếng Việt như biểu diễn văn bản tiếng Việt, phân lớp văn bản, gom cụm văn bản đã được vận dụng vào bài toán phân tích nội dung thông tin trao đổi trên mạng xã hội
Việc tích hợp xử lý ngôn ngữ tự nhiên vào phân tích mạng xã hội mở ra khả năng nắm bắt các chủ đề trao đổi, các phần tử trội theo chủ đề, gom cụm theo chủ đề… từ đó có thể nắm được các thông tin trao đổi trên mạng xã hội, các phân tử trội trong lan truyền thông tin theo chủ đề, các cộng đồng cùng quan tâm đến chủ đề Đây là các bài toán hữu ích trong tiếp thị, kinh doanh, quản lý qua mạng xã hội
1.2 MỤC TIÊU CỦA ĐỀ TÀI
Nghiên cứu, phát triển các kỹ thuật dựa trên học máy và xử lý ngôn ngữ tự nhiên để:
- Phát hiện các chủ đề trao đổi trong các thông điệp trên mạng xã hội
- Tìm kiếm các phần tử có nhiều ảnh hưởng trên mạng xã hội qua các chủ đề trao đổi
- Phân loại các chủ đề yêu thích, các chủ đề nổi bật trên mạng xã hội
- Phát hiện các cộng đồng trên mạng xã hội dựa trên thông tin trao đổi theo thời gian
- Xây dụng mạng xã hội trong trường học và các phân tích trên mạng xã hội
1.3 NỘI DUNG ĐÃ THỰC HIỆN
1.3.1 Nội dung 1: Phát hiện các chủ đề trao đổi trên trên mạng xã hội
Hiện nay trên mạng xã hội, các cá nhân (actor) thường trao đổi thông tin qua các thông điệp Vấn đề đặt ra là tìm các chủ đề trao đổi giữa các cá nhân trên mạng xã hội Mỗi chủ đề là tập các khái niệm có liên quan đến một vấn đề nào đó Chúng tôi dùng
Trang 10Để gán nhãn các chủ đề tiềm ẩn trong các thông điệp trao đổi, chúng tôi xây dựng một ontology về các chủ đề trong trường đại học phục vụ cho việc gán nhãn các chủ đề
Do chủ đề thay đổi theo thời gian, chúng tôi đã phát triển mô hình phân tích chủ đề theo thời gian và đặt tên là TART (Temporal Author Recipient)
Kết quả thực hiện nội dung này được trình bày trong chương 4 của báo cáo Các kết quả nghiên cứu của nội dung này được công bố trong 4 bài báo khoa học sau:
Ho Trung Thanh, Do Phuc (2015), Analyzing Users’ Interests with the
Temporal Factor Based on Topic Modeling, In the Proceedings of ACIIDS
conference 2014, March 23-25, Bali, Indonesia, pp 106-115, ISBN
978-3-31915704-7
Hồ Trung Thành, Đỗ Phúc (2014), Mô hình tích hợp khám phá, phân lớp và
gán nhãn tiếp cận theo mô hình chủ đề, Tạp chí Phát triển Khoa học-Công
nghệ tập 7, số K4-2014, tr 73-85, ISSN 1859-0128
Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng Việt trong lĩnh vực giáo
dục đại học, Tạp chí khoa học và công nghệ, Viện Hàn Lâm Khoa học và Công
nghệ Việt Nam, Tập 52, Số 1B, tr 89-100, ISSN 0866 708X
Muon Nguyen, Thanh Ho, Phuc Do (2013), Social Networks Analysis Based
on Topic Modeling, IEEE RIVF, Hanoi, Vietnam, pp 119-122, ISBN
978-1-4799-1350-3
1.3.2 Nội dung 2:Tìm kiếm người có ảnh hưởng trên mạng xã hội
Tốc độ phát triển Internet đã giúp con người tiếp cận thông tin trên thế giới một cách nhanh chóng Tuy nhiên, với khối lượng thông tin khổng lồ và không ngừng phát triển, đã xuất hiện nhiều công cụ hỗ trợ tìm kiếm hữu hiệu hiện nay như Google, Bing, Yahoo!Search Các công cụ này phần nào đáp ứng được yêu cầu của người dùng nhưng kết quả trả về đôi khi không phù hợp với mong muốn Ví dụ, chúng ta gõ một
từ khóa “Data Mining” không chỉ mong muốn tìm những tài liệu có chứa từ này mà chúng ta còn muốn tìm các chủ đề có liên quan trong cùng lĩnh vực Vấn đề tiếp theo, sau khi đã tìm được các chủ đề liên quan, làm sao xác định được chuyên gia (người có
ảnh hưởng lớn nhất) theo từng chủ đề Nhằm mục đích xây dựng công cụ hỗ trợ học
tập, nghiên cứu các công trình khoa học của những chuyên gia hàng đầu, chúng tôi sử dụng mô hình ACT để khám phá các chủ đề và mô hình TAP để phân tích tầm ảnh
Trang 113
hưởng từng tác giả nhằm xác định chuyên gia theo từng chủ đề Chúng tôi cũng phát triển công cụ tìm phần tử trội trên mạng thông qua tìm người có ảnh hưởng lớn nhất qua lan truyền thông tin nhanh trên mạng xã hội
Kết quả thực hiện nội dung này được trình bày trong chương 5 Các nghiên cứu của nội dung này đã được công bố trong 03 bài báo khoa học sau đây:
Nghe Nguyen, Thanh Ho, Do Phuc (2015): Finding the most influential
user of a Specific Topic on the Social Networks, Advances in Computer Science: an International Journal, Vol 4, Issue 2, pp 31-40, ISBN 2322-
5157
Phan Hồ Viết Trường, Hồ Trung Thành và Đỗ Phúc (2014), Phân Tích
Tầm Ảnh Hưởng Đối Tượng dựa theo Chủ Đề Trong Mạng Xã hội đồng tác giả, Tạp chí khoa học và công nghệ, Viện Hàn Lâm Khoa học và Công nghệ Việt Nam, Tập 52, Số 1B, tr 101-11, ISSN 0866 708X
Chu Thi Mai, Do Phuc (2014), Using neural network for link prediction,
Tạp chí khoa học và công nghệ, Viện Hàn Lâm Khoa học và Công nghệ Việt Nam, Tập 52, Số 1B, tr 112-120, ISSN 0866 708X
1.3.3 Nội dung 3:Phát hiện chủ đề yêu thích, chủ đề nóng trên mạng xã hội
Bài toán được phát biểu như sau: cho một mạng xã hội G với hai tập K và U các cá nhân theo đó K là tập các cá nhân của G đã biết các tính chất cần quan tâm và U là tập
chưa biết các tính chất cần quan tâm Vấn đề là làm thế nào chúng ta có thể lấy thông tin từ các phần tử trong K để dự báo tính chất chưa biết của các phần tử trong U Đây
là bài toán phân lớp đối tượng trong mạng
Bên cạnh đó, chúng tôi nghiên cứu lý thuyết lão hóa và phát triển giải thuật tìm chủ
đề nổi bật trên mạng xã hội
Kết quả thực hiện nội dung này được trình bày trong chương 6 Các kết quả nghiên cứu của nội dung này đã được công bố trong 02 bài báo khoa học
Thanh Ho, Duy Doan, Do Phuc (2014), Discovering hot topics on Social
Network based on the Aging Theory, Advances in Computer Science: an International Journal, Vol 3, Issue 3, pp 48-53, ISSN 2322-5157
Nguyen Le Hoang, Pham Vu Dang Khoa, Do Phuc (2013), Predicting Preferred
Topics of Authors based on Co-authorship Network, Proceedings of the 2013 IEEE RIVF International Conference on Information, Communication technologies, Hanoi, VietNam, page 70,75, ISBN 978-1-4799-1350-3
1.3.4 Nội dung 4: Phát hiện các cộng đồng qua gom cụm các node trên mạng
xã hội
Mạng xã hội là môi trường cung cấp dịch vụ để kết nối các thành viên cùng sở thích, mối quan tâm.Ngoài việc kết nối, trao đổi thông tin, liên lạc, giải trí,… trong thế giới
Trang 124
ảo, mạng xã hội còn là môi trường cho kinh doanh trực tuyến, quảng cáo, chính trị, điều tra tội phạm… Chúng tôi nghiên cứu dùng mạng SOM để phát hiện các nhóm người hay cộng đồng Mỗi actor trong mạng xã hội được biểu diễn bằng một vector có thành phần là các phân bố xác suất của các chủ đề quan tâm của actor đó Dựa trên các thành phần của vector này, chúng tôi có thể biết mức độ quan tâm của actor trên từng chủ đề cụ thể Chúng tôi dùng mô hình TART để tạo vector thể hiện quan tâm của người dùng theo thời gian Sau đó, chúng tôi dùng mạng SOM để phát hiện các actors
có chung các chủ để quan tâm theo thời gian
Kết quả thực hiện nội dung này được trình bày trong chương 7 Các kết quả nghiên cứu của nội dung này được công bố trong 02 công trình
Thanh Ho, Do Phuc (2015): Analyzing the changes in Online Community
based on Topic Model and Self Organizing Map, International Journal of Advanced Computer Science and Aplications, Vol 6, No 7 , pp 100-108, ISSN 2158-107X
Hoa Tran Quang, Hung Vo Ho Tien, Hoang Nguyen Le, Do Phuc, Thanh
Ho (2014), Finding the cluster of Actors in Social Network based on the topic
of Messages, In the Proceedings of ACIIDS conference, April 7-9, Bangkok, Thailand, Pp 183-190, ISBN 978-3-319-05475-6
1.3.5 Nội dung 5:Xây dựng mạng xã hội và triển khai các chức năng để nghiên cứu trên mạng xã hội đã xây dựng
Phần này trình bày cách xây dựng mạng xã hội trong trường học và triển khai các chức năng phân tích mạng xã hội theo chủ đề đã được nhóm đề tài nghiên cứu triển khai
Số hiệu ISSN
Điểm
IF
Tác giả/ đồng tác giả
1
Thanh Ho, Do Phuc (2015): Analyzing the
changes in Online Community based on Topic
Model and Self Organizing Map, International
Journal of Advanced Computer Science and
Aplications, Vol 6, No 7 , pp 100-108
107X
2158-Đồng tác giả
2 Nghe Nguyen, Thanh Ho, Do Phuc (2015):
Finding the most influential user of a Specific Topic
2322-5157 Đồng tác
giả
Trang 135
on the Social Networks, Advances in Computer
Science: an International Journal, Vol 4, Issue 2, pp
31-40
3
Thanh Ho, Duy Doan, Do Phuc (2014),
Discovering hot topics on Social Network based on
the Aging Theory, Advances in Computer Science:
an International Journal, Vol 3, Issue 3, pp 48-53
Số hiệu
Tác giả/ đồng tác giả
1
Hồ Trung Thành, Đỗ Phúc (2014), Mô hình tích
hợp khám phá, phân lớp và gán nhãn tiếp cận theo
mô hình chủ đề, Tạp chí Phát triển Khoa học-Công
nghệ tập 7, số K4-2014, tr 73-85
1859-0128
2
Phan Hồ Viết Trường, Hồ Trung Thành và Đỗ
Phúc (2014), Phân Tích Tầm Ảnh Hưởng Đối
Tượng dựa theo Chủ Đề Trong Mạng Xã Hội đồng
tác giả, Tạp chí khoa học và công nghệ, Viện Hàn
Lâm Khoa học và công nghệ Việt Nam, Tập 52, Số
1B, tr 101-111
0866 708X
3
Chu Thi Mai, Do Phuc (2014), Using neural
network for link prediction, Tạp chí khoa học và
công nghệ, Viện Hàn Lâm Khoa học và Công nghệ
Việt Nam, Tập 52, Số 1B, tr 112-120
0866 708X
4
Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng
Việt trong lĩnh vực giáo dục đại học, Tạp chí khoa
học và công nghệ, Viện Hàn Lâm Khoa học và
Công nghệ Việt Nam, Tập 52, Số 1B, tr 89-100
0866 708X
Trang 146
c) Bài báo đăng trên kỷ yếu hội nghị quốc tế ( đăng ký 4 bài báo thực hiện đủ)
TT Tên tác giả, tên bài viết, tên Hội nghị, thời gian tổ
chức, nơi tố chức
Số hiệu
1
Nguyen Le Hoang, Pham Vu Dang Khoa, Do
Phuc (2013), Predicting Preferred Topics of Author
Based On Co-Author Ship Network, pp 70-75,
IEEE, RIVF 2013, 10-13 November, Hanoi,
VietNam, Pp 70-75,
978-1-4799-1350-3
2
Muon Nguyen, Thanh Ho, Phuc Do (2103),
Social Network Analysis based on Topic Modeling,
pp 119-123, IEEE, RIVF 2013, 10-13 November,
Hanoi VietNam, Pp 119-123
978-1-4799-1350-3
3
Hoa Tran Quang, Hung Vo Ho Tien, Hoang
Nguyen Le, Do Phuc, Thanh Ho (2014), Finding
the cluster of Actors in Social Network based on the
topic of Messages, In the Proceedings of ACIIDS
conference 2014, April 7-9, Bangkok, Thailand,
Pp 183-190
978-3-319-05475-6
4
Thanh Ho, Phuc Do (2015), Analyzing Users’
Interests with the Temporal Factor Based on Topic
Modeling, In the Proceedings of ACIIDS
conference 2014, March 23-25, Bali, Indonesia, pp
đã chuyển giao (sản phẩm chuyển
giao- Thông số kỹ thuật của sản
phẩm)
Năm chuyển giao
Đối tác ký hợp đồng
Ngày ký hợp đồng
Doanh thu từ hợp đồng
HCM
ĐHQG-
14-04-2015 Kèm Tờ khai đăng
ký với cục
sở hữu trí tuệ 386 Nguyễn Trãi Hả Nội số 2-
Trang 157
2015-00061 ngày 25-03-2015
1.6 KẾT QUẢ ĐÀO TẠO
a.Đề tài đã góp phần đào tạo Nghiên cứu sinh: Hồ Trung Thành
Đề tài góp phần đào tạo Nghiên cứu sinh Hồ Trung Thành qua thực hiện luận án tiến
sĩ với đề tài “Phân tích mạng xã hội theo chủ đề và ứng dụng vào trường học” NCS
Hồ Trung Thành đã công bố 10 công trình khoa học trong đó có 3 công trình công bố trên tạp chí ngoài nước, 3 công trình công bố trong tạp chí trong nước, 4 công trình công bố trong hội thảo quốc tế, Springer IEEE
Nghiên cứu sinh Hồ Trung Thành đã tham gia 2 hội nghị trong nước là FAIR2013 và Hội nghị CNTT tại Đà Nẵng, hội nghị CNTT tại Daklak NCS đã tham gia Hội nghị quốc tế về CNTT tại Bangkok, Thailand, Hội nghị Quốc tế về CNTT tại Bail, Indonesia NCS là thành phần chính trong việc triển khai đề tài nghiên cứu B2013-26-
02 Nghiên cứu sinh Hồ Trung Thành đã hoàn tất 3 chuyên đề tiến sĩ, chuyên đề tổng quan, luận án tiến sĩ, thực hiện 2 seminar và chuẩn bị bảo vệ cấp đơn vị chuyên môn
b.Đào tạo thạc sĩ (theo hợp đồng đào tạo 03 thạc sĩ, thực tế đã đào tạo được 06 thạc sĩ theo hướng đề tài)
Trong khuôn khổ đề tài, đã có 06 học viên thạc sĩ thực hiện các luận văn thạc sĩ liên quan đến các nội dung nghiên cứu của đề tài như sau:
- Đoàn Vũ Ngọc Duy: đề tài “Phát hiện chủ đề nổi bật trên mạng xã hội”, luận văn tốt nghiệp thạc sĩ CNTT, trường ĐHCNTT, tháng 2/2015
- Nguyễn Xuân Nghề: đề tài “Lan truyền cực đại ảnh hưởng trong mạng xã hội giáo dục”, luận văn tốt nghiệp thạc sĩ CNTT, trường ĐHCNTT, tháng 2/2015
- Phan Hồ Việt Trường, đề tài “Phân tích tầm ảnh hưởng của đối tượng theo chủ đề” trong lĩnh vực CNTT, luận văn tốt nghiệp thạc sĩ CNTT, trường ĐHCNTT, tháng 9/2013
- Nguyễn Văn Muôn, đề tài “Phân tích chủ đề trao đổi trên mạng xã hội:, luận văn tốt nghiệp thạc sĩ CNTT, trường ĐHCNTT, tháng 9/2013
- Đỗ Văn Mạnh, đề tài: Nghiên cứu và Phát triển thuật toán tìm phần tử chính yêu trong mạng xã hội và ứng dụng, luận văn tốt nghiệp thạc sĩ CNTT trường Đại học Lạc Hồng, tháng 12 năm 2013
- Trần Ngọc Hiệp, đề tài: Khám phá chủ đề sở thích từ các tin ngắn trong mạng xã hội, luận văn tốt nghiệp thạc sĩ CNTT trường Đại học Lạc Hồng, tháng 12 năm 2014
Trang 16- Trần Quang Hòa, Võ Hồ Tiến Hưng, đề tài “Finding the cluster of Actors in Social Network based on the topic of messages”, khóa luận tốt nghiệp kỹ sư ngành HTTT, trường ĐHCNTT, 2014
- Trần Văn Cương, Nguyễn Hoàng Long, đề tài “Automatic Topic Labeling”, khóa luận tốt nghiệp kỹ sư ngành HTTT, trường ĐHCNTT, 2014
Trang 179
CHƯƠNG 2
XÂY DỰNG ONTOLOGY CÁC CHỦ ĐỀ TRAO ĐỔI
TRONG TRƯỜNG ĐẠI HỌC
Chương này trình bày một số vấn đề liên quan đến chủ đề và ontology các chủ
đề trao đổi trong trường đại học Một phần của chương này được trình bày trong bài báo:
Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng Việt trong lĩnh vực giáo dục đại học, Tạp chí khoa học và công nghệ, Viện Hàn Lâm Khoa học và Công nghệ Việt Nam, Tập 52, Số 1B, tr 89-100,ISSN 0866 708X
2.1 GIỚI THIỆU CHUNG
2.1.1 Chủ đề
Hiện nay trên mạng xã hội thông tin được trao đổi từ người này sang người khác Một trong những vấn đề người ta quan tâm là khám phá các chủ đề của thông tin trao đổi trên mạng xã hội
Chủ đề được định nghĩa là: Điều mà thông điệp muốn bàn luận đến một chủ đề
được đặc trưng bằng tập các từ khóa giúp nhận diện các ý tưởng mà chủ đề đó đề cập đến
Hình 2.1 Cấu trúc chủ đề của sinh viên quan tâm trong trường đại học
Trang 1810
2.1.2 Các chủ đề sinh viên trao đổi trong trường đại học
Việc cập nhật, trao đổi thông tin không còn là vấn đề khó khăn với sự phát triển bùng nổ của mạng xã hội như bây giờ Hiện có rất nhiều vấn đề được bàn luận trên mạng xã hội, từ gia đình đến nhà trường, đời sống xã hội, văn hóa, giải trí, chính trị… ngoài ra còn xuất hiện rất nhiều trào lưu mới dành cho giới trẻ… phải nói là thông tin được truyền tải một cách nhanh chóng trên mạng xã hội và sinh viên cũng là một trong những đối tượng góp phần không nhỏ cho sự phát triễn của mạng xã hội Vậy chủ đề bàn luận của sinh viên là gì?
Đối với sinh viên chủ đề bàn luận thường xoay quanh vấn đề học tập, hoạt động, giải trí, đời sống sinh viên, chủ đề việc làm và đặc biệt là về chủ đề tình cảm, tình cảm bạn bè, thầy cô, tình yêu thời sinh viên Các chủ đề này được sinh viên quan tâm và bàn luận sôi nổi, nói ra những ý kiến, suy nghĩ, những quan điểm bản thân… Giúp xã hội nhìn rõ hơn về cuộc sống sinh viên, về những suy nghĩ của lứa tuổi này Xem hình 2.1
2.2 XÂY DỰNG TỪ KHÓA CHUNG CHO CÁC CHỦ ĐỀ
2.2.1 Chủ đề học tập
Chủ đề học tập bao gồm các chủ đề con sau: Môn học, Cơ sở vật chất, NCKH,
Giảng viên, Sinh viên, Học bổng, học tập ngoại khóa, cuộc thi học thuật, học phí
Hình 2.2 Các từ khóa cho chủ đề học tập
Trang 19Chủ đề Thực tập- Việc làm gồm các chủ đề sau: Thực tập, Doanh nghiệp,
Công việc Hệ thống các từ khóa giúp ta nhân diện được chủ đề này cũng như chủ đề nhỏ hơn thuộc nó Hệ thống từ khóa như sau:
Hình 2.3 Các từ khóa cho chủ đề thực tập và việc làm
2.2.3 Chủ đề hoạt động
Hoạt động gồm các chủ đề sau: Hoạt động Đoàn- Hội và Giải trí
Những chủ đề bên trong sẽ có những từ khóa đặc trưng cho chủ đề lớn nói chung
và những chủ đề nhỏ bên trong Hệ thống từ khóa như sau:
Trang 2012
Hình 2.4 Các từ khóa cho chủ đề hoạt động
Các từ khóa này được lựa chọn qua phân tích các đoạn văn có liên quan đến chú đề tương ứng
2.2.4 Chủ đề tình cảm
Chủ đề Tình cảm gồm các chủ đề sau: Tình yêu, Tình bạn, Tình thầy cô, Tình dục
Đối với chủ đề này cùng như những chủ đề bên trong sẽ có những từ khóa đặc trưng
cho chủ đề lớn nói chung và những chủ đề nhỏ bên trong nói riêng Hệ thống từ khóa như sau:
Hình 2.5 Các từ khóa cho chủ đề tình cảm
Các từ khóa này được lựa chọn qua phân tích các đoạn văn có liên quan đến chú đề tương ứng
Trang 2113
2.2.5 Chủ đề đời sống xã hội
Chủ đề Đời sống- xã hội gồm các chủ đề nhỏ sau: An ninh, chỗ ở, làm thêm,
chi phí sinh hoạt, ăn uống, vật dụng cá nhân, gia đình Cũng như các chủ đề
khác, chủ đề này cũng sẽ có một hệ thống từ khóa giúp ta nhận diện, xác định được Hệ thống từ khóa của chủ đề này như sau:
Hình 2.6 Các từ khóa cho chủ đề đời sống xã hội
Các từ khóa này được lựa chọn qua phân tích các đoạn văn có liên quan đến chú đề tương ứng
2.3 PHƯƠNG PHÁP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI
Để thực hiện khám phá chủ đề và tập từ liên quan đến từng chủ đề, đầu tiên chúng tôi
áp dụng kỹ thuật tách từ và gán nhãn từ loại Công cụ tách từ tiếng Việt được chúng
Trang 22Đến làm sạch dữ liệu nhằm loại bỏ các hư từ (stopwords2), ký tự đặc biệt (@,#,*, )
tồn tại trong thông điệp, sau đó thực hiện tách từ bằng công cụ vnTokenizer
Cuối cùng xác định từ loại (gán nhãn từ loại) tiếng Việt bằng công cụ JVnTagger
Sau quá trình tách từ và gán nhãn từ loại, chúng tôi chọn từ loại phù hợp cho lĩnh vực nghiên cứu cũng như yêu cầu của bài toán ứng dụng như danh từ, động từ, tính từ, Tuy nhiên, trong quá trình áp dụng công cụ này, kết quả của quá trình tách từ và gán nhãn từ loại vẫn còn tồn tại những hư từ (stopwords)3, các ký hiệu đặc biệt, các thẻ HTML tồn tại trong văn bản làm ảnh hưởng đến kết quả phân tích từ đặc trưng và gán nhãn chủ đề Vì thế, chúng tôi đã đề xuất cải tiến quá trình tiền xử lý dữ liệu đầu vào Xử lý thu thập và tích hợp dữ liệu, thu thập nguồn dữ liệu từ mạng xã hội, diễn đàn Trong giai đoạn này dữ liệu cần được tiền xử lý, phân tách từ loại và gán nhãn cho từ loại, vì các thông tin trao đổi trên mạng xã hội luôn có thông tin nhiễu như: các
hư từ, ký hiệu đặc biệt,… Chính vì thế, việc tiền xử lý dữ liệu là quan trọng, hệ thống
sẽ lọc các thông tin nhiễu hay nội dung rác ra khỏi văn bản, sau đó dùng các phương
1 http://vlsp.vietlp.org:8080/demo/?page=resources&lang=en: vnTokenizer
2
Nguyễn Kim Thản (1997), Nghiên cứu ngữ pháp tiếng Việt, Nhà xuất bản giáo dục
3 Tham khảo phần phụ lục về danh sách các hư từ trong tiếng Viết
Trang 2315
pháp tách từ như vnTokenizer để xác định từ loại là từ đơn, từ ghép trong tiếng Việt Tiếp đến công cụ JVnTagger được sử dụng để xác định từ loại của mỗi từ đã được phân tách là danh từ, tính từ, động từ hoặc trạng từ…Việc xác định được từ loại sẽ giúp chúng tôi tóm tắt nội dung và chỉ lấy những từ thực sự có nghĩa để sử dụng cho các bước sau
Tuy nhiên, trong bước tách từ và gán nhãn từ loại cho kết quả vẫn còn xảy ra lỗi từ Chẳng hạn, dữ liệu sau xử lý chưa loại bỏ hết những lỗi từ Điều này dẫn đến vẫn còn lỗi trong tập từ đặc trưng được rút trích Mục đích là làm sạch dữ liệu để đạt độ chính xác trong khám phá chủ đề, chính vì vậy chúng tôi đã cải tiến tại bước này bằng phương pháp tiền xử lý dữ liệu nhằm giảm thiểu lỗi xảy ra Bảng 2.1 dưới đây mô tả kết quả trước và sau khi thực hiện bước cải tiến tiền xử lý dữ liệu khi thực hiện tách từ
và gán nhãn từ loại bằng công cụ vnTokenizer và JvnTagger
Bảng 2.1 Kết quả bước cải tiến tiền xử lý dữ liệu
2.4 XÂY DỰNG ONTOLOGY CÁC KHÁI NIỆM TRONG TRƯỜNG ĐẠI HỌC
2.4.1 Qui trình phát triển ontology
Quy trình phát triển Ontology là một quy trình gồm nhiều bước, tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nào để phát triển các ontologies4 Trong nghiên cứu này chúng tôi áp dụng một quy trình tương đối phổ biến hiện nay là quy trình phát triển
ontology gồm 7 bước do Stanford Center for Biomedical Informatics Research đưa ra
(đây là nhóm phát triển phần mềm Protégé để trình diễn và soạn thảo Ontology) Quá trình phát triển một ontology được thực hiện thông qua 7 bước trong hình 2.7 Qua 7 bước này, vai trò của con người là quan trọng trong việc xác định và lựa chọn
4 http://protege.stanford.edu/publications/ontology_development/ontology101-noy-mcguinness.html
Trang 2416
các miền tri thức, các khái niệm và đặc trưng trong ontology Các giai đoạn chung trong thiết kế và phát triển một ontology được trình bày trong hình 2.7:
Hình 2.7 Qui trình phát triển ontology
Bước 1: xác định miền, nguồn, mục đích và phạm vi xây dựng của ontology
Trong giai đoạn này cần xác định mục đích của việc xây dựng ontology là gì? Phục vụ đối tượng nào? Ontology sắp xây dựng cần có đặc điểm gì, liên quan đến lĩnh vực, phạm vi nào Quá trình khai thác, quản lý và bảo trì ontology được thực hiện ra sao?
Bước 2: xác định ontology đã được xây dựng trước đây trong cùng lĩnh vực
Trong bước này, nếu đã tồn tại một ontology phù hợp lĩnh vực xây dựng, ontology này sẽ được thay đổi cho phù hợp và làm giàu Nếu không tồn tại, thì lúc đó thực hiện xây dựng mới một ontology Việc thừa kế những ontology đã có là việc nên khuyến khích vì chất lượng của ontology đó đã được xác định Trong nghiên cứu này, chúng tôi đã tham khảo và thừa kế một số lớp của ontology trong giáo dục đại học của nghiên cứu và tham khảo ontology thuộc chương trình nghiên cứu
“DARPA Agent Markup Language (DAML)” do Michael Pagels làm giám đốc
Bước 3: liệt kê các thuật ngữ quan trọng trong ontology Ontology được xây dựng
trên cơ sở các khái niệm trong một lĩnh vực cụ thể, vì vậy khi xây dựng ontology cần bắt đầu từ các thuật ngữ chuyên ngành để xây dựng thành các lớp trong ontology tương ứng Tất nhiên không phải thuật ngữ nào cũng đưa vào ontology,
vì chưa chắc đã định vị được cho thuật ngữ đó Do đó cần phải liệt kê các thuật ngữ, để xác định ngữ nghĩa cho các thuật ngữ đó, cũng như cân nhắc về phạm vi của ontology Việc liệt kê các thuật ngữ còn cho thấy được phần nào tổng quan về
các khái niệm trong lĩnh vực đó, giúp cho các bước tiếp theo được thuận lợi
Ví dụ: Trong lĩnh vực đào tạo sẽ có các thuật ngữ như: tuyển sinh, chương trình
đào tạo, chuyên ngành đào tạo, học bổng, thi cử, thực tập
Trang 2517
Bước 4 và Bước 5 có sự gắn kết chặt chẽ với nhau Trong hai bước này, định
nghĩa các khái niệm lớp, hệ thống phân cấp các lớp (Bước 4), xác định thuộc tính của lớp (Bước 5) Trong Bước 4 xác định lớp và phân cấp lớp có thể dựa theo phương pháp từ trên xuống bắt đầu định nghĩa khái niệm chung nhất trong lĩnh vực và tiếp theo đến các khái niệm cụ thể hơn Công việc xác định các lớp không chỉ đơn giản là tiến hành tìm hiểu về ngữ nghĩa của các thuật ngữ đã có để có được các mô tả cho thuật ngữ đó, mà còn phải định vị cho các lớp mới, loại bỏ ra khỏi ontology nếu nằm ngoài phạm vi của ontology hay hợp nhất với các lớp đã có nếu
có nhiều thuật ngữ có ngữ nghĩa như nhau (đồng nghĩa, hay đa ngôn ngữ) Ngoài
ra không phải thuật ngữ nào cũng mang tính chất như một lớp Một công việc cần phải tiến hành song song với việc xác định các lớp là xác định phân cấp của các lớp đó Việc này giúp định vị các lớp dễ dàng hơn Có một số phương pháp tiếp cận trong việc xác định phân cấp của các lớp, trong nghiên cứu này, nhóm sử dụng
phương pháp kết hợp và có các lớp như hình dưới đây:
Hình 2.8 Các phân lớp chính
Thực thể của lớp con “là-một” thực thể của lớp cha, ví dụ như hình 2.9, lớp con người trong đào tạo bao gồm các thực thể giảng viên và sinh viên
Hình 2.9 Mẫu ví dụ về thực thể giảng viên thuộc lớp con người
Bước 6: xác định các mối quan hệ và kiểu dữ liệu của thuộc tính Các thuộc tính
có thể có nhiều khía cạnh khác nhau: như kiểu giá trị, các giá trị cho phép, số các thuộc tính (lực lượng), và các đặc trưng khác mà giá trị của thuộc tính có thể nhận
Ví dụ: “Năm sinh” của một “nhân viên” chỉ có duy nhất và là số nguyên, có thể nhận giá trị từ 1948 đến 1990 Cần phải xác định các ràng buộc cho một thuộc tính
Trang 2618
càng chặt chẽ càng tốt, để tránh trường hợp nhập dữ liệu sai, dẫn đến không thành công cho các ứng dụng sử dụng ontology này
Bước 7: Bước cuối cùng là tạo ra các thể hiện, đặc trưng của các lớp trong sự phân
cấp Việc tạo thể hiện cho một lớp là quá trình điền các thông tin vào các thuộc tính của lớp đó
Trong suốt tiến trình xây dựng ontology, vai trò của con người được thể hiện xuyên suốt trong các giai đoạn như rút trích từ khóa, phân tích từ và xây dựng một sơ đồ các khái niệm liên quan Tiếp theo đó, việc rút trích các khái niệm, thuộc tính, vai trò và các thể hiện đặc trưng để hoàn tất một ontology cũng cần vai trò của con người để xác nhận và hoàn tất kết quả nhằm đảm bảo chất lượng của ontology
Việc xác định các khái niệm (trong nghiên cứu này, xem khái niệm là chủ đề) trong giáo dục đại học được thực hiện dựa trên mô hình nghiên cứu do chúng tôi đề xuất Chúng tôi thực hiện khảo sát các đối tượng liên quan bằng nhiều phương pháp như phiếu khảo sát đối tượng liên quan như giảng viên, sinh viên, nhà quản lý; khảo sát ontology trong lĩnh vực đại học đã có bằng tiếng Anh thuộc chương trình DAML5
và tiến hành kết nạp thêm các khái niệm mới vào ontology phù hợp giáo dục Việt Nam [46]
Dữ liệu thô dạng cây phân cấp chủ đề (xác định lớp, thuộc tính và đặc trưng lớp)
Làm giàu cây phân cấp chủ đề
Cây phân cấp chủ đề trong lĩnh vực giáo dục đại học
Ontology chủ đề giáo dục đại học
Chuẩn hoá và hiệu chỉnh bằng phương pháp chuyên gia
Trang 2719
Kết quả sau khi xây dựng ontology bao gồm các lớp (chủ đề): lớp cấp 0 (Giáo dục đại học), lớp cấp 1 (Đào tạo, Con người, Giáo trình, Hoạt đồng đoàn hội, Nghiên cứu khoa học, Doanh nghiệp, Hợp tác quốc tế, ) và các lớp con khác Tất cả các lớp được
tổ chức và quản lý bằng phần mềm Protégé (xem hình 2.11)
Hình 2.11 Một phần ontology giáo dục đại học được cài đặt và quản lý trên phần
mềm Protégé6
6 http://protege.stanford.edu/publications/ontology_development/ontology101-noy-mcguinness.html
Trang 2820
CHƯƠNG 3
MÔ HÌNH HÓA TÀI LIỆU THEO CHỦ ĐỂ
Chương này trình bày một số kỹ thuật rút đặc trưng thông điệp và mô hình hóa tài liệu theo chủ đề trong đó sẽ trình bày mô hình mạng Bayes, LDA, ACT
Một phần nội dung chương này đã được trình bày trong các bài báo:
Hồ Trung Thành, Đỗ Phúc (2014), Mô hình tích hợp khám phá, phân lớp và
gán nhãn tiếp cận theo mô hình chủ đề, Tạp chí Phát triển Khoa học-Công nghệ tập 7, số K4-2014, tr 73-85,ISSN 1859-0128
Muon Nguyen, Thanh Ho, Phuc Do (2013), Social Network Analysis based
on Topic Modeling, pp 119-123, IEEE, RIVF 2013, 10-13 November, Hanoi VietNam, Pp 119-123, ISBN 978-1-4799-1350-3
3.1 MÔ HÌNH TÀI LIỆU THEO CHỦ ĐỀ
Các tiếp cận hiện nay trong việc mô hình nội dung tài liệu dựa trên ý tưởng tính phân
bố xác suất của mỗi từ đặc trưng trong tài liệu Phân bố này được biểu diễn như là sự kết hợp nhiều chủ đề trong văn bản, mỗi chủ đề có phân bố xác suất riêng cho từng từ khóa Phần này chúng ta sẽ giới thiệu mạng Bayes, một mô hình được sử dụng phổ biến hiện nay trong phân tích chủ đề trên mạng xã hội
3.1.1 Giới thiệu Mạng Bayes
Mạng Bayes [2] là một họ của mô hình đồ thị xác suất Mạng Bayes được dùng để biểu diễn tri thức về một kết luận không chắc chắn Mạng Bayes là sự kết hợp của lý thuyết đồ thị và lý thuyết xác suất thống kê Chúng cho phép biểu diễn một cách trực quan và phương pháp tính phân bố xác suất chung của các biến ngẫu nhiên Mạng Bayes là đồ thị có hướng không có chu trình gồm các nút biểu diễn các biến ngẫu nhiên và các cạnh biểu diễn hướng phụ thuộc giữa các biến ngẫu nhiên tương ứng Ví
dụ, một cạnh nối từ nút Xi đến nút Xj biểu diễn nút Xj phụ thuộc vào nút Xi hay còn gọi là “bị ảnh hưởng” bởi nút Xi Nút Xi xem như là nút cha của nút Xj, ngược lại Xj
được xem là nút con của nút Xi Mạng được định nghĩa gồm 2 thành phần B = (G, ), trong đó G là một đồ thị có hướng chứa các nút X1, X2, …, Xn biểu diễn các biến ngẫu nhiên, cạnh biểu diễn hướng phụ thuộc giữa các biến này Thành phần là tập tham
số của mạng Bayes bao gồm x i|i
= PB(xi|i) cho mỗi khái niệm x
i của Xi với điều kiện biết i Từ đây, mạng Bayes định nghĩa công thức tính phân bố xác suất chung
của tập biến ngẫu nhiên là:
i B n
P
| 2
Nếu Xi không có biến cha, (biến ảnh hưởng đến Xi) thì phân bố xác suất của Xi gọi
là phân bố xác suất không điều kiện, ngược lại ta gọi là phân bố có điều kiện Hình 3.1 minh họa mạng Bayes trình bày cách suy diễn khi được hỏi “Lý do tại sao một người
bị đau lưng?” Xem sự kiện người bị chấn thương ở lưng gồm 2 biến ngẫu nhiên
(3.1)
Trang 29“Thể thao” có phân bố xác suất không điều kiện, còn phân bố xác suất nút “Lưng” lại phụ thuộc vào phân bố của hai biến “Ghế ngồi” và “Thể thao” Tương tự, phân bố xác suất của biến “Chấn thương” phụ thuộc điều kiện phân bố xác suất biến “Lưng”
Mạng Bayes định nghĩa công thức tính phân bố xác suất chung cho tập biến như sau :
P(C,S,B,A) = P(C)P(S)P(B|C,S)P(A|B)
Hình 3.1 Minh họa l ý do bệnh đau lưng bằng mạng Bayes [2]
3.1.1 Suy diễn trên mạng Bayes
Có hai phương pháp suy diễn trên mạng Bayes là phương pháp suy diễn từ trên xuống và xuất phát từ các nút thông qua nút cha của nút đang xét Xi, phương pháp thứ hai là phương pháp suy diễn từ dưới lên và xuất phát từ các nút con của nút đang xét
Xi Ví dụ, ta muốn biết khả năng bị đau lưng do ngồi ghế không thoải mái của một người có thể được tính bằng mạng Bayes như sau :
Trang 3022
P(C=T|A=T) =
) (
) ,
(
T A P
T A T C P
)
|(),
|()()(
F T B S
B T A P T C S B P S P T C P
Và
P(A=T) =
}
, { ,
)
|(),
|()()(
F T B S
B T A P C S B P S P C P
3.1.2 Mô hình hóa tài liệu bằng Latent Dirichlet Allocation (LDA)
Mô hình LDA [4] là một trong những mô hình dạng Bayes, quá trình phát sinh
của một tập tài liệu gồm ba bước: (i) với mỗi tài liệu có một phân bố xác suất chủ đề của tài liệu đó, phân bố này được lấy mẫu từ phân bố xác suất Dirichlet (ii) với mỗi
từ trong tài liệu, một chủ đề duy nhất được chọn từ phân bố chủ đề trên, (iii) mỗi từ khóa sẽ được rút ra từ phân bố đa thức cho từ khóa theo chủ đề vừa chọn Ta có một
số khái niệm sau đây:
- Một từ w là một đơn vị dữ liệu cơ bản, được hiểu là một phần tử của tập từ vựng và được đánh chỉ mục theo các phần tử {1,2, … , V}
- Một tài liệu d được biểu diễn bằng một dãy N từ và được ký hiệu là
w = (w1, w2, …, wN) trong đó wi là từ thứ i của dãy
- Một kho ngữ liệu là tập hợp M văn bản được ký hiệu như sau
D = (w1, w2, , wM) trong đó wi là tập từ biểu diễu cho tài liệu thứ i của kho ngữ liệu
3.1.3 Hoạt động của mô hình
Mỗi tài liệu được biểu diễn thông qua các chủ đề mà tài liệu đó đề cập đến, mỗi chủ đề được đặc trưng bằng các từ khóa
Hình 3.2 Ví dụ về hoạt động của mô hình LDA
(3.4) (3.3)
(3.5)
Trang 3123
Hình 3.2 minh hoạ quá trình thực hiện mô hình LDA trong phân tích nội dung các thông điệp trao đổi trên mạng xã hội.Trong hình 3.2, từ một thông điệp trao đổi trên mạng, mô hình LDA sẽ thực hiện khám phá chủ đề tiềm ẩn, rút trích từ đặc trưng Ba chủ đề tiềm ẩn được khám phá (chủ đề 01, chủ đề 02 và chủ đề 03) mỗi chủ đề được tạo lập bởi tập từ đặc trưng kèm xác suất trong chủ đề đó Ở đây số chủ đề, số từ đặc trưng cho từng chủ đề là các tham số đầu vào của mô hình LDA.Mỗi tài liệu được biểu diễn thông qua các chủ đề mà tài liệu đó đề cập đến, mỗi chủ đề được đặc trưng bằng các từ khóa LDA thực hiện quá trình phát sinh
cho mỗi tài liệu d trong tập D như sau :
(a) Với k = 1 K
Chọn (k)thỏa phân bố xác suất Dirichlet()
(b) Với mỗi tài liệu d D
- Chọn d thỏa phân bố xác suất Dirichlet() là vector phân bố xác suất các
chủ đề của tài liệu d
(c) Với mỗi từ wi N trong tài liệu d:
- Chọn một chủ đề zi theo phân bố đa thức Multinomial(d )
- Chọn một từ wi theo phân bố đa thức Multinomial(
i z
) với z i là vector phân
bố xác suất các từ đặc trưng cho chủ đề zi, phân bố này thỏa phân bố Dirichlet()
Trong đó k là số chủ đề tiềm ẩn trong tập tài liệu cho trước, tập chủ đề này cần được phát sinh từ tập ngữ liệu, (k) là phân bố xác suất rời rạc trên tập từ vựng cố định đặc trưng cho chủ đề thứ k, zi là chỉ mục của chủ đề z gán cho từ wi
Trong mô hình trên, phân bố xác suất Dirichlet() là một vector chủ đề z = {z1, z2, , zk} có xác suất tương ứng xảy ra chủ đề thứ i trong tài liệu với phân bố p
1
1 và vector = {1 , 2, , k} là tham số tập trung (concentration parameter)[16], tham số này càng lớn thì xác suất phát sinh các chủ đề
là đồng đều, tương đương nhau Nếu tham số càng nhỏ thì xác suất phát sinh chủ đề sẽ
ít hơn[16] Thông thường, ta chọn tỉ lệ nghịch với chiều dài của vector phân bố xác suất chủ đề Theo [16], một chủ đề có vài trăm từ đặc trưng, ta thường chọn = 0.01, nếu chủ đề có 1.000.000 từ thì chọn = 0.0001 là thích hợp Việc chọn một chủ
đề z theo phân bố đa thức từ vector phân bố chủ đề thỏa phân bố Dirichlet( ) Phân bố đa thức là quá trình thử nghiệm mà kết quả sẽ nhận được một trong k giá trị (k > 2) của vector
Trang 3224
Hình 3.3 Mơ hình Latent Dirichlet Allocation ([4])
Trong hình 3.3, là ma trận T x V biểu diễn phân bố xác suất một từ khĩa
vV xuất hiện trong chủ đề tT được lấy theo phân bố xác suất Dirichlet, là ma trận D x T biểu diễn phân bố xác suất một chủ đề tT trong tài liệu dD được lấy theo phân bố Dirichlet() Với mỗi từ trong tài liệu d, z là chủ đề lấy từ ma trận
của tài liệu d, và w là từ khĩa được phát sinh bởi chủ đề z Việc tính ma trận và
cho ta biết thơng tin về chủ đề trong tài liệu và xác suất những chủ đề này trong tài liệu đĩ Tuy nhiên, mơ hình theo chủ đề khơng cho biết thơng tin trực tiếp về sở thích của các tác giả, mà chỉ cho biết thơng tin về chủ đề của tài liệu thơng qua việc tính xác suất các từ đặc trưng theo phân bố Poisson
3.1.4 Ước lượng tham số
Quá trình tạo sinh của mơ hình LDA được mơ tả bằng cơng thức phân bố xác suất chung sau đây:
p(w,z,,|, )= ( | ) ( , ) ( | ) ( | )
,
, 1
1 1
t z t j t N
t j M
j i K
i
w p z p p
: phân bố xác suất các chủ đề của tài liệu d, phân bố này thỏa phân bố Dirichlet
: tham số tập trung 0.01
z : một chủ đề được rút ra từ phân bố
đa thức Multinomial()
: phân bố xác suất các từ khóa cho chủ đề z, phân bố này thỏa phân bố Dirichlet()
w : tập từ đặc trưng được rút ra từ phân bố đa thức phát sinh bởi chủ đề z
: phân bố xác suất các chủ đề của tài liệu d, phân bố này thỏa phân bố Dirichlet
w : tập từ đặc trưng được rút ra từ phân
bố đa thức phát sinh bởi chủ đề z
: phân bố xác suất các chủ đề của tài liệu d, phân bố này thỏa phân bố Dirichlet
w : tập từ đặc trưng được rút ra từ phân
bố đa thức phát sinh bởi chủ đề z
(3.6)
Trang 3325
diễn phân bố hậu nghiệm cho các biến ẩn là tập từ khóa cho chủ đề Trong LDA, phân
bố hậu nghiệm được tính theo công thức sau:
) ,
| (
) ,
| , , , ( ) , ,
| , , (
w z p B w z
Tuy nhiên trong công thức 3.7, không thể tính chính xác p(w|,) Vì vậy, chúng ta sẽ dùng một số kỹ thuật tính xấp xỉ như là giải thuật EM và lấy mẫu Gibbs (Gibbs Sampling)
3.1.5 Lấy mẫu Gibbs (Gibbs Sampling)
3.1.5.1 Giới thiệu
Lấy mẫu Gibbs là một dạng giải thuật theo mô hình xích Markov Monte Carlo (MCMC)[5] Giải thuật MCMC xây dựng một xích Markov có phân bố hậu nghiệm mục tiêu cần tính làm phân bố cho bản thân từng xích Sau một số vòng lặp, việc lấy mẫu từ các phân bố sẽ hội tụ về gần với hậu nghiệm mong muốn Lấy mẫu Gibbs dựa vào việc lấy mẫu từ các phân bố điều kiện của các biến còn lại trong xích Markov Ví
dụ, để lấy mẫu x trong biểu thức phân bố chung p(x) = p(x1, x2 , , xm) trong khi việc tính trực tiếp là điều không thể, thì lấy mẫu Gibbs sẽ cho ta kết quả chính xác và
dễ dàng theo thủ tục như sau:
a Ngẫu nhiên khởi động cho mỗi biến xi
b Với mỗi t = 1 T
3 ) 2 1 1
3.1.5.2 Lấy mẫu Gibbs
Việc lấy mẫu Gibbs được thực hiện bằng cách gán từ wi cho các chủ đề zi, phân bố xác suất hậu nghiệm cho chủ đề zi là:
)
| ( ) , ,
| ( ) ,
| (z i j z i w P w i z i j z 1 w i P z i j z i
Trong đó z-i là các chủ đề zk với k i, hai tham số , không xuất hiện trong công thức (3.8) do ta có thể tính được xác suất điều kiện cho zi phụ thuộc vào z-i và w bằng cách tách rời giá trị phát sinh 2 tham số vế phải biểu thức (3.8) thành từng phần riêng biệt Đối với tham số đầu tiên, ta có:
(3.7)
(3.8)
(3.9)
Trang 34n ), trong đó ( )
,
w j
Trong đó, (.)
, j
i
n là tổng số từ gán chủ đề j không tính từ wi, W là tổng số từ vựng, là tham số tránh trường hợp mẫu số có giá trị 0 Tương tự, ta có thể tính phân
bố xác suất chủ đề thuộc về một tài liệu:
Ở đây, ( )
,
di j
n là số từ trong tài liệu di gán cho chủ đề j không tính chủ đề zi đang xét, và (di)
W n
Trang 35T n
n
3.2 MÔ HÌNH TÀI LIỆU THEO TÁC GIẢ
Mô hình theo chủ đề LDA cho thấy các tài liệu có thể kết hợp các phân bố xác suất từ khóa của từng chủ đề Trong mô hình tài liệu theo tác giả [1], giả sử có một nhóm tác giả ad viết một tài liệu d Với từng từ trong tài liệu, một tác giả được chọn ngẫu nhiên, và từ khóa sẽ được lấy từ phân bố xác suất của chúng đối với tác giả đó Một ví dụ rất tự nhiên, khi một tác giả viết về một chủ đề cụ thể, tác giả đó thường nghĩ đến những từ đặc trưng liên quan chủ đề sẽ viết Mô hình này tương tự với mô hình do McCallum[1] đề xuất năm 2007 Trong mô hình tài liệu theo tác giả, biểu diễn phân bố xác suất các từ khóa cho mỗi tác giả Quá trình hoạt động như sau:
(1) Với mỗi tác giả a = {1 ,2 , , A} chọn a thỏa phân bố xác suất Dirichlet() là vector xác suất các từ khóa thuộc chủ đề mà tác giả a quan tâm
(2) Với mỗi tài liệu d ={1, 2, , D}
Cho trước một tập tác giả ad
Với mỗi từ wdi thuộc Nd (Nd là những từ đặc trưng cho tài liệu d và xuất hiện trong tập từ vựng V)
Chọn một tác giả xdi theo phân bố xác suất của từ khóa, phân bố này thỏa phân bố đồng nhất Uniform(ad)
Chọn một từ wdi từ phân bố xác suất theo tác giả xdi, phân bố này thỏa phân bố đa thức Multinomial(x di )
Hình 3.4 Mô hình tài liệu theo tác giả (nguồn[1])
Trong hình 3.4, x là tác giả được chọn ngẫu nhiên từ tập tác giả ad của tài liệu d do mức độ quan tâm của từng tác giả là tương đương nhau Mỗi tác giả kết hợp với một vector phân bố xác suất từ khóa theo tác giả đó, phân bố này thỏa phân bố Dirichlet
(3.15)
ad : tập tác giả viết tài liệu d
x : một tác giả được chọn từ ad
w : tập từ khóa được phát sinh bởi tác giả x
: là phân bố xác suất từ đặc trưng được phát sinh bởi một tác giả thỏa phân bố đa thức Multinimial()
: tham số tập trung cho phân bố xác suất Dirichlet
Trang 3628
Việc tính ma trận cho biết thông tin về sở thích của tác giả, và có thể dùng để trả lời những truy vấn về những tác giả có cùng sở thích hoặc những tác giả cùng viết về chủ
đề của bài báo đang xét Mô hình này là trường hợp đặc biệt của mô hình tác giả-chủ
đề sẽ được trình bày dưới dây trong đó mỗi tác giả chỉ quan tâm đến một chủ đề duy nhất Tuy nhiên, mô hình này không cung cấp bất kỳ thông tin về nội dung tài liệu
3.3 MÔ HÌNH TÀI LIỆU THEO TÁC GIẢ – CHỦ ĐỀ
3.3.1 Giới thiệu
Mô hình tác giả-chủ đề AT (Author Topic) [9] được Michal Rosen-Zvi đề xuất năm 2004, là mô hình mở rộng của LDA bao gồm thông tin về mối quan hệ giữa các tác giả Mỗi tác giả có một phân bố xác suất theo chủ đề, mỗi chủ đề cũng sẽ có một tập từ khóa liên quan đến chủ đề đó Nội dung của một tài liệu là mấu chốt để giải quyết vấn đề rút trích thông tin, xử lý ngôn ngữ tự nhiên và máy học Việc biểu diễn nội dung văn bản được dùng để tổ chức, phân lớp hay truy tìm tài liệu Bằng việc mô hình sở thích của các tác giả, chúng ta có thể đưa ra câu trả lời cho những truy vấn các tài liệu Với một mô hình tác giả – chủ đề phù hợp , ta có thể thiết lập nên một chủ đề
mà tác giả đang quan tâm, tác giả nào thường hay viết những tài liệu tương tự tài liệu đang xét
3.3.2 Mô tả hoạt động
Mô hình tài liệu theo tác giả – chủ đề vận dụng ưu điểm của hai mô hình nêu trên là mô hình tài liệu theo chủ đề [4] và theo tác giả[1] Mô hình này sử dụng phương pháp biểu diễn dựa theo chủ đề để mô hình nội dung và sở thích của tác giả Nếu trong mô hình tài liệu theo tác giả [1], một nhóm tác giả ad sẽ quyết định viết bài báo d, với mỗi từ trong tài liệu d, một tác giả được chọn ngẫu nhiên thì trong mô hình tác giả-chủ đề , một chủ đề sẽ được chọn từ phân bố xác suất các chủ đề của tập tác giả đó, và một từ khóa sẽ được phát sinh từ chủ đề đã được chọn Quá trình được mô
tả như sau :
(1) Với mỗi tác giả a = {1,…, A} chọn phân bố xác suất theo chủ đề a, phân
bố này thỏa phân bố Dirichlet( )
Với mỗi chủ đề t = {1,…, T} chọn phân bố xác suất từ khóa t, phân bố này thỏa phân bố Dirichlet()
(2) Với mỗi tài liệu d = {1,… , D}
Cho trước vector tác giả ad
Với mỗi từ wi = 1, …, Nd
- Chọn một tác giả xdi theo phân bố Uniform(ad) (xem phụ lục)
- Chọn một chủ đề zdi từ tác giả xdi theo phân bố đa thức Multinomial (
)
Trong hình 3.4 , x là tác giả được chọn ngẫu nhiên từ tập ad của tài liệu d Mỗi tác giả sẽ ứng với vector phân bố xác suất chủ đề, phân bố này thỏa phân bố Dirichlet( ) Chủ đề z sẽ được chọn từ ma trận của tác giả x này Mỗi chủ đề z có
Trang 3729
một vector phân bố xác suất từ khóa đặc trưng, phân bố này thỏa phân bố Dirichlet(), và từ khóa w sẽ được chọn từ chủ đề z dựa vào ma trận
Hình 3.5 Mô hình tác giả – chủ đề (nguồn: [9])
Mô hình tác giả-chủ đề đã giải quyết được khuyết điểm của mô hình chủ đề mà mỗi tài liệu chỉ có một tác giả duy nhất và trong mô hình tác giả thì chỉ có duy nhất một chủ đề Việc tính ma trận , cho ta biết được tác giả nào viết chủ đề gì cũng như biểu diễn nội dung tài liệu thông qua các từ khóa của chủ đề
3.5 KẾT LUẬN
Chương này đã trình bày các kỹ thuật mô hình nội dung tài liệu Mỗi mô hình đều có
ưu nhược điểm khác nhau chẳng hạn như mô hình nội dung tài liệu LDA theo hướng chủ đề chỉ cho biết nội dung của tài liệu, trong khi đó mô hình MCMM theo hướng tác giả chỉ cho biết sở thích của tác giả Mô hình AT vận dụng hai mô hình trên để cho người dùng biết nội dung và sở thích của tác giả
TÀI LIỆU THAM KHẢO
[1] Andrew Mcallum (1999), Multi-Label Text Classification with a Mixture Model
Trained by EM, AAAI’99 Workshop on Text Learning
[2] Ben-Gal I (2007), Bayes Network, Encyclopedia of Stattistics in Quality & Reliability, Wiley & Sons
[3] Bredan J Frey, Delbert Dueck (2007), Clustering by Passing Messages Between Data Points, Sciene Vol 315, pp 972 – 976
[4] David M.Blei , Andrew Y.Ng , Micheal I.Jordan (2003), Latent Dirichlet
Allocation, Journal of Machine Learning Research, pp 993 – 1022
[5] David M.P Scollnik (1996), An Introduction to Markov Chain Monte Carlo Methods and Their Actual Applications, Proceeding of the Casualty Acturial Society [6] Frank R Kschischang, Brendan J.Frey, Hans-Andrea Loeliger (2001), Factor Graphs and the Sum-Product Algorithm, IEEE Transaction on Information Theory, Vol 47, pp 498-519
ad : tập tác giả viết tài liệu d
Trang 3830
[7] Jie Tang, Ruoming Jin, Jing Zhang (2008), A Topic Modeling Approach and its
Integration into the Random Walk Framework for Academic Search ,ICDM 2008, pp
1055-1060
[8] Jie Tang, Jimeng Sun, Chi Wang, Zi Yang (2009), Social Network Analysis in
large-scale networks, KDD 2009, pp 807 – 816
[9] Michal Rosen-Zvi, Thomas L.Griffiths, Mark Steyvers, Padhraic Smyth (2004),
The Author-Topic Model for Authors and Documents , UAI 2004, pp 487 – 494
[10] Michal Rosen-Zvi, Chaitanya Chemudugunta, Thomas L.Griffiths, Mark Steyvers, Padhraic Smyth (2010), Learning Author-Topic Models from Text Corpora ,
ACM Transaction on Information Systems, 28(1)
[11] Kate Ehrlich, Inga Carboni (2005), Inside Social Network Analysis,
Collaborative User Experience Technocal Report, IBM Corporation
[12]Tom Griffiths (2004), Gibbs Sampling in the generative model of Latent Dirichlet Allocation
[13] William M Darling (2011), A Theoretical and Practical implementation Tutorial
on Topic Modeling and Gibbs Sampling
[14] Xiaojin Zhu (2010), Inference in Graphical Models, CS769 Spring 2010 Advanced Natural Language Processing
Trang 39Hiện nay trên mạng xã hội, giữa các actor thường trao đổi các thông điệp Vấn đề đặt
ra là tìm hiểu các chủ đề trao đổi giữa các actor trên mạng xã hội Mỗi chủ đề là tập các khái niệm có liên quan đến một vấn đề nào đó Mỗi chủ đề được đặc trương bằng một tập các từ khóa
Để giải quyết bài toán phát hiện chủ đề của các thông điệp trao đổi trên mạng xã hội, chúng tôi đã tìm hiểu nhiều mô hình, phương pháp phân tích mạng xã hội Cuối cùng,
chúng tôi lựa chọn mô hình phân tích mạng xã hội Author-Recipient-Topic (ART) và
giải thuật gán nhãn tự động cho các chủ đề Sau khi rút trích từ vựng, tạo ma trận docid-term-freq, chúng tôi cho hiện thực mô hình Tác giả - Người nhận - Chủ đề (Author Recipient Topic – ART) đề tìm ra ma trận phân bố các từ vựng theo chủ đề,
ma trận phân bố các chủ đề theo actor Ngoài ra, chúng tôi đã phát triển mô hình TART (Temporal Author Recipient Topic) cho phép khám phá chủ đề của người dùng theo thời gian Tuy nhiên mô hình ART, TART không gán nhãn tường minh cho các chủ đề tiềm ẩn trong thông điệp Chính vì vậy, chúng tôi xây dựng ontology và áp dụng giải thuật SVM để gán nhãn tự động cho các chủ đề Kết quả nghiên cứu được chúng tôi công bố trong 04 bài báo sau:
Ho Trung Thanh, Do Phuc (2015), Analyzing Users’ Interests with the
Temporal Factor Based on Topic Modeling, In the Proceedings of ACIIDS
conference 2014, March 23-25, Bali, Indonesia, pp 106-115, ISBN
978-3-31915704-7
Hồ Trung Thành, Đỗ Phúc (2014), Mô hình tích hợp khám phá, phân lớp và
gán nhãn tiếp cận theo mô hình chủ đề, Tạp chí Phát triển Khoa học-Công nghệ tập 7, số K4-2014, tr 73-85, ISSN 1859-0128
Muon Nguyen, Thanh Ho, Phuc Do (2013), Social Networks Analysis Based
on Topic Modeling, IEEE RIVF, Hanoi, Vietnam, pp 119-122, ISBN 4799-1350-3
978-1- Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng Việt trong lĩnh vực giáo
dục đại học, Tạp chí khoa học và công nghệ, Viện Hàn Lâm Khoa học và Công nghệ Việt Nam, Tập 52, Số 1B, tr 89-100, ISSN 0866 708X
Trang 40xã hội mà không quan tâm tới nội dung và chủ đề thông tin được trao đổi giữa các actor
Gần đây, một số nghiên cứu nhằm kết hợp phân tích mạng xã hội với xử lý ngôn ngữ tự nhiên để khám phá các chủ đề tiềm ẩn nằm trong các message trao đổi giữa các actor Các mô hình như Latent Dirichlet Allocation (Blei et al., 2003), mô hình Author-Topic (Steyvers et al., 2004; Rosen-Zvi et al., 2004) đã được phát triển để phân tích nội dung và khám phá các chủ đề trong một corpus So với kiến trúc đặc trưng của các mạng xã hội là thông tin trao đổi giữa người gửi và tập các người nhận, các mô hình trên lại không phù hợp vì chúng bỏ qua thông tin người nhận hoặc cả hai (người nhận và người gửi)
Do đó, mô hình Author-Recipient-Topic (ART) ra đời nhằm khắc phục các hạn chế của mô hình LDA và AT Mô hình ART mở rộng mô hình LDA và mô hình Author-Topic (AT) Mô hình ART thực hiện khám phá các chủ đề trong các meesage
và phân tích một mô hình đồ thị có hướng của các từ trong thông điệp được sinh ra bởi người gửi và tập những người nhận Khám phá các chủ đề theo mô hình ART thì được suy diễn bằng cấu trúc mạng xã hội mà trong đó các thông điệp được gửi và nhận Một chủ đề bao gồm một phân bố đa thức theo các từ mỗi một cặp author-recipient có một phân bố theo các chủ đề Chúng ta có thể dễ dàng tính các phân bố biên (marginal distributions) trên các chủ đề theo điều kiện nhất định như: theo một tác giả duy nhất, hoặc một người nhận duy nhất, để tìm ra các chủ đề quan tâm cho mỗi người (theo chiều tác giả hoặc theo chiều người nhận)
4.3.2 Mô hình sinh cho ART
Một số quy ước:
- d: là một thông điệp được gửi từ tác giả tới danh sách các người nhận
- ad: tác giả gửi thông điệp d
- rd: một tập các người nhận thông điệp d
- x: là một người nhận thông điệp từ tập rd
- z: là một chủ đề từ phân bố đa thức theo chủ đề(multinomial topic distribution)
mà mỗi sự phân bố được xác định bởi cặp author-recipient (ad, x)
- : phân bố đa thức theo một chủ đề xác định
- w: là một từ được sinh ra theo mẫu từ sự phân bố đa thức topic-specific
- α, β là các siêu biến Trong mô hình ART, giá trị của α, β thưởng được gán với một giá trị hằng (α, β = 1)
Mô hình ART là một mạng Bayesian Mô hình ART đồng thời phân tích nội dung của các thông điệp và mạng xã hội có hướng giữa người gửi và người nhận Trong quá trình sinh cho từng thông điệp, một tác giả ad và một tập người nhận rd sẽ được quan sát Để sinh ra một từ, một người nhận x (được chọn đồng nhất từ tập rd), và sau đó