Trong bài báo này, chúng tôi đề xuất phương pháp phân cụm bán giám sát trong dự báo liên kết trong mạng đồng tác giả.. Các kết quả thực nghiệm nhằm đánh giá thuật toán đề xuất[r]
Trang 1DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ
Phạm Minh Chuẩn 1,2* , Trần Đình Khang 1 , Lê Thanh Hương 1
, Trần Mạnh Tuấn 3 , Lê Hoàng Sơn 4
1 Trường Đại học Bách khoa Hà Nội, 2 Trường Đại học Sư phạm Kỹ thuật Hưng Yên,
3 Trường Đại học Thủy Lợi, 4 Trường Đại học Khoa học Tự nhiên, ĐHQGHN
TÓM TẮT
Trong bài báo này, chúng tôi đề xuất một hướng tiếp cận giải bài toán liên kết trong mạng đồng tác giả dựa trên việc sử dụng phân cụm bán giám sát mờ Nghiên cứu này nhằm xác định các tác giả
có khả năng liên kết với nhau trong tương lai gần dựa trên mối liên hệ đã có giữa các tác giả Các tác giả đã từng viết bài cùng nhau hoặc có các bài viết tương tự nhau có khả năng hình thành liên kết cao trong tương lai Bài báo xây dựng mô hình mới dựa trên phân cụm bán giám sát mờ trên
dữ liệu thu thập được về sự hợp tác đã có giữa các tác giả Mô hình được đánh giá và so sánh với các thuật toán liên quan Các kết quả thực nghiệm chỉ ra rằng mô hình được đề xuất có chất lượng cao hơn các thuật toán được so sánh
Từ khóa: Dự báo, mạng đồng tác giả, phân cụm bán giám sát, độ đo, liên kết đồng tác giả
GIỚI THIỆU*
Cùng với sự phát triển mạnh mẽ của Internet
và các mạng xã hội, con người được gắn kết
với nhau dù cách xa nhau Mạng xã hội vô
hướng đồng nhất trực tuyến (Online
Homogeneous Undirected Social Networks -
OHUSNs) là một loại mạng xã hội với đặc
điểm là các thực thể trong mạng thuộc cùng
một loại và các liên kết giữa các thực thể là
vô hướng, có cùng một kiểu Cũng như các
mạng xã hội khác, OHUSNs xây dựng một
cộng đồng lớn người sử dụng mang đến cho
người sử dụng một tiện ích nhất định: giải trí,
kết nối bạn bè, chia sẻ tài nguyên, trao đổi
công việc Mặc dù có những đặc điểm riêng
biệt, OHUSNs vẫn bao gồm một lượng dữ
liệu được trao đổi mỗi ngày với những đặc
trưng dễ nhận biết [1]
Trong cộng đồng các nhà khoa học, sự liên
kết giữa các tác giả là thực sự cần thiết và
được quan tâm Các tác giả đã từng cộng tác
với nhau để công bố các kết quả hay công
trình của họ sẽ có xu hướng hợp tác với nhau
trong tương lai gần Như vậy, những hợp tác
trong tương lai chủ yếu dựa trên các kết quả
đã có giữa các tác giả Tuy nhiên, các liên kết
mới giữa các tác giả cũng có thể xuất hiện
*
Tel: 0983 081120
nếu giữa họ có sự hợp tác với tác giả chung nào đó Trên cơ sở đó các liên kết trong mạng đồng tác giả trong tương lai gần là hoàn toàn
có thể thực hiện dựa trên nghiên cứu về các nghiên cứu giữa các tác giả trong mạng Năm 2010, dự báo liên kết có giám sát dựa trên nhiều nguồn đã được Lu và cộng sự nghiên cứu [2] Năm 2011, Hasan và Zaki [3] khảo sát về việc dự báo liên kết trong mạng
xã hội và chỉ ra nhiều công cụ được sử dụng bao gồm: dự báo liên kết dựa trên các đặc trưng, dựa trên các mô hình phân lớp hoặc các
mô hình xác suất Bayes, các mô hình quan hệ xác suất Một số nghiên cứu gần đây cho thấy các thuật toán phân cụm bán giám sát mờ rất hiệu quả trong nhiều lĩnh vực như xử lý ảnh [4], nhận dạng mẫu, nhận dạng khuôn mặt [5], đánh giá rủi ro [6], dự báo phá sản [7] Trong bài báo này, chúng tôi đề xuất phương pháp phân cụm bán giám sát trong dự báo liên kết trong mạng đồng tác giả Các bước thực hiện của thuật toán được trình bày trong bài báo cùng với kết quả cài đặt trên bộ dữ liệu cụ thể Các kết quả thực nghiệm nhằm đánh giá thuật toán đề xuất dựa trên các độ đo Precision, Recall và F-Measure
Phần còn lại của bài báo được tổ chức như sau: phần 2 cung cấp các kiến thức cơ sở Phần 3 trình bày về sử dụng phân cụm bán
Trang 2giám sát mờ vào việc giải bài toán dự báo liên
kết trong mạng đồng tác giả Phần thứ 4 đưa
ra các kết quả thực nghiệm dựa trên các số
liệu thu thập Cuối cùng, phần 5 rút ra kết
luận từ nghiên cứu
KIẾN THỨC CƠ SỞ
Bài toán dự báo liên kết mới
Định nghĩa 1
Một mạng đồng tác giả ký hiệu là G (T)
= (V (T) ,
E (T) , P (T) , T), trong đó T = {t 1 , t 2 , , t K } là tập
các mốc thời gian liên tiếp (t i < t j , i< j =
1 K), V (T) = {v 1 , v 2 , ,v N } là một tập các nút
(tác giả), P (T)
={p 1 , p 2 , ,p M } là tập các bài báo
và E (T) ={(v i , v j , p h , t h ): v i , v j V (T) , v i ≠ v j , p h
P (T) và t hT} là tập các liên kết K, N và M
tương ứng là số mốc thời gian, số tác giả và
số bài báo
Chúng tôi minh họa định nghĩa 1 thông qua
một ví dụ về mạng đồng tác giả được biểu
diễn trên hình 1 Trong ví dụ này, mạng đồng
tác giả bao gồm 8 tác giả (N = 8), và 10 bài
báo (M =10) và các bài báo được xuất bản từ
năm 2000 đến năm 2002 (K = 3) Tổng số
liên kết (cộng tác) là 22
Bài toán dự báo liên kết mới (cộng tác), tức là
dự báo những cặp tác giả mà chưa từng cộng
tác trong quá khứ có cộng tác với nhau trong
tương lai hay không Ví dụ quan sát trên hình
1 chúng ta có thể thấy hai cặp tác giả (5, 6) và
(5, 8) không có cộng tác trong các năm 2000
đến 2002, vậy liệu họ có cộng tác trong
những năm tiếp theo hay không?
Các độ tương tự theo trọng số liên kết
Độ tương tự theo trọng số liên kết được tính toán bởi xem xét bởi mức độ liên kết giữa hai đỉnh trong mạng đồng tác giả, ở đây (u, v)
ký hiệu là mức độ liên kết giữa hai nút u và v
Định nghĩa 2 (Weighted Common
Neighbours: WCN) [8]
( , )
2
WCN
(1)
Định nghĩa 3 (Weighted Adamic–Adar:
WAA) [8]
'
( )
( , )
WAA
SIM u v
u z v z
Định nghĩa 4 (Weighted Jaccard Coefficient:
WJC) [9]
( ) ( )
( , ) ( , ) ( , ) 2 ( , ) ( , )
WJC
z u v
SIM u v
(3)
Trong mạng đồng tác giả, mức độ liên kết giữa hai nút u, v (ký hiệu (u, v)) có thể được xác định theo ba cách sau:
a) Cách 1
Mức độ liên kết giữa hai tác giả u, v được xác định thông qua số bài báo mà hai tác giả này
đã viết chung Công thức này được đề xuất bởi Murata and Moriyasu [8] như sau :
_ er ( , )u v n coauthor pap
b) Cách 2
Trong [10], mức độ liên kết giữa hai tác giả được tính bằng tổng trọng số tương ứng với mỗi bài báo được viết chung bởi hai tác giả:
1
( , )
1
i i P
u v
i i
u v n
Trong đó, i
u
sẽ bằng 1 nếu tác giả u có tham gia viết bài báo thứ i, và bằng 0 nếu ngược lại, và ni là số tác giả trong bài báo thứ i
c) Cách 3
Trong [11], trọng số giữa hai tác giả được tính dựa trên vị trí của các tác giả trong bài báo và thời gian mà bài báo được xuất bản Xét hai
7
5
2
3
6
1
4
8
Hình 1 Minh họa mạng đồng tác giả
Trang 3tác giả u, v trong danh sách các tác giả xuất
hiện trong một bài báo, và vị trí tương ứng của
hai tác giả là du và dv Giả sử du > dv và trong
bài báo có nhiều hơn một tác giả Khi đó, mức
độ liên kết giữa hai tác giả u, v (DCL (u,v))
trong bài báo được tính theo công thức sau
1 1
if 3
1 2
( , ) if 3, 3
2 2
if 3
v
u v
u v
u
u v
d
d d
d
d d
(6)
Giả sử hai tác giả u và v viết chung P bài báo
Khi đó mức độ liên kết giữa hai tác giả được
tính theo công thức (7):
1
P
p p
p
Trong đó, p
u
d là vị trí của tác giả u trong bài báo
thứ p, tp là thời gian mà bài báo thứ p được phản
biện hoặc chấp nhận đăng và 0
0
( )p p
c
t t
k t
t t
, với t0 là thời gian đầu tiên mà hai tác giả này đã
cộng tác, tc là thời gian hiện tại
PHƯƠNG PHÁP ĐỀ XUẤT
Trong phần này, phương pháp phân cụm bán
giám sát mờ áp dụng cho bài toán dự báo liên
kết trong mạng đồng tác giả được trình bày
Hình 2 mô tả sơ đồ của mô hình dự báo liên
kết trong mạng đồng tác giả (SSSFCRC) dựa
trên thuật toán phân cụm bán giám sát Cụ thể
các bước thực hiện như sau:
Bước 1: Từ dữ liệu ban đầu thu thập trong
mạng đồng tác giả, xác định độ tương tự trong
số liên kết trong mạng đồng tác giả theo công
thức trình bày ở phần Các độ tương tự theo
trọng số liên kết
Bước 2: Dữ liệu ban đầu được chia thành 2
phần: dữ liệu huấn luyện (training) và dữ liệu
kiểm tra (testing) Trong đó, dữ liệu training
là các số liệu của thông tin trong mạng tác giả
ở thời điểm hiện tại và quá khứ Khi đó quan
hệ giữa các tác giả trong dữ liệu training được
xác định có là đồng tác giả với nhau hay
không (hoàn toàn biết được nhãn của các liên kết) Dữ liệu testing là các số liệu của thông tin trong mạng tác giả ở thời điểm tương lai cần dự báo
Hình 2 Sơ đồ mô hình dự báo liên kết trong mạng
đồng tác giả
Bước 3: Mỗi loại nhãn của training ta xác
định trung bình cộng của các liên kết để xác định làm tâm các cụm cho từng nhãn của training Các tâm cụm xác định trong quá trình training được kết hợp với dữ liệu testing
để xác định ma trận độ thuộc bổ trợ Với ma trận thông tin bổ trợ giữa các liên kết với tâm các cụm của từng nhãn được xác định ở training được xác định: là khoảng cách Euclid
từ liên kết đó đến tâm cụm của nhãn trên tổng
số khoảng cách euclid từ liên kết đó đến tâm các cụm của nhãn
Bước 4: Thuật toán phân cụm bán giám sát
chuẩn SSSFC [12] với thông tin bổ trợ được xác định ở bước 3, thực hiện trên tập testing, với số cụm bằng 2 Khi đó phân cụm SSSFC xac định được ma trận độ thuộc của các cặp liên kết vào các cụm
Bước 5: Từ kết quả phân cụm đã xác định
được ma trận độ thuộc của các cặp liên kết Tại mỗi liên kết xác định cụm, dựa trên ma trận độ thuộc Dựa vào thông tin bổ trợ từ training xác định xem cụm nào thuộc về có liên kết, cụm nào thuộc về không liên kết
Data X và các tham số
Training, nhãn của training Xác định độ tương tự trọng số liên kết
Xác định tâm cụm theo các nhãn
Xác đinh thông tin bổ trợ Testing
Phân cụm bán giám sát mờ
Dự báo các cặp nút khả năng
liên kết
Trang 4THỬ NGHIỆM VÀ ĐÁNH GIÁ
Mô tả dữ liệu
Dữ liệu thực nghiệm là một mạng đồng tác
giả được xây dựng từ tập các bài báo được
đăng trên tạp chí “Biophysical Journal” [13]
với một vài tiêu chuẩn cụ thể Tổng số bài báo
thu được là 7,529, tổng số tác giả là 21,151 và
tổng số liên kết là 68,706.Chia dữ liệu thành
hai phần theo thời gian: T1 (2006 - 2011) và
T2 (2012-2016) Có 4841 cặp tác giả ứng cử
(có ít nhất một tác giả cộng tác chung trong
T1) được lựa chọn với 192 (3.966 %) cặp tác
giả nhãn 1, số còn lại được gán nhãn 0 Do
mất cân bằng tỷ lệ nên 192 cặp tác giả mang
nhãn 0 được chọn ngẫu nhiên để hình thành
tập kiểm tra gồm 384 cặp tác giả (với tỷ lệ
nhãn 0 -1 bằng nhau)
Các độ đo được sử dụng bao gồm: Độ bao
phủ (recall), Độ chính xác (precision) và
F1-measurevà và độ lệch chuẩn của F1- Measure
(F1-STD) Áp dụng phương pháp kiểm định
10-fold, và kết quả cuối cùng được tính theo
trung bình của 10 fold Chúng tôi thực
nghiệm với ba độ tương tự trọng số liên kết
giữa hai tác giả (WCN, WAA, WJC) đã đề
cập trong phần 2.2
Các kết quả thực nghiệm
Kết quả thực nghiệm của lược đồ dự báo liên
kết trong mạng đồng tác giả sử dụng phân
cụm bán giám sát mờ với số cụm bằng 2 (khi
đó 1 cụm là các cặp nút có liên kết, 1 cụm là
các cặp nút không liên kết) Kết quả thực
nghiệm thu được với phương pháp SSSFCRC
so sánh với SVM [14] và Gboost [15] do đây
là phương pháp phân lớp tiêu biểu và đã được
nhiều nhà nghiên cứu sử dụng trong bài toán
dự báo liên kết trong mạng xã hội
Hình 3 Kết quả thực nghiệm với Rec
Hình 4 Kết quả thực nghiệm với Pre
Hình 5 Kết quả thực nghiệm với F1-Mea
Hình 6 Kết quả thực nghiệm với F1-STD
Từ kết quả thu được ở hình 3, hình 4, hình 5, hình 6 ta thấy với độ đo Recall thì phương pháp SSSFCRC tốt hơn 2 phương pháp SVM
và Gboost với cả 3 bộ dữ liệu, độ đo Precision thì Gboost tốt với 2 bộ dữ liệu và SVM tốt với 1 bộ dữ liệu, F1- Measure thì SSSFCRC tốt với 2 bộ dữ liệu và Gboost tốt với một bộ
dữ liệu Như vậy với tổng thể cả 3 độ đo với 3
bộ dữ liệu thì phương pháp SSSFCRC tốt hơn phương pháp SVM và phương pháp Gboost
Về độ ổn định F1-STD thì phương pháp SSSFCRC có độ ổn định nhất với 2 bộ dữ liệu, phương pháp SVM có độ ổn định nhất với một bộ dữ liệu
KẾT LUẬN Trong bài báo này, một mô hình dự báo liên kết trong mạng đồng tác giả sử dụng phân
Trang 5cụm bán giám sát mờ được đề xuất Cùng với
sự phân tích về trình tự và ý nghĩa thực hiện,
mô hình được cài đặt trên các bộ dữ liệu với các
tham số khác nhau Kết quả thực nghiệm chỉ ra
rằng, mô hình đề xuất có kết quả phù hợp so với
phương pháp SVM và Gboost cho bài toán này
dựa trên các tiêu chí đánh giá cụ thể
Dựa trên kết quả nghiên cứu trong bài, trong
tương lai chúng tôi sẽ nghiên cứu tiếp để tìm
ra các bộ tham số phù hợp nhất Đồng thời có
sự cải tiến phù hợp và so sánh kết quả dự báo
với các phương pháp mạnh trong học máy
như: phân lớp dữ liệu, rừng ngẫu nhiên
(random forest)
TÀI LIỆU THAM KHẢO
1 Wu, Y., & Zhou, X (2015) Link prediction in
social networks: the state-of-the-art Science
China Information Sciences, 58(1), 1-38
2 Lu, Z., Savas, B., Tang, W., & Dhillon, I S
(2010) Supervised link prediction using multiple
sources In Data Mining (ICDM), 2010 IEEE 10th
International Conference on (pp 923-928) IEEE.
3 Al Hasan, M., & Zaki, M J (2011) A survey of
link prediction in social networks In Social network
data analytics (pp 243-275) Springer US.
4 Chuang, K S., Tzeng, H L., Chen, S., Wu, J.,
& Chen, T J (2006) Fuzzy c-means clustering
segmentation.computerized medical imaging and
graphics, 30(1), 9-15.
5 Agarwal, M., Agrawal, H., Jain, N., & Kumar,
M (2010) Face recognition using principle
network In Signal Acquisition and Processing,
2010 ICSAP'10 International Conference on (pp
310-314) IEEE.
6 Chen, J., Zhao, S., & Wang, H (2011) Risk
analysis of flood disaster based on fuzzy clustering
method Energy Procedia, 5, 1915-1919.
7 Martin, A., Gayathri, V., Saranya, G., Gayathri, P., & Venkatesan, P (2011) A hybrid model for bankruptcy prediction using genetic algorithm,
fuzzy c-means and MARS arXiv preprint arXiv:1103.2110.
8 Xia F, Chen Z, Wang W, Li J, Yang L T (2014) MVCWalker: Random Walk-Based Most Valuable Collaborators Recommendation Exploiting Academic Factors IEEE Transactions
on Emerging Topics in Computing 2(3):364-375
9 Bezděk, JC (1981) Pattern recognition Algorithms with fuzzy objective function Kluwer
Academic Publishers
10 Zhang, H., & Lu, J (2009) Semi-supervised fuzzy clustering: A kernel-based approach
Knowledge-Based Systems, 22 (6), 477-481
11 Yasunori, E., Yukihiro, H., Makito, Y., & Sadaaki, M (2009, August) On semi-supervised
fuzzy c-means clustering Print Fuzzy Systems,
2009 FUZZ-IEEE 2009 IEEE International Conference on (pp 1119-1124) IEEE
12 Yasunori, E., Yukihiro, H., Makito, Y., & Sadaaki, M (2009, August) On semi-supervised
fuzzy c-means clustering Print Fuzzy Systems,
2009 FUZZ-IEEE 2009 IEEE International Conference on (pp 1119-1124) IEEE
“https://www.journals.elsevier.com/biophysical-journal/”, Accessed on 10/07/2017
14 Corinna Cortes, Vladimir Vapnik (1995),
Support-vector networks, Machine Learning,
20(3), 273:297
15 Carlos Becker, Roberto Rigamonti, Vincent Lepetit, and Pascal Fua CVLab, Ecole Polytechnique F´ed´erale de Lausanne, Switzerland (2013), Supervised Feature Learning for Curvilinear Structure Segmentation,
International Conference on Medical Image Computing and Computer-Assisted Intervention,
526-533.
Trang 6SUMMARY
USING SEMI-SUPERVISED FUZZY CLUSTERING METHOD IN CO-AUTHORSHIP LINK PREDICTION
Pham Minh Chuan 1,2* , Tran Dinh Khang 1 , Le Thanh Huong 1 ,
Tran Manh Tuan 3 , Le Hoang Son 4
1
Hanoi University of Science and Technology, 2 Hung Yen University of Technology and Education
3
Thuyloi University, 4 VNU University of Science, Vietnam National University
In this paper, we propose a new approach for link prediction in the co-authorship network using semi-supervised fuzzy clustering Link prediction aims to determine possible interaction between authors in the future based on existing links of a co-authorship network representing joint papers in
a specific research domain It is worthy remarked that authors who had joint or similar papers are likely to continue writing together Since the evaluation contains of both quantitative and qualitative information, fuzzy models in the forms of semi-supervised learning are used to judge the most similar authors to the considered one before making decision of interaction A new semi-supervised fuzzy clustering model on the authorship network datasets has been proposed Data labels in the training set are grouped to specify the clusters’ centers which are further used in the construction of an additional matrix for the semi-supervised fuzzy clustering The clustering algorithm produces a membership matrix of links in a cluster and final recommendation of outputs It
is implemented and compared against the relevant methods on the Biophysical Journal datasets It has been suggested that the results of the proposed method are better than those of the related ones
Keywords: Prediction, authorship network, semi-supervised clustering, validity index,
co-authorship link
Ngày nhận bài: 26/9/2017; Ngày phản biện: 29/9/2017; Ngày duyệt đăng: 30/11/2017
*
Tel: 0983 081120