1. Trang chủ
  2. » Toán

DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ

6 21 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 305,77 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong bài báo này, chúng tôi đề xuất phương pháp phân cụm bán giám sát trong dự báo liên kết trong mạng đồng tác giả.. Các kết quả thực nghiệm nhằm đánh giá thuật toán đề xuất[r]

Trang 1

DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ

Phạm Minh Chuẩn 1,2* , Trần Đình Khang 1 , Lê Thanh Hương 1

, Trần Mạnh Tuấn 3 , Lê Hoàng Sơn 4

1 Trường Đại học Bách khoa Hà Nội, 2 Trường Đại học Sư phạm Kỹ thuật Hưng Yên,

3 Trường Đại học Thủy Lợi, 4 Trường Đại học Khoa học Tự nhiên, ĐHQGHN

TÓM TẮT

Trong bài báo này, chúng tôi đề xuất một hướng tiếp cận giải bài toán liên kết trong mạng đồng tác giả dựa trên việc sử dụng phân cụm bán giám sát mờ Nghiên cứu này nhằm xác định các tác giả

có khả năng liên kết với nhau trong tương lai gần dựa trên mối liên hệ đã có giữa các tác giả Các tác giả đã từng viết bài cùng nhau hoặc có các bài viết tương tự nhau có khả năng hình thành liên kết cao trong tương lai Bài báo xây dựng mô hình mới dựa trên phân cụm bán giám sát mờ trên

dữ liệu thu thập được về sự hợp tác đã có giữa các tác giả Mô hình được đánh giá và so sánh với các thuật toán liên quan Các kết quả thực nghiệm chỉ ra rằng mô hình được đề xuất có chất lượng cao hơn các thuật toán được so sánh

Từ khóa: Dự báo, mạng đồng tác giả, phân cụm bán giám sát, độ đo, liên kết đồng tác giả

GIỚI THIỆU*

Cùng với sự phát triển mạnh mẽ của Internet

và các mạng xã hội, con người được gắn kết

với nhau dù cách xa nhau Mạng xã hội vô

hướng đồng nhất trực tuyến (Online

Homogeneous Undirected Social Networks -

OHUSNs) là một loại mạng xã hội với đặc

điểm là các thực thể trong mạng thuộc cùng

một loại và các liên kết giữa các thực thể là

vô hướng, có cùng một kiểu Cũng như các

mạng xã hội khác, OHUSNs xây dựng một

cộng đồng lớn người sử dụng mang đến cho

người sử dụng một tiện ích nhất định: giải trí,

kết nối bạn bè, chia sẻ tài nguyên, trao đổi

công việc Mặc dù có những đặc điểm riêng

biệt, OHUSNs vẫn bao gồm một lượng dữ

liệu được trao đổi mỗi ngày với những đặc

trưng dễ nhận biết [1]

Trong cộng đồng các nhà khoa học, sự liên

kết giữa các tác giả là thực sự cần thiết và

được quan tâm Các tác giả đã từng cộng tác

với nhau để công bố các kết quả hay công

trình của họ sẽ có xu hướng hợp tác với nhau

trong tương lai gần Như vậy, những hợp tác

trong tương lai chủ yếu dựa trên các kết quả

đã có giữa các tác giả Tuy nhiên, các liên kết

mới giữa các tác giả cũng có thể xuất hiện

*

Tel: 0983 081120

nếu giữa họ có sự hợp tác với tác giả chung nào đó Trên cơ sở đó các liên kết trong mạng đồng tác giả trong tương lai gần là hoàn toàn

có thể thực hiện dựa trên nghiên cứu về các nghiên cứu giữa các tác giả trong mạng Năm 2010, dự báo liên kết có giám sát dựa trên nhiều nguồn đã được Lu và cộng sự nghiên cứu [2] Năm 2011, Hasan và Zaki [3] khảo sát về việc dự báo liên kết trong mạng

xã hội và chỉ ra nhiều công cụ được sử dụng bao gồm: dự báo liên kết dựa trên các đặc trưng, dựa trên các mô hình phân lớp hoặc các

mô hình xác suất Bayes, các mô hình quan hệ xác suất Một số nghiên cứu gần đây cho thấy các thuật toán phân cụm bán giám sát mờ rất hiệu quả trong nhiều lĩnh vực như xử lý ảnh [4], nhận dạng mẫu, nhận dạng khuôn mặt [5], đánh giá rủi ro [6], dự báo phá sản [7] Trong bài báo này, chúng tôi đề xuất phương pháp phân cụm bán giám sát trong dự báo liên kết trong mạng đồng tác giả Các bước thực hiện của thuật toán được trình bày trong bài báo cùng với kết quả cài đặt trên bộ dữ liệu cụ thể Các kết quả thực nghiệm nhằm đánh giá thuật toán đề xuất dựa trên các độ đo Precision, Recall và F-Measure

Phần còn lại của bài báo được tổ chức như sau: phần 2 cung cấp các kiến thức cơ sở Phần 3 trình bày về sử dụng phân cụm bán

Trang 2

giám sát mờ vào việc giải bài toán dự báo liên

kết trong mạng đồng tác giả Phần thứ 4 đưa

ra các kết quả thực nghiệm dựa trên các số

liệu thu thập Cuối cùng, phần 5 rút ra kết

luận từ nghiên cứu

KIẾN THỨC CƠ SỞ

Bài toán dự báo liên kết mới

Định nghĩa 1

Một mạng đồng tác giả ký hiệu là G (T)

= (V (T) ,

E (T) , P (T) , T), trong đó T = {t 1 , t 2 , , t K } là tập

các mốc thời gian liên tiếp (t i < t j , i< j =

1 K), V (T) = {v 1 , v 2 , ,v N } là một tập các nút

(tác giả), P (T)

={p 1 , p 2 , ,p M } là tập các bài báo

và E (T) ={(v i , v j , p h , t h ): v i , v j V (T) , v i ≠ v j , p h

P (T) và t hT} là tập các liên kết K, N và M

tương ứng là số mốc thời gian, số tác giả và

số bài báo

Chúng tôi minh họa định nghĩa 1 thông qua

một ví dụ về mạng đồng tác giả được biểu

diễn trên hình 1 Trong ví dụ này, mạng đồng

tác giả bao gồm 8 tác giả (N = 8), và 10 bài

báo (M =10) và các bài báo được xuất bản từ

năm 2000 đến năm 2002 (K = 3) Tổng số

liên kết (cộng tác) là 22

Bài toán dự báo liên kết mới (cộng tác), tức là

dự báo những cặp tác giả mà chưa từng cộng

tác trong quá khứ có cộng tác với nhau trong

tương lai hay không Ví dụ quan sát trên hình

1 chúng ta có thể thấy hai cặp tác giả (5, 6) và

(5, 8) không có cộng tác trong các năm 2000

đến 2002, vậy liệu họ có cộng tác trong

những năm tiếp theo hay không?

Các độ tương tự theo trọng số liên kết

Độ tương tự theo trọng số liên kết được tính toán bởi xem xét bởi mức độ liên kết giữa hai đỉnh trong mạng đồng tác giả, ở đây (u, v)

ký hiệu là mức độ liên kết giữa hai nút u và v

Định nghĩa 2 (Weighted Common

Neighbours: WCN) [8]

( , )

2

WCN

(1)

Định nghĩa 3 (Weighted Adamic–Adar:

WAA) [8]

'

( )

( , )

WAA

SIM u v

u z v z

 



Định nghĩa 4 (Weighted Jaccard Coefficient:

WJC) [9]

( ) ( )

( , ) ( , ) ( , ) 2 ( , ) ( , )

WJC

z u v

SIM u v

 

 

(3)

Trong mạng đồng tác giả, mức độ liên kết giữa hai nút u, v (ký hiệu (u, v)) có thể được xác định theo ba cách sau:

a) Cách 1

Mức độ liên kết giữa hai tác giả u, v được xác định thông qua số bài báo mà hai tác giả này

đã viết chung Công thức này được đề xuất bởi Murata and Moriyasu [8] như sau :

_ er ( , )u v n coauthor pap

b) Cách 2

Trong [10], mức độ liên kết giữa hai tác giả được tính bằng tổng trọng số tương ứng với mỗi bài báo được viết chung bởi hai tác giả:

1

( , )

1

i i P

u v

i i

u v n

 

Trong đó, i

u

 sẽ bằng 1 nếu tác giả u có tham gia viết bài báo thứ i, và bằng 0 nếu ngược lại, và ni là số tác giả trong bài báo thứ i

c) Cách 3

Trong [11], trọng số giữa hai tác giả được tính dựa trên vị trí của các tác giả trong bài báo và thời gian mà bài báo được xuất bản Xét hai

7

5

2

3

6

1

4

8

Hình 1 Minh họa mạng đồng tác giả

Trang 3

tác giả u, v trong danh sách các tác giả xuất

hiện trong một bài báo, và vị trí tương ứng của

hai tác giả là du và dv Giả sử du > dv và trong

bài báo có nhiều hơn một tác giả Khi đó, mức

độ liên kết giữa hai tác giả u, v (DCL (u,v))

trong bài báo được tính theo công thức sau

1 1

if 3

1 2

( , ) if 3, 3

2 2

if 3

v

u v

u v

u

u v

d

d d

d

d d





(6)

Giả sử hai tác giả u và v viết chung P bài báo

Khi đó mức độ liên kết giữa hai tác giả được

tính theo công thức (7):

1

P

p p

p

Trong đó, p

u

d là vị trí của tác giả u trong bài báo

thứ p, tp là thời gian mà bài báo thứ p được phản

biện hoặc chấp nhận đăng và 0

0

( )p p

c

t t

k t

t t

 , với t0 là thời gian đầu tiên mà hai tác giả này đã

cộng tác, tc là thời gian hiện tại

PHƯƠNG PHÁP ĐỀ XUẤT

Trong phần này, phương pháp phân cụm bán

giám sát mờ áp dụng cho bài toán dự báo liên

kết trong mạng đồng tác giả được trình bày

Hình 2 mô tả sơ đồ của mô hình dự báo liên

kết trong mạng đồng tác giả (SSSFCRC) dựa

trên thuật toán phân cụm bán giám sát Cụ thể

các bước thực hiện như sau:

Bước 1: Từ dữ liệu ban đầu thu thập trong

mạng đồng tác giả, xác định độ tương tự trong

số liên kết trong mạng đồng tác giả theo công

thức trình bày ở phần Các độ tương tự theo

trọng số liên kết

Bước 2: Dữ liệu ban đầu được chia thành 2

phần: dữ liệu huấn luyện (training) và dữ liệu

kiểm tra (testing) Trong đó, dữ liệu training

là các số liệu của thông tin trong mạng tác giả

ở thời điểm hiện tại và quá khứ Khi đó quan

hệ giữa các tác giả trong dữ liệu training được

xác định có là đồng tác giả với nhau hay

không (hoàn toàn biết được nhãn của các liên kết) Dữ liệu testing là các số liệu của thông tin trong mạng tác giả ở thời điểm tương lai cần dự báo

Hình 2 Sơ đồ mô hình dự báo liên kết trong mạng

đồng tác giả

Bước 3: Mỗi loại nhãn của training ta xác

định trung bình cộng của các liên kết để xác định làm tâm các cụm cho từng nhãn của training Các tâm cụm xác định trong quá trình training được kết hợp với dữ liệu testing

để xác định ma trận độ thuộc bổ trợ Với ma trận thông tin bổ trợ giữa các liên kết với tâm các cụm của từng nhãn được xác định ở training được xác định: là khoảng cách Euclid

từ liên kết đó đến tâm cụm của nhãn trên tổng

số khoảng cách euclid từ liên kết đó đến tâm các cụm của nhãn

Bước 4: Thuật toán phân cụm bán giám sát

chuẩn SSSFC [12] với thông tin bổ trợ được xác định ở bước 3, thực hiện trên tập testing, với số cụm bằng 2 Khi đó phân cụm SSSFC xac định được ma trận độ thuộc của các cặp liên kết vào các cụm

Bước 5: Từ kết quả phân cụm đã xác định

được ma trận độ thuộc của các cặp liên kết Tại mỗi liên kết xác định cụm, dựa trên ma trận độ thuộc Dựa vào thông tin bổ trợ từ training xác định xem cụm nào thuộc về có liên kết, cụm nào thuộc về không liên kết

Data X và các tham số

Training, nhãn của training Xác định độ tương tự trọng số liên kết

Xác định tâm cụm theo các nhãn

Xác đinh thông tin bổ trợ Testing

Phân cụm bán giám sát mờ

Dự báo các cặp nút khả năng

liên kết

Trang 4

THỬ NGHIỆM VÀ ĐÁNH GIÁ

Mô tả dữ liệu

Dữ liệu thực nghiệm là một mạng đồng tác

giả được xây dựng từ tập các bài báo được

đăng trên tạp chí “Biophysical Journal” [13]

với một vài tiêu chuẩn cụ thể Tổng số bài báo

thu được là 7,529, tổng số tác giả là 21,151 và

tổng số liên kết là 68,706.Chia dữ liệu thành

hai phần theo thời gian: T1 (2006 - 2011) và

T2 (2012-2016) Có 4841 cặp tác giả ứng cử

(có ít nhất một tác giả cộng tác chung trong

T1) được lựa chọn với 192 (3.966 %) cặp tác

giả nhãn 1, số còn lại được gán nhãn 0 Do

mất cân bằng tỷ lệ nên 192 cặp tác giả mang

nhãn 0 được chọn ngẫu nhiên để hình thành

tập kiểm tra gồm 384 cặp tác giả (với tỷ lệ

nhãn 0 -1 bằng nhau)

Các độ đo được sử dụng bao gồm: Độ bao

phủ (recall), Độ chính xác (precision) và

F1-measurevà và độ lệch chuẩn của F1- Measure

(F1-STD) Áp dụng phương pháp kiểm định

10-fold, và kết quả cuối cùng được tính theo

trung bình của 10 fold Chúng tôi thực

nghiệm với ba độ tương tự trọng số liên kết

giữa hai tác giả (WCN, WAA, WJC) đã đề

cập trong phần 2.2

Các kết quả thực nghiệm

Kết quả thực nghiệm của lược đồ dự báo liên

kết trong mạng đồng tác giả sử dụng phân

cụm bán giám sát mờ với số cụm bằng 2 (khi

đó 1 cụm là các cặp nút có liên kết, 1 cụm là

các cặp nút không liên kết) Kết quả thực

nghiệm thu được với phương pháp SSSFCRC

so sánh với SVM [14] và Gboost [15] do đây

là phương pháp phân lớp tiêu biểu và đã được

nhiều nhà nghiên cứu sử dụng trong bài toán

dự báo liên kết trong mạng xã hội

Hình 3 Kết quả thực nghiệm với Rec

Hình 4 Kết quả thực nghiệm với Pre

Hình 5 Kết quả thực nghiệm với F1-Mea

Hình 6 Kết quả thực nghiệm với F1-STD

Từ kết quả thu được ở hình 3, hình 4, hình 5, hình 6 ta thấy với độ đo Recall thì phương pháp SSSFCRC tốt hơn 2 phương pháp SVM

và Gboost với cả 3 bộ dữ liệu, độ đo Precision thì Gboost tốt với 2 bộ dữ liệu và SVM tốt với 1 bộ dữ liệu, F1- Measure thì SSSFCRC tốt với 2 bộ dữ liệu và Gboost tốt với một bộ

dữ liệu Như vậy với tổng thể cả 3 độ đo với 3

bộ dữ liệu thì phương pháp SSSFCRC tốt hơn phương pháp SVM và phương pháp Gboost

Về độ ổn định F1-STD thì phương pháp SSSFCRC có độ ổn định nhất với 2 bộ dữ liệu, phương pháp SVM có độ ổn định nhất với một bộ dữ liệu

KẾT LUẬN Trong bài báo này, một mô hình dự báo liên kết trong mạng đồng tác giả sử dụng phân

Trang 5

cụm bán giám sát mờ được đề xuất Cùng với

sự phân tích về trình tự và ý nghĩa thực hiện,

mô hình được cài đặt trên các bộ dữ liệu với các

tham số khác nhau Kết quả thực nghiệm chỉ ra

rằng, mô hình đề xuất có kết quả phù hợp so với

phương pháp SVM và Gboost cho bài toán này

dựa trên các tiêu chí đánh giá cụ thể

Dựa trên kết quả nghiên cứu trong bài, trong

tương lai chúng tôi sẽ nghiên cứu tiếp để tìm

ra các bộ tham số phù hợp nhất Đồng thời có

sự cải tiến phù hợp và so sánh kết quả dự báo

với các phương pháp mạnh trong học máy

như: phân lớp dữ liệu, rừng ngẫu nhiên

(random forest)

TÀI LIỆU THAM KHẢO

1 Wu, Y., & Zhou, X (2015) Link prediction in

social networks: the state-of-the-art Science

China Information Sciences, 58(1), 1-38

2 Lu, Z., Savas, B., Tang, W., & Dhillon, I S

(2010) Supervised link prediction using multiple

sources In Data Mining (ICDM), 2010 IEEE 10th

International Conference on (pp 923-928) IEEE.

3 Al Hasan, M., & Zaki, M J (2011) A survey of

link prediction in social networks In Social network

data analytics (pp 243-275) Springer US.

4 Chuang, K S., Tzeng, H L., Chen, S., Wu, J.,

& Chen, T J (2006) Fuzzy c-means clustering

segmentation.computerized medical imaging and

graphics, 30(1), 9-15.

5 Agarwal, M., Agrawal, H., Jain, N., & Kumar,

M (2010) Face recognition using principle

network In Signal Acquisition and Processing,

2010 ICSAP'10 International Conference on (pp

310-314) IEEE.

6 Chen, J., Zhao, S., & Wang, H (2011) Risk

analysis of flood disaster based on fuzzy clustering

method Energy Procedia, 5, 1915-1919.

7 Martin, A., Gayathri, V., Saranya, G., Gayathri, P., & Venkatesan, P (2011) A hybrid model for bankruptcy prediction using genetic algorithm,

fuzzy c-means and MARS arXiv preprint arXiv:1103.2110.

8 Xia F, Chen Z, Wang W, Li J, Yang L T (2014) MVCWalker: Random Walk-Based Most Valuable Collaborators Recommendation Exploiting Academic Factors IEEE Transactions

on Emerging Topics in Computing 2(3):364-375

9 Bezděk, JC (1981) Pattern recognition Algorithms with fuzzy objective function Kluwer

Academic Publishers

10 Zhang, H., & Lu, J (2009) Semi-supervised fuzzy clustering: A kernel-based approach

Knowledge-Based Systems, 22 (6), 477-481

11 Yasunori, E., Yukihiro, H., Makito, Y., & Sadaaki, M (2009, August) On semi-supervised

fuzzy c-means clustering Print Fuzzy Systems,

2009 FUZZ-IEEE 2009 IEEE International Conference on (pp 1119-1124) IEEE

12 Yasunori, E., Yukihiro, H., Makito, Y., & Sadaaki, M (2009, August) On semi-supervised

fuzzy c-means clustering Print Fuzzy Systems,

2009 FUZZ-IEEE 2009 IEEE International Conference on (pp 1119-1124) IEEE

“https://www.journals.elsevier.com/biophysical-journal/”, Accessed on 10/07/2017

14 Corinna Cortes, Vladimir Vapnik (1995),

Support-vector networks, Machine Learning,

20(3), 273:297

15 Carlos Becker, Roberto Rigamonti, Vincent Lepetit, and Pascal Fua CVLab, Ecole Polytechnique F´ed´erale de Lausanne, Switzerland (2013), Supervised Feature Learning for Curvilinear Structure Segmentation,

International Conference on Medical Image Computing and Computer-Assisted Intervention,

526-533.

Trang 6

SUMMARY

USING SEMI-SUPERVISED FUZZY CLUSTERING METHOD IN CO-AUTHORSHIP LINK PREDICTION

Pham Minh Chuan 1,2* , Tran Dinh Khang 1 , Le Thanh Huong 1 ,

Tran Manh Tuan 3 , Le Hoang Son 4

1

Hanoi University of Science and Technology, 2 Hung Yen University of Technology and Education

3

Thuyloi University, 4 VNU University of Science, Vietnam National University

In this paper, we propose a new approach for link prediction in the co-authorship network using semi-supervised fuzzy clustering Link prediction aims to determine possible interaction between authors in the future based on existing links of a co-authorship network representing joint papers in

a specific research domain It is worthy remarked that authors who had joint or similar papers are likely to continue writing together Since the evaluation contains of both quantitative and qualitative information, fuzzy models in the forms of semi-supervised learning are used to judge the most similar authors to the considered one before making decision of interaction A new semi-supervised fuzzy clustering model on the authorship network datasets has been proposed Data labels in the training set are grouped to specify the clusters’ centers which are further used in the construction of an additional matrix for the semi-supervised fuzzy clustering The clustering algorithm produces a membership matrix of links in a cluster and final recommendation of outputs It

is implemented and compared against the relevant methods on the Biophysical Journal datasets It has been suggested that the results of the proposed method are better than those of the related ones

Keywords: Prediction, authorship network, semi-supervised clustering, validity index,

co-authorship link

Ngày nhận bài: 26/9/2017; Ngày phản biện: 29/9/2017; Ngày duyệt đăng: 30/11/2017

*

Tel: 0983 081120

Ngày đăng: 15/01/2021, 02:36

HÌNH ẢNH LIÊN QUAN

Hình 1. Minh họa mạng đồng tác giả - DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ
Hình 1. Minh họa mạng đồng tác giả (Trang 2)
Hình 2. Sơ đồ mô hình dự báo liên kết trong mạng đồng tác giả - DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ
Hình 2. Sơ đồ mô hình dự báo liên kết trong mạng đồng tác giả (Trang 3)
Hình 3. Kết quả thực nghiệm với Rec - DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ
Hình 3. Kết quả thực nghiệm với Rec (Trang 4)
Hình 4. Kết quả thực nghiệm với Pre - DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ
Hình 4. Kết quả thực nghiệm với Pre (Trang 4)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w