TÓM TẮT Bài toán trích chọn quan hệ hướng dẫn – hướng dẫn khoa học quan hệ giữa người cố vấn – người được hướng dẫn từ các công trình khoa học được công bố trên DBLP là bài toán thời sự
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Nguyên Cương
TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN – HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH ĐỒ THN XÁC SUẤT PHỤ THUỘC THỜI GIAN VÀ THỬ
NGHIỆM ĐÁNH GIÁ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2011
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Nguyên Cương
TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN – HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH
ĐỒ THN XÁC SUẤT PHỤ THUỘC THỜI GIAN VÀ
THỬ NGHIỆM ĐÁNH GIÁ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: TS Nguyễn Việt Cường
HÀ NỘI - 2011
Trang 3LỜI CẢM ƠN
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến các thầy giáo PGS.TS Hà Quang Thụy và TS.Nguyễn Việt Cường, những người đã tận tình hướng dẫn em suốt quá trình nghiên cứu khoa học và thực hiện khóa luận tốt nghiệp
Em xin chân thành cảm ơn các thầy, cô giáo đã giảng dạy em trong bốn năm học qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ là hành trang giúp
em vững bước trong tương lai
Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm KT-Sislab đã cho em những lời khuyên bổ ích về chuyên môn trong quá trình nghiên cứu Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận Em xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng
hộ khuyến khích em trong suốt quá trình học tập tại trường
Cuối cùng, em muốn được gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt là
ba mẹ và các chị - những người thân yêu luôn kịp thời động viện và giúp đỡ em vượt qua những khó khăn trong học tập cũng như trong cuộc sống
Hà Nội, ngày 19 tháng 05 năm 2011
Sinh viên
Phan Nguyên Cương
Trang 4TÓM TẮT
Bài toán trích chọn quan hệ hướng dẫn – hướng dẫn khoa học (quan hệ giữa người cố vấn – người được hướng dẫn) từ các công trình khoa học được công bố trên DBLP là bài toán thời sự có ý nghĩa, đặc biệt trong hệ thống tìm kiếm các chuyên gia khoa học, chẳng hạn như hệ thống Arnetminer của nhóm Knowledge Engineering Tsinghua University, China [11], AI Genealogy Project [10]… Khóa luận này trình bày và nghiên cứu về một phương pháp trích chọn quan hệ cố vấn – hướng dẫn dựa trên cơ sở lý thuyết đồ thị và xác suất
Trên cơ sở phân tích và tìm hiểu một số hướng tiếp cân bài toán về trích chọn quan hệ trên mạng thông tin, khóa luận áp dụng phương pháp trích chọn quan hệ dựa trên mô hình đồ thị xác suất phụ thuộc thời gian Dữ liệu trích chọn được trên miền dữ liệu DBLP, sẽ được lưu trữ trong cơ sở dữ liệu, tiến hành quá trình lọc và xử lý dữ liệu, tìm ra các cặp người cố vấn – người được hướng dẫn “tiềm năng”, từ đó làm dữ liệu đầu vào cho mô hình học dữ liệu để trích chọn ra được các cặp quan hệ Khóa luận đưa ra mô hình thử nghiệm dựa trên mô hình đồ thị xác suất phụ thuộc thời gian, tìm được các cặp “tiềm năng” Kết quả bước đầu cho thấy, mô hình là khả quan và có thể tiếp tục thực nghiệm các pha xử lý tiếp theo
Trang 5LỜI CAM ĐOAN
Em xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng em, dưới sự hướng dẫn của PTS.TS Hà Quang Thụy và TS Nguyễn Việt Cường, không sao chép từ các công trình nghiên cứu khác Em đã trích dẫn đầy đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan ở trong nước và quốc tế Nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của ĐHQH Hà Nội và Nhà trường
Hà Nội, ngày 19 tháng 5 năm 2011
Sinh viên
Phan Nguyên Cương
Trang 6MỤC LỤC
LỜI CẢM ƠN
TÓM TẮT
LỜI CAM ĐOAN
MỤC LỤC 6
Danh sách các bảng 8
Danh sách các hình vẽ 9
Danh sách các từ viết tắt 10
Mở đầu 1
Chương 1 Giới thiệu về quan hệ cố vấn – hướng dẫn khoa học 1
1.1 Trích chọn thông tin từ cộng đồng Web 1
1.2 Phát hiện cộng đồng 3
1.3 Quan hệ cố vấn – hướng dẫn khoa học 4
1.3.1 Động lực và mục đích 4
1.3.2 Phát biểu bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học 6 Chương 2 Một số hướng tiếp cận bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học 8
2.1 Xếp hạng dựa trên phân tích chỉ dẫn khoa học 8
2.2 Học tự động mối quan hệ tác giả từ cơ sở dữ liệu mục lục 11
2.3 Dự báo mối quan hệ đồng tác giả 14
2.4 Mô hình đồ thị xác suất phụ thuộc thời gian TPFG 16
2.4.1 Một số định nghĩa và công thức 16
2.4.2 Một số giả thiết ràng buộc 20
2.5 Mô hình xử lý 22
2.6 Học mô hình 27
Chương 3 Mô hình thực nghiệm 32
Trang 73.1 Đặc trưng của DBLP Computer Science Bibliography Database 32
3.2 Mô hình thực nghiệm dựa trên mô hình đồ thị xác suất phụ thuộc thời gian 34 3.2.1 Phát biểu bài toán 34
3.2.2 Xây dựng tập dữ liệu học 35
3.2.3 Mô hình thực nghiệm 36
Chương 4 Thực nghiệm và đánh giá kết quả 40
4.1 Môi trường thực nghiệm 40
4.1.1 Cấu hình phần cứng 40
4.1.2 Công cụ phần mềm 40
4.2 Dữ liệu thực nghiệm 41
4.3 Thực nghiệm 41
4.4 Đánh giá kết quả 52
4.5 Nhận xét 53
Tài liệu tham khảo 55
Trang 8Danh sách các bảng
Bảng 2-1: Thuật toán suy diễn TPFG 31
Bảng 3-1: Cấu trúc một bản ghi trong dblp.xml 36
Bảng 4-1: Cấu hình phần cứng 40
Bảng 4-2: Công cụ phần mềm 40
Bảng 4-3 Phân tích bản ghi trong dblp.xml 42
Bảng 4-4: Bảng các thực thể 44
Bảng 4-6: Bảng kết quả 50
Bảng 4-7: Kết quả một số cặp quan hệ “tiềm năng” 52
Trang 9Danh sách các hình vẽ
Hình 1: Hệ thống Arnetminer 5
Hình 2: Mô tả bài toán 6
Hình 3: Kiến trúc hệ thống 9
Hình 4: Mô hình tổng quát 12
Hình 5: Ví dụ về đường liên kết giữa hai tác giả 15
Hình 6: Minh họa đồ thị chuyển đổi 19
Hình 7: Minh họa đồ thị xác suất phụ thuộc thời gian 26
Hình 8: Sơ đồ truyền thông điệp ở hai pha 28
Hình 10: Thông tin trên trang DBLP 33
Hình 11: Quá trình xây dựng tập dữ liệu học 35
Hình 12: Mô hình thực nghiệm 37
Hình 13: ParserDBLP Package 42
Hình 14: Sơ đồ biểu diễn mối quan hệ thực thể 47
Hình 15: Kết quả truy vấn 48
Hình 16: Kết quả thực thi con trỏ 49
Trang 10Danh sách các từ viết tắt
CRFs Conditional Random Fields
DAG Directed Acyclic Graph
DBLP Digital Bibliography & Library Project
EM Expectation Maximization
TPFG Time-constrained Probabilistic Factor Graph
Trang 111
Mở đầu
Ngày nay, sự phát triển mạnh mẽ của Internet và các mạng xã hội đã dẫn đến sự bùng nổ thông tin về nhiều mặt kể cả nội dung lẫn số lượng Mạng xã hội chứa đựng nhiều thông tin phong phú về mối quan hệ giữa người hoặc các thực thể với nhau Tuy nhiên, nhiều tri thức trong đó lại thường Nn giấu bên trong mạng Trong tìm kiếm tri thức, con người thường quan tâm tới cách thức mà người làm nghiên cứu có thể kết nối đến với những người khác và làm thế nào mà nghiên cứu cộng đồng có thể được hình thành từ nghiên cứu cá nhân? Khai phá mối quan hệ cố vấn – hướng dẫn giúp chúng ta giải quyết những câu hỏi đó
Khai phá quan hệ cố vấn – được hướng dẫn từ các công trình khoa học được công bố trên DBLP là bài toán thời sự, có ý nghĩa Tìm hiểu mối quan hệ này mang lai nhiều lợi ích và nhiều ứng dụng như để tìm kiếm chuyên gia khoa học và khám phá cộng đồng Có nhiều dự án nghiên cứu được hình thành để duy trì và phát triển hướng nghiên cứu này như hệ thống Arnetminer [11], The Mathematics Genealogy Project [12], the Computer Engineering Academic Genealogy, the AI Genealogy Project [8], the Software Engineering Academic Genealogy Gần đây, Chi Wang và các cộng sự (2010) [4] đề xuất mô hình trích chọn quan hệ cố vấn – được hướng dẫn dựa trên đồ thị xác suất phụ thuộc thời gian trên miền dữ liệu DBLP Kết quả thực nghiệm bước đầu cho thấy mô hình là khả quan và có khả năng xây dựng và thực nghiệm các bước
xử lý tiếp theo
Nội dung của khóa luận được bố cục gồm có 4 chương:
Chương 1: Giới thiệu khái quát về bài toán trích chọn quan hệ cố vấn – hướng
dẫn khoa học
Chương 2: Giới thiệu các hướng tiếp cận giải quyết bài toán trích chọn quan hệ
giữa các thực thể trong mạng cộng tác Chương này tập trung vào việc giới thiệu mô hình đồ thị xác suất phụ thuộc thời gian do Chi Wang và cộng sự (2010) [4] đề xuất Đây là cơ sở phương pháp luận quan trọng để khóa luận đưa ra mô hình thực nghiệm một phần mô hình hệ thống được các tác giả xây dựng
Chương 3: Khóa luận xây dựng mô hình thực nghiệm, trích chọn quan hê dựa
vào nghiên cứu của Chi Wang và cộng sự (2010) [4] đồ thị xác suất phụ thuộc thời gian để giải quyết bài toán này Chúng tôi sẽ tiến hành xây dựng mô hình thực nghiệm dựa trên phương pháp trích chọn quan hệ hướng dẫn – được hướng dẫn của các tác giả
Trang 122
Chương 4: Tiến thành thực nghiệm một phần của mô hình, đánh giá kết quả
Tiến hành thực nghiệm việc xây dựng tập dữ liệu học, đánh giá kết quả trích chọn
Phần kết luận và định hướng phát triển khóa luận: Tóm tắt những nội dung
chính đạt được của khóa luận đồng thời chỉ ra những điểm cần khắc phục và đưa ra những định hướng nghiên cứu trong thời gian sắp tới
Trang 131
Chương 1 Giới thiệu về quan hệ cố vấn – hướng dẫn
khoa học
1.1 Trích chọn thông tin từ cộng đồng Web
Nghiên cứu các tính chất và trích chọn những thông tin quan trọng từ các cộng đồng trực tuyến như từ các diễn đàn (forums), blogs, mạng tin nhắn nhanh, mạng xã hội trực tuyến (online social networks) là một trong những hướng thu hút được sự chú ý của cộng đồng khai phá Web hiện nay [1] Thông tin tiềm Nn từ các cộng đồng này rất đa dạng, có
sự phối hợp và góp sức của hàng ngàn, thậm chí hàng triệu thành viên, và do đó nếu nắm bắt được những thông tin này, có thể hiểu được xu hướng, thị hiếu, quan điểm của người dùng Web và theo đó sẽ có những điều chỉnh, cải tiến kịp thời để đáp ứng nhu cầu của người dùng Web Ví dụ, từ những nhận xét đánh giá các mặt hàng, các sản phNm mới của người tiêu dùng được đăng tải trên một diễn đàn hay blog nào đó có thể giúp ta trích chọn được những ý kiến, để từ đó biết được mức độ chấp nhận và thỏa mãn của khách hàng Những thông tin liên quan đến các cộng đồng người sử dụng trên diễn đàn, blogs, mạng xã hội (Facebook, Twitter, MySpace,…) đều chứa một lượng hàm tri thức cộng đồng cao Trích chọn, tổng hợp và tìm ra được những thông tin hữu ích trên đó, giúp nắm bắt được cả những thông tin, tri thức cụ thể và những xu hướng chung của thế giới trực tuyến
Mạng xã hội là mạng của một nhóm người hoạt động và các mối quan hệ gắn kết họ với nhau Những người hoạt động trong mạng có thể là những cá nhân hoặc tập thể Những người này trao đổi tài nguyên với nhau và chính điều đó gắn kết họ với nhau trọng một mạng xã hội Tài nguyên ở đây bao gồm dữ liệu, thông tin, sản phNm, các dịch vụ hỗ trợ… Mỗi tài nguyên đem trao đổi được xem như là mỗi liên kết trong mạng xã hội và những cá nhân duy trì mối quan hệ này tương ứng với việc duy trì một cung Sức bền của cung này phụ thuộc vào mức độ trao đổi thường xuyên của các các nhân trong mạng xã hội
Trang 142
Các mối quan hệ trao đổi thường được tiến hành trong một số lượng người lựa chọn nhất định Nhừng nhà phân tích trong lĩnh vực mạng dựa vào các quan hệ giữa các thành viên của một cộng đồng, các hàng xóm, một nhóm hoặc một lớp để hiểu cách thức các mạng xác định tổng số người hay các nhóm nhỏ bên trong một mạng lớn Cách thức mà một người kết nối với một người khác thể hiện cấu trúc nền tảng của mạng, bao gồm những người thuộc và không thuộc vào một mạng và trong các kiểu trao đổi nào để xác định một mạng Mạng này được duy trì bởi sự trao đổi của các tài nguyên đơn lẻ hay rất nhiều tài nguyên lớn tương ứng với các nút mạnh hay yếu Ví dụ, các nhà phân tích có thể
dò tìm sự trao đổi thông tin về công việc của những người quen biết nhưng không mấy thân thiện, mối quan hệ trong dòng tộc hoặc mối quan hệ giữa những người công nhân Các mạng xã hội được lần dấu bởi những sự chuyển đổi này chỉ ra cách các nguồn tài nguyên di chuyển trong một mạng, cách mà các tác nhân xác định vị trí để tác động nguồn tài nguyên trao đổi và các kiểu tài nguyên trao đổi rất quan trọng trong môi trường khác nhau
Sự nghiên cứu về mạng xã hội của các nhà khoa học đã thu nhận được nhiều phát minh khoa học mới về mạng xã hội trong nhiều thập kỷ qua, được mô hình và phân tích bằng các công cụ của lý thuyết đồ thị Qua những nghiên cứu đó, người ta đã chứng minh được mạng xã hội thực tiễn có xu hướng cấu trúc của mạng bất ngẫu nhiên
Trang 153
1.2 Phát hiện cộng đồng
Việc phát hiện cộng đồng có rất nhiều ứng dụng cụ thể Ví dụ như phân cụm các Web client có sở thích tương tự nhau và gần nhau về mặt địa lý có thể cải thiện hiệu suất của việc cung cấp dịch vụ trên World Wide Web, trong đó mỗi cụm khách hàng được phục vụ bởi một server chuyên dụng Hay việc nhóm thành cụm các nút trong mạng lưới giao thông có thể giúp ích trong việc xây dựng các bảng định tuyến nhỏ gọn giúp ích trong việc tham gia giao thông thuận tiện
Ngoài ra, việc phát hiện cộng đồng có ý nghĩa rất quan trọng vì một lý do khác Việc xác định các môđun và ranh giới của chúng cho phép ta phân lớp các đỉnh dựa trên cấu trúc vị trí của chúng trong môđun Từ đó, các đỉnh ở vị trí trung tâm trong môđun của chúng (có nhiều kết nối cạnh đến các đỉnh khác trong môđun) có thể đóng vai trò quan trọng trong việc điều khiển và giữ ổn định trong cụm Mặt khác, các đỉnh ở vùng biên có thể giữ vai trò quan trọng trong việc dẫn dắt mối quan hệ và giao lưu giữa các cụm khác nhau trong mạng Các phân lớp như thế mang ý nghĩa nhất định trong việc nghiên cứu mạng xã hội Cuối cùng, ta có thể nghiên cứu về đồ thị rút gọn, trong đó các đỉnh là các cụm và các cạnh là các liên kết giữa các cụm trong đồ thị ban đầu (nếu có) từ đó ta thu được một đồ thị biểu diễn mối quan hệ của các môđun trong mạng
Trang 16hỗ trợ của các kỹ thuật khai phá liên kết (link mining), con người có thể trích xuất được rất nhiều thông tin ngữ nghĩa quan trọng và hữu ích
Trong khóa luận này, chúng tôi tập trung khai thác quan hệ cố vấn – được hướng dẫn khoa học giữa những người là đồng tác giả từ các công trình khoa học được công bố trên DBLP Mạng cộng tác là một đồ thị được tạo thành với các nút là những những người tham gia nghiên cứu, và các cạnh biểu diễn sự cộng tác giữa họ [4]
Nếu như chúng ta biết được quan hệ cố vấn – được hướng dẫn giữa những người đồng nghiên cứu, có thể dễ dàng nhận biết được sự khác nhau giữa những người làm nghiên cứu và trong cộng đồng, một chủ đề nghiên cứu đã được tạo ra và hướng phát triển như thế nào, và một người nghiên cứu thì có vai trò và ảnh hưởng như thế nào trong một cộng đồng nghiên cứu
Tuy nhiên, thực tế là nhiều thông tin (nhiều loại quan hệ) thường Nn trong mạng thông tin bởi nhiều lý do Mạng thông tin chứa đựng nhiều thông tin phong phú về mối quan hệ giữa người hoặc các thực thể với nhau Ví dụ quan hệ cố vấn – được hướng dẫn
là Nn trong mạng tập hợp các tác giả [4], quan hệ gia đình thường Nn trong mạng quan hệ bạn bè (trên Twitter hay Facebook) Tìm hiểu mối quan hệ này mang lai nhiều lợi ích và nhiều ứng dụng như để tìm kiếm chuyên gia trong nghiên cứu khoa học và khám phá cộng đồng
Trong tìm kiếm tri thức, con người thường quan tâm tới cách thức mà người làm nghiên cứu có thể kết nối đến với những người khác và làm thế nào mà nghiên cứu cộng đồng có thể được hình thành từ nghiên cứu cá nhân? Khai phá mối quan hệ cố vấn – được hướng dẫn giúp chúng ta giải quyết những câu hỏi đó
Trang 175
Bài toán trích chọn quan hệ cố vấn – được hướng dẫn đề cập tới bài toán phát hiện quan hệ giữa các đồng tác giả từ các công trình khoa học được công bố trên DBLP Đây
là bài toán thời sự có ý nghĩa, đặc biệt trong các hệ thống tìm kiếm chuyên gia khoa học
Có nhiều dự án và nghiên cứu đã được hình thành để duy trì và phát triển hướng nghiên cứu này: The Mathematics Genealogy Project [12], the Computer Engineering Academic Genealogy, the AI Genealogy Project [10], the Software Engineering Academic Genealogy, hệ thống Arnetminer của nhóm Knowledge Engineering Tsinghua University, China [11]…
Hình 1: Hệ thống Arnetminer [11]
Tuy nhiên, những hệ thống này chỉ dựa vào việc thu thập dữ liệu phả hệ thủ công để cập nhật vào cơ sở dữ liệu Bởi vậy, cần phát triển kỹ thuật phân tích để có thể trích chọn
tự động được mối quan hệ này từ nguồn dữ liệu trên mạng
Bằng cách tiếp cận theo cách khai phá đồ thị, với các đặc trưng của nút và liên kết giữa các cạnh đóng vai trò trung tâm Chúng ta có thể đánh giá được độ quan trọng cỉa một nút hay các nút kề nó Hơn nữa, có thể xếp hạng và gom cụm dựa trên các liên kết
Trang 181.3.2 Phát biểu bài toán trích
Bài toán trích chọn quan h
u mối quan hệ có những đặc điểm khác biệt v
ng thông tin trước đó, và nó có nhiều thách thức: [4]
quan hệ cố vấn – hướng d
ng tác Thường không có dấu hiệu rõ ràng nào để nhận bi
n trong số lượng lớn những người cộng tác
i gian: vai trò của xã hội giống như người cố v
n thì phục thuộc nhiều vào thời gian Không có dấkhi nào thì một người hướng dẫn chuyển thành m
ển: để tìm kiếm một người cố vấn không chcác đồng tác giả của của người đó Các mạng thông ti
ớn (theo hàm mũ) Vấn đề đặt ra quan trọng là ph
ng pháp có thể thích hợp được với dữ liệu có qui mô lớn
u bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa h
n quan hệ cố vấn – hướng dẫn khoa học của đưphát biểu:
ng tác, gồm tập các bài nghiên cứu được công bdanh sách bài báo _ tác giả, danh sách
các cặp quan hệ cố vấn – hướng dẫn tiềm năng và s
m xếp hạng, , là khoảng thời gian hướng d
Hình 2: Mô tả bài toán [4]
ng dẫn
Trang 197
Ví dụ: Cạnh nối trực tiếp từ Bob tới Ada sẽ chỉ ra rằng, Ada được xem như là người
cố vấn của Bob, và mối quan hệ cố vấn – hướng dẫn khoa học được biểu diễn thông qua
vector (0.8, [1999, 2000]), điều này có nghĩa là Ada là người hướng dẫn của Bob trong
khoảng thời gian từ năm 1999 đến năm 2000 Số điểm đánh giá cho cặp quan hệ này là 0.8 Các kết quả như thế mang lại nhiều lợi ích và có nhiều ứng dụng trong phát hiện cộng đồng và phát triển các nghiên cứu
Tóm tắt chương 1
Trong chương này, khóa luận đã giới thiệu khái quát một số nội dung liên quan và trình bày về động cơ và mục đích của bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học Trong chương tiếp theo, khóa luận sẽ tập trung làm rõ một số hướng tiếp cận về bài toán trích chọn quan hệ trên mạng cộng tác
Trang 208
Chương 2 Một số hướng tiếp cận bài toán trích chọn
quan hệ cố vấn – hướng dẫn khoa học
Nghiên cứu quan hệ cố vấn – được hướng dẫn khác với những nghiên cứu trước đó trong khai phá quan hệ và học quan hệ Trong khai phá quan hệ thì những nghiên cứu là tập trung vào các khai phá text và các kỹ thuật xử lý ngôn ngữ tự nhiên trên dữ liệu text
và các dữ liệu có cấu trúc, bao gồm các trang webs, hồ sơ người dùng và ngữ liệu văn học Còn học quan hệ thì nghiên cứu đề cập tới việc phân loại các các đối tượng hay thực thể được biểu diễn trong các quan hệ nhiều ngôi [7]
Trong chương này, chúng tôi giới thiệu một số hướng tiếp cận bài toán trích chọn quan hệ trong mạng cộng tác
2.1 Xếp hạng dựa trên phân tích chỉ dẫn khoa học
Hàng năm các ủy ban trong cộng đồng nghiên cứu khoa học đều đánh giá chất lượng của các ứng viên thông qua số lượng và chất lượng nghiên cứu đã được thực hiện Nghiên cứu của Ankur Chauhan [3] trình bày hệ thống để tổng hợp và đề xuất số liệu đáng tin cậy, dựa trên phân tích các chỉ dẫn và công bố để xếp hạng các ứng cử viên Sử dụng phương pháp trường ngẫu nhiên cho tách từ (CRFs) để trích xuất và phân loại các câu trích dẫn, sau đó dựa trên các nguồn tài nguyên web và tính phù hợp của các trích dẫn tham khảo đến chủ đề quan tâm Hệ thống sau đó so sánh nội dung được trích dẫn, đánh giá và xếp hạng dựa trên chuyên gia, kiểm tra độ tương quan của cả hai
Số lượng các bài nghiên cứu khoa học được công bố phát triển rất nhanh Hiển nhiên
là những người làm khoa học có thâm niên sẽ được công nhận và đánh giá độ tin cậy Điều này thu hút được quan tâm và đạt được nhiều sự tin cậy về chất lượng nghiên cứu của người đó trong cộng đồng nghiên cứu khoa học Một tập các ứng viên tiềm năng được đánh giá xếp hạng dựa trên các nghiên cứu khoa học được công bố và sự đồng dạng về ngôn ngữ học trong các lĩnh vực mà họ quan tâm
Trang 219
Có 3 nguồn dữ liệu mà các tác giả sử dụng:
• DBLP Computer Science Bibliography database
• Google Scholar
• CiteseerX
Hình 3: Kiến trúc hệ thống [3]
Trang 2210
• Pha đầu tiên là xử lý dữ liệu từ DBLP, sẽ cho phép người dùng tìm kiếm theo tên tác giả bằng cách truy vấn tới cơ sở dữ liệu và trích xuất được những thông tin của thực thể đó Thông tin trích chọn được sẽ được lưu trữ trong file
“small.xml” Điều này giúp giảm tải không gian tìm kiếm từ file cơ sở dữ liệu lớn của dblp
• Pha thứ hai, GRS-Fetch (Google scholar results fetcher), sẽ lấy thông tin về tiêu
đề của mối bài báo trong small.xml và tạo truy vấn tới google scholar và trích chọn được tiêu đề các trang kết quả và số lượng các trích dẫn liên quan
Sau đó sẽ tính toán chỉ số NGD (Nomarlized google distance) giữa hai từ hoặc cụm từ A và B:
(2.1)
trong đó M ước lượng kích thước trong chỉ số tìm kiếm của google
• Pha tiếp theo là phân tích các nội dung liên quan, là pha trích chọn đặc trưng của hệ thống và tính toán các thành phần chỉ số h-index, số lượng trích dẫn trung bình của mối bài báo… h –index được định nghĩa là: mỗi nhà khoa học
sẽ có chỉ số h nếu Np bài báo của người đó có ít nhất h trích dẫn và (Np – h ) bài báo có ≤ ℎ trích dẫn
• Cuối cùng là tính toán chỉ số xếp hạng cho mỗi ứng viên:
Trang 2311
2.2 Học tự động mối quan hệ tác giả từ cơ sở dữ liệu mục lục
Nghiên cứu của Akash Kushal [2] tiếp cận cách học tự động từ mối quan hệ giữa các tác giả trong cơ sở dữ liệu mục lục Xây dựng một mô hình xác suất để tiếp cận và mô hình hóa mối quan hệ này Thuật toán tính giá trị kỳ vọng tối ta (Expectation Maximization algorithm) được dùng như là tham số cho mô hình bài toán
Tập dữ liệu bao gồm 100 tiến sỹ của 10 người hướng dẫn khác nhau trong cộng đồng nghiên cứu khoa học được sử dụng để làm tập dữ liệu kiểm tra thực nghiệm mô hình Mục đích của mô hình không chỉ là để trích chọn mối quan hệ hướng dẫn – cố vấn giữa những tác giả mà còn được mở rộng mô hình cho những người có sự cộng tác
Xây dựng một đồ thị với các đỉnh là các tác giả, và thêm vào mỗi cạnh là một đường nối trực tiếp từ người được hướng dẫn tới người cố vấn của họ Cây như thế sẽ được gọi
là cây phả hệ nghiên cứu và tương tự như cây phả hệ được xét dưới môi quan hệ cha – con Một người là cố vấn sẽ có thời gian làm khoa học dài hơn người hướng dẫn
Có nhiều hệ thống được xây dựng và phát triển bài toán này, chẳng hạn như hệ thống Mathematics Genealogy Project [9], the AI Genealogy Project [8]… Tuy nhiên, khác với những nghiên cứu này mới chỉ dựa vào việc thu thập dữ liệu một cách thủ công, cách tiếp cận này dựa vào việc tìm kiếm và trích chọn thông tin dựa trên khai phá dữ liệu mục lục Các tác giả sử dụng thuật toán EM (tính giá trị kỳ vọng cực đại) để học mô hình
áp dụng cho bài toán này
.&'(: người hướng dẫn của A
)*+&,+: năm mà A bắt đầu nghiên cứu
)-,&': năm từ khi A tốt nghiệp vào nhóm của người nghiên cứu
./0' : năm mà A dừng tham gia nghiên cứu
Trong khoảng thời gian từ )*+&,+ đ 2 ./0',mỗi tác giả có thể có nhiều bài báo được công bố
Tập các bài báo được ký hiệu là 3 = 45 5 5 5
đồng tác giả và công bố trong một năm
Trang 2412
Biểu diễn < là tập các biến Nn Các biến Nn bao gồm người hướng dẫn và các năm
)*+&,+, )-,&', ./0' Các biến có thể thấy được bao gồm các công bố ở trong DBLP
Hình 4: Mô hình tổng quát [2]
Generative Model có gồm hai thành phần:
• Mô hình trước
• Mô hình quan sát
Trang 2513
Trong đó: Phân phối xác suất kết hợp
thấy được là hình mẫu trong mô hình
Suy luận các biến n:
Bước suy luận sẽ xử lý việc tính toán giá trị phân phối xác suất trước :<, ?|⋀) cho mọi biến Nn H trong mô hình Trong nhiều trường hợp, giá trị phân phối trước < ∗ tương ứng với các gía trị của biến Nn Ước lượng < ∗:
< ∗ = DE max
Xác suất phân phối kết hợp là tích của giá trị
(2.5) Trong đó mô hình phân phối trước
trưng của thông tin liên nghiệm cần kết hợp với thông tin mẫu trong kỹ thuật Bayes
Trang 2614
2.3 Dự báo mối quan hệ đồng tác giả
Dự báo liên kết trong mạng là một chủ đề thu hút được nhiều sự quan tâm nghiên cứu, nhất là trong thời kỳ phát triển nhanh của mạng xã hội trực tuyến Nhiều nghiên cứu
về dự đoán liên kết được đề xuất trong mạng đồng nhất, nhưng chỉ là dành cho một loại đối tượng tồn tại trong mạng đó Ví dụ, mạng bao gồm mối quan hệ bạn bè và mạng đồng tác giả Những nghiên cứu gần đây tập trung vào việc các vấn đề của dự báo liên kết trong mạng chứa nhiều loại khác biệt của giá trị thuộc tính có quan hệ với các đối tượng khác Tuy nhiên, trong thế giới khách quan, các mối quan hệ và các thuộc tính của đối tượng là phức tạp, và khó có thể biểu diễn được đầy đủ Bởi vậy, Yizhou và cộng sự [9] sử dụng đặc trưng topological giữa các thực thể trong mạng phức hợp để dự đoán những mối quan
hệ đó
Mạng cộng tác thư mục được xem xét có chứa nhiều loại đối tượng như: author, paper, topics…, cũng như nhiều loại liên kết giữa các thực thể đó như “write” hay “write by” giữa “author” và “paper”; “cite” và “cite by” giữa giữa “paper” và “paper” Trong pha
dự báo liên kết, đường liên kết giữa hai thực thể đóng vai trò rất quan trọng trong việc sinh ra đặc trưng hình học topo
Ví dụ:
Đường liên kết giữa hai tác giả: “Jim” và “Mike” có thể là: “Jim – P 5 – SIGMOD – P 6 – Mike” có nghĩa là: Jim và Mike liên kết với nhau bởi hai bài báo được công bố (P5
và P6) ở hội nghị “SIGMOD” Ngoài ra còn có thể kết nối thông qua một đồng tác giả:
“Jum – P 1 – Ann – P 3 – Mike”.
Có thể thấy các loại thông tin được kết nối với các đối lượng và các liên kết làm cho cấu trúc của topo mạng trở nên phức tạp và giàu ngữ nghĩa hơn
Trang 2715
Hình 5: Ví dụ về đường liên kết giữa hai tác giả [9]
Sử dụng phương pháp học giám sát để tìm được mối liên kết với mỗi các đặc trưng của hình học topo Thực nghiệm chỉ ra rằng, bằng cách làm giàu nhữ nghĩa của các đặc trưng trong topological phức hợp, độ chính xác của dự báo liên kết ngày càng tăng
Mô hình dự báo quan hệ mà trong đó, mô hình xác suất của hai đồng tác giả được xem như là hàm đặc trưng topological giữa họ Bắt đầu từ tập dữ liệu huấn luyện của các tác giả, trích chọn ra đặc trưng topological giữa chúng, sau đó xây dựng mô hình để tìm các trọng số có quan hệ với những đặc trưng đó
Với mối cặp dữ liệu huấn luyện DJK, DJL J là vector có (d+1) chiều, bao gồm 1 và d đặc trưng topological giữa chúng, và J là nhãn cho khả năng trở thành đồng tác giả trong tương lai (.J
mà phân phối nhị thức với xác suất pi:
Trang 2816
2.4 Mô hình đồ thị xác suất phụ thuộc thời gian TPFG
Theo Chi Wang và cộng sự (2010) [4], xem xét vấn đề quan hệ hướng dẫn như là vấn đề về tính hạng xác suất Các tác giả giới thiệu và đề xuất mô hình đồ thị xác suất phụ thuộc thời gian (Time-constrained Probabilistic Factor Graph – TPFG) trong mạng cộng tác
Người hướng dẫn và thời gian hướng dẫn được mô hình hóa như xác suất kết hợp của các biến Nn là tác giả với ràng buộc về thời gian Thuận lợi của thuật toán là tối ưu hóa được xác suất kết hợp và thu được số điểm xếp hạng cho quá trình chuyển thông điệp trên mạng
Mục này sẽ tập trung làm rõ một vài định nghĩa, công thức, ký hiệu áp dụng trong
mô hình và kèm theo đó là một vài giả thiết ràng buộc để phục vụ cho việc xử lý về sau
Trang 29giả của 2,3,4 bài báo trong lần lượt các năm 1999, 2000 và 2001
Tương tự như thế, hai vector pyi và pni lần lượt biểu diễn năm công bố và số lượng bài báo công bố trong năm đó của tác giả ai Hai vector pyi và pni có thể nhận được từ pyij
và pnij
Giả sử tác giả DJ có người hướng dẫn DTO, trong đó J là một biến Nn Nếu DJ được hướng dẫn bởi D`, sử dụng J`, J` để ký hiệu khoảng thời gian hướng dẫn Nếu ai không được hướng dẫn bởi bất kỳ người nào, đặt J = 0 và người hướng dẫn trực tiếp của DJ là nút ảo a0
Trang 3018
Để tìm mối quan hệ người cố vấn – người được hướng dẫn, không những chỉ quyết định giá trị cho biến Nn J cho mỗi tác giả ai mà còn phải đánh giá và ước lượng thời gian bắt đầu JTO và thời gian kết thúc JTO Tuy nhiên, việc đánh giá này gặp một
số khó khăn như: mục đích tìm kiếm là để tìm ra được những người hướng dẫn là tiến sỹ, nhưng thực tế, đây là vấn đề phức tạp hơn tìm kiếm một người người cố vấn tiến sỹ trong
số những người đồng tác giả bởi vì: có nhiều người hướng dẫn giống như là người tổng cố vấn, đồng hướng dẫn tiến sỹ… Ngoài ra, một người hướng dẫn có thể không xuất hiện trong cơ sở dữ liệu
Bởi vậy, Chi Wang và cộng sự (2010) [4] chọn một mô hình xác suất để xếp hạng
và đánh giá hàm likelihood cho các người hướng dẫn tiềm năng của mối tác giả Biểu diễn J` là xác suất mà aj trở thành người hướng dẫn của ai Giảm bớt số lượng các tác giả được đánh giá xếp hạng, mang lại nhiều lợi ích để giữ lại những cặp cố vấn – hướng dẫn tiềm năng
Xây dựng H’
Các tác giả xây dựng một đồ thị con <b ⊂ ′ bằng cách loại bỏ đi một vài cạnh từ
đồ thị G’ và giữ lại những cạnh liên kết trực tiếp từ người được hướng dẫn tới người cố vấn “tiềm năng” của họ Do đó, <′ = ?b, Zb
* Fà Zb
* ⊂ Zb
đồ thị phi chu trình H’ (DAG _ Directed Acyclic Graph) từ G’
Trong đồ thị H’, tập chỉ số của những người hướng dẫn tiềm năng của tác giả aiđược định nghĩa là tJ = Vj|J` ∈ Z′*} (ví dụ Y3 = {0, 1} Tương ứng là tập những người được hướng dẫn tiềm năng được định nghĩa là tJUK= Vj|`J ∈ Z′*}
Trang 3119
Quá trình chuyển đổi được mô tả ở hình bên dưới:
Hình 6: Minh họa đồ thị chuyển đổi [4]
Sau khi tạo được đồ thị H, số điểm xếp hạng có thể được dự đoán ở những quan hệ người cố vấn – người được hướng dẫn giữa những người đồng tác giả DJ, D`
Một cách đơn giản để dự đoán là sẽ lấy ra top k người hướng dẫn tiềm năng nhất của ai và kiểm tra những nơi mà aj là một trong những số đó thỏa mãn J` > Jf hoặc
J` > z với T là ngưỡng xấp xỉ 0,5 Sử dụng P@(k, 0) để biểu diễn phương pháp này
Trang 32Giả thiết này cho biết tại thời điểm (t) trong khoảng thời gian x công bố bài báo, x
có thể là người được hướng dẫn hoặc không được hướng dẫn
Mỗi khi x bắt đầu hướng dẫn cho một người khác thì sẽ không bao giờ hướng dẫn lại, tức là x không thể hướng dẫn y tại năm t1 nếu x đang hướng dẫn bởi p tại thời thời điểm t1
Nếu x hướng dẫn y, tại thời điểm y được hướng dẫn bởi x là khoảng thời gian [t1 –
Giả thiết thứ nhất là một ràng buộc về thời gian quan trọng để xác định sự tương quan giữa một người cố vấn và người hướng dẫn của người láng giềng
Ví dụ: Xét a4 là đồng tác giả hai bài công bố với a3 Tuy nhiên, a3 có khả năng cao
để trở thành người được hướng dẫn bởi a1 trong năm 2001, trong khi a4 mới bắt đầu cộng tác với a3, cho nên a3 không hướng dẫn a4 trong thời gian đó Như thế ta sẽ có a1 có khả năng là người hướng dẫn của a3, còn a3 không hướng dẫn a4 mà chỉ là người cộng tác với
a4
Giả thiết thứ hai sẽ quyết định tất cả các tác giả trong mạng có được thứ tự định nghĩa bởi mối quan hệ hướng dẫn xảy ra Điều này làm cho việc kiểm tra tính không đối xứng dễ dàng hơn Với tính bắc cầu, nếu a1 → a3 có khả năng là một cặp người cố vấn – hướng dẫn, và bởi vậy, a3 → a5 và tiếp đó là a1 → a5 cũng có khả năng là cặp quan hệ hướng dẫn – cố vấn, trong khi a5 → a1 thì không phải là một cặp quan hệ
Trang 3321
Theo thứ tự như thế, đồ thị ứng viên H’ được đảm bảo đúng là đồ thị phi chu trình
(DAG – Directed Acyclic Graph) Đồ thị phi chu trình là đồ thị có hướng và không có
chu trình (không có các vòng kín), được tạo thành bởi tập các đỉnh và các cạnh, mỗi cạnh nối với một đỉnh khác Như vậy, sẽ không có cách nào để bắt đầu từ một đỉnh v và đi theo trình tự của các cạnh mà cuối cùng lại quay trở lại v một lần nữa
Các giả thiết nêu trên sẽ được sử dụng trong quá trình xử lý về sau để tính giá trị hàm likelihood cho mối quan hệ tiềm năng, sử dụng một số tri thức nhận biết được từ các giả thiết Chi Wang (2010) [4] đề xuất hai pha xử lý để giải quyết vấn đề khai thác mối quan hệ hướng dẫn – cố vấn:
Trang 3422
2.5 Mô hình xử lý
Ở pha thứ 1: Sẽ tiến hành tiền xử lý mạng cộng tác phân cấp để sinh đồ thị ứng
viên H’ Bước này bao gồm quá trình chuyển đổi từ G sang mạng dồng nhất G’, xây dựng
từ G’ tới H’, và cuối cùng là ước lượng tính toán khả năng (likelihood) địa phương cho mỗi cạnh của H’ Sau đó, sẽ là dự đoán các quan hệ hướng dẫn dựa vào việc lựa chọn giá trị địa phương tối ưu
Ở pha thứ 2: Những mối quan hệ tiềm năng sẽ được mô hình xác suất Độ
likelihood (đo khả năng) địa phương và ràng buộc thời gian được kết hợp trong mô hình xác suất kết hợp với tất cả mọi biến Nn Giá trị xác suất kết hợp là tối đa và số điểm xếp hạng của các mối quan hệ tiềm năng sẽ được tính toán Quá trình xây dựng đồ thị H cũng kết thúc ở đây
a) Pha 1: Tiền xử lý
Mục đích là để sinh ra đồ thị ứng viên H’ và giảm bớt không gian tìm kiếm trong
khi người hướng dẫn không bị loại bỏ trong mọi trường hợp
Trước hết, cần tích hợp các thông tin trong mạng cộng tác phức hợp sang mạng lưới tác giả đồng nhất G’ Giữ lại những cạnh cho biết có khả năng đó là mối quan hệ hướng dẫn từ G’, và xác định hướng cho những cạnh đó Để sinh ra G’, cần xử lý từng bài báo một trong mạng
Với mỗi bài báo :J ∈ ?5, xây dựng mỗi cạnh giữa mỗi cặp và cập nhật vector :
và :2 Độ phức tạp của quá trình này là ∑ JL
5 O ∈ ] ), với di là bậc của pi trong đồ thị G
Tiếp đó sẽ loại bỏ các quan hệ cố vấn – hướng dẫn không phù bằng cách:
Với mỗi cạnh J` thuộc ′, DJ Fà D` có sự cộng tác Quyết định D` là người hướng dẫn tiềm năng của DJ, các điều kiện sẽ được kiểm tra Đầu tiên, giả thiết (2) sẽ được sử
dụng để kiểm tra Chỉ khi D` có thời gian công bố bắt đầu công bố sớm hơn DJ, khả năng đây là cặp quan hệ hướng dẫn – cố vấn sẽ được xem xét
... chuyển đổi mơ tả hình bên dưới:Hình 6: Minh họa đồ thị chuyển đổi [4]
Sau tạo đồ thị H, số điểm xếp hạng dự đốn quan hệ người cố vấn – người hướng dẫn người đồng tác giả DJ,... khơng hướng dẫn lại, tức x hướng dẫn y năm t1 x hướng dẫn p thời thời điểm t1
Nếu x hướng dẫn y, thời điểm y hướng dẫn x khoảng thời gian [t1... phương cho cạnh H’ Sau đó, dự đốn quan hệ hướng dẫn dựa vào việc lựa chọn giá trị địa phương tối ưu
Ở pha thứ 2: Những mối quan hệ tiềm mơ hình xác suất Độ
likelihood (đo