Trích chọn tự động quan hệ cố vấn - hướng dẫn khoa học dựa trên mô hình đồ thị xác suất phụ thuộc thời gian và thử nghiệm đánh giá

TÓM TẮT Bài toán trích chọn quan hệ hướng dẫn – hướng dẫn khoa học quan hệ giữa người cố vấn – người được hướng dẫn từ các công trình khoa học được công bố trên DBLP là bài toán thời sự

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Nguyên Cương

TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN – HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH ĐỒ THN XÁC SUẤT PHỤ THUỘC THỜI GIAN VÀ THỬ

NGHIỆM ĐÁNH GIÁ

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI – 2011

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN – HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH

ĐỒ THN XÁC SUẤT PHỤ THUỘC THỜI GIAN VÀ

THỬ NGHIỆM ĐÁNH GIÁ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: TS Nguyễn Việt Cường

HÀ NỘI - 2011

Trang 3

LỜI CẢM ƠN

Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến các thầy giáo PGS.TS Hà Quang Thụy và TS.Nguyễn Việt Cường, những người đã tận tình hướng dẫn em suốt quá trình nghiên cứu khoa học và thực hiện khóa luận tốt nghiệp

Em xin chân thành cảm ơn các thầy, cô giáo đã giảng dạy em trong bốn năm học qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ là hành trang giúp

em vững bước trong tương lai

Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm KT-Sislab đã cho em những lời khuyên bổ ích về chuyên môn trong quá trình nghiên cứu Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận Em xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng

hộ khuyến khích em trong suốt quá trình học tập tại trường

Cuối cùng, em muốn được gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt là

ba mẹ và các chị - những người thân yêu luôn kịp thời động viện và giúp đỡ em vượt qua những khó khăn trong học tập cũng như trong cuộc sống

Hà Nội, ngày 19 tháng 05 năm 2011

Sinh viên

Trang 4

TÓM TẮT

Bài toán trích chọn quan hệ hướng dẫn – hướng dẫn khoa học (quan hệ giữa người cố vấn – người được hướng dẫn) từ các công trình khoa học được công bố trên DBLP là bài toán thời sự có ý nghĩa, đặc biệt trong hệ thống tìm kiếm các chuyên gia khoa học, chẳng hạn như hệ thống Arnetminer của nhóm Knowledge Engineering Tsinghua University, China [11], AI Genealogy Project [10]… Khóa luận này trình bày và nghiên cứu về một phương pháp trích chọn quan hệ cố vấn – hướng dẫn dựa trên cơ sở lý thuyết đồ thị và xác suất

Trên cơ sở phân tích và tìm hiểu một số hướng tiếp cân bài toán về trích chọn quan hệ trên mạng thông tin, khóa luận áp dụng phương pháp trích chọn quan hệ dựa trên mô hình đồ thị xác suất phụ thuộc thời gian Dữ liệu trích chọn được trên miền dữ liệu DBLP, sẽ được lưu trữ trong cơ sở dữ liệu, tiến hành quá trình lọc và xử lý dữ liệu, tìm ra các cặp người cố vấn – người được hướng dẫn “tiềm năng”, từ đó làm dữ liệu đầu vào cho mô hình học dữ liệu để trích chọn ra được các cặp quan hệ Khóa luận đưa ra mô hình thử nghiệm dựa trên mô hình đồ thị xác suất phụ thuộc thời gian, tìm được các cặp “tiềm năng” Kết quả bước đầu cho thấy, mô hình là khả quan và có thể tiếp tục thực nghiệm các pha xử lý tiếp theo

Trang 5

LỜI CAM ĐOAN

Em xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng em, dưới sự hướng dẫn của PTS.TS Hà Quang Thụy và TS Nguyễn Việt Cường, không sao chép từ các công trình nghiên cứu khác Em đã trích dẫn đầy đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan ở trong nước và quốc tế Nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của ĐHQH Hà Nội và Nhà trường

Hà Nội, ngày 19 tháng 5 năm 2011

Sinh viên

Trang 6

MỤC LỤC

LỜI CẢM ƠN

TÓM TẮT

LỜI CAM ĐOAN

MỤC LỤC 6

Danh sách các bảng 8

Danh sách các hình vẽ 9

Danh sách các từ viết tắt 10

Mở đầu 1

Chương 1 Giới thiệu về quan hệ cố vấn – hướng dẫn khoa học 1

1.1 Trích chọn thông tin từ cộng đồng Web 1

1.2 Phát hiện cộng đồng 3

1.3 Quan hệ cố vấn – hướng dẫn khoa học 4

1.3.1 Động lực và mục đích 4

1.3.2 Phát biểu bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học 6 Chương 2 Một số hướng tiếp cận bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học 8

2.1 Xếp hạng dựa trên phân tích chỉ dẫn khoa học 8

2.2 Học tự động mối quan hệ tác giả từ cơ sở dữ liệu mục lục 11

2.3 Dự báo mối quan hệ đồng tác giả 14

2.4 Mô hình đồ thị xác suất phụ thuộc thời gian TPFG 16

2.4.1 Một số định nghĩa và công thức 16

2.4.2 Một số giả thiết ràng buộc 20

2.5 Mô hình xử lý 22

2.6 Học mô hình 27

Chương 3 Mô hình thực nghiệm 32

Trang 7

3.1 Đặc trưng của DBLP Computer Science Bibliography Database 32

3.2 Mô hình thực nghiệm dựa trên mô hình đồ thị xác suất phụ thuộc thời gian 34 3.2.1 Phát biểu bài toán 34

3.2.2 Xây dựng tập dữ liệu học 35

3.2.3 Mô hình thực nghiệm 36

Chương 4 Thực nghiệm và đánh giá kết quả 40

4.1 Môi trường thực nghiệm 40

4.1.1 Cấu hình phần cứng 40

4.1.2 Công cụ phần mềm 40

4.2 Dữ liệu thực nghiệm 41

4.3 Thực nghiệm 41

4.4 Đánh giá kết quả 52

4.5 Nhận xét 53

Tài liệu tham khảo 55

Trang 8

Danh sách các bảng

Bảng 2-1: Thuật toán suy diễn TPFG 31

Bảng 3-1: Cấu trúc một bản ghi trong dblp.xml 36

Bảng 4-1: Cấu hình phần cứng 40

Bảng 4-2: Công cụ phần mềm 40

Bảng 4-3 Phân tích bản ghi trong dblp.xml 42

Bảng 4-4: Bảng các thực thể 44

Bảng 4-6: Bảng kết quả 50

Bảng 4-7: Kết quả một số cặp quan hệ “tiềm năng” 52

Trang 9

Danh sách các hình vẽ

Hình 1: Hệ thống Arnetminer 5

Hình 2: Mô tả bài toán 6

Hình 3: Kiến trúc hệ thống 9

Hình 4: Mô hình tổng quát 12

Hình 5: Ví dụ về đường liên kết giữa hai tác giả 15

Hình 6: Minh họa đồ thị chuyển đổi 19

Hình 7: Minh họa đồ thị xác suất phụ thuộc thời gian 26

Hình 8: Sơ đồ truyền thông điệp ở hai pha 28

Hình 10: Thông tin trên trang DBLP 33

Hình 11: Quá trình xây dựng tập dữ liệu học 35

Hình 12: Mô hình thực nghiệm 37

Hình 13: ParserDBLP Package 42

Hình 14: Sơ đồ biểu diễn mối quan hệ thực thể 47

Hình 15: Kết quả truy vấn 48

Hình 16: Kết quả thực thi con trỏ 49

Trang 10

Danh sách các từ viết tắt

CRFs Conditional Random Fields

DAG Directed Acyclic Graph

DBLP Digital Bibliography & Library Project

EM Expectation Maximization

TPFG Time-constrained Probabilistic Factor Graph

Trang 11

1

Mở đầu

Ngày nay, sự phát triển mạnh mẽ của Internet và các mạng xã hội đã dẫn đến sự bùng nổ thông tin về nhiều mặt kể cả nội dung lẫn số lượng Mạng xã hội chứa đựng nhiều thông tin phong phú về mối quan hệ giữa người hoặc các thực thể với nhau Tuy nhiên, nhiều tri thức trong đó lại thường Nn giấu bên trong mạng Trong tìm kiếm tri thức, con người thường quan tâm tới cách thức mà người làm nghiên cứu có thể kết nối đến với những người khác và làm thế nào mà nghiên cứu cộng đồng có thể được hình thành từ nghiên cứu cá nhân? Khai phá mối quan hệ cố vấn – hướng dẫn giúp chúng ta giải quyết những câu hỏi đó

Khai phá quan hệ cố vấn – được hướng dẫn từ các công trình khoa học được công bố trên DBLP là bài toán thời sự, có ý nghĩa Tìm hiểu mối quan hệ này mang lai nhiều lợi ích và nhiều ứng dụng như để tìm kiếm chuyên gia khoa học và khám phá cộng đồng Có nhiều dự án nghiên cứu được hình thành để duy trì và phát triển hướng nghiên cứu này như hệ thống Arnetminer [11], The Mathematics Genealogy Project [12], the Computer Engineering Academic Genealogy, the AI Genealogy Project [8], the Software Engineering Academic Genealogy Gần đây, Chi Wang và các cộng sự (2010) [4] đề xuất mô hình trích chọn quan hệ cố vấn – được hướng dẫn dựa trên đồ thị xác suất phụ thuộc thời gian trên miền dữ liệu DBLP Kết quả thực nghiệm bước đầu cho thấy mô hình là khả quan và có khả năng xây dựng và thực nghiệm các bước

xử lý tiếp theo

Nội dung của khóa luận được bố cục gồm có 4 chương:

Chương 1: Giới thiệu khái quát về bài toán trích chọn quan hệ cố vấn – hướng

dẫn khoa học

Chương 2: Giới thiệu các hướng tiếp cận giải quyết bài toán trích chọn quan hệ

giữa các thực thể trong mạng cộng tác Chương này tập trung vào việc giới thiệu mô hình đồ thị xác suất phụ thuộc thời gian do Chi Wang và cộng sự (2010) [4] đề xuất Đây là cơ sở phương pháp luận quan trọng để khóa luận đưa ra mô hình thực nghiệm một phần mô hình hệ thống được các tác giả xây dựng

Chương 3: Khóa luận xây dựng mô hình thực nghiệm, trích chọn quan hê dựa

vào nghiên cứu của Chi Wang và cộng sự (2010) [4] đồ thị xác suất phụ thuộc thời gian để giải quyết bài toán này Chúng tôi sẽ tiến hành xây dựng mô hình thực nghiệm dựa trên phương pháp trích chọn quan hệ hướng dẫn – được hướng dẫn của các tác giả

Trang 12

2

Chương 4: Tiến thành thực nghiệm một phần của mô hình, đánh giá kết quả

Tiến hành thực nghiệm việc xây dựng tập dữ liệu học, đánh giá kết quả trích chọn

Phần kết luận và định hướng phát triển khóa luận: Tóm tắt những nội dung

chính đạt được của khóa luận đồng thời chỉ ra những điểm cần khắc phục và đưa ra những định hướng nghiên cứu trong thời gian sắp tới

Trang 13

1

Chương 1 Giới thiệu về quan hệ cố vấn – hướng dẫn

khoa học

1.1 Trích chọn thông tin từ cộng đồng Web

Nghiên cứu các tính chất và trích chọn những thông tin quan trọng từ các cộng đồng trực tuyến như từ các diễn đàn (forums), blogs, mạng tin nhắn nhanh, mạng xã hội trực tuyến (online social networks) là một trong những hướng thu hút được sự chú ý của cộng đồng khai phá Web hiện nay [1] Thông tin tiềm Nn từ các cộng đồng này rất đa dạng, có

sự phối hợp và góp sức của hàng ngàn, thậm chí hàng triệu thành viên, và do đó nếu nắm bắt được những thông tin này, có thể hiểu được xu hướng, thị hiếu, quan điểm của người dùng Web và theo đó sẽ có những điều chỉnh, cải tiến kịp thời để đáp ứng nhu cầu của người dùng Web Ví dụ, từ những nhận xét đánh giá các mặt hàng, các sản phNm mới của người tiêu dùng được đăng tải trên một diễn đàn hay blog nào đó có thể giúp ta trích chọn được những ý kiến, để từ đó biết được mức độ chấp nhận và thỏa mãn của khách hàng Những thông tin liên quan đến các cộng đồng người sử dụng trên diễn đàn, blogs, mạng xã hội (Facebook, Twitter, MySpace,…) đều chứa một lượng hàm tri thức cộng đồng cao Trích chọn, tổng hợp và tìm ra được những thông tin hữu ích trên đó, giúp nắm bắt được cả những thông tin, tri thức cụ thể và những xu hướng chung của thế giới trực tuyến

Mạng xã hội là mạng của một nhóm người hoạt động và các mối quan hệ gắn kết họ với nhau Những người hoạt động trong mạng có thể là những cá nhân hoặc tập thể Những người này trao đổi tài nguyên với nhau và chính điều đó gắn kết họ với nhau trọng một mạng xã hội Tài nguyên ở đây bao gồm dữ liệu, thông tin, sản phNm, các dịch vụ hỗ trợ… Mỗi tài nguyên đem trao đổi được xem như là mỗi liên kết trong mạng xã hội và những cá nhân duy trì mối quan hệ này tương ứng với việc duy trì một cung Sức bền của cung này phụ thuộc vào mức độ trao đổi thường xuyên của các các nhân trong mạng xã hội

Trang 14

2

Các mối quan hệ trao đổi thường được tiến hành trong một số lượng người lựa chọn nhất định Nhừng nhà phân tích trong lĩnh vực mạng dựa vào các quan hệ giữa các thành viên của một cộng đồng, các hàng xóm, một nhóm hoặc một lớp để hiểu cách thức các mạng xác định tổng số người hay các nhóm nhỏ bên trong một mạng lớn Cách thức mà một người kết nối với một người khác thể hiện cấu trúc nền tảng của mạng, bao gồm những người thuộc và không thuộc vào một mạng và trong các kiểu trao đổi nào để xác định một mạng Mạng này được duy trì bởi sự trao đổi của các tài nguyên đơn lẻ hay rất nhiều tài nguyên lớn tương ứng với các nút mạnh hay yếu Ví dụ, các nhà phân tích có thể

dò tìm sự trao đổi thông tin về công việc của những người quen biết nhưng không mấy thân thiện, mối quan hệ trong dòng tộc hoặc mối quan hệ giữa những người công nhân Các mạng xã hội được lần dấu bởi những sự chuyển đổi này chỉ ra cách các nguồn tài nguyên di chuyển trong một mạng, cách mà các tác nhân xác định vị trí để tác động nguồn tài nguyên trao đổi và các kiểu tài nguyên trao đổi rất quan trọng trong môi trường khác nhau

Sự nghiên cứu về mạng xã hội của các nhà khoa học đã thu nhận được nhiều phát minh khoa học mới về mạng xã hội trong nhiều thập kỷ qua, được mô hình và phân tích bằng các công cụ của lý thuyết đồ thị Qua những nghiên cứu đó, người ta đã chứng minh được mạng xã hội thực tiễn có xu hướng cấu trúc của mạng bất ngẫu nhiên

Trang 15

3

1.2 Phát hiện cộng đồng

Việc phát hiện cộng đồng có rất nhiều ứng dụng cụ thể Ví dụ như phân cụm các Web client có sở thích tương tự nhau và gần nhau về mặt địa lý có thể cải thiện hiệu suất của việc cung cấp dịch vụ trên World Wide Web, trong đó mỗi cụm khách hàng được phục vụ bởi một server chuyên dụng Hay việc nhóm thành cụm các nút trong mạng lưới giao thông có thể giúp ích trong việc xây dựng các bảng định tuyến nhỏ gọn giúp ích trong việc tham gia giao thông thuận tiện

Ngoài ra, việc phát hiện cộng đồng có ý nghĩa rất quan trọng vì một lý do khác Việc xác định các môđun và ranh giới của chúng cho phép ta phân lớp các đỉnh dựa trên cấu trúc vị trí của chúng trong môđun Từ đó, các đỉnh ở vị trí trung tâm trong môđun của chúng (có nhiều kết nối cạnh đến các đỉnh khác trong môđun) có thể đóng vai trò quan trọng trong việc điều khiển và giữ ổn định trong cụm Mặt khác, các đỉnh ở vùng biên có thể giữ vai trò quan trọng trong việc dẫn dắt mối quan hệ và giao lưu giữa các cụm khác nhau trong mạng Các phân lớp như thế mang ý nghĩa nhất định trong việc nghiên cứu mạng xã hội Cuối cùng, ta có thể nghiên cứu về đồ thị rút gọn, trong đó các đỉnh là các cụm và các cạnh là các liên kết giữa các cụm trong đồ thị ban đầu (nếu có) từ đó ta thu được một đồ thị biểu diễn mối quan hệ của các môđun trong mạng

Trang 16

hỗ trợ của các kỹ thuật khai phá liên kết (link mining), con người có thể trích xuất được rất nhiều thông tin ngữ nghĩa quan trọng và hữu ích

Trong khóa luận này, chúng tôi tập trung khai thác quan hệ cố vấn – được hướng dẫn khoa học giữa những người là đồng tác giả từ các công trình khoa học được công bố trên DBLP Mạng cộng tác là một đồ thị được tạo thành với các nút là những những người tham gia nghiên cứu, và các cạnh biểu diễn sự cộng tác giữa họ [4]

Nếu như chúng ta biết được quan hệ cố vấn – được hướng dẫn giữa những người đồng nghiên cứu, có thể dễ dàng nhận biết được sự khác nhau giữa những người làm nghiên cứu và trong cộng đồng, một chủ đề nghiên cứu đã được tạo ra và hướng phát triển như thế nào, và một người nghiên cứu thì có vai trò và ảnh hưởng như thế nào trong một cộng đồng nghiên cứu

Tuy nhiên, thực tế là nhiều thông tin (nhiều loại quan hệ) thường Nn trong mạng thông tin bởi nhiều lý do Mạng thông tin chứa đựng nhiều thông tin phong phú về mối quan hệ giữa người hoặc các thực thể với nhau Ví dụ quan hệ cố vấn – được hướng dẫn

là Nn trong mạng tập hợp các tác giả [4], quan hệ gia đình thường Nn trong mạng quan hệ bạn bè (trên Twitter hay Facebook) Tìm hiểu mối quan hệ này mang lai nhiều lợi ích và nhiều ứng dụng như để tìm kiếm chuyên gia trong nghiên cứu khoa học và khám phá cộng đồng

Trong tìm kiếm tri thức, con người thường quan tâm tới cách thức mà người làm nghiên cứu có thể kết nối đến với những người khác và làm thế nào mà nghiên cứu cộng đồng có thể được hình thành từ nghiên cứu cá nhân? Khai phá mối quan hệ cố vấn – được hướng dẫn giúp chúng ta giải quyết những câu hỏi đó

Trang 17

5

Bài toán trích chọn quan hệ cố vấn – được hướng dẫn đề cập tới bài toán phát hiện quan hệ giữa các đồng tác giả từ các công trình khoa học được công bố trên DBLP Đây

là bài toán thời sự có ý nghĩa, đặc biệt trong các hệ thống tìm kiếm chuyên gia khoa học

Có nhiều dự án và nghiên cứu đã được hình thành để duy trì và phát triển hướng nghiên cứu này: The Mathematics Genealogy Project [12], the Computer Engineering Academic Genealogy, the AI Genealogy Project [10], the Software Engineering Academic Genealogy, hệ thống Arnetminer của nhóm Knowledge Engineering Tsinghua University, China [11]…

Hình 1: Hệ thống Arnetminer [11]

Tuy nhiên, những hệ thống này chỉ dựa vào việc thu thập dữ liệu phả hệ thủ công để cập nhật vào cơ sở dữ liệu Bởi vậy, cần phát triển kỹ thuật phân tích để có thể trích chọn

tự động được mối quan hệ này từ nguồn dữ liệu trên mạng

Bằng cách tiếp cận theo cách khai phá đồ thị, với các đặc trưng của nút và liên kết giữa các cạnh đóng vai trò trung tâm Chúng ta có thể đánh giá được độ quan trọng cỉa một nút hay các nút kề nó Hơn nữa, có thể xếp hạng và gom cụm dựa trên các liên kết

Trang 18

1.3.2 Phát biểu bài toán trích

Bài toán trích chọn quan h

u mối quan hệ có những đặc điểm khác biệt v

ng thông tin trước đó, và nó có nhiều thách thức: [4]

quan hệ cố vấn – hướng d

ng tác Thường không có dấu hiệu rõ ràng nào để nhận bi

n trong số lượng lớn những người cộng tác

i gian: vai trò của xã hội giống như người cố v

n thì phục thuộc nhiều vào thời gian Không có dấkhi nào thì một người hướng dẫn chuyển thành m

ển: để tìm kiếm một người cố vấn không chcác đồng tác giả của của người đó Các mạng thông ti

ớn (theo hàm mũ) Vấn đề đặt ra quan trọng là ph

ng pháp có thể thích hợp được với dữ liệu có qui mô lớn

u bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa h

n quan hệ cố vấn – hướng dẫn khoa học của đưphát biểu:

ng tác, gồm tập các bài nghiên cứu được công bdanh sách bài báo _ tác giả, danh sách

các cặp quan hệ cố vấn – hướng dẫn tiềm năng và s

m xếp hạng, , là khoảng thời gian hướng d

Hình 2: Mô tả bài toán [4]

ng dẫn

Trang 19

7

Ví dụ: Cạnh nối trực tiếp từ Bob tới Ada sẽ chỉ ra rằng, Ada được xem như là người

cố vấn của Bob, và mối quan hệ cố vấn – hướng dẫn khoa học được biểu diễn thông qua

vector (0.8, [1999, 2000]), điều này có nghĩa là Ada là người hướng dẫn của Bob trong

khoảng thời gian từ năm 1999 đến năm 2000 Số điểm đánh giá cho cặp quan hệ này là 0.8 Các kết quả như thế mang lại nhiều lợi ích và có nhiều ứng dụng trong phát hiện cộng đồng và phát triển các nghiên cứu

Tóm tắt chương 1

Trong chương này, khóa luận đã giới thiệu khái quát một số nội dung liên quan và trình bày về động cơ và mục đích của bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học Trong chương tiếp theo, khóa luận sẽ tập trung làm rõ một số hướng tiếp cận về bài toán trích chọn quan hệ trên mạng cộng tác

Trang 20

8

Chương 2 Một số hướng tiếp cận bài toán trích chọn

quan hệ cố vấn – hướng dẫn khoa học

Nghiên cứu quan hệ cố vấn – được hướng dẫn khác với những nghiên cứu trước đó trong khai phá quan hệ và học quan hệ Trong khai phá quan hệ thì những nghiên cứu là tập trung vào các khai phá text và các kỹ thuật xử lý ngôn ngữ tự nhiên trên dữ liệu text

và các dữ liệu có cấu trúc, bao gồm các trang webs, hồ sơ người dùng và ngữ liệu văn học Còn học quan hệ thì nghiên cứu đề cập tới việc phân loại các các đối tượng hay thực thể được biểu diễn trong các quan hệ nhiều ngôi [7]

Trong chương này, chúng tôi giới thiệu một số hướng tiếp cận bài toán trích chọn quan hệ trong mạng cộng tác

2.1 Xếp hạng dựa trên phân tích chỉ dẫn khoa học

Hàng năm các ủy ban trong cộng đồng nghiên cứu khoa học đều đánh giá chất lượng của các ứng viên thông qua số lượng và chất lượng nghiên cứu đã được thực hiện Nghiên cứu của Ankur Chauhan [3] trình bày hệ thống để tổng hợp và đề xuất số liệu đáng tin cậy, dựa trên phân tích các chỉ dẫn và công bố để xếp hạng các ứng cử viên Sử dụng phương pháp trường ngẫu nhiên cho tách từ (CRFs) để trích xuất và phân loại các câu trích dẫn, sau đó dựa trên các nguồn tài nguyên web và tính phù hợp của các trích dẫn tham khảo đến chủ đề quan tâm Hệ thống sau đó so sánh nội dung được trích dẫn, đánh giá và xếp hạng dựa trên chuyên gia, kiểm tra độ tương quan của cả hai

Số lượng các bài nghiên cứu khoa học được công bố phát triển rất nhanh Hiển nhiên

là những người làm khoa học có thâm niên sẽ được công nhận và đánh giá độ tin cậy Điều này thu hút được quan tâm và đạt được nhiều sự tin cậy về chất lượng nghiên cứu của người đó trong cộng đồng nghiên cứu khoa học Một tập các ứng viên tiềm năng được đánh giá xếp hạng dựa trên các nghiên cứu khoa học được công bố và sự đồng dạng về ngôn ngữ học trong các lĩnh vực mà họ quan tâm

Trang 21

9

Có 3 nguồn dữ liệu mà các tác giả sử dụng:

• DBLP Computer Science Bibliography database

• Google Scholar

• CiteseerX

Hình 3: Kiến trúc hệ thống [3]

Trang 22

10

• Pha đầu tiên là xử lý dữ liệu từ DBLP, sẽ cho phép người dùng tìm kiếm theo tên tác giả bằng cách truy vấn tới cơ sở dữ liệu và trích xuất được những thông tin của thực thể đó Thông tin trích chọn được sẽ được lưu trữ trong file

“small.xml” Điều này giúp giảm tải không gian tìm kiếm từ file cơ sở dữ liệu lớn của dblp

• Pha thứ hai, GRS-Fetch (Google scholar results fetcher), sẽ lấy thông tin về tiêu

đề của mối bài báo trong small.xml và tạo truy vấn tới google scholar và trích chọn được tiêu đề các trang kết quả và số lượng các trích dẫn liên quan

Sau đó sẽ tính toán chỉ số NGD (Nomarlized google distance) giữa hai từ hoặc cụm từ A và B:

(2.1)

trong đó M ước lượng kích thước trong chỉ số tìm kiếm của google

• Pha tiếp theo là phân tích các nội dung liên quan, là pha trích chọn đặc trưng của hệ thống và tính toán các thành phần chỉ số h-index, số lượng trích dẫn trung bình của mối bài báo… h –index được định nghĩa là: mỗi nhà khoa học

sẽ có chỉ số h nếu Np bài báo của người đó có ít nhất h trích dẫn và (Np – h ) bài báo có ≤ ℎ trích dẫn

• Cuối cùng là tính toán chỉ số xếp hạng cho mỗi ứng viên:

Trang 23

11

2.2 Học tự động mối quan hệ tác giả từ cơ sở dữ liệu mục lục

Nghiên cứu của Akash Kushal [2] tiếp cận cách học tự động từ mối quan hệ giữa các tác giả trong cơ sở dữ liệu mục lục Xây dựng một mô hình xác suất để tiếp cận và mô hình hóa mối quan hệ này Thuật toán tính giá trị kỳ vọng tối ta (Expectation Maximization algorithm) được dùng như là tham số cho mô hình bài toán

Tập dữ liệu bao gồm 100 tiến sỹ của 10 người hướng dẫn khác nhau trong cộng đồng nghiên cứu khoa học được sử dụng để làm tập dữ liệu kiểm tra thực nghiệm mô hình Mục đích của mô hình không chỉ là để trích chọn mối quan hệ hướng dẫn – cố vấn giữa những tác giả mà còn được mở rộng mô hình cho những người có sự cộng tác

Xây dựng một đồ thị với các đỉnh là các tác giả, và thêm vào mỗi cạnh là một đường nối trực tiếp từ người được hướng dẫn tới người cố vấn của họ Cây như thế sẽ được gọi

là cây phả hệ nghiên cứu và tương tự như cây phả hệ được xét dưới môi quan hệ cha – con Một người là cố vấn sẽ có thời gian làm khoa học dài hơn người hướng dẫn

Có nhiều hệ thống được xây dựng và phát triển bài toán này, chẳng hạn như hệ thống Mathematics Genealogy Project [9], the AI Genealogy Project [8]… Tuy nhiên, khác với những nghiên cứu này mới chỉ dựa vào việc thu thập dữ liệu một cách thủ công, cách tiếp cận này dựa vào việc tìm kiếm và trích chọn thông tin dựa trên khai phá dữ liệu mục lục Các tác giả sử dụng thuật toán EM (tính giá trị kỳ vọng cực đại) để học mô hình

áp dụng cho bài toán này

.&'(: người hướng dẫn của A

)*+&,+: năm mà A bắt đầu nghiên cứu

)-,&': năm từ khi A tốt nghiệp vào nhóm của người nghiên cứu

./0' : năm mà A dừng tham gia nghiên cứu

Trong khoảng thời gian từ )*+&,+ đ 2 ./0',mỗi tác giả có thể có nhiều bài báo được công bố

Tập các bài báo được ký hiệu là 3 = 45 5 5 5

đồng tác giả và công bố trong một năm

Trang 24

12

Biểu diễn < là tập các biến Nn Các biến Nn bao gồm người hướng dẫn và các năm

)*+&,+, )-,&', ./0' Các biến có thể thấy được bao gồm các công bố ở trong DBLP

Hình 4: Mô hình tổng quát [2]

Generative Model có gồm hai thành phần:

• Mô hình trước

• Mô hình quan sát

Trang 25

13

Trong đó: Phân phối xác suất kết hợp

thấy được là hình mẫu trong mô hình

Suy luận các biến n:

Bước suy luận sẽ xử lý việc tính toán giá trị phân phối xác suất trước :<, ?|⋀) cho mọi biến Nn H trong mô hình Trong nhiều trường hợp, giá trị phân phối trước < ∗ tương ứng với các gía trị của biến Nn Ước lượng < ∗:

< ∗ = DE max

Xác suất phân phối kết hợp là tích của giá trị

(2.5) Trong đó mô hình phân phối trước

trưng của thông tin liên nghiệm cần kết hợp với thông tin mẫu trong kỹ thuật Bayes

Trang 26

14

2.3 Dự báo mối quan hệ đồng tác giả

Dự báo liên kết trong mạng là một chủ đề thu hút được nhiều sự quan tâm nghiên cứu, nhất là trong thời kỳ phát triển nhanh của mạng xã hội trực tuyến Nhiều nghiên cứu

về dự đoán liên kết được đề xuất trong mạng đồng nhất, nhưng chỉ là dành cho một loại đối tượng tồn tại trong mạng đó Ví dụ, mạng bao gồm mối quan hệ bạn bè và mạng đồng tác giả Những nghiên cứu gần đây tập trung vào việc các vấn đề của dự báo liên kết trong mạng chứa nhiều loại khác biệt của giá trị thuộc tính có quan hệ với các đối tượng khác Tuy nhiên, trong thế giới khách quan, các mối quan hệ và các thuộc tính của đối tượng là phức tạp, và khó có thể biểu diễn được đầy đủ Bởi vậy, Yizhou và cộng sự [9] sử dụng đặc trưng topological giữa các thực thể trong mạng phức hợp để dự đoán những mối quan

hệ đó

Mạng cộng tác thư mục được xem xét có chứa nhiều loại đối tượng như: author, paper, topics…, cũng như nhiều loại liên kết giữa các thực thể đó như “write” hay “write by” giữa “author” và “paper”; “cite” và “cite by” giữa giữa “paper” và “paper” Trong pha

dự báo liên kết, đường liên kết giữa hai thực thể đóng vai trò rất quan trọng trong việc sinh ra đặc trưng hình học topo

Ví dụ:

Đường liên kết giữa hai tác giả: “Jim” và “Mike” có thể là: “Jim – P 5 – SIGMOD – P 6 – Mike” có nghĩa là: Jim và Mike liên kết với nhau bởi hai bài báo được công bố (P5

và P6) ở hội nghị “SIGMOD” Ngoài ra còn có thể kết nối thông qua một đồng tác giả:

“Jum – P 1 – Ann – P 3 – Mike”.

Có thể thấy các loại thông tin được kết nối với các đối lượng và các liên kết làm cho cấu trúc của topo mạng trở nên phức tạp và giàu ngữ nghĩa hơn

Trang 27

15

Hình 5: Ví dụ về đường liên kết giữa hai tác giả [9]

Sử dụng phương pháp học giám sát để tìm được mối liên kết với mỗi các đặc trưng của hình học topo Thực nghiệm chỉ ra rằng, bằng cách làm giàu nhữ nghĩa của các đặc trưng trong topological phức hợp, độ chính xác của dự báo liên kết ngày càng tăng

Mô hình dự báo quan hệ mà trong đó, mô hình xác suất của hai đồng tác giả được xem như là hàm đặc trưng topological giữa họ Bắt đầu từ tập dữ liệu huấn luyện của các tác giả, trích chọn ra đặc trưng topological giữa chúng, sau đó xây dựng mô hình để tìm các trọng số có quan hệ với những đặc trưng đó

Với mối cặp dữ liệu huấn luyện DJK, DJL J là vector có (d+1) chiều, bao gồm 1 và d đặc trưng topological giữa chúng, và J là nhãn cho khả năng trở thành đồng tác giả trong tương lai (.J

mà phân phối nhị thức với xác suất pi:

Trang 28

16

2.4 Mô hình đồ thị xác suất phụ thuộc thời gian TPFG

Theo Chi Wang và cộng sự (2010) [4], xem xét vấn đề quan hệ hướng dẫn như là vấn đề về tính hạng xác suất Các tác giả giới thiệu và đề xuất mô hình đồ thị xác suất phụ thuộc thời gian (Time-constrained Probabilistic Factor Graph – TPFG) trong mạng cộng tác

Người hướng dẫn và thời gian hướng dẫn được mô hình hóa như xác suất kết hợp của các biến Nn là tác giả với ràng buộc về thời gian Thuận lợi của thuật toán là tối ưu hóa được xác suất kết hợp và thu được số điểm xếp hạng cho quá trình chuyển thông điệp trên mạng

Mục này sẽ tập trung làm rõ một vài định nghĩa, công thức, ký hiệu áp dụng trong

mô hình và kèm theo đó là một vài giả thiết ràng buộc để phục vụ cho việc xử lý về sau

Trang 29

giả của 2,3,4 bài báo trong lần lượt các năm 1999, 2000 và 2001

Tương tự như thế, hai vector pyi và pni lần lượt biểu diễn năm công bố và số lượng bài báo công bố trong năm đó của tác giả ai Hai vector pyi và pni có thể nhận được từ pyij

và pnij

Giả sử tác giả DJ có người hướng dẫn DTO, trong đó J là một biến Nn Nếu DJ được hướng dẫn bởi D`, sử dụng J`, J` để ký hiệu khoảng thời gian hướng dẫn Nếu ai không được hướng dẫn bởi bất kỳ người nào, đặt J = 0 và người hướng dẫn trực tiếp của DJ là nút ảo a0

Trang 30

18

Để tìm mối quan hệ người cố vấn – người được hướng dẫn, không những chỉ quyết định giá trị cho biến Nn J cho mỗi tác giả ai mà còn phải đánh giá và ước lượng thời gian bắt đầu JTO và thời gian kết thúc JTO Tuy nhiên, việc đánh giá này gặp một

số khó khăn như: mục đích tìm kiếm là để tìm ra được những người hướng dẫn là tiến sỹ, nhưng thực tế, đây là vấn đề phức tạp hơn tìm kiếm một người người cố vấn tiến sỹ trong

số những người đồng tác giả bởi vì: có nhiều người hướng dẫn giống như là người tổng cố vấn, đồng hướng dẫn tiến sỹ… Ngoài ra, một người hướng dẫn có thể không xuất hiện trong cơ sở dữ liệu

Bởi vậy, Chi Wang và cộng sự (2010) [4] chọn một mô hình xác suất để xếp hạng

và đánh giá hàm likelihood cho các người hướng dẫn tiềm năng của mối tác giả Biểu diễn J` là xác suất mà aj trở thành người hướng dẫn của ai Giảm bớt số lượng các tác giả được đánh giá xếp hạng, mang lại nhiều lợi ích để giữ lại những cặp cố vấn – hướng dẫn tiềm năng

Xây dựng H’

Các tác giả xây dựng một đồ thị con <b ⊂ ′ bằng cách loại bỏ đi một vài cạnh từ

đồ thị G’ và giữ lại những cạnh liên kết trực tiếp từ người được hướng dẫn tới người cố vấn “tiềm năng” của họ Do đó, <′ = ?b, Zb

* Fà Zb

* ⊂ Zb

đồ thị phi chu trình H’ (DAG _ Directed Acyclic Graph) từ G’

Trong đồ thị H’, tập chỉ số của những người hướng dẫn tiềm năng của tác giả aiđược định nghĩa là tJ = Vj|J` ∈ Z′*} (ví dụ Y3 = {0, 1} Tương ứng là tập những người được hướng dẫn tiềm năng được định nghĩa là tJUK= Vj|`J ∈ Z′*}

Trang 31

19

Quá trình chuyển đổi được mô tả ở hình bên dưới:

Hình 6: Minh họa đồ thị chuyển đổi [4]

Sau khi tạo được đồ thị H, số điểm xếp hạng có thể được dự đoán ở những quan hệ người cố vấn – người được hướng dẫn giữa những người đồng tác giả DJ, D`

Một cách đơn giản để dự đoán là sẽ lấy ra top k người hướng dẫn tiềm năng nhất của ai và kiểm tra những nơi mà aj là một trong những số đó thỏa mãn J` > Jf hoặc

J` > z với T là ngưỡng xấp xỉ 0,5 Sử dụng P@(k, 0) để biểu diễn phương pháp này

Trang 32

Giả thiết này cho biết tại thời điểm (t) trong khoảng thời gian x công bố bài báo, x

có thể là người được hướng dẫn hoặc không được hướng dẫn

Mỗi khi x bắt đầu hướng dẫn cho một người khác thì sẽ không bao giờ hướng dẫn lại, tức là x không thể hướng dẫn y tại năm t1 nếu x đang hướng dẫn bởi p tại thời thời điểm t1

Nếu x hướng dẫn y, tại thời điểm y được hướng dẫn bởi x là khoảng thời gian [t1 –

Giả thiết thứ nhất là một ràng buộc về thời gian quan trọng để xác định sự tương quan giữa một người cố vấn và người hướng dẫn của người láng giềng

Ví dụ: Xét a4 là đồng tác giả hai bài công bố với a3 Tuy nhiên, a3 có khả năng cao

để trở thành người được hướng dẫn bởi a1 trong năm 2001, trong khi a4 mới bắt đầu cộng tác với a3, cho nên a3 không hướng dẫn a4 trong thời gian đó Như thế ta sẽ có a1 có khả năng là người hướng dẫn của a3, còn a3 không hướng dẫn a4 mà chỉ là người cộng tác với

a4

Giả thiết thứ hai sẽ quyết định tất cả các tác giả trong mạng có được thứ tự định nghĩa bởi mối quan hệ hướng dẫn xảy ra Điều này làm cho việc kiểm tra tính không đối xứng dễ dàng hơn Với tính bắc cầu, nếu a1 → a3 có khả năng là một cặp người cố vấn – hướng dẫn, và bởi vậy, a3 → a5 và tiếp đó là a1 → a5 cũng có khả năng là cặp quan hệ hướng dẫn – cố vấn, trong khi a5 → a1 thì không phải là một cặp quan hệ

Trang 33

21

Theo thứ tự như thế, đồ thị ứng viên H’ được đảm bảo đúng là đồ thị phi chu trình

(DAG – Directed Acyclic Graph) Đồ thị phi chu trình là đồ thị có hướng và không có

chu trình (không có các vòng kín), được tạo thành bởi tập các đỉnh và các cạnh, mỗi cạnh nối với một đỉnh khác Như vậy, sẽ không có cách nào để bắt đầu từ một đỉnh v và đi theo trình tự của các cạnh mà cuối cùng lại quay trở lại v một lần nữa

Các giả thiết nêu trên sẽ được sử dụng trong quá trình xử lý về sau để tính giá trị hàm likelihood cho mối quan hệ tiềm năng, sử dụng một số tri thức nhận biết được từ các giả thiết Chi Wang (2010) [4] đề xuất hai pha xử lý để giải quyết vấn đề khai thác mối quan hệ hướng dẫn – cố vấn:

Trang 34

22

2.5 Mô hình xử lý

Ở pha thứ 1: Sẽ tiến hành tiền xử lý mạng cộng tác phân cấp để sinh đồ thị ứng

viên H’ Bước này bao gồm quá trình chuyển đổi từ G sang mạng dồng nhất G’, xây dựng

từ G’ tới H’, và cuối cùng là ước lượng tính toán khả năng (likelihood) địa phương cho mỗi cạnh của H’ Sau đó, sẽ là dự đoán các quan hệ hướng dẫn dựa vào việc lựa chọn giá trị địa phương tối ưu

Ở pha thứ 2: Những mối quan hệ tiềm năng sẽ được mô hình xác suất Độ

likelihood (đo khả năng) địa phương và ràng buộc thời gian được kết hợp trong mô hình xác suất kết hợp với tất cả mọi biến Nn Giá trị xác suất kết hợp là tối đa và số điểm xếp hạng của các mối quan hệ tiềm năng sẽ được tính toán Quá trình xây dựng đồ thị H cũng kết thúc ở đây

a) Pha 1: Tiền xử lý

Mục đích là để sinh ra đồ thị ứng viên H’ và giảm bớt không gian tìm kiếm trong

khi người hướng dẫn không bị loại bỏ trong mọi trường hợp

Trước hết, cần tích hợp các thông tin trong mạng cộng tác phức hợp sang mạng lưới tác giả đồng nhất G’ Giữ lại những cạnh cho biết có khả năng đó là mối quan hệ hướng dẫn từ G’, và xác định hướng cho những cạnh đó Để sinh ra G’, cần xử lý từng bài báo một trong mạng

Với mỗi bài báo :J ∈ ?5, xây dựng mỗi cạnh giữa mỗi cặp và cập nhật vector :

và :2 Độ phức tạp của quá trình này là ∑ JL

5 O ∈ ] ), với di là bậc của pi trong đồ thị G

Tiếp đó sẽ loại bỏ các quan hệ cố vấn – hướng dẫn không phù bằng cách:

Với mỗi cạnh J` thuộc ′, DJ Fà D` có sự cộng tác Quyết định D` là người hướng dẫn tiềm năng của DJ, các điều kiện sẽ được kiểm tra Đầu tiên, giả thiết (2) sẽ được sử

dụng để kiểm tra Chỉ khi D` có thời gian công bố bắt đầu công bố sớm hơn DJ, khả năng đây là cặp quan hệ hướng dẫn – cố vấn sẽ được xem xét

Hình 6: Minh họa đồ thị chuyển đổi [4]

Sau tạo đồ thị H, số điểm xếp hạng dự đốn quan hệ người cố vấn – người hướng dẫn người đồng tác giả DJ,... khơng hướng dẫn lại, tức x hướng dẫn y năm t1 x hướng dẫn p thời thời điểm t1

Nếu x hướng dẫn y, thời điểm y hướng dẫn x khoảng thời gian [t1... phương cho cạnh H’ Sau đó, dự đốn quan hệ hướng dẫn dựa vào việc lựa chọn giá trị địa phương tối ưu

Ở pha thứ 2: Những mối quan hệ tiềm mơ hình xác suất Độ

likelihood (đo

Tiêu đề	Trích chọn tự động quan hệ cố vấn - hướng dẫn khoa học dựa trên mô hình đồ thị xác suất phụ thuộc thời gian và thử nghiệm đánh giá
Tác giả	Phan Nguyên Cương
Người hướng dẫn	PGS.TS Hà Quang Thụy, TS. Nguyễn Việt Cường
Trường học	Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ
Chuyên ngành	Công nghệ Thông tin
Thể loại	Khóa luận tốt nghiệp đại học
Năm xuất bản	2011
Thành phố	Hà Nội

Định dạng
Số trang	68
Dung lượng	1,93 MB