ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC.
Trang 1KHOA HỆ THỐNG THÔNG TIN
- -
KHOÁ LUẬN TỐT NGHIỆP
Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ
Sinh viên thực hiện:
Trang 2KHOA HỆ THỐNG THÔNG TIN
- -
KHOÁ LUẬN TỐT NGHIỆP
Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ
Sinh viên thực hiện:
Trang 3Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài báo khoa học ngày càng tăng lên Việc quản lý và khai thác các bài báo khoa học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững của khoa học với tinh thần “đứng trên vai những người khổng lồ”
Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù hợp với các tiêu chí nhất định
Ở đề tài này chúng tôi khảo sát các hệ thống có sẵn này ở khía cạnh nội dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng, sau đó xây dựng mô hình ứng dụng các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp Hồ Chí Minh Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở Việt Nam
Trang 4Lời đầu tiên em xin gửi lòng biết ơn chân thành đến thầy Huỳnh Ngọc Tín
và thầy đồng hướng dẫn Lương Phúc Hiệp Hai thầy đã tận tình hướng dẫn,
góp ý, động viên em rất nhiều trong quá trình làm luận văn Qua đó, em đã thật
sự học hỏi được rất nhiều và trưởng thành hơn trong tư duy và nhận thức
Em xin gửi lời cảm ơn tất cả các thầy cô đã giảng dạy, truyền đạt kiến thức
và những kinh nghiệm quý báu cho em suốt những năm học vừa qua
Em cảm ơn khoa Hệ thống Thông tin trường Đại học Công nghệ Thông tin
đã tạo điều kiện cho em thực hiện đề tài này
Em cũng xin cảm ơn các bạn đã nhiệt tình giúp đỡ em trong suốt quá trình thực hiện đề tài này
Cuối cùng, em xin gửi lời cảm ơn đến gia đình đã tạo mọi điều kiện thuận lợi về vật chất và tinh thần, giúp em hoàn thành luận văn một cách tốt nhất Mặc dù em đã cố gắng để hoàn thành tốt đề tài, nhưng chắc chắn không tránh khỏi những thiếu sót, em rất mong được sự tận tình chỉ bảo của quý thầy
Trang 5(Của giảng viên hướng dẫn)
Trang 6
(Của giảng viên phản biện)
Trang 7
(Của hội đồng)
Trang 8
MỞ ĐẦU .i
LỜI CẢM ƠN ii
MỤC LỤC vi
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC BIỂU ĐỒ xi
DANH MỤC CÁC HÌNH xii
DANH MỤC CÁC SƠ ĐỒ xiv
Chương 1: TỔNG QUAN VỀ ĐỀ TÀI 1
1.1 Đánh giá hiện trạng 1
1.2 Phát biểu bài toán 2
1.3 Mục tiêu đề tài 3
1.4 Cấu trúc báo cáo 3
Chương 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN 4
2.1 Giới thiệu 4
2.2 Web crawler 4
2.3 Các phương pháp xếp hạng phổ biến 5
2.3.1 Giới thiệu 5
2.3.2 PageRank 6
2.3.3 PopRank 13
2.4 Các chỉ số xếp hạng phổ biến 19
2.4.1 Giới thiệu 19
2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators) 19 2.4.3 H-type indexes 22
2.4.4 A-type indexes 29
Trang 92.5.2 IEEEXplore 33
2.5.3 Association for Computing Machinery (ACM) 36
2.5.4 SpringerLink 40
2.5.5 Microsoft Academic Search (MAS) 43
2.5.6 Google Scholar 49
2.5.7 CiteSeerX 52
Chương 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI 56
3.1 Mở đầu 56
3.2 Thảo luận về các chỉ số xếp hạng 56
3.3 Thảo luận về các phương pháp xếp hạng 57
3.4 Phân tích cải tiến các hệ thống thư viện điện tử 58
3.5 Cách tiếp cận của đề tài 60
Chương 4: HIỆN THỰC HỆ THỐNG 62
4.1 Mở đầu 62
4.2 Chương trình thu thập dữ liệu 62
4.2.1 Khảo sát hiện trạng 62
4.2.2 Phân tích thiết kế 63
4.2.3 Cài đặt 82
4.2.4 Kết quả 86
4.3 Chương trình tính toán các chỉ số xếp hạng 87
4.3.1 Khảo sát hiện trạng 87
4.3.2 Phân tích thiết kế 87
4.3.3 Cài đặt 96
4.3.4 Kết quả 97
4.4 Hệ thống thư viện điện tử 102
4.4.1 Khảo sát hiện trạng 102
Trang 104.4.4 Kết quả 107
Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 110
5.1 Mở đầu 110
5.2 Thu thập danh sách giảng viên 110
5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu 113
5.4 Chương trình thu thập dữ liệu chỉ mục 114
5.4.1 Khảo sát hiện trạng 114
5.4.2 Phân tích thiết kế 115
5.4.3 Cài đặt 122
5.4.4 Kết quả 124
5.5 Kiểm tra dữ liệu 125
5.6 Tính toán các chỉ số xếp hạng 127
5.6.1 Mở đầu 127
5.6.2 Phân tích thiết kế 127
5.6.3 Cài đặt 131
5.7 Đánh giá kết quả 131
5.7.1 Kết quả tính toán 131
5.7.2 Nhận xét và đề xuất một số cải tiến 143
Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 146
6.1 Kết quả đạt được 146
6.2 Hạn chế và hướng phát triển 146
6.2.1 Hạn chế 146
6.2.2 Hướng phát triển 147
DANH MỤC TÀI LIỆU THAM KHẢO 148
Trang 11Bảng 2.1 – Thông tin chi tiết IEEEXplore 34
Bảng 2.2 – Thông tin chi tiết ACM 36
Bảng 2.3 – Thông tin chi tiết về SpringerLink 40
Bảng 2.4 – Thông tin chi tiết về MAS 43
Bảng 2.5 – Thông tin chi tiết về Google Scholar 50
Bảng 2.6 – Thông tin chi tiết về CiteSeerX 53
Bảng 3.1 – So sánh các hệ thống thư viện điện tử 58
Bảng 4.1 – Các mẫu url được dùng trong crawler 66
Bảng 4.2 – Các mẫu dùng trong phân tích html để lấy dữ liệu 67
Bảng 4.3 – Mã giả thuật giải của crawler cho trang MAS 70
Bảng 4.4 – Mô tả các bảng trong cơ sở dữ liệu của crawler 74
Bảng 4.5 – Kết quả thu thập dữ liệu đến ngày 27 tháng 01 năm 2012 86
Bảng 4.6 – Các chỉ số được cài đặt cho các loại đối tượng 87
Bảng 4.7 – Mô tả chi tiết các bảng lưu dữ liệu tính toán các chỉ số 91
Bảng 4.8 – Dữ liệu mẫu 1 dùng để tính toán các chỉ số đánh giá 97
Bảng 4.9 – Dữ liệu mẫu 2 dùng để tính toán các chỉ số đánh giá 98
Bảng 4.10 – Cấu hình phần cứng 1 98
Bảng 4.11 – Cấu hình phần cứng 2 99
Bảng 4.12 – Kết quả thử nghiệm cài đặt các chỉ số 99
Bảng 5.1 – Các tổ chức và nguồn dữ liệu danh sách giảng viên tương ứng 111
Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu 117
Trang 12Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu 120
Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục 125
Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng 127
Bảng 5.7 – Kết quả tính toán số lượng giảng viên 131
Bảng 5.8 – Kết quả tính toán số lượng bài báo 132
Bảng 5.9 – Kết quả tính toán số lượng trích dẫn 134
Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo 135
Bảng 5.11 – Kết quả tính toán chỉ số H-index 137
Bảng 5.12 – Kết quả tính toán chỉ số G-index 138
Bảng 5.13 – Tổng hợp kết quả tính toán 140
Bảng 5.14 – Tổng hợp kết quả xếp hạng 142
Trang 13Biểu đồ 4.1 – Biểu đồ thời gian tính toán các chỉ số 101
Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức 132
Biểu đồ 5.2 – Biểu đồ số lượng bài báo của các tổ chức 133
Biểu đồ 5.3 – Biểu đồ số lượng số lượng trích dẫn của các tổ chức 135
Biểu đồ 5.4 – Biểu đồ số trích dẫn trung bình của một bài báo của các tổ chức 136
Biểu đồ 5.5 – Biểu đồ H-index các tổ chức 138
Biểu đồ 5.6 – Biểu đồ G-index các tổ chức 139
Biểu đồ 5.7 – Biểu đồ tổng hợp kết quả tính toán các tổ chức 141
Biểu đồ 5.8 – Biểu đồ tổng hợp kết quả xếp hạng các tổ chức 143
Trang 14Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn 5
Hình 2.2 – Mô phỏng nguyên lý PageRank 7
Hình 2.3 – Các loại liên kết với bài báo khoa học 14
Hình 2.4 – Giải thuật SAFA 17
Hình 2.5 – Giải thuật xác định khoảng cách k 18
Hình 2.6 – Mô phỏng định nghĩa h-index 23
Hình 2.7 – Trang chủ thư viện số IEEEXplore 35
Hình 2.8 – Kết quả tìm kiếm IEEEXplore với từ khóa “data” 36
Hình 2.9 – Trang chủ của thư viện số ACM 38
Hình 2.10 – Tìm kiếm chi tiết của ACM 39
Hình 2.11 – Kết quả trả về khi tìm kiếm ACM với từ khóa “data” 40
Hình 2.12 – Trang chủ thư viện số SpringerLink 42
Hình 2.13 – Chức năng tìm kiếm nâng cao SpringerLink 42
Hình 2.14 – Kết quả tìm kiếm thư viện SpringerLink với từ khóa “data” 43
Hình 2.15 – Khung tìm kiếm cơ bản của MAS 45
Hình 2.16 – Tìm kiếm theo lĩnh vực ở MAS 45
Hình 2.17 – Khung tìm kiếm nâng cao MAS 45
Hình 2.18 – Chức năng cho người dùng chỉnh sửa thông tin MAS 46
Hình 2.19 – Chức năng quản lý các “call for paper” MAS 46
Hình 2.20 – Chức năng biểu diễn mối quan hệ các tác giả theo đồ thị MAS 47
Hình 2.21 – Xem nội dung trích dẫn MAS 48
Trang 15Hình 2.23 – Xem thông tin bổ sung về tổ chức của tác giả MAS 49
Hình 2.24 – Khung tìm kiếm cơ bản của Google Scholar 51
Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar 52
Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa “data” 52
Hình 2.27 – Khung tìm kiếm cơ bản của CiteSeerX 54
Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX 55
Hình 2.29 – Kết quả tìm kiếm CiteSeerX với từ khóa “data” 55
Hình 4.1 – Duyệt danh sách các đối tượng trên trang MAS 63
Hình 4.2 – Màn hình chính của hệ thống PubGuru 108
Hình 4.3 – Màn hình tìm kiếm nâng cao của hệ thống PubGuru 108
Hình 4.4 – Kết quả tìm kiếm PubGuru với từ khóa “data” 109
Hình 5.1 – Tìm kiếm tác giả trên MAS với từ khóa “Hoang Van Kiem” 115
Hình 5.2 – Mô hình hoạt động của chương trình ở bước một 118
Hình 5.3 – Mô hình hoạt động của chương trình ở bước ba 118
Trang 16Sơ đồ 4.1 – Mô hình hoạt động của crawler 64
Sơ đồ 4.2 – Mô hình ERD cơ sở dữ liệu của chương trình 73
Sơ đồ 4.3 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu 83
Sơ đồ 4.4 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số 90
Sơ đồ 4.5 – Sơ đồ cấu trúc hệ thống PubGuru 103
Sơ đồ 4.6 – Kiến trúc MVC Model 2 của hệ thống 105
Sơ đồ 5.1 – Mô hình ERD cơ sở dữ liệu của chương trình 121
Sơ đồ 5.2 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu 123
Sơ đồ 5.3 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số 130
Trang 17CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI
1.1 Đánh giá hiện trạng
Theo một nghiên cứu của tác giả Arif Jinha [Jin2010], tổng số lượng bài báo khoa học đã xuất bản trên thế giới trong tất cả các lĩnh vực đến thời điểm đầu năm 2010 là vào khoảng hơn 50 triệu, và ước lượng hiện nay vào tháng 12 năm 2011 là vào khoảng 54 triệu Số lượng bài báo khoa học đang ngày càng tăng, và tốc độ tăng cũng ngày càng nhanh Vào năm 2008, có khoảng 1434352 bài báo khoa học được xuất bản, con số này vào năm 2009 là 1477383 bài Tỉ
lệ tăng hằng năm số lượng công trình nghiên cứu trên toàn thế giới vào khoảng 3% Scopus1, một cơ sở dữ liệu chứa các bài báo khoa học trên mọi lĩnh vực, cho biết mình có khoảng 46 triệu chỉ mục (7/2011) ISI - Web of Knowledge2, một cơ sở dữ liệu khác, chứa khoảng 49,4 triệu bài báo khoa học (2011) Microsoft Academic Research (MAS)3 chứa khoảng 36,7 triệu bài báo khoa học với hơn 18,8 triệu tác giả (12/2011)
Trước sự tăng trưởng đáng kể về số lượng, việc lưu trữ và hỗ trợ tìm kiếm bài báo khoa học trở thành một nhu cầu thiết yếu Nhiều thư viện điện tử đã được phát triển để phục vụ nhu cầu này Một số thư viện lớn thương mại hóa có thể kể đến như Institute of Electrical and Electronics Engineers (IEEE)4, Association for Computing Machinery (ACM)5, SpringerLink6… Những thư viện miễn phí gồm có Microsoft Academic Research (MAS), Google Scholar7,
Trang 18CiteSeer8… Mỗi thư viện này có các đặc trưng khác nhau về nội dung cũng như các tính năng và sự hiệu quả khi sử dụng
Sự đa dạng của các thư viện điện tử cung cấp nhiều khả năng lựa chọn cho người dùng Tuy nhiên, khi có quá nhiều lựa chọn, người dùng có thể bối rối và khó đưa ra quyết định [Sch2003] Quyết định lựa chọn thư viện điện tử nào quan trọng vì nó ảnh hưởng đến thói quen làm việc của người dùng, cũng như chất lượng công việc của họ Việc sử dụng nhiều thư viện điện tử một lúc có thể là một ý kiến hay, tuy nhiên nó sẽ khiến người dùng phải lặp lại các thao tác với kết quả phần lớn giống nhau, và phải tự tổng hợp các kết quả này Sự lựa chọn còn có ý nghĩa kinh tế khi người dùng sử dụng các thư viện có trả phí
1.2 Phát biểu bài toán
Sự lựa chọn thư viện điện tử nào phù hợp nhất phải dựa trên cơ sở so sánh
về nội dung và tính năng của chúng, một hệ thống thư viện điện tử muốn được đánh giá cao còn phải đáp ứng được các yêu cầu đặc trưng cho một nhóm người dùng nhất định Mục đích của đề tài là thiết kế các tính năng cho một hệ thống thư viện điện tử phục vụ người dùng Việt Nam
Mỗi hệ thống đều xây dựng tính năng của nó dựa trên các nền tảng khác nhau về dữ liệu, các thuật toán, các tiêu chí đánh giá và các chỉ số xếp hạng Vì vậy, việc lựa chọn hay cao hơn là xây dựng, hiệu chỉnh các chỉ số xếp hạng này
là một vấn đề hay và vẫn đang được quan tâm nghiên cứu
Ở đề tài này chúng tôi sẽ khảo sát các hệ thống có sẵn này ở khía cạnh nội dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng Sau đó chúng tôi sẽ thu thập một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin, đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở
Trang 19Tp Hồ Chí Minh Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực
tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở Việt Nam
1.3 Mục tiêu đề tài
Dựa trên ngữ cảnh bài toán, mục tiêu chính đề tài của chúng tôi là thu thập
và tổ chức một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin Đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số đánh giá xếp hạng Sau đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để phục vụ môi trường nghiên cứu ở Việt Nam
Đề tài cũng sẽ tiến hành thực nghiệm các chỉ số trên dữ liệu chỉ mục về các
tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp Hồ Chí Minh
1.4 Cấu trúc báo cáo
Cấu trúc báo cáo được mô tả theo trình tự sau Ở chương I, chúng tôi giới thiệu tổng quan về ngữ cảnh bài toán cũng như mục tiêu đề tài Chương II, chúng tôi khảo sát các nghiên cứu liên quan Chương III nêu cách tiếp cận của
đề tài Chương IV, chúng tôi trình bày về các chương trình được hiện thực và
đề xuất xây dựng hệ thống thư viện điện tử Chương V sẽ trình bày một case study về việc thực nghiệm đánh giá các tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp Hồ Chí Minh và nêu một số đánh giá, đề xuất cải tiến Phần kết luận và một số hướng phát triển được trình bày trong chương V
Trang 20CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN
2.1 Giới thiệu
Trên thế giới hiện nay có khá nhiều thư viện điện tử phục vụ người dùng Nền tảng của việc tìm kiếm hiệu quả ở các thư viện điện tử này chính là các chỉ
số xếp hạng và các phương pháp xếp hạng Các chỉ số này có thể là thô sơ như
số lượng các bài báo của một tác giả, số trích dẫn của một bài báo Nó cũng có thể phức tạp hơn một chút như H-Index, G-Index khi nó tính toán tổng thể các
số liệu thành phần của một tác giả hay một tổ chức để có một chỉ số đánh giá tổng hợp Các phương pháp xếp hạng phổ biến có thể kể đến như PageRank, PopRank Chương này tiến hành khảo sát đánh giá các phương pháp xếp hạng
và các chỉ số từ đơn giản đến phức tạp Chương này cũng sẽ khảo sát một số thư viện điện tử cụ thể trên các khía cạnh nội dung, tính năng, công nghệ, nền tảng thuật toán, tiêu chí xếp hạng tìm kiếm bài báo khoa học Để phục vụ cho việc xây dựng dữ liệu chỉ mục, web crawler cũng sẽ được giới thiệu
2.2 Web crawler
Theo định nghĩa trên Wikipedia [WikiWC] thì Web Crawler hay ant, automatic indexer, bot, Web spider, Web robot, Web scutter, là một chương trình hoặc đoạn mã có khả năng tự động duyệt các trang Web theo một phương thức tự động được cài đặt trước Web Crawler thường được sử dụng để thu thập tài nguyên (như tin tức, hình ảnh, video …) trên Internet một cách cập nhật [TC2011]
Quá trình thực hiện của Web Crawler là Web Crawling hay Web Spidering Hầu hết các công cụ tìm kiếm online hiện nay đều sử dụng quá trình này để thu thập và cập nhập kho dữ liệu phục vụ nhu cầu tìm kiếm của người dùng Web Crawler bắt đầu từ danh sách các địa chỉ URL được cung cấp trước gọi là hạt giống (seeds), đây là những địa chỉ Web mà người dùng muốn thu thập thông tin Hệ thống sẽ vào địa chỉ này, lọc thông tin rồi tìm ra các địa chỉ URL khác theo một phương thức nhất định nào đó (dựa vào những liên kết có bên trong các seeds) Sau đó thêm chúng vào danh sách các địa chỉ đã được duyệt qua gọi
Trang 21là Crawl frontier Hệ thống sẽ lặp lại quá trình trước đó để duyệt qua những URL mới Quá trình Crawling trên internet có thể sẽ qua rất nhiều địa chỉ Website và thu thập rất nhiều nội dung khác nhau từ các địa chỉ đó Hình sau
mô tả kiến trúc của một web crawler chuẩn [WikiWC]:
Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn
Trong đề tài này, Web Crawler được xây dựng để thu thập dữ liệu các bài báo từ thư viện số Microsoft Academic Search (MAS), sau đó xây dựng cơ sở
dữ liệu để xây dựng hệ thống thử nghiệm Hệ thống crawler sẽ rút trích thông tin chỉ mục của bài báo bằng cách sử dụng các trình phân tích kết hợp với các luật đã được định nghĩa trước
2.3 Các phương pháp xếp hạng phổ biến
2.3.1 Giới thiệu
Trong số các phương pháp xếp hạng dựa trên việc phân tích mạng thì nổi tiếng nhất có lẽ là thuật toán PageRank của Google với ứng dụng trong máy
Trang 22tìm kiếm Google Search Chính PageRank đã giúp Google Search đánh bại các đối thủ của nó trên thị trường tìm kiếm trên internet ngay khi mới ra đời và giúp Google lớn mạnh như ngày nay Sau này có một số thuật toán khác tương
tự PageRank được đề xuất và cũng khá thành công khi ứng dụng thực tế Tuy nhiên các thuật toán thuộc nhóm PageRank có một số nhược điểm nhất định khi xếp hạng các đối tượng, sau này nhiều thuật toán khác đã ra đời để khắc phục các điểm yếu này, nổi bật trong đó có PopRank Phần này sẽ khảo sát hai thuật toán là PageRank và PopRank
2.3.2 PageRank
a) Giới thiệu thuật toán PageRank
PageRank là một phương pháp rất nổi tiếng để xếp hạng các đối tượng trong một đồ thị các đối tượng liên kết với nhau PageRank là một thuật toán phân tích liên kết (link) được Lary Page và cộng sự phát triển tại trường đại học Stanford (Mỹ) và được sử dụng lần đầu cho máy tìm kiếm Google để xếp hạng các trang web PageRank cũng có thể dùng để xếp hạng các đối tượng khác như các bài báo khoa học (sẽ trình bày rõ hơn ở phần c) mục 2.2.1 này) Một cách trực giác, chúng ta có thể thấy rằng trang chủ của Yahoo! thì quan trọng hơn trang chủ của một cá nhân A nào đó Điều này được phản ánh qua số lượng các trang có liên kết đến trang chủ của Yahoo! nhiều hơn số trang có liên kết tới trang chủ của cá nhân A Do đó, ta có thể dùng số lượng các liên kết đến một trang để tính độ quan trọng của trang đó Tuy nhiên, cách này sẽ không hoạt động tốt khi người ta có thể dễ dàng tạo ra các trang Web có liên kết đến một trang Web nào đó và như vậy hạng của trang này sẽ trở nên cao hơn
PageRank phát triển thêm vào ý tưởng cũ bằng cách chú ý đến độ quan trọng của các trang Web liên kết đến trang Web mà ta đang xét Phương pháp này thừa nhận nếu có liên kết từ trang A tới trang B thì độ quan trọng của trang
A cũng ảnh hưởng tới độ quan trọng của trang B hay độ quan trọng của trang A được san sẻ cho các trang mà nó liên kết tới Theo đó, một trang có hạng cao nếu tổng hạng của các liên kết tới nó cao [BP+1998]
Trang 23Hình sau mô tả nguyên lý của thuật toán PageRank, các trang web “bỏ phiếu” cho các trang khác thông qua các siêu liên kết [WikiPR]
Hình 2.2 – Mô phỏng nguyên lý PageRank
b) Định nghĩa
a PageRank đơn giản
Gọi là một đồ thị các trang Web Đặt với là tập đỉnh của đồ thị (mỗi đỉnh là một trang Web cần tính hạng trang) còn
là tập các cạnh,
Để đơn giản hóa vấn đề, chúng ta giả thiết rằng đồ thị trang Web là liên thông, nghĩa là từ một trang bất kì có thể có đường liên kết tới một trang Web khác trong đồ thị đó
Cho một đồ thị trang Web như trên Với mỗi trang Web , ký hiệu là
số liên kết đi ra từ trang Web thứ và là số các trang Web có liên kết đến trang
Khi đó hạng trang của trang Web được định nghĩa như sau:
Hạng trang của một trang web là con số tương đối để so sánh độ quan trọng của nó với các trang web khác Tổng hạng trang của tất cả các trang
Trang 24web trong đồ thị G bằng một Với việc chia hạng của trang cho , ta phân phối hạng của nó cho các trang mà nó chỉ tới, thông qua các link đi ra từ nó Phương trình trên có tính đệ quy, để thuận tiện cho việc tính toán PageRank, phương trình này có thể được viết lại dưới dạng:
o nếu không có liên kết từ trang đến trang
o Và được chuẩn hóa để với mỗi thì ∑
Trong đồ thị G đang xét, ta có thể chọn giá trị sau:
{
Lưu ý rằng ma trận P có các phần tử đều không âm và tổng các phần tử thuộc cùng một cột của ma trận P bằng một, do đó P là một ma trận ngẫu nhiên
Vì vậy, thuật toán PageRank cũng chính là một biến thể của phương pháp độ
đo tính trung tâm với vector riêng (eigenvector centrality measure) được dùng phổ biến trong phân tích mạng Phương trình trên cho thấy vector PageRank chính là vector riêng của ma trận tương ứng với trị riêng [Aus2006]
Ta thấy phương trình trên có tính đệ quy, tuy nhiên nó có thể được tính với vector hạng trang bất kì, và lặp lại cho đến khi hội tụ, Page và các cộng sự đã chỉ ra việc hội tụ này là khá nhanh trong khoảng dưới 100 vòng lặp [BP+1998]
b Tính toán vector PageRank đơn giản
Có nhiều phương pháp để tìm vector riêng của ma trận như phương pháp lặp, phương pháp đại số, phương pháp lũy thừa… [WikiPR] Tuy nhiên do kích
Trang 25thước quá lớn của đồ thị web, ma trận cũng có kích thước rất lớn, hàng chục
tỉ dòng [Aus2006], vì vậy việc tính toán có thể rất khó khăn Tuy nhiên, ta cũng lưu ý rằng hầu hết các phần tử của ma trận P bằng không, vì mỗi trang web trung bình thường chỉ liên kết đến 10 trang khác Vì vậy ta chọn phương pháp lũy thừa để tìm vector
Phương pháp lũy thừa
Ta bắt đầu bằng việc chọn vector là ứng viên cho vector hạng trang , sau đó ta tạo ra chuỗi vector với:
Chuỗi vector sẽ hội tụ về vector riêng
Thuật toán tính theo phương pháp lũy thừa
1 Chọn vector
2
3 Nếu ‖ ‖ , dừng lại, là vector riêng cần tính
4 Nếu không, , quay lại bước 2
c PageRank trong thực tế
PageRank đơn giản không thể dùng trong đồ thị web thực tế, vì khi đó chuỗi vector có thể không hội tụ, có thể phụ thuộc vào , và có thể không phản ánh được hạng trang web thực tế Ta sẽ xét cụ thể từng trường hợp
và chỉnh sửa lại PageRank cho phù hợp
Để thuận tiện, ta định nghĩa mô hình người duyệt web ngẫu nhiên:
Quá trình tính toán PageRank có thể được xem như hành động của một người đang duyệt Web ngẫu nhiên Ta tưởng tượng rằng có một người dùng duyệt Web bằng cách đi theo các liên kết trên các trang Web mà họ viếng thăm một cách ngẫu nhiên Cách duyệt ngẫu nhiên này tương đương với việc di chuyển ngẫu nhiên trên một đồ thị có hướng Nó thể hiện rằng vector PageRank tỉ lệ với phân phối xác suất dừng của một quá trình ngẫu nhiên Nó
Trang 26có thể hiểu là một xích Markov, trong đó những trạng thái là những trang web, những bước biến đổi trạng thái là những liên kết giữa các trang web PageRank của một trang Web chính là xác suất để một người ngẫu nhiên duyệt trang Web
đó [BP+1998]
Bây giờ ta xét từng trường hợp:
Trường hợp 1
Trên thực tế có nhiều trang Web không có liên kết đi ra Các trang Web này
có thể là các trang chỉ chứa một bức ảnh, một file pdf, một bảng dữ liệu… hay
có thể là một trang mà các trang liên kết của nó chưa được kéo về Các trang độc lập như vậy được gọi là các “dangling nodes” hay “dangling links” [BP+1998] Những “dangling node” nhận hạng trang từ hệ thống các trang web nhưng không trả hạng trang lại cho hệ thống Vì vậy tổng hạng trang của hệ thống bị tiêu hao Vector hạng trang tính được trong trường hợp này sẽ không phản ánh đúng hạng trang Để giải quyết trường hợp này, ta xét khi người duyệt web ngẫu nhiên gặp “dangling node”, người đó sẽ chọn một trang bất kì
để tiếp tục Như vậy ta coi như “dangling node” có liên kết đến tất cả các trang web khác [Aus2006] Ta sẽ chỉnh sửa P bằng cách thay cột ứng với “dangling node” bằng cột gồm toàn các phần tử có giá trị Để đơn giản tính toán, ta có thể sử dụng ma trận:
Trang 27bộ và được gọi là “rank sink” [BP+1998] [Aus2006] “Rank sink” nhận chia sẻ hạng từ hệ thống nhưng không cung cấp hạng cho hệ thống (bởi vì chúng không có liên kết ra ngoài), vì vậy sau một số bước lặp tính toán, hạng trang sẽ được tập trung vào “rank sink” và làm giảm PageRank của phần còn lại của hệ thống Để giải quyết trường hợp này, ta xét khi người duyệt web ngẫu nhiên có thể gặp một “rank sink”, hay người đó có thể chán và ngưng không tiếp tục duyệt nữa Khi đó ta coi như người đó sẽ bắt đầu duyệt lại với một trang bất kì Xác suất để người đó tiếp tục duyệt là một hệ số gọi là hệ số suy giảm Hệ số ứng với trị riêng thứ hai của ma trận kề, thỏa Hệ số có ảnh hưởng [HK2003] [HK+2003] đến độ chính xác của PageRank và tốc độ hội tụ của chuỗi Nhiều nghiên cứu khác nhau [BP1998] [Aus2006] đã thử nghiệm nhiều giá trị của Tuy nhiên hầu hết đều cho rằng sẽ có giá trị quanh Lúc này ta thay ma trận bằng ma trận:
Với là ma trận vuông cấp , được gọi là nguồn hạng trang [BP+1998] Trường hợp tổng quát, các phần tử của thường có giá trị Ta có thể viết:
Với là ma trận vuông cấp gồm toàn phần tử có giá trị bằng một
Lưu ý rằng, là một ma trận ngẫu nhiên thể hiện xác suất một người sẽ chọn ngẫu nhiên trang nào để tiếp tục duyệt mới sau khi chán việc duyệt theo liên kết đi ra Vì vậy có thể được sử dụng để cá nhân hóa hạng trang, chỉnh sửa hạng trang theo chủ đề… [BP+1998] [HK+2003]
Sau khi giải quyết hai trường hợp trên ta có thể viết lại ma trận kề là:
Và phương trình tính vector PageRank sẽ được viết lại thành:
Trang 28Việc tính PageRank thực tế tương tự như PageRank đơn giản, ta cũng áp dụng phương pháp lũy thừa với phương trình:
Trong bài viết đầu tiên về PageRank, Page và cộng sự đã đưa ra công thức tính PageRank như sau, và hơi gây khó hiểu:
Sự khác biệt giữa hai công thức (3) và (4) là ở công thức đầu, tổng các giá trị PageRank bằng một Ở công thức sau, giá trị PageRank của mỗi trang bị nhân và do đó tổng các giá trị PageRank bằng Page và cộng sự thừa nhận tổng các giá trị PageRank mà họ sử dụng bằng một [BP1998] Tuy nhiên hai công thức trên có ý nghĩa tương đương nhau
c) Nhận xét về PageRank
Thuật toán PageRank khai thác lợi thế của cấu trúc siêu liên kết của các trang web PageRank là một ví dụ điển hình về thuật toán phân tích liên kết xếp hạng dạng “eigenvector centrality measure” Nó là biểu diễn toán học của mô hình người duyệt web ngẫu nhiên, do đó có thể dựa trên PageRank để đánh giá trang web một cách khách quan và đáp ứng nhu cầu của người dùng tìm kiếm
Có một số vấn đề cần giải quyết để hiện thực một máy tìm kiếm hiệu quả trong thực tế Đó là vấn đề gian lận liên kết hay “spam link”, và việc kết hợp giữa hạng PageRank và mức độ phù hợp với truy vấn của người dùng Google
Trang 29Search cho thấy họ đã làm khá tốt điều này trong những năm qua và đã rất thành công
Trước khi PageRank ra đời đã có một số nghiên cứu theo hướng phân tích liên kết mà hầu hết là trong lĩnh vực phân tích trích dẫn các văn bản khoa học Tuy nhiên, văn bản khoa học có một số khác biệt quan trọng:
Nội dung văn bản khoa học được kiểm duyệt, thường có cấu trúc hay bán cấu trúc
Việc trích dẫn thường là có ý nghĩa, ít khi được thực hiện một cách gian lận để qua mặt hệ thống xếp hạng
Để áp dụng thuật toán PageRank cho việc xếp hạng, ta cần định nghĩa một
đồ thị các đối tượng có liên kết đến nhau Xét trường hợp xếp hạng các bài báo khoa học, ta xây dựng đồ thị trích dẫn bài báo khoa học Đồ thị này có các đỉnh
là các bài báo khoa học, mỗi cạnh biểu thị cho một trích dẫn từ bài báo này tới bài báo khác Sau khi đã có đồ thị này, ta tính toán PageRank hoàn toàn tương
tự như khi làm với đồ thị web Khác với đồ thị web ở chỗ các cạnh trong đồ thị trích dẫn hầu hết đều đáng tin cậy
Tuy nhiên, PageRank có nhược điểm là đồ thị mà nó sử dụng chỉ có một loại đối tượng và một loại cạnh Trong thực tế, các bài báo khoa học phải được đánh giá trong một tổng thể bao gồm nhiều đối tượng khác như tác giả, hội nghị khoa học, tờ báo khoa học… vì vậy có nhiều mối liên hệ phải xét đến hơn
là chỉ có liên hệ trích dẫn, khi đó áp dụng PageRank sẽ không thật sự hiệu quả Sau này có nhiều thuật toán được đề xuất theo hướng tính đến nhiều loại đối tượng và nhiều loại cạnh trong đồ thị, nổi bật trong số đó là thuật toán
PopRank
2.3.3 PopRank
a) Giới thiệu thuật toán PopRank
Như đã nói ở trên, mô hình PageRank ban đầu được xây dựng để xếp hạng các trang web, đây là dạng xếp hạng ở mức tài liệu, với chỉ một loại liên kết
Trang 30duy nhất PageRank không hợp lệ để xếp hạng các đối tượng nằm trong các tài liệu, vì các đối tượng này có nhiều loại mối quan hệ khác nhau Xét trường hợp xếp hạng đối tượng bài báo khoa học, một bài báo có thể được trích dẫn bởi một số bài báo khác, được viết bởi một số tác giả, được xuất bản trong một tờ báo khoa học hay một hội nghị nào đó Như vậy, trường hợp này có ba loại liên kết: “được trích dẫn bởi” ký hiệu , “được viết bởi” ký hiệu , “được xuất bản bởi” ký hiệu Hình sau minh họa các loại liên kết này [NZ+2005]:
Hình 2.3 – Các loại liên kết với bài báo khoa học
Thuật toán PopRank được xây dựng nhằm khắc phục các điểm yếu của PageRank để xếp hạng các đối tượng hiệu quả hơn Thuật toán PopRank được phát triển bởi Nie và các cộng sự tại phòng nghiên cứu Châu Á của Microsoft
Nó được sử dụng đầu tiên cho mục đích xếp hạng các bài báo khoa học trong
dự án Libra, tuy nhiên nó có thể sử dụng để xếp hạng nhiều đối tượng khác nhau như hình ảnh, bản nhạc, bộ phim… [NZ+2005]
PopRank là một thuật toán phân tích liên kết độc lập lĩnh vực ở cấp độ đối tượng Nó quan tâm tới nhiều loại liên kết khác nhau bằng cách gán tự động các hệ số truyền khác nhau cho mỗi loại liên kết Việc gán các hệ số này được thực hiện nhờ áp dụng thuật toán “simulated annealing” với một tập mẫu là các đối tượng đã được xếp hạng sẵn bởi các chuyên gia trong lĩnh vực Để giảm thiểu thời gian học các hệ số, chỉ một phần các đối tượng được sử dụng trong quá trình học Những vấn đề này sẽ được trình bày chi tiết ở phần tiếp theo
b) Định nghĩa
a Mô hình PopRank
Ta xét một mô hình các đối tượng thuộc nhiều loại khác nhau nằm trên nhiều trang web Người dùng các thể đi đến một đối tượng nào đó thông qua
Trang 31việc vào trang web chứa đối tượng đó, hoặc đi trực tiếp đến đối tượng đó từ liên kết ở những đối tượng khác
Giả sử có một người duyệt qua các đối tượng một cách ngẫu nhiên Bắt đầu quá trình duyệt, người này vào một trang web bất kỳ và theo các đường siêu liên kết đi đến các trang web khác Khi tìm được một đối tượng thích hợp, người này có thể sẽ đi theo các đường liên kết của đối tượng này để đến các đối tượng khác Quá trình duyệt này không quay ngược lại, nhưng người duyệt có thể cảm thấy chán và dừng việc duyệt này lại để bắt đầu lại với một việc duyệt mới
Ta thấy quá trình duyệt này có thể chia ra hai giai đoạn Ở giai đoạn đầu, người dùng duyệt ở cấp độ các trang web, liên kết giữa các trang này đều đồng nhất là các siêu liên kết nên ta có thể áp dụng thuật toán PageRank để biểu diễn cho giai đoạn này và tính toán hạng các trang Ở giai đoạn sau, người dùng duyệt ở cấp độ đối tượng, các loại liên kết giữa các đối tượng này hỗn tạp nên không thể dùng PageRank Khi đó, hạng của một đối tượng sẽ được tổng hợp
từ hạng của trang web chứa nó và hạng có được do các mối liên kết giữa các đối tượng Để tính hạng tổng hợp này ta sẽ áp dụng công thức PopRank sau:
Với:
, là tập các đối tượng loại và loại
, là các vector hạng tổng hợp của các đối tượng loại X và loại Y
là vector hạng trang web chứa các đối tượng loại tính theo PageRank dựa vào siêu liên kết
[ ] là ma trận kề của đồ thị các đối tượng với các phần tử có giá trị như sau:
o , nếu có liên kết cấp đối tượng từ đối tượng tới đối tượng ; là số lượng liên kết từ đối tượng y tới mọi đối tượng loại
Trang 32b Tính toán hệ số truyền
Các hệ số truyền đóng một vai trò quan trọng trong tính toán PopRank, giá trị các hệ số truyền có ảnh hưởng lớn tới giá trị hạng của các đối tượng Việc gán giá trị cho các hệ số truyền bằng tay là không thể được khi giá trị này cần
có độ chính xác cao và số lượng loại đối tượng tăng lên
Để gán tự động các hệ số truyền, Nie và các cộng sự đề ra mô hình học như sau [NZ+2005]: sử dụng chuyên gia để tạo ba danh sách nhỏ các đối tượng đã xếp hạng, sau đó tìm một tổ hợp các giá trị hệ số truyền làm cho thứ tự nhận được khi xếp hạng bằng PopRank giống nhất với thứ tự nhận được từ các chuyên gia Lúc này bài toán trở thành bài toán ước lượng tham số, thời gian để ước lượng tất cả các khả năng có thể rất lâu Để giảm thời gian này, Nie và các cộng sự đề xuất sử dụng một giải thuật heuristic để tăng tốc độ tìm kiếm bộ giá trị hệ số truyền tối ưu, đồng thời chỉ tiến hành chọn một tập con các đối tượng trong các trang web để kiểm tra ước lượng thay vì toàn bộ Tuy độ chính xác có thể giảm đi một chút nhưng có thể chấp nhận được, và tốc độ được cải thiện rất nhiều
Giải thuật tìm kiếm bộ giá trị tối ưu gọi là SAFA (Simulated Annealing for FactorAssignment), được cho dưới đây:
Trang 33Hình 2.4 – Giải thuật SAFA
Ý tưởng cơ bản của giải thuật này là chúng so sánh các bộ giá trị liền kề với
bộ giá trị tốt nhất hiện tại, nếu nó tốt hơn thì nó sẽ được gán là bộ giá trị tốt nhất Thỉnh thoảng chúng ta sẽ chọn một bộ giá trị xấu hơn có chủ ý để tránh rơi vào bẫy cực trị địa phương Những bộ giá trị liền kề có được bằng cách thay đổi chỉ một giá trị hệ số truyền trong bộ đang có Hàm là chi phí của
bộ giá trị mới, nó là khoảng cách của thứ tự tính được bằng PopRank với bộ giá trị mới và thứ tự do chuyên gia xếp hạng, khoảng cách này được tính theo công thức trong [NZ+2005]
Trang 34Tập con các đối tượng (hay đồ thị con) để ước lượng được Nie và các cộng
sự xây dựng dựa trên tập huấn luyện bằng cách mở rộng ra một khoảng cách nhất định liên kết [NZ+2005] Đồ thị con này gọi là k-diameter subgraph, nó bao gồm tập huấn luyện và các đối tượng có khoảng cách đến một đối tượng bất kì nào trong tập huấn luyện nhỏ hơn hay bằng k liên kết Giải thuật xác định được cho dưới đây:
Hình 2.5 – Giải thuật xác định khoảng cách k
c) Nhận xét
Có nhiều thuật toán đã được đề xuất để khắc phục các hạn chế của PageRank trong việc xếp hạng các đối tượng trong đồ thị có nhiều loại mối quan hệ khác nhau Trong đó PopRank là nổi bật nhất PopRank bao gồm trong
nó PageRank và nó cũng tính đến hệ số truyền dẫn khác nhau cho các loại liên kết giữa các loại đối tượng khác nhau
PopRank ban đầu đã được áp dụng để xếp hạng các đối tượng trong lĩnh vực thư viện điện tử như bài báo khoa học, tác giả,…
Trang 352.4 Các chỉ số xếp hạng phổ biến
2.4.1 Giới thiệu
Việc xếp hạng, đánh giá chất lượng làm việc của các nhà khoa học, các tổ chức hay các tờ báo khoa học là một trong số những công việc chính của ngành phân tích các tài liệu Để làm việc này, các nhà khoa học đã xây dựng nhiều phương pháp cùng với nhiều độ đo của các chỉ số xếp hạng khác nhau Các chỉ
số đó ban đầu đơn giản chỉ là số lượng tác phẩm khoa học, số lượng trích dẫn,
số trích dẫn trung bình trên một tác phẩm Đến vài năm gần đây, hàng loạt chỉ
số mới đã được đề xuất và được ứng dụng rộng rãi Mở đầu với h-index, sau đó các chỉ số ra đời trong nỗ lực cải tiến h-index như g-index, m-quotient, h(2)-index, đây là nhóm các chỉ số thiên về tính số lượng tác phẩm cốt lõi nhận được nhiều trích dẫn, gọi chung là h-type indexes Còn có các chỉ số khác cũng được phát triển dựa trên ý tưởng h-index nhưng thiên về tính mức độ ảnh hưởng của nhóm các tác phẩm cốt lõi như a-index, m-index, r-index, ar-index,
hw-index, chúng được gọi chung là a-type indexes [BM+2008]
Ngoài ra còn có nhiều chỉ số khác đã và đang được xây dựng, ở đây luận văn chỉ khảo sát các chỉ số quan trọng và phổ biến nhất đề cập ở trên
2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators)
a) Tổng số bài báo khoa học
Đây là chỉ số đơn giản nhất trong số ba chỉ số phân tích tài liệu chuẩn Tổng
số bài báo khoa học thể hiện năng suất lao động khoa học của tác giả, nếu xét cho tổ chức hay quốc gia thì nó thể hiện năng suất lao động khoa học của tổ chức hay quốc gia đang xét
b) Tổng số trích dẫn
Số lượng trích dẫn của một bài báo khoa học phản ánh tầm ảnh hưởng của bài báo khoa học đó, nó thể hiện bài báo đó phổ biến tới mức nào trong cộng đồng khoa học Tổng số lượng trích dẫn của các bài báo của một tác giả nào đó thể hiện tầm ảnh hưởng của tác giả đó, tổng số lượng trích dẫn cao hơn thường
Trang 36đồng nghĩa với việc tác giả đó có tầm ảnh hưởng lớn hơn, có uy tín lớn hơn Tổng số lượng trích dẫn của một tổ chức cũng thể hiện tầm ảnh hưởng của tổ chức đó
c) Hệ số ảnh hưởng (Impact factor)
a Giới thiệu
Độ đo impact factor, thường được gọi là IF, là một độ đo phản ánh số lượng tham khảo trung bình đến những bài báo trong một tờ báo khoa học nào đó Impact factor thể hiện một độ quan trọng tương đối của một tờ báo so với những tờ báo khác trong cùng lĩnh vực, tờ báo có impact factor cao hơn được coi như quan trọng hơn tờ báo có impact factor thấp hơn Impact factor được đề xuất bởi Eugene Garfield, người sáng lập viện khoa học thông tin (Institute for Scientific Information – ISI) bây giờ là một phần của Thomson Reuters Độ đo impact factor được tính mỗi năm cho các tờ báo nằm trong danh sách báo cáo trích dẫn các tờ báo của Thomson Reuters [WikiIF]
b Định nghĩa
Impact factor của một tờ báo trong một năm được tính bằng cách lấy số lần trích dẫn trung bình trong năm đó của các bài báo được xuất bản trong hai năm trước đó thuộc tờ báo đang xét
Ví dụ ta tính impact factor cho tờ báo X trong năm 2011, đặt:
A = số lần tham khảo tới các bài báo thuộc tờ báo X xuất bản năm 2009,
2010 bởi các bài báo trong các tờ báo được lập chỉ mục trong năm 2011
B = số bài báo thuộc tờ báo X xuất bản năm 2009, 2010
Khi đó, impact factor của tờ báo X năm 2011 = A / B
Lưu ý rằng một tờ báo mới lập chỉ mục sẽ được tính impact factor sau năm thứ ba, kết quả sẽ có được vào đầu năm thứ tư sau khi tất cả các bài báo năm thứ ba đã được xuất bản
c Nhận xét
Trang 37Impact factor là một chỉ số khá đơn giản dùng để so sánh độ quan trọng giữa các tờ báo trong cùng một lĩnh vực nhất định Impact factor được tính toán bởi Thomson Reuters cho hơn 11000 tờ báo trong cơ sở dữ liệu của họ
Impact factor là chỉ số tốt nhất trong ba chỉ số phân tích tài liệu chuẩn, nó kết hợp cả số lượng bài báo lẫn số lượng trích dẫn để tạo ra một chỉ số trung bình trích dẫn của các bài báo khoa học trong tờ báo khoa học từ đó có thể đánh giá tổng hợp cả hiệu suất làm việc và tầm ảnh hưởng ở từng tờ báo
Tuy nhiên, impact factor cũng còn tồn tại nhiều thiếu sót, có thể chia chúng
ra ba loại là tính hợp lệ, những chính sách khiến impact factor thay đổi, và việc
sử dụng impact factor sai mục đích
Tính hợp lệ của impact factor yếu vì nó là trung bình số học của các trích dẫn trên một bài báo, tuy nhiên theo lý thuyết thì đó là phân phối Bradford, sự không phù hợp giữa lý thuyết và thực nghiệm làm cho impact factor không chính xác để đánh giá các trích dẫn Thực tế danh sách xếp hạng các tờ báo được tính bởi impact factor cũng không hoàn toàn trùng khớp với danh sách có được do các chuyên gia xếp hạng
Một tờ báo có thể có chính sách đặc biệt để làm tăng impact factor của nó,
ví dụ như xuất bản nhiều những bài báo có khả năng được trích dẫn cao, và hạn chế xuất bản những bài báo ít có khả năng được trích dẫn Ngoài ra, một tờ báo
có thể có một số chính sách yêu cầu tác giả phải trích dẫn các bài báo xuất bản trong tờ báo đó Những chính sách này làm cho impact factor không phản ánh đúng mức độ quan trọng của tờ báo
Impact factor là chỉ số được tạo ra để đánh giá các đối tượng là các tờ báo khoa học, nó không phù hợp để đánh giá một bài báo hay một tác giả đơn lẻ, mọi sự đánh giá này đều có thể sai vì impact factor là giá trị trung bình cho cả
tờ báo, trong đó có những bài báo được trích dẫn rất nhiều, có những bài báo ít được trích dẫn, tượng tự có những tác giả được trích dẫn rất nhiều, có những tác giả rất ít được trích dẫn [WikiIF]
Trang 38b Định nghĩa
Chỉ số h-index dựa trên phân phối của các trích dẫn đến các bài bài của tác giả đang xét Theo Hirsch thì: “Một tác giả có h-index = h khi có h bài báo khoa học của người đấy có ít nhất h trích dẫn mỗi bài báo, và các bài báo còn lại có ít hơn h trích dẫn mỗi bài.” [Hir2005] H-index được xây dựng dựa trên một mô hình quen thuộc trong lý thuyết số là hình vuông Durfee [WikiDS] Hình sau mô tả định nghĩa này của h-index:
Trang 39Hình 2.6 – Mô phỏng định nghĩa h-index
Định nghĩa trên của Hirsch không hoàn toàn chính xác, vì nó không bao quát hết các trường hợp Ta xét ví dụ sau:
“Một tác giả có h-index = h khi các tác phẩm của người đó được sắp xếp theo danh sách thứ tự giảm dần số trích dẫn, và có h tác phẩm ở đầu có ít nhất h trích dẫn mỗi tác phẩm, và bài báo thứ (h+1) có ít hơn (h+1) trích dẫn.” [Rou2006] Nói cách khác, tác giả có h-index = h khi h là số nguyên lớn nhất
Trang 40thỏa có h tác phẩm có ít nhất h trích dẫn mỗi tác phẩm đó Khi tính toán, các tác phẩm sẽ được sắp xếp theo thứ tự giảm dần số trích dẫn để công việc đơn giản hơn
Trong nghiên cứu của mình [Hir2005], Hirsch đã chỉ ra rằng chỉ số h-index
có liên quan rõ ràng đến việc một nhà khoa học có đạt được các giải thưởng khoa học không, ví dụ như giải Nobel Vì chỉ số h-index có phụ thuộc vào số lượng bài báo khoa học của một tác giả nên nó cũng phụ thuộc vào số năm nghiên cứu khoa học của tác giả đó
H-index của một tác giả có thể được tính từ nguồn dữ liệu là một cơ sở dữ liệu các bài báo khoa học trích dẫn nhau của các tác giả trong nhiều lĩnh vực Việc tính toán dựa trên việc đếm các trích dẫn của mỗi bài báo, ta sẽ sắp xếp các bài báo của một tác giả theo thứ tự giảm dần số lượng trích dẫn, sau đó đếm để xác định số lượng bài báo h có lượng trích dẫn mỗi bài lớn hơn hay bằng h Giải thuật tính h có thể cho như sau:
// Calculate h-index for each author
Input: Tập các bài viết
Output: h-index của tác giả
Begin
Sắp xếp các bài viết theo thứ tự giảm dần số trích dẫn
h = 0;
while (h < số bài viết) {
c = số trích dẫn của bài viết thứ (h + 1);
if (c >= (h + 1))
h++;
else break;
}