Lê Bá Cường Đơn vị công tác: Khoa CNTT - Học viện Kỹ thuật mật mã Đề tài: Nghiên cứu thuật toán PageRank và ứng dụng trong xếp hạng tài liệu B.. Tính cấp thiết, ý nghĩa thực tiễn của đề
Trang 1ĐỀ CƯƠNG ĐỒ ÁN TỐT NGHIỆP
A THÔNG TIN CHUNG
Người hướng dẫn: ThS Lê Bá Cường
Đơn vị công tác: Khoa CNTT - Học viện Kỹ thuật mật mã
Đề tài: Nghiên cứu thuật toán PageRank và ứng dụng trong xếp hạng tài liệu
B ĐỀ CƯƠNG ĐỒ ÁN
1 Tính cấp thiết, ý nghĩa thực tiễn của đề tài
Trong các phương thức tìm kiếm nội dung truyền thống, việc xếp hạng các kết quả tìm kiếm được dựa trên sự so khớp và tần suất xuất hiện của từ khóa của truy vấn trong các tài kiệu Với một truy vấn mập mờ đa nghĩa, máy tìm kiếm có thể trả về tập kết quả không chính xác hoặc không như mong đợi của người dùng
Do đó ta cần nghiên cứu và áp dụng các kỹ thuật xếp hạng lại kết quả tìm kiểm và một trong số đó sử dụng thuật toán PageRank PageRank là một thuật toán phân tích các liên kết được sử dụng trong bộ máy tìm kiếm lớn nhất hiện nay là GOOGLE SEARCH để xếp hạng thứ tự các website được hiển thị khi tìm kiếm Bằng cách ứng dụng thuật toán PageRank trong công cụ tìm kiệm sẽ giải quyết được khó khăn trong các phương thức tìm kiếm truyền thống Từ đó kết quả tìm kiếm sẽ được đảm bảo rằng sát với mong muốn của người sử dụng nhất
Mục tiêu của đồ án tốt nghiệp với đề tài ‘Nghiên cứu thuật toán PageRank và ứng dụng trong xếp hạng tài liệu’ là nghiên cứu và ứng dụng được thuật toán PageRank để xếp hạng kết quả tìm kiếm tài liệu đảm bảo rằng kết quả sau khi tìm kiếm đúng với mong muốn của người dùng nhất
2 Nhiệm vụ đồ án
Các nhiệm vụ đặt ra khi thực hiện đồ án bao gồm:
Nghiên cứu tìm hiểu về thuật toán PageRank
Nghiên cứu kỹ thuật và phương thức để có thể triển khai áp dụng thuật toán PageRank vào trong công cụ tìm kiếm của hệ thống quản lý tài liệu
Xây dựng hệ thống quản lý tài liệu Trong khuôn khổ đồ án này sẽ thực hiện phát triển website quản lý tài liệu
Trang 23 Dự kiến chương, mục
Sau các mục “Lời mở đầu”, “Danh mục từ viết tắt và ký hiệu”, “Danh mục hình vẽ”, “Danh mục bảng”, nội dung chính của đồ án dự kiến được kết cấu như sau:
Chương I Tổng quan
I.1 Giới thiêu về thuật toán PageRank
I.2 Chi tiết về thuật toán PageRank
I.3 Ứng dụng thực tiễn của thuật toán
I.4 Mô hình hệ thống quản lý tài liệu
Chương II Xây dựng hệ thống quản lý tài liệu
II.1 Yêu cầu của hệ thống
II.2 Tác nhân
II.3 Xây dựng biểu đồ Use Case tổng quát của hệ thống
II.4 Xây dựng biểu đồ lớp phân tích
II.5 Biểu đồ tuần tự
II.6 Biểu đồ trạng thái
II.7 Biểu đồ lớp phân tích
II.8 Thiết kế cơ sở dữ liệu
II.9 Thiết kế giao diện người dùng
Chương III Thực nghiệm
III.1.Mô hình cài đặt chi tiết
III.2.Phát triển hệ thống quản lý tài liệu
III.3.Nghiên cứu và triển khai thuật toán về đồ thị giúp lưu trữ kết quả tìm kiếm
III.4.Nghiên cứu và triển khai thuật toán PageRank
III.5.Tích hợp PageRank vào công cụ tìm kiếm của hệ thống
III.6.Kết quả thực nghiệm
Sau cùng là các mục “Kết luận”, “Danh mục tài liệu tham khảo” và “Phụ lục” Phần phụ lục sẽ chứa mã nguồn của các module chính của ứng dụng
4 Tài liệu tham khảo để xây dựng đề cương
[1] Marjin Haverbeke, ‘‘Eloquent JavaScript: A Modern Introduction to
Programming’’, No Starch Press, 2015
[2] Eric Elliott, “Composing Software”, Leanpub, 2013
[3] Michael T Goodrich, Roberto Tamassia, “Data Structures and Algorithms in Java”, Cengage Learning, 1997
[4] Amy N Langville, “Google's PageRank and Beyond: The Science of Search Engine Rankings”, Paperback, 2012
[5] Ronald Rivest, “Introduction to Algorithms”, MIT Press, 2001
Trang 3[6] Eric Roberts, ‘‘The Google PageRank Algorithm’’, Online:
https://web.stanford.edu/class/cs54n/handouts/24-GooglePageRankAlgorithm.pdf
[7] ‘‘Page Rank Algorithm and Implementation’’, Online:
https://www.geeksforgeeks.org/page-rank-algorithm-implementation/
Hà Nội, ngày tháng năm 2020
XÁC NHẬN CỦA NGƯỜI
HƯỚNG DẪN
(Ký, ghi rõ họ tên)
SINH VIÊN LÀM ĐỒ ÁN
(Ký, ghi rõ họ tên)