Công cụ tìm kiếmSearch Engine là một hệ thống thu thập thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một giao
Trang 2I.Giới thiệu công cụ tìm kiếm
1.Công cụ tìm kiếm là gì?
Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập
thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một giao diện giúp cho người dùng có thể chọnthông tin cần tìm và
có cơ chế xử lý và tìm được thông tin tương ứng Thông tin cần tìm sẽ tương ứng với một câu truy vấn
Trang 32.Các thành phần của công cụ tìm kiếm :
Bộ thu thập thông tin(Robot)
Bộ lập chỉ mục
Bộ tìm kiếm thông tin
Trang 43.Nguyên tắc của công cụ tìm kiếm
Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn được 3 điều kiện:
- Cho phép tìm kiếm trong một tập hợp lớn các trang web
- Đưa ra kết quả gần với mong muốn của người sử dụng nhất
- Tốc độ tìm kiếm chấp nhận được
Trang 53.Nguyên tắc của công cụ tìm kiếm
Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại đều tiến hành lần lượt theo bốn bước: web crawler, indexing, rank page và searching
Sau đây ta sẽ nghiên cứu các bước tìm kiếm của google
Trang 6II.Công cụ tìm kiếm google
Kiến trúc hệ thống:
Trang 7Web crawler
Web crawler là bộ phận chịu trách nhiệm download các trang web
và lưu trữ chúng dưới dạng nén ở trong kho dữ liệu Mục đích
thiết kế của web crawler là làm cho nó download được số lượng trang web nhiều nhất trong khả năng đáp ứng của tài nguyên
mạng và tốc độ, khả năng lưu trữ của máy
Trang 8Web crawler
Trang 9Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục
vụ cho các truy vấn Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ mục offset (offset index),chỉ mục text (text index) và chỉ
mục link/graph (link/graph index)
Trang 10Offset index ghi nhận vị trí vật lý của mỗi trang web trong cơ sở
dữ liệu, nơi mà lưu trữ các trang web đã được nén.Chỉ mục này cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở dữ liệu
Text index cho phép truy vấn hướng nội dung, sử dụng các chỉ mục ngược để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ
liệu
Cuối cùng, link index cung cấp truy vấn hướng liên kết (VD:
Gọi đến tập các trang mà trang X trỏ tới )
Trang 11Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ xây dựnglên các chỉ mục gốc khác nhau Ví dụ, sử dụng chỉ mục liên kết và các thuật toán lặp PageRank, khối phân tích sẽ tính
toán và lưu trữ PageRank của mỗi trang trongcơ sở dữ liệu ( chỉ mục PageRank )
Trang 12PAGE RANK
PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm
Google,được phát triển tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiêncứu của họ
“The Anatomy of a Large-Scale Hypertextual Web Search Engine”
Trang 14C (Tn) là tổng số các liên kết đi trên Tn
và d là một yếu tố giảm xóc đền bù cho vòng lặp vô tận.
Trang 15Có 2 yếu tố ảnh hưởng đến vị trí của trang web
của bạn trên Google Đó là:
Số lượng các link đi đến ( incoming links)
Thông thường thì càng nhiều link đi đến càng tốt Có 1 điểm đáng chú ý mà thuật toán chỉ ra đó là: Nếu 1trang không có link trỏ đến có thể gây ra ảnh hưởng ngược lại đến PageRank của trang web mà nó trỏ tới ( C(T) = 0 ).
Số lượng các link đi ra của các trang web trỏ tới ( outgoing links):
Càng ít càng tốt, có nghĩa là nếu có 2 trang web trỏ tới trang cần tính PageRank,1 trang có 5 link đi ra và 1 trang có 10 link
đi ra thì PageRank được tính từ trang có 5 link đi ra sẽ gấp đôi trang có 10 link đi ra
Trang 16PAGE RANK
Thuật toán PageRank trên thực tế rất đơn giản Nhưng khi một phép tính đơn giản được thực hiện hàng nghìn ( hoặc hàng tỉ) lần thì thuật toán trở lên rất phức tạp!
PageRank chỉ là 1 phần trong chiến lược sắp xếp thứ tự kết quả tìm kiếm của Google Nhưng nó là một tiêu chí không thể thiếu trong việc sắp xếp thứ tự dữ liệu.
Trang 17GOOGLE PANDA ALGORITHM
Tháng 11-2011 Google chính thức thay đổi thuật toán
Ranking của mình lấy tên là Panda.
Thuật toán Panda cố gắng xác định nguồn gốc, tác giả của
nội dung và tăng thứ hạng cho trang đó, đồng thời hạ thứ
hạng của tất cả các trang có nội dung trùng lặp với nội dung trên
Với tầm nhìn rõ ràng của Google Panda là loại bỏ những nội dung rác, nội dung copy, loại bỏ những website có thương
hiệu kém…Google Panda là bộ lọc quan trọng để cải tiến các
kết quả tìm kiếm mới của Google
Trang 18GOOGLE PANDA ALGORITHM
những tiêu chí chính trong thuật toán Google
Panda:
Trang 19Ứng dụng lớn nhất của PageRank là tìm kiếm (searching)
Lợi ích của PageRank trong tìm kiếm là rất lớn
VD:Khi tìm kiếm từ khóa ĐH Bách Khoa HN
Đối với tìm kiếm thông thường sẽ hiện ra tất cả các trang web liên quan đến ĐHBKHN
Đối với tìm kiếm sử dụng PR thì trang chủ của ĐHBKHN sẽ hiện ra đầu tiên
Trang 20 Qui trình tìm kiếm:
Hệ thống lưu trữ các thông tin về trang web bao gồm vị trí, font chữ, thông tin hoạt động, liên kết, PageRank Kết hợp tất cả các thông tin này thành 1 thứ hạng là rất khó, vì vậy chúng ta thiết kế chức năng xếp hạng sao cho không 1 thành phần nào có ảnh hưởng quá lớn đến thứ hạng của trang web.
Đầu tiên, xét trường hợp đơn giản nhất đó là câu truy vấn chỉ có 1 từ đơn.Với mục đích sắp xếp các văn bản với câu truy vấn 1 từ đơn, Google sẽ tìm
trêndanh sách chỉ mục của mình từ khóa đó, tính điểm các thuộc tính ( tiêu đề, liên kết,URL,…) trên những kết quả phù hợp, mỗi thuộc tính có điểm của
riêng nó.
Các điểm thuộc tính tạo thành 1 vector chỉ mục theo kiểu thuộc tính.
Google sẽ đếm số lượng các kết quả phù hợp và gọi là điểm số lượng Sau đó
sử dụng 2 điểm này để tính ra điểm IR cho văn bản Cuối cùng, điểm IR kết hợp với PageRank để đưa ra kết quả cuối cùng
Trang 21THANK YOU!