slike thuyết trình đề tài đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các

 Công cụ tìm kiếmSearch Engine là một hệ thống thu thập thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một giao

Trang 2

I.Giới thiệu công cụ tìm kiếm

1.Công cụ tìm kiếm là gì?

 Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập

thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một giao diện giúp cho người dùng có thể chọnthông tin cần tìm và

có cơ chế xử lý và tìm được thông tin tương ứng Thông tin cần tìm sẽ tương ứng với một câu truy vấn

Trang 3

2.Các thành phần của công cụ tìm kiếm :

Bộ thu thập thông tin(Robot)

Bộ lập chỉ mục

Bộ tìm kiếm thông tin

Trang 4

3.Nguyên tắc của công cụ tìm kiếm

Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn được 3 điều kiện:

- Cho phép tìm kiếm trong một tập hợp lớn các trang web

- Đưa ra kết quả gần với mong muốn của người sử dụng nhất

- Tốc độ tìm kiếm chấp nhận được

Trang 5

3.Nguyên tắc của công cụ tìm kiếm

Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại đều tiến hành lần lượt theo bốn bước: web crawler, indexing, rank page và searching

Sau đây ta sẽ nghiên cứu các bước tìm kiếm của google

Trang 6

II.Công cụ tìm kiếm google

Kiến trúc hệ thống:

Trang 7

Web crawler

Web crawler là bộ phận chịu trách nhiệm download các trang web

và lưu trữ chúng dưới dạng nén ở trong kho dữ liệu Mục đích

thiết kế của web crawler là làm cho nó download được số lượng trang web nhiều nhất trong khả năng đáp ứng của tài nguyên

mạng và tốc độ, khả năng lưu trữ của máy

Trang 8

Web crawler

Trang 9

Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục

vụ cho các truy vấn Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ mục offset (offset index),chỉ mục text (text index) và chỉ

mục link/graph (link/graph index)

Trang 10

Offset index ghi nhận vị trí vật lý của mỗi trang web trong cơ sở

dữ liệu, nơi mà lưu trữ các trang web đã được nén.Chỉ mục này cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở dữ liệu

Text index cho phép truy vấn hướng nội dung, sử dụng các chỉ mục ngược để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ

liệu

Cuối cùng, link index cung cấp truy vấn hướng liên kết (VD:

Gọi đến tập các trang mà trang X trỏ tới )

Trang 11

Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ xây dựnglên các chỉ mục gốc khác nhau Ví dụ, sử dụng chỉ mục liên kết và các thuật toán lặp PageRank, khối phân tích sẽ tính

toán và lưu trữ PageRank của mỗi trang trongcơ sở dữ liệu ( chỉ mục PageRank )

Trang 12

PAGE RANK

 PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm

Google,được phát triển tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiêncứu của họ

 “The Anatomy of a Large-Scale Hypertextual Web Search Engine”

Trang 14

C (Tn) là tổng số các liên kết đi trên Tn

và d là một yếu tố giảm xóc đền bù cho vòng lặp vô tận.

Trang 15

Có 2 yếu tố ảnh hưởng đến vị trí của trang web

của bạn trên Google Đó là:

Số lượng các link đi đến ( incoming links)

 Thông thường thì càng nhiều link đi đến càng tốt Có 1 điểm đáng chú ý mà thuật toán chỉ ra đó là: Nếu 1trang không có link trỏ đến có thể gây ra ảnh hưởng ngược lại đến PageRank của trang web mà nó trỏ tới ( C(T) = 0 ).

Số lượng các link đi ra của các trang web trỏ tới ( outgoing links):

 Càng ít càng tốt, có nghĩa là nếu có 2 trang web trỏ tới trang cần tính PageRank,1 trang có 5 link đi ra và 1 trang có 10 link

đi ra thì PageRank được tính từ trang có 5 link đi ra sẽ gấp đôi trang có 10 link đi ra

Trang 16

PAGE RANK

Thuật toán PageRank trên thực tế rất đơn giản Nhưng khi một phép tính đơn giản được thực hiện hàng nghìn ( hoặc hàng tỉ) lần thì thuật toán trở lên rất phức tạp!

PageRank chỉ là 1 phần trong chiến lược sắp xếp thứ tự kết quả tìm kiếm của Google Nhưng nó là một tiêu chí không thể thiếu trong việc sắp xếp thứ tự dữ liệu.

Trang 17

GOOGLE PANDA ALGORITHM

 Tháng 11-2011 Google chính thức thay đổi thuật toán

Ranking của mình lấy tên là Panda.

 Thuật toán Panda cố gắng xác định nguồn gốc, tác giả của

nội dung và tăng thứ hạng cho trang đó, đồng thời hạ thứ

hạng của tất cả các trang có nội dung trùng lặp với nội dung trên

 Với tầm nhìn rõ ràng của Google Panda là loại bỏ những nội dung rác, nội dung copy, loại bỏ những website có thương

hiệu kém…Google Panda là bộ lọc quan trọng để cải tiến các

kết quả tìm kiếm mới của Google

Trang 18

GOOGLE PANDA ALGORITHM

những tiêu chí chính trong thuật toán Google

Panda:

Trang 19

Ứng dụng lớn nhất của PageRank là tìm kiếm (searching)

Lợi ích của PageRank trong tìm kiếm là rất lớn

VD:Khi tìm kiếm từ khóa ĐH Bách Khoa HN

 Đối với tìm kiếm thông thường sẽ hiện ra tất cả các trang web liên quan đến ĐHBKHN

 Đối với tìm kiếm sử dụng PR thì trang chủ của ĐHBKHN sẽ hiện ra đầu tiên

Trang 20

 Qui trình tìm kiếm:

 Hệ thống lưu trữ các thông tin về trang web bao gồm vị trí, font chữ, thông tin hoạt động, liên kết, PageRank Kết hợp tất cả các thông tin này thành 1 thứ hạng là rất khó, vì vậy chúng ta thiết kế chức năng xếp hạng sao cho không 1 thành phần nào có ảnh hưởng quá lớn đến thứ hạng của trang web.

 Đầu tiên, xét trường hợp đơn giản nhất đó là câu truy vấn chỉ có 1 từ đơn.Với mục đích sắp xếp các văn bản với câu truy vấn 1 từ đơn, Google sẽ tìm

trêndanh sách chỉ mục của mình từ khóa đó, tính điểm các thuộc tính ( tiêu đề, liên kết,URL,…) trên những kết quả phù hợp, mỗi thuộc tính có điểm của

riêng nó.

 Các điểm thuộc tính tạo thành 1 vector chỉ mục theo kiểu thuộc tính.

 Google sẽ đếm số lượng các kết quả phù hợp và gọi là điểm số lượng Sau đó

sử dụng 2 điểm này để tính ra điểm IR cho văn bản Cuối cùng, điểm IR kết hợp với PageRank để đưa ra kết quả cuối cùng

Trang 21

THANK YOU!

Định dạng
Số trang	21
Dung lượng	356,2 KB