1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình đề tài đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các

21 470 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 356,2 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Công cụ tìm kiếmSearch Engine là một hệ thống thu thập thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một giao

Trang 2

I.Giới thiệu công cụ tìm kiếm

1.Công cụ tìm kiếm là gì?

 Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập

thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một giao diện giúp cho người dùng có thể chọnthông tin cần tìm và

có cơ chế xử lý và tìm được thông tin tương ứng Thông tin cần tìm sẽ tương ứng với một câu truy vấn

Trang 3

2.Các thành phần của công cụ tìm kiếm :

Bộ thu thập thông tin(Robot)

Bộ lập chỉ mục

Bộ tìm kiếm thông tin

Trang 4

3.Nguyên tắc của công cụ tìm kiếm

Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn được 3 điều kiện:

- Cho phép tìm kiếm trong một tập hợp lớn các trang web

- Đưa ra kết quả gần với mong muốn của người sử dụng nhất

- Tốc độ tìm kiếm chấp nhận được

Trang 5

3.Nguyên tắc của công cụ tìm kiếm

Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại đều tiến hành lần lượt theo bốn bước: web crawler, indexing, rank page và searching

Sau đây ta sẽ nghiên cứu các bước tìm kiếm của google

Trang 6

II.Công cụ tìm kiếm google

Kiến trúc hệ thống:

Trang 7

Web crawler

Web crawler là bộ phận chịu trách nhiệm download các trang web

và lưu trữ chúng dưới dạng nén ở trong kho dữ liệu Mục đích

thiết kế của web crawler là làm cho nó download được số lượng trang web nhiều nhất trong khả năng đáp ứng của tài nguyên

mạng và tốc độ, khả năng lưu trữ của máy

Trang 8

Web crawler

Trang 9

Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục

vụ cho các truy vấn Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ mục offset (offset index),chỉ mục text (text index) và chỉ

mục link/graph (link/graph index)

Trang 10

Offset index ghi nhận vị trí vật lý của mỗi trang web trong cơ sở

dữ liệu, nơi mà lưu trữ các trang web đã được nén.Chỉ mục này cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở dữ liệu

Text index cho phép truy vấn hướng nội dung, sử dụng các chỉ mục ngược để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ

liệu

Cuối cùng, link index cung cấp truy vấn hướng liên kết (VD:

Gọi đến tập các trang mà trang X trỏ tới )

Trang 11

Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ xây dựnglên các chỉ mục gốc khác nhau Ví dụ, sử dụng chỉ mục liên kết và các thuật toán lặp PageRank, khối phân tích sẽ tính

toán và lưu trữ PageRank của mỗi trang trongcơ sở dữ liệu ( chỉ mục PageRank )

Trang 12

PAGE RANK

 PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm

Google,được phát triển tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiêncứu của họ

“The Anatomy of a Large-Scale Hypertextual Web Search Engine”

Trang 14

C (Tn) là tổng số các liên kết đi trên Tn

và d là một yếu tố giảm xóc đền bù cho vòng lặp vô tận.

Trang 15

 Có 2 yếu tố ảnh hưởng đến vị trí của trang web

của bạn trên Google Đó là:

Số lượng các link đi đến ( incoming links)

Thông thường thì càng nhiều link đi đến càng tốt Có 1 điểm đáng chú ý mà thuật toán chỉ ra đó là: Nếu 1trang không có link trỏ đến có thể gây ra ảnh hưởng ngược lại đến PageRank của trang web mà nó trỏ tới ( C(T) = 0 ).

Số lượng các link đi ra của các trang web trỏ tới ( outgoing links):

Càng ít càng tốt, có nghĩa là nếu có 2 trang web trỏ tới trang cần tính PageRank,1 trang có 5 link đi ra và 1 trang có 10 link

đi ra thì PageRank được tính từ trang có 5 link đi ra sẽ gấp đôi trang có 10 link đi ra

Trang 16

PAGE RANK

Thuật toán PageRank trên thực tế rất đơn giản Nhưng khi một phép tính đơn giản được thực hiện hàng nghìn ( hoặc hàng tỉ) lần thì thuật toán trở lên rất phức tạp!

PageRank chỉ là 1 phần trong chiến lược sắp xếp thứ tự kết quả tìm kiếm của Google Nhưng nó là một tiêu chí không thể thiếu trong việc sắp xếp thứ tự dữ liệu.

Trang 17

GOOGLE PANDA ALGORITHM

 Tháng 11-2011 Google chính thức thay đổi thuật toán

Ranking của mình lấy tên là Panda.

 Thuật toán Panda cố gắng xác định nguồn gốc, tác giả của

nội dung và tăng thứ hạng cho trang đó, đồng thời hạ thứ

hạng của tất cả các trang có nội dung trùng lặp với nội dung trên

Với tầm nhìn rõ ràng của Google Panda là loại bỏ những nội dung rác, nội dung copy, loại bỏ những website có thương

hiệu kém…Google Panda là bộ lọc quan trọng để cải tiến các

kết quả tìm kiếm mới của Google

Trang 18

GOOGLE PANDA ALGORITHM

những tiêu chí chính trong thuật toán Google

Panda:

Trang 19

Ứng dụng lớn nhất của PageRank là tìm kiếm (searching)

Lợi ích của PageRank trong tìm kiếm là rất lớn

VD:Khi tìm kiếm từ khóa ĐH Bách Khoa HN

 Đối với tìm kiếm thông thường sẽ hiện ra tất cả các trang web liên quan đến ĐHBKHN

 Đối với tìm kiếm sử dụng PR thì trang chủ của ĐHBKHN sẽ hiện ra đầu tiên

Trang 20

 Qui trình tìm kiếm:

 Hệ thống lưu trữ các thông tin về trang web bao gồm vị trí, font chữ, thông tin hoạt động, liên kết, PageRank Kết hợp tất cả các thông tin này thành 1 thứ hạng là rất khó, vì vậy chúng ta thiết kế chức năng xếp hạng sao cho không 1 thành phần nào có ảnh hưởng quá lớn đến thứ hạng của trang web.

 Đầu tiên, xét trường hợp đơn giản nhất đó là câu truy vấn chỉ có 1 từ đơn.Với mục đích sắp xếp các văn bản với câu truy vấn 1 từ đơn, Google sẽ tìm

trêndanh sách chỉ mục của mình từ khóa đó, tính điểm các thuộc tính ( tiêu đề, liên kết,URL,…) trên những kết quả phù hợp, mỗi thuộc tính có điểm của

riêng nó.

 Các điểm thuộc tính tạo thành 1 vector chỉ mục theo kiểu thuộc tính.

 Google sẽ đếm số lượng các kết quả phù hợp và gọi là điểm số lượng Sau đó

sử dụng 2 điểm này để tính ra điểm IR cho văn bản Cuối cùng, điểm IR kết hợp với PageRank để đưa ra kết quả cuối cùng

Trang 21

THANK YOU!

Ngày đăng: 23/10/2014, 23:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w