1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuật xử lý trong

28 662 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 235,53 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

3.Bộ tìm kiếm thông tin Là một thành phần xử lý các truy vấn từ phía người sử dụng, tiếp nhận các yêu cầu tìm kiếm ,phân tích từ, tìm kiếm trong Cơ sở dữ liệu chỉ mục, so khớp các từ k

Trang 1

GVHD: PGS Lê Thanh Hương

SVTH: Ngô Ngọc Đức 20080738

Bùi Tuấn Điệp 20080663 Nguyễn Huy Dưỡng 20080575 Nguyễn Văn Dương 20086082 Nguyễn Văn Kiên 20081453

Báo cáo bài tập lớn

xử lý ngôn ngữ tự nhiên

Trang 2

Đề tài:Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm kiếm thông tin của Google

Trang 3

Nội dung báo cáo

A.Tổng quan về hệ thống Search engine

B Ranking

I.Giới thiệu ranking

II Một số kỹ thuật sử dụng trong Ranking

III Thuật toán Pagerank

IV Google Panda

Trang 4

Các bộ phận cấu thành nên hệ thống

search engine

1.Bộ thu thập thông tin

Robot là một chương trình tự động duyệt qua các cấu trúc siêu liên kết để thu thập tài liệu & một cách đệ quy nó nhận về tất cả tài liệu

có liên kết với tài liệu này.

2.Bộ lập chỉ mục

Thực hiện việc phân tích, trích chọn những thông tin cần thiết từ

những dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả.

3.Bộ tìm kiếm thông tin

Là một thành phần xử lý các truy vấn từ phía người sử dụng, tiếp nhận các yêu cầu tìm kiếm ,phân tích từ, tìm kiếm trong Cơ sở dữ liệu chỉ mục, so khớp các từ khóa, lấy về kết quả phù hợp, sau đó trả lại những kết quả đó cho người sử dụng thông qua giao diện GUI.

Trang 5

Nguyên lý hoạt động của search engine

1.Search Engine điều khiển robot đi thu thập thông tin trên mạng thông qua các siêu liên kết Hyperlink

2.Robots phát hiện ra website mới, nó gửi tài liệu webpage

về cho server chính để tạo CSDL chỉ mục phục vụ cho nhu cầu tìm kiếm thông tin

3.Search engine nhận yêu cầu truy vấn từ User, nó sẽ tiến hành phân tích, tìm trong CSDL chỉ mục và trả về những tài liệu thỏa yêu cầu

Trang 6

Trong lĩnh vực tìm kiếm, ranking là kỹ thuật đánh giá giá trị từng kết quả trong tập trả về mỗi khi người dùng truy vấn Bằng cách thức cho điểm, danh sách kết quả

sẽ được sắp xếp theo thứ tự trước sau tương ứng với số điểm

Trang 7

Các kỹ thuật sử dụng trong ranking

1 Đánh giá bằng thống kê.

Thuật toán dựa vào những yếu tố sau để cho điểm một từ khoá trong một trang Web:

Số lần xuất hiện của từ khoá trong bài viết

Tỉ lệ tần suất xuất hiện từ khoá với độ dài của bài viết

Thuật toán chỉ mang tính chất thống kê và tương đối

Không phải bất cứ bài viết nào có sự xuất hiện và tần

suất xuất hiện cao của từ khoá cũng là thứ mà người tìm kiếm cần

Trang 8

Các kỹ thuật sử dụng trong ranking

2.Đánh giá theo địa chỉ của trang.

Đây là một cách đánh giá độ quan trọng của từ khóa với mỗi trang Web và thường có trọng số khá cao Thay vì từ khóa nằm trong bài viết thì nó lại nằm trong đường dẫn URL hay tên miền của trang Web (domain name)

Trang 9

Các kỹ thuật sử dụng trong ranking

3 Đánh giá bằng từ khoá quan trọng.

Web Page là tài liệu có định dạng hiển thị Thông dụng

nhất là chuẩn HTML Dựa vào cấu trúc định dạng đó, thuật toán cho điểm cao hơn với từ khóa nằm trong các thẻ đặc biệt

Cách thông thường nhất mà Search Engine hay áp dụng

chính là cho điểm cao với từ khoá nằm trong anchor

text(liên kết), các thẻ tiêu đề, meta keyword, H1, H2, H3, H4, H5, H6 hoặc từ khoá được in đậm, viết hoa

Trang 10

Các kỹ thuật sử dụng trong ranking

4.Đánh giá bởi các từ gần nhau.

Thuật toán cho phép tính toán độ gần nhau giữa các từ khoá

5 Đánh giá theo ngày tháng.

Thông thường, người tìm kiếm có xu hướng tìm kiếm những vấn đề hay sự kiện mới xảy ra

Chẳng hạn, với từ khoá "Ronaldo", người ta sẽ quan tâm đến những vấn đề như Ronaldo gần đây cặp kè với ai, đá cho đội nào hay mức lương bao nhiêu?

Trang 11

Các kỹ thuật sử dụng trong ranking

6 Đánh giá theo độ nổi tiếng của trang

PageRank của Google đánh giá độ quan trọng của một

trang web dựa trên phương pháp xử lí gọi là thuật toán phân tích liên kết Phương pháp này đánh giá độ quan trọng của một trang Web dựa trên những liên kết trên Internet

7 Đánh giá theo truy vấn vùng.

Cùng một từ khóa tìm kiếm, kết quả trả về cho người Mỹ sẽ khác với kết quả trả về cho người Việt Ngoài việc ưu tiên những nội dung tiếng Việt lên đầu, Search Engine còn cần phải loại bỏ các kết quả không phù hợp với văn hóa và xã hội Việt Nam

Trang 12

Các kỹ thuật sử dụng trong ranking

8.Đánh giá bởi con người và trình duyệt.

Phương pháp thống kê nhờ theo dõi hành vi người dùng để đưa ra đánh giá về chất lượng của một trang Web Phương thức này chỉ có thể triển khai khi một Search Engine có số lượng người dùng lớn như Google hoặc Yahoo

Một phương pháp khác là nhờ vào kiểm soát trình duyệt (Google và Microsoft) Hiệu quả của phương pháp này rất lớn nếu được triển khai tốt Tuy nhiên, nó vi phạm đến một

số vấn đề riêng tư và bảo mật của người dùng Search

Engine

Trang 13

PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm Google, được phát triển tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiên cứu của họ “The Anatomy of a Large-Scale Hypertextual Web Search

Engine”

Thuật toán dựa trên 1 giả thuyết phổ biến trong giới hàn lâm, đó là tầm quan trọng của một bài báo được quyết định bởi số các trích dẫn từ bài báo đó của các bài báo khác

Chỉ số PageRank của một trang web là kết quả bầu chọn của tất cả các trang web khác trên toàn thế giới cho website

đó Mỗi 1 liên kết ngược là 1 phiếu bầu

Trang 15

Tất nhiên khi tìm kiếm không phải cứ website có PageRank cao là sẽ được xếp ở trang đầu tiên, điều này còn phụ thuộc vào việc bạn muốn tìm kiếm gì và nhiều yếu tố khác

Google kết hợp PageRank với một số heuristics khác để

cho ra kết quả phù hợp nhất

Trang 16

Công thức thuật toán PageRank

Giá trị PageRank của trang Pi được tính như sau:

Trong đó:

• P1,P2,…,Pn là các trang cần tính PageRank

• M(Pi) là tập các trang có link trỏ tới trang Pi.

• L(Pj) là số các link đi ra từ trang Pj

• N là tổng số trang

• Tham số giảm sóc d có giá trị xấp xỉ 0.85

Trang 17

Ý nghĩa thuật toán

Định nghĩa thuật toán PageRank cho ta thấy có 2 yếu tố ảnh hưởng đến vị trí của trang web trên Google Đó là:

Số lượng các link đi đến ( incoming links): Thông

thường thì càng nhiều link đi đến càng tốt

 Số lượng các link đi ra của các trang web trỏ tới

Trang 18

PageRank được tính toán như thế nào

a.Phương pháp lặp:

Tại t=0 Giả sử phân bố xác suất ban đầu là:

Tại mỗi bước, ta tính theo công thức:

Trang 19

PageRank được tính toán như thế nào

Hoặc công thức :

 (*)

Trong đó:

là một ma trận N*1 gồm toàn các số 1

Ma trận được định nghĩa như sau:

 Mij=1/L(pj) nếu trang j có link tới trang i

 Mij=0 trường hợp còn lại

Thuật toán kết thúc khi:

Trang 20

PageRank được tính toán như thế nào

Trang 21

PageRank được tính toán như thế nào

c Phương pháp “Power Method”

Chuỗi Markov

Chuỗi Markov là một quá trình ngẫu nhiên thời gian rời rạc với tính chất Markov thông qua một tập các trạng

thái

 Tuân theo một ma trận xác suất chuyển đổi P:

 Pij = Xác suất chuyển đến trạng thái j khi ở trạng thái i

 ∑jPij = 1

Chú ý: Trạng thái tiếp theo của chuỗi chỉ phụ thuộc vào trạng thái hiện thời của chuỗi

Trang 22

PageRank được tính toán như thế nào

Phương pháp Power Method

Trang 23

PageRank được tính toán như thế nào

Áp dụng tính PageRank

Ta có:

Phương trình (**) trở thành:

Bây giờ để tính R ta dùng hàm: PowerMethod( , V0 , )

Trong đó Ma trận xác suất chuyển đổi M được định nghĩa như sau:

Mij=0 Nếu trang i không có link đến trang j Mij=1/L(i) Nếu trang I có link đến trang j Mii=0 trong mọi trường hợp

Mij=1/n j=1 n Nếu trang i không có link đến trang nào

E là ma trận chỉ chứa 1

Trang 24

Google Panda Algorithm

 Tháng 11-2011 Google chính thức thay đổi thuật toán Ranking của mình lấy tên là Panda Đây là một sự thay đổi mạnh mẽ của Google Thuật toán Panda có tư tưởng chủ đạo

là “ Content is King”.

 Nó loại bỏ hoặc giảm chỉ số xếp hạng của các trang web có nội dung kém chất lượng, sao chép nội dung, và các trang web

có nội dung chủ yếu được sưu tập từ các trang khác, tăng chỉ

số xếp hạng của các trang có nội dung nguồn chất chất lượng

 Thuật toán Panda cố gắng xác định nguồn gốc, tác giả của nội dung và tăng thứ hạng cho trang đó, đồng thời hạ thứ hạng của tất cả các trang có nội dung trùng lặp với nội dung trên.

Trang 25

Những tiêu chí chính trong thuật toán Google Panda:

 Thời gian khách truy cập trên website

Nếu người dùng tìm thấy những nội dung hữu ích và đáp ứng đúng nhu cầu của họ, khả năng họ ở lại trên website

để tìm những thông tin liên quan là rất cao Do đó các

trang web mà người dùng giành nhiều thời gian để đọc và tìm những bài viết trên website sẽ được Google đánh giá cao

Trang 26

Những tiêu chí chính trong thuật toán Google Panda:

Mục đích của Google Panda là để giúp chọn lọc ra các

website hoạt động thực sự bởi con người chứ không phải máy móc (Auto post) Do đó những mạng xã hội là tiêu chí đánh giá khá quan trọng khi tại đây những yếu tố tương tác rất mạnh chỉ có con người mới có thể làm được như trên Facbook, Youtube, Twister…

Trang 27

Những tiêu chí chính trong thuật toán Google Panda:

 Lượng nội dung gốc trên site hoặc mỗi trang

 Số lượng các link trỏ đến trang web

 Số lượng các từ không tự nhiên trên trang

 Tỷ lệ người dùng kích qua các trang kết quả của Google (cho trang hoặc site)

 Tỷ lệ nội dung không trung thực (như nhau trên tất cả các trang)

 Số lượng các quảng cáo trên trang web

Trang 28

Thanks for listening

Ngày đăng: 23/10/2014, 23:31

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w