1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện

20 547 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 833,62 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BÁO CÁO BÀI TẬP LỚNXỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài : Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm kiếm thông tin của Google...  Sản phẩm

Trang 1

BÁO CÁO BÀI TẬP LỚN

XỬ LÝ NGÔN NGỮ TỰ

NHIÊN

Đề tài : Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm kiếm thông tin của Google

Trang 2

Nhóm sinh viên thực hiện :

Trần Quốc Huy

Nguyễn Huy Triển

Lưu Mạnh Linh

Nguyễn Hữu Khánh

Trần Mạnh Đức

Trang 3

Mở đầu

Trang 4

Mở đầu

 Google được thành lập vào năm

1998, có trụ sở tại Hoa Kỳ

 Sản phẩm chính của công ty là công

cụ tìm kiếm Google – được đánh giá

là công cụ tìm kiếm hữu ích và được

sử dụng nhiều nhất trên Internet

Trang 5

Mở đầu

 Các dịch vụ của Google gồm có Tìm kiếm từ khóa, Image Search, Google News, Google Maps, Google Groups

Trang 6

Google Search Engine

Trang 7

Google Bot

 Google Bot là những “ bọ tìm kiếm “ được phân rải trên các website

 Có chức năng xử lý thông tin trên các website : sàng lọc thông tin mới, thu thập các thông tin này vào kho dữ

liệu của Google

Trang 8

Đánh chỉ mục

 Google sử dụng hệ thống đánh chỉ

mục có tên là GoogleCaffeine

 Nội dung các website phát triển

chóng mặt với nhiều hình thức và nội dung phong phú Người dùng Google cũng đòi hỏi tìm thấy những nội dung mới nhất và phù hợp nhất

  GoogleCaffeine có thể đáp ứng tốt

nhu cầu của người dùng

Trang 9

Đánh chỉ mục

 GoogleCaffeine cập nhật và phân

tích website trên những phần nhỏ và cập nhật chỉ mục tìm kiếm liên tục trên 1 diện rộng

 Người dùng sẽ dễ dàng tìm được các thông tin hữu ích mà ko gặp bất cứ rào cản nào về thời gian và website

mà nó được xuất bản

Trang 10

Đánh chỉ mục

 Để đem lại khả năng hoạt động

khủng như vậy, GoogleCaffeine cũng

sẽ phải tiêu tốn của Google một

lượng tài nguyên rất “khủng”

 Theo tính toán của Google, 1 giây hệ thống Caffeine có khả năng phân tích

và index 100 ngàn trang

 Hệ thống Caffeine chiếm gần 100

triệu Gigabyte lưu trữ và nó lớn lên

theo tốc độ hàng trăm ngàn Gb mỗi ngày

Trang 11

Bộ tìm kiếm thông tin

 Xử lý các truy vấn từ phía người sử dụng

 Tiếp nhận các yêu cầu tìm kiếm,

phân tích từ ngữ, tìm kiếm trong Cơ

sở dữ liệu chỉ mục, so khớp các từ

khóa, lấy về kết quả phù hợp và cuối cùng trả lại những kết quả đó cho

người sử dụng

Trang 12

 PageRank được phát triển tại Đại học Stanford bởi Larry Page và sau đó

được phát triển bởi Sergey Brin

 Hệ thống xếp hạng trang web nhằm xếp thứ tự ưu tiên đường dẫn URL

trong trang kết quả tìm kiếm

Trang 13

 Trang của bạn càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng

càng tăng

 Đó là khái niệm sơ đẳng nhất mà

người làm web biết đến, trên thực tế thuật toán PageRank phức tạp hơn rất nhiều

Trang 14

 PageRank của Google hiển thị trên Toolbar là 1 số nguyên từ

0 đến 10.

 Đơn vị đánh giá của nó dựa

trên khối lượng link trỏ đến

cũng như chất lượng của

những trang web chứa đường link xuất phát này.

 Nó giống như kết quả bầu chọn của tất cả các trang web khác trên toàn thế giới về mức độ

quan trọng của website đó.

Trang 15

PageRank

Trang 16

 Công thức tính giá trị PageRank của

1 trang A

PR(A)=(1-d)+d*( +…+ )

  

Trang 17

Google Panda Algorithm

 Tháng 11 – 2011, Google chính thức thay đổi thuật toán Ranking của

mình lấy tên là Panda

 Mục đích loại bỏ hoặc giảm chỉ số

xếp hạng của các trang web có nội dung kém chất lượng, chủ yếu sưu tập từ trang khác, tăng chỉ số các

trang có nội dung nguồn chất lượng

Trang 18

Google Panda Algorithm

Tiêu chí :

 “ Content is king “

 Tỉ lệ các bài viết có nội dung trùng lặp

 Thời gian khách truy cập trên

website

 Tỉ lệ Bounce Rate

 Tỉ lệ khách hàng quay trở lại

 Mạng xã hội

 Lượng nội dung gốc

Trang 19

Google Panda Algorithm

Tiêu chí :

 Số lượng các link trỏ đến trang web

 Số lượng các từ không tự nhiên trên trang

 Tỉ lệ người dùng kích qua các trang kết quả của Google

 Tỉ lệ nội dung không trung thực

 Số lượng các quảng cáo trên trang web

Trang 20

Kết luận

 Hệ thống tìm kiếm của Google là một

hệ thống tìm kiếm với quy mô rất lớn

và rất phức tạp

 Hệ thống phát triển và không ngừng được nâng cấp cải thiện, trở nên gần gũi và hữu ích với người dùng

 Những điều chúng tôi đưa ra là cái

nhìn tổng quan nhất về hệ thống tìm kiếm Google trong thời điểm này

Ngày đăng: 23/10/2014, 23:39

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w