BÁO CÁO BÀI TẬP LỚNXỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài : Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm kiếm thông tin của Google... Sản phẩm
Trang 1BÁO CÁO BÀI TẬP LỚN
XỬ LÝ NGÔN NGỮ TỰ
NHIÊN
Đề tài : Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm kiếm thông tin của Google
Trang 2Nhóm sinh viên thực hiện :
Trần Quốc Huy
Nguyễn Huy Triển
Lưu Mạnh Linh
Nguyễn Hữu Khánh
Trần Mạnh Đức
Trang 3Mở đầu
Trang 4Mở đầu
Google được thành lập vào năm
1998, có trụ sở tại Hoa Kỳ
Sản phẩm chính của công ty là công
cụ tìm kiếm Google – được đánh giá
là công cụ tìm kiếm hữu ích và được
sử dụng nhiều nhất trên Internet
Trang 5Mở đầu
Các dịch vụ của Google gồm có Tìm kiếm từ khóa, Image Search, Google News, Google Maps, Google Groups
…
Trang 6Google Search Engine
Trang 7Google Bot
Google Bot là những “ bọ tìm kiếm “ được phân rải trên các website
Có chức năng xử lý thông tin trên các website : sàng lọc thông tin mới, thu thập các thông tin này vào kho dữ
liệu của Google
Trang 8Đánh chỉ mục
Google sử dụng hệ thống đánh chỉ
mục có tên là GoogleCaffeine
Nội dung các website phát triển
chóng mặt với nhiều hình thức và nội dung phong phú Người dùng Google cũng đòi hỏi tìm thấy những nội dung mới nhất và phù hợp nhất
GoogleCaffeine có thể đáp ứng tốt
nhu cầu của người dùng
Trang 9Đánh chỉ mục
GoogleCaffeine cập nhật và phân
tích website trên những phần nhỏ và cập nhật chỉ mục tìm kiếm liên tục trên 1 diện rộng
Người dùng sẽ dễ dàng tìm được các thông tin hữu ích mà ko gặp bất cứ rào cản nào về thời gian và website
mà nó được xuất bản
Trang 10Đánh chỉ mục
Để đem lại khả năng hoạt động
khủng như vậy, GoogleCaffeine cũng
sẽ phải tiêu tốn của Google một
lượng tài nguyên rất “khủng”
Theo tính toán của Google, 1 giây hệ thống Caffeine có khả năng phân tích
và index 100 ngàn trang
Hệ thống Caffeine chiếm gần 100
triệu Gigabyte lưu trữ và nó lớn lên
theo tốc độ hàng trăm ngàn Gb mỗi ngày
Trang 11Bộ tìm kiếm thông tin
Xử lý các truy vấn từ phía người sử dụng
Tiếp nhận các yêu cầu tìm kiếm,
phân tích từ ngữ, tìm kiếm trong Cơ
sở dữ liệu chỉ mục, so khớp các từ
khóa, lấy về kết quả phù hợp và cuối cùng trả lại những kết quả đó cho
người sử dụng
Trang 12 PageRank được phát triển tại Đại học Stanford bởi Larry Page và sau đó
được phát triển bởi Sergey Brin
Hệ thống xếp hạng trang web nhằm xếp thứ tự ưu tiên đường dẫn URL
trong trang kết quả tìm kiếm
Trang 13 Trang của bạn càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng
càng tăng
Đó là khái niệm sơ đẳng nhất mà
người làm web biết đến, trên thực tế thuật toán PageRank phức tạp hơn rất nhiều
Trang 14 PageRank của Google hiển thị trên Toolbar là 1 số nguyên từ
0 đến 10.
Đơn vị đánh giá của nó dựa
trên khối lượng link trỏ đến
cũng như chất lượng của
những trang web chứa đường link xuất phát này.
Nó giống như kết quả bầu chọn của tất cả các trang web khác trên toàn thế giới về mức độ
quan trọng của website đó.
Trang 15PageRank
Trang 16 Công thức tính giá trị PageRank của
1 trang A
PR(A)=(1-d)+d*( +…+ )
Trang 17Google Panda Algorithm
Tháng 11 – 2011, Google chính thức thay đổi thuật toán Ranking của
mình lấy tên là Panda
Mục đích loại bỏ hoặc giảm chỉ số
xếp hạng của các trang web có nội dung kém chất lượng, chủ yếu sưu tập từ trang khác, tăng chỉ số các
trang có nội dung nguồn chất lượng
Trang 18Google Panda Algorithm
Tiêu chí :
“ Content is king “
Tỉ lệ các bài viết có nội dung trùng lặp
Thời gian khách truy cập trên
website
Tỉ lệ Bounce Rate
Tỉ lệ khách hàng quay trở lại
Mạng xã hội
Lượng nội dung gốc
Trang 19Google Panda Algorithm
Tiêu chí :
Số lượng các link trỏ đến trang web
Số lượng các từ không tự nhiên trên trang
Tỉ lệ người dùng kích qua các trang kết quả của Google
Tỉ lệ nội dung không trung thực
Số lượng các quảng cáo trên trang web
Trang 20Kết luận
Hệ thống tìm kiếm của Google là một
hệ thống tìm kiếm với quy mô rất lớn
và rất phức tạp
Hệ thống phát triển và không ngừng được nâng cấp cải thiện, trở nên gần gũi và hữu ích với người dùng
Những điều chúng tôi đưa ra là cái
nhìn tổng quan nhất về hệ thống tìm kiếm Google trong thời điểm này