3.Bộ tìm kiếm thông tin Là một thành phần xử lý các truy vấn từ phía người sử dụng, tiếp nhận các yêu cầu tìm kiếm ,phân tích từ, tìm kiếm trong Cơ sở dữ liệu chỉ mục, so khớp các từ k
Trang 1GVHD: PGS Lê Thanh Hương
SVTH: Ngô Ngọc Đức 20080738
Bùi Tuấn Điệp 20080663 Nguyễn Huy Dưỡng 20080575 Nguyễn Văn Dương 20086082 Nguyễn Văn Kiên 20081453
Báo cáo bài tập lớn
xử lý ngôn ngữ tự nhiên
Trang 2Đề tài:Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm kiếm thông tin của Google
Trang 3Nội dung báo cáo
A.Tổng quan về hệ thống Search engine
B Ranking
I.Giới thiệu ranking
II Một số kỹ thuật sử dụng trong Ranking
III Thuật toán Pagerank
IV Google Panda
Trang 4Các bộ phận cấu thành nên hệ thống
search engine
1.Bộ thu thập thông tin
Robot là một chương trình tự động duyệt qua các cấu trúc siêu liên kết để thu thập tài liệu & một cách đệ quy nó nhận về tất cả tài liệu
có liên kết với tài liệu này.
2.Bộ lập chỉ mục
Thực hiện việc phân tích, trích chọn những thông tin cần thiết từ
những dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả.
3.Bộ tìm kiếm thông tin
Là một thành phần xử lý các truy vấn từ phía người sử dụng, tiếp nhận các yêu cầu tìm kiếm ,phân tích từ, tìm kiếm trong Cơ sở dữ liệu chỉ mục, so khớp các từ khóa, lấy về kết quả phù hợp, sau đó trả lại những kết quả đó cho người sử dụng thông qua giao diện GUI.
Trang 5Nguyên lý hoạt động của search engine
1.Search Engine điều khiển robot đi thu thập thông tin trên mạng thông qua các siêu liên kết Hyperlink
2.Robots phát hiện ra website mới, nó gửi tài liệu webpage
về cho server chính để tạo CSDL chỉ mục phục vụ cho nhu cầu tìm kiếm thông tin
3.Search engine nhận yêu cầu truy vấn từ User, nó sẽ tiến hành phân tích, tìm trong CSDL chỉ mục và trả về những tài liệu thỏa yêu cầu
Trang 6Trong lĩnh vực tìm kiếm, ranking là kỹ thuật đánh giá giá trị từng kết quả trong tập trả về mỗi khi người dùng truy vấn Bằng cách thức cho điểm, danh sách kết quả
sẽ được sắp xếp theo thứ tự trước sau tương ứng với số điểm
Trang 7Các kỹ thuật sử dụng trong ranking
1 Đánh giá bằng thống kê.
Thuật toán dựa vào những yếu tố sau để cho điểm một từ khoá trong một trang Web:
Số lần xuất hiện của từ khoá trong bài viết
Tỉ lệ tần suất xuất hiện từ khoá với độ dài của bài viết
Thuật toán chỉ mang tính chất thống kê và tương đối
Không phải bất cứ bài viết nào có sự xuất hiện và tần
suất xuất hiện cao của từ khoá cũng là thứ mà người tìm kiếm cần
Trang 8Các kỹ thuật sử dụng trong ranking
2.Đánh giá theo địa chỉ của trang.
Đây là một cách đánh giá độ quan trọng của từ khóa với mỗi trang Web và thường có trọng số khá cao Thay vì từ khóa nằm trong bài viết thì nó lại nằm trong đường dẫn URL hay tên miền của trang Web (domain name)
Trang 9Các kỹ thuật sử dụng trong ranking
3 Đánh giá bằng từ khoá quan trọng.
Web Page là tài liệu có định dạng hiển thị Thông dụng
nhất là chuẩn HTML Dựa vào cấu trúc định dạng đó, thuật toán cho điểm cao hơn với từ khóa nằm trong các thẻ đặc biệt
Cách thông thường nhất mà Search Engine hay áp dụng
chính là cho điểm cao với từ khoá nằm trong anchor
text(liên kết), các thẻ tiêu đề, meta keyword, H1, H2, H3, H4, H5, H6 hoặc từ khoá được in đậm, viết hoa
Trang 10Các kỹ thuật sử dụng trong ranking
4.Đánh giá bởi các từ gần nhau.
Thuật toán cho phép tính toán độ gần nhau giữa các từ khoá
5 Đánh giá theo ngày tháng.
Thông thường, người tìm kiếm có xu hướng tìm kiếm những vấn đề hay sự kiện mới xảy ra
Chẳng hạn, với từ khoá "Ronaldo", người ta sẽ quan tâm đến những vấn đề như Ronaldo gần đây cặp kè với ai, đá cho đội nào hay mức lương bao nhiêu?
Trang 11Các kỹ thuật sử dụng trong ranking
6 Đánh giá theo độ nổi tiếng của trang
PageRank của Google đánh giá độ quan trọng của một
trang web dựa trên phương pháp xử lí gọi là thuật toán phân tích liên kết Phương pháp này đánh giá độ quan trọng của một trang Web dựa trên những liên kết trên Internet
7 Đánh giá theo truy vấn vùng.
Cùng một từ khóa tìm kiếm, kết quả trả về cho người Mỹ sẽ khác với kết quả trả về cho người Việt Ngoài việc ưu tiên những nội dung tiếng Việt lên đầu, Search Engine còn cần phải loại bỏ các kết quả không phù hợp với văn hóa và xã hội Việt Nam
Trang 12Các kỹ thuật sử dụng trong ranking
8.Đánh giá bởi con người và trình duyệt.
Phương pháp thống kê nhờ theo dõi hành vi người dùng để đưa ra đánh giá về chất lượng của một trang Web Phương thức này chỉ có thể triển khai khi một Search Engine có số lượng người dùng lớn như Google hoặc Yahoo
Một phương pháp khác là nhờ vào kiểm soát trình duyệt (Google và Microsoft) Hiệu quả của phương pháp này rất lớn nếu được triển khai tốt Tuy nhiên, nó vi phạm đến một
số vấn đề riêng tư và bảo mật của người dùng Search
Engine
Trang 13PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm Google, được phát triển tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiên cứu của họ “The Anatomy of a Large-Scale Hypertextual Web Search
Engine”
Thuật toán dựa trên 1 giả thuyết phổ biến trong giới hàn lâm, đó là tầm quan trọng của một bài báo được quyết định bởi số các trích dẫn từ bài báo đó của các bài báo khác
Chỉ số PageRank của một trang web là kết quả bầu chọn của tất cả các trang web khác trên toàn thế giới cho website
đó Mỗi 1 liên kết ngược là 1 phiếu bầu
Trang 15Tất nhiên khi tìm kiếm không phải cứ website có PageRank cao là sẽ được xếp ở trang đầu tiên, điều này còn phụ thuộc vào việc bạn muốn tìm kiếm gì và nhiều yếu tố khác
Google kết hợp PageRank với một số heuristics khác để
cho ra kết quả phù hợp nhất
Trang 16Công thức thuật toán PageRank
Giá trị PageRank của trang Pi được tính như sau:
Trong đó:
• P1,P2,…,Pn là các trang cần tính PageRank
• M(Pi) là tập các trang có link trỏ tới trang Pi.
• L(Pj) là số các link đi ra từ trang Pj
• N là tổng số trang
• Tham số giảm sóc d có giá trị xấp xỉ 0.85
Trang 17Ý nghĩa thuật toán
Định nghĩa thuật toán PageRank cho ta thấy có 2 yếu tố ảnh hưởng đến vị trí của trang web trên Google Đó là:
Số lượng các link đi đến ( incoming links): Thông
thường thì càng nhiều link đi đến càng tốt
Số lượng các link đi ra của các trang web trỏ tới
Trang 18PageRank được tính toán như thế nào
a.Phương pháp lặp:
Tại t=0 Giả sử phân bố xác suất ban đầu là:
Tại mỗi bước, ta tính theo công thức:
Trang 19PageRank được tính toán như thế nào
Hoặc công thức :
(*)
Trong đó:
là một ma trận N*1 gồm toàn các số 1
Ma trận được định nghĩa như sau:
Mij=1/L(pj) nếu trang j có link tới trang i
Mij=0 trường hợp còn lại
Thuật toán kết thúc khi:
Trang 20PageRank được tính toán như thế nào
Trang 21PageRank được tính toán như thế nào
c Phương pháp “Power Method”
Chuỗi Markov
Chuỗi Markov là một quá trình ngẫu nhiên thời gian rời rạc với tính chất Markov thông qua một tập các trạng
thái
Tuân theo một ma trận xác suất chuyển đổi P:
Pij = Xác suất chuyển đến trạng thái j khi ở trạng thái i
∑jPij = 1
Chú ý: Trạng thái tiếp theo của chuỗi chỉ phụ thuộc vào trạng thái hiện thời của chuỗi
Trang 22PageRank được tính toán như thế nào
Phương pháp Power Method
Trang 23PageRank được tính toán như thế nào
Áp dụng tính PageRank
Ta có:
Phương trình (**) trở thành:
Bây giờ để tính R ta dùng hàm: PowerMethod( , V0 , )
Trong đó Ma trận xác suất chuyển đổi M được định nghĩa như sau:
Mij=0 Nếu trang i không có link đến trang j Mij=1/L(i) Nếu trang I có link đến trang j Mii=0 trong mọi trường hợp
Mij=1/n j=1 n Nếu trang i không có link đến trang nào
E là ma trận chỉ chứa 1
Trang 24Google Panda Algorithm
Tháng 11-2011 Google chính thức thay đổi thuật toán Ranking của mình lấy tên là Panda Đây là một sự thay đổi mạnh mẽ của Google Thuật toán Panda có tư tưởng chủ đạo
là “ Content is King”.
Nó loại bỏ hoặc giảm chỉ số xếp hạng của các trang web có nội dung kém chất lượng, sao chép nội dung, và các trang web
có nội dung chủ yếu được sưu tập từ các trang khác, tăng chỉ
số xếp hạng của các trang có nội dung nguồn chất chất lượng
Thuật toán Panda cố gắng xác định nguồn gốc, tác giả của nội dung và tăng thứ hạng cho trang đó, đồng thời hạ thứ hạng của tất cả các trang có nội dung trùng lặp với nội dung trên.
Trang 25Những tiêu chí chính trong thuật toán Google Panda:
Thời gian khách truy cập trên website
Nếu người dùng tìm thấy những nội dung hữu ích và đáp ứng đúng nhu cầu của họ, khả năng họ ở lại trên website
để tìm những thông tin liên quan là rất cao Do đó các
trang web mà người dùng giành nhiều thời gian để đọc và tìm những bài viết trên website sẽ được Google đánh giá cao
Trang 26Những tiêu chí chính trong thuật toán Google Panda:
Mục đích của Google Panda là để giúp chọn lọc ra các
website hoạt động thực sự bởi con người chứ không phải máy móc (Auto post) Do đó những mạng xã hội là tiêu chí đánh giá khá quan trọng khi tại đây những yếu tố tương tác rất mạnh chỉ có con người mới có thể làm được như trên Facbook, Youtube, Twister…
Trang 27Những tiêu chí chính trong thuật toán Google Panda:
Lượng nội dung gốc trên site hoặc mỗi trang
Số lượng các link trỏ đến trang web
Số lượng các từ không tự nhiên trên trang
Tỷ lệ người dùng kích qua các trang kết quả của Google (cho trang hoặc site)
Tỷ lệ nội dung không trung thực (như nhau trên tất cả các trang)
Số lượng các quảng cáo trên trang web
Trang 28Thanks for listening