Chuyên đề “công nghệ tri thức”
Trang 1MỤC LỤC
LỜI NÓI ĐẦU 5
DANH MỤC THUẬT NGỮ 6
DANH MỤC HÌNH ẢNH 7
DANH MỤC BẢNG BIỂU 8
CHƯƠNG I TỔNG QUAN VỀ TỐI ƯU HÓA TÌM KIẾM 9
I Bộ máy tìm kiếm 9
1 Sự ra đời của bộ máy tìm kiếm 9
2 Khái niệm về bộ máy tìm kiếm 9
3 Các thành phần của bộ máy tìm kiếm 9
3.1 Bộ thu thập thông tin – Web spider 10
3.2 Bộ lập chỉ mục – Index 10
3.3 Bộ truy vấn – Query 10
4 Các hoạt động của bộ máy tìm kiếm 10
5 Xếp hạng của bộ máy tìm kiếm 11
II Tối ưu hóa tìm kiếm 13
1 Khái niệm về tối ưu hóa tìm kiếm 13
2 Phân loại các tối ưu hóa tìm kiếm 13
3 Từ khóa 13
3.1 Xác định và tối ưu hóa từ khóa 14
3.2 Mật độ từ khóa 14
3.3 Sắp xếp từ khóa tại nhiều vị trí khác nhau 15
CHƯƠNG II HỆ TÌM KIẾM THÔNG TIN GOOGLE, BING VÀ YANDEX 16
I Google 16
1 Sơ lược về Google 16
2 Tìm kiếm, xếp hạng các website 16
3 Các giai đoạn tìm kiếm thông tin của Google 17
3.1 Tìm kiếm thông tin 17
3.2 Lập chỉ mục 18
Trang 23.3 Xếp hạng 18
4 Các thuật toán xếp hạng 18
4.1 Các nhân tố ảnh hưởng 18
4.1.1 Nhân tố OnPage 18
4.1.2 Nhân tố OffPage 19
4.2 Thuật toán PageRank 19
4.3 Thuật toán Google Panda 21
4.4 Thuật toán Google Penguin 22
5 Tùy biến trong tìm kiếm 23
5.1 Lệnh tìm kiếm 23
5.2 Từ khóa liên quan 23
5.3 Xem trang đầu tiên 24
5.4 Cú pháp tìm kiếm nâng cao 24
6 Các tính năng tìm kiếm của Google 25
6.1 Tìm kiếm tức thời – Google Instant 25
6.1.1 Giới thiệu về Google Instant 25
6.1.2 Nền tảng công nghệ 26
6.1.3 Lợi ích 27
6.1.4 Hoạt động của Google Instant 28
6.2 Xem trước trang kết quả 28
6.3 Kiểm tra lỗi chính tả 29
6.4 Tìm kiếm bằng giọng nói 29
6.5 Tìm kiếm bằng hình ảnh 30
6.6 Hiển thị đa dạng kết quả 31
7 Các dịch vụ tìm kiếm của Google 31
7.1 Tìm kiếm web 31
7.2 Tìm kiếm hình ảnh 31
7.3 Tìm kiếm phim ảnh 31
7.4 Các dịch vụ tìm kiếm khác 31
II Bing 33
Trang 31 Sơ lược về Bing 33
2 Thuật toán xếp hạng BrowseRank 33
2.1 Dữ liệu về hành vi người dùng 33
2.2 Ước lượng qii 34
2.3 Ước lượng EMC 35
2.4 Đánh giá mức độ quan trọng của trang 36
2.5 Thuật toán 36
2.6 So sánh 36
3 Các tính năng của Bing 37
3.1 Giao diện tìm kiếm 37
3.2 Tìm kiếm bằng giọng nói 38
3.3 Tính năng tìm kiếm xã hội 38
3.4 Đề xuất các nội dung tìm kiếm liên quan 39
4 Các dịch vụ tìm kiếm của Bing 39
4.1 Tìm kiếm web 39
4.2 Tìm kiếm hình ảnh 40
4.3 Tìm kiếm phim ảnh 40
4.4 Thực hiện tính toán 41
4.5 Các dịch vụ tìm kiếm khác của Bing 41
5 Tùy biến tìm kiếm nâng cao 43
III Yandex 44
1 Sơ lược về Yandex 44
2 Hoạt động của Yandex 46
3 Quá trình thu thập thông tin và lập chỉ mục web 46
4 Kiến trúc tìm kiếm 48
5 Thuật toán MatrixNet 50
6 Các tính năng của Yandex 51
6.1 Giao diện 51
6.2 Tìm kiếm di động 51
6.3 Tìm kiếm xã hội 51
Trang 47 Các dịch vụ tìm kiếm của Yandex 52
7.1 Tìm kiếm web 52
7.2 Tìm kiếm hình ảnh 52
7.3 Tìm kiếm phim ảnh 52
7.4 Các dịch vụ tìm kiếm khác của Yandex 52
8 Tùy biến trong tìm kiếm 53
CHƯƠNG III ĐÁNH GIÁ KHÁI QUÁT CÁC BỘ MÁY TÌM KIẾM 54
I Phân tích và so sánh 54
1 Giao diện 54
2 Tốc độ nạp trang 55
3 Tìm kiếm web 56
4 Tìm kiếm hình ảnh 57
5 Tìm kiếm phim ảnh 59
6 Tìm kiếm di động 60
7 Dịch vụ bản đồ 62
8 Tìm kiếm xã hội 63
9 Tìm kiếm các sự kiện 63
10 Tìm kiếm cụ thể 64
11 Tự động sửa lỗi chính tả 65
12 Tìm kiếm nguồn thông tin 66
13 Chống các nội dung rác 67
14 Các dịch vụ tìm kiếm 67
15 Tùy biến tìm kiếm nâng cao 67
II Đánh giá 68
1 Yandex 68
2 Bing 68
3 Google 69
4 Bảng tổng hợp 70
KẾT LUẬN 72
TÀI LIỆU THAM KHẢO 73
Trang 5LỜI NÓI ĐẦU
Ngày nay, Internet được xem như là một kho thông tin, dữ liệu khổng lồtrên thế giới về giáo dục, xã hội, khoa học – công nghệ, cuộc sống, sự kiện,… vàkho thông tin, dữ liệu này ngày càng bùng nổ, phình tỏ thêm Tuy nhiên, mộtthực tế phổ biến là mặc dù có một lượng thông tin, dữ liệu rất lớn nhưng chúng tathật sự biết và khai thác chúng rất ít và hạn chế
Hơn nữa, do các thông tin, dữ liệu quá lớn nên không có một danh bạ nào
có thể giúp chúng ta tra cứu hiệu quả các thông tin đó Mà nhu cầu tìm kiếm, tracứu thông tin luôn luôn được con người thực hiện thường xuyên, mọi lúc và mọinơi Và rất may là hiện nay có nhiều công cụ giúp chúng ta tìm kiếm, khai tháccác thông tin, dữ liệu mà con người mong muốn Vì vậy, việc tìm hiểu, phân tích,
so sánh và đánh giá các công cụ tìm kiếm sẽ giúp cho người dùng có thể lựa chọncông cụ tìm kiếm phù hợp với thông tin, dữ liệu mà người dùng cần
Nhưng hiện nay có rất nhiều công cụ tìm kiếm thông tin, dữ liệu trênInternet nên việc lựa chọn một công cụ phù hợp để tìm kiếm hiệu quả các thôngtin mà người dùng cần không phải là đơn giản Với chuyên đề “Phân tích, sosánh và đánh giá các hệ tìm kiếm thông tin của Google, Bing và Yandex” sẽ trìnhbày khái quát và tầm quan trọng của các công cụ cũng như các dịch vụ tìm kiếmphổ biến hiện nay như tìm kiếm web, hình ảnh, phim ảnh
Trong đó, Google và Bing là hai công cụ tìm kiếm phổ biến trên thế giới,lại đa dạng về các dịch vụ tìm kiếm Bên cạnh đó, hầu hết các người dùng ViệtNam đều sử dụng Google và Bing cho các mục đích tìm kiếm thông tin cần thiết.Còn Yandex, một công cụ tìm kiếm có tầm ảnh hưởng mạnh mẽ ở Nga, Ukraine
và một số nước Đông Âu với các dịch tìm kiếm đa dạng Trong tương lai,Yandex sẽ là một đối thủ tiềm năng, có sức cạnh tranh với Google và Bing
Qua đây, em xin chân thành gửi lời cảm ơn đến thầy GS.TSKH HoàngVăn Kiếm, người đã tận tâm truyền đạt những kiến thức nền tảng cơ bản chochúng em về chuyên đề “Công Nghệ Tri Thức” Bên cạnh đó, em cũng xin cảm
ơn sự trợ giúp không mệt mỏi của các chuyên gia cố vấn qua mạng của trường
ĐH CNTT – ĐH Quốc gia TP.HCM và toàn thể các bạn học viên trong lớp
Trang 6URL Uniform Resource Locator: Tham chiếu tới tài nguyên trên InternetSitemaps Liệt kê các mục của một website.
HTTP HyperText Transfer Protocol: Giao thức truyền tải siêu văn bản
Bounce Rate
Tỷ lệ % lượng truy cập vào website hoặc từ trang web khác tớiwebsite của chúng ta và rời bỏ website của chúng ta mà không xembất cứ một trang nào khác
EMC embedded Markov chian: Một phương pháp tìm kiếm phân phối
xác suất tĩnh
Trang 7DANH MỤC HÌNH ẢNH
Hình 9.1 Các thành phần của bộ máy tìm kiếm
Hình 11.2 Hoạt động của bộ máy tìm kiếm
Hình 12.3 Các tham số xếp hạng của Google
Hình 17.4 Google Bot tìm kiếm thông tin
Hình 19.5 Đồ thị duyệt web của thuật toán PageRank
Hình 20.6 PageRank xếp hạng http://vnexpress.net
Hình 28.7 Ví dụ về Google Instant
Hình 29.8 Google Instant Preview
Hình 29.9 Kiểm tra lỗi chính tả của Google
Hình 30.10 Tìm kiếm bằng hình ảnh của Google
Hình 31.11 Đa dạng kết quả tìm kiếm với Google
Hình 33.12 Đồ thị duyệt web dữ liệu người dùng
Hình 34.13 Ví dụ về URL – TIME - TYPE
Hình 39.14 Chức năng Bing Social
Hình 39.15 Tìm kiếm các từ khóa liên quan
Hình 40.16 Tìm kiếm hình ảnh của Bing
Hình 41.17 Dịch vụ tìm kiếm Bing Video
Hình 41.18 Thực hiện tính toán với Bing
Hình 47.19 Hoạt động của Yandex Spider
Hình 47.20 Tập chỉ mục của dữ liệu tìm kiếm
Hình 49 21 Kiến trúc tìm kiếm của Yandex
Hình 51.22 Tìm kiếm di động của Yandex
Hình 54.23 Giao diện tìm kiếm của Google, Bing và Yandex
Hình 55.24 Tốc độ nạp trang của Google, Bing và Yandex với PageSpeed
Hình 55.25 Tốc độ nạp trang của Google, Bing và Yandex với Pingdom ToolsHình 56.26 Tìm kiếm web của Google, Bing và Yandex
Hình 57.27 Tìm kiếm hình ảnh của Google, Bing và Yandex
Hình 58.28 Google Images với tính năng kéo thả
Hình 59.29 Tính năng lọc hình ảnh của Google, Bing và Yandex
Trang 8Hình 59.30 Tìm kiếm phim ảnh với Google, Bing và Yandex
Hình 60.31 Bộ lọc phim ảnh của Bing và Yandex
Hình 61.32 Giao diện tìm kiếm di động của Google, Bing và Yandex
Hình 62.33 Dịch vụ tìm kiếm bản đồ của Yandex
Hình 62.34 Giao diện tìm kiếm bản đồ của Google và Bing
Hình 63.35 Tìm kiếm xã hội của Bing
Hình 64.36 Tìm kiếm sự kiện với Google, Bing và Yandex
Hình 65.37 Tìm kiếm chính xác với Google, Bing và Yandex
Hình 66.38 Chức năng sửa lỗi chính tả của Google, Bing và Yandex
Hình 66.39 Tìm kiếm nguồn tin với Google, Bing và Yandex
Trang 9CHƯƠNG I TỔNG QUAN VỀ TỐI ƯU HÓA TÌM KIẾM
I Bộ máy tìm kiếm
1 Sự ra đời của bộ máy tìm kiếm
Hiện nay, Internet có hơn 5 tỷ website và mỗi ngày có hàng ngàn websitemới được đưa lên mạng Người dùng sẽ rất khó khăn tìm kiếm nhanh chóng mộtwebsite có thông tin, dữ liệu phục vụ mục đích của mình Vì vậy mà bộ máy tìmkiếm ra đời để giúp việc tìm kiếm thông tin trên Internet nhanh chóng và dễdàng
Tại Việt Nam, bộ máy tìm kiếm phổ biến nhất là google.com.vn và chiếmthị phần lớn nhất với hơn 90%
2 Khái niệm về bộ máy tìm kiếm
Bộ máy tìm kiếm là một cỗ máy có chức năng đáp ứng các nhu cầu tìmkiếm thông tin trên Internet của người dùng dựa trên các từ khóa của thông tinđược nhập vào để tìm kiếm
Bộ máy tìm kiếm gồm các công cụ tìm kiếm trên một website hoặc tìmkiếm trên tất cả website như Google, Bing, …
Các bộ máy tìm kiếm phổ biến hiện nay là Google, Bing/Yahoo, Baiducủa Trung Quốc, Yandex của Nga, Ask của Mỹ,…
Các bộ máy tìm kiếm phải đi thu thập và xây dựng kho “thông tin” saocho người dùng tìm kiếm tiện lợi nhất và dễ dàng truy xuất
3 Các thành phần của bộ máy tìm kiếm
Hình 9.1 Các thành phần của bộ máy tìm kiếm
Trang 103.1 Bộ thu thập thông tin – Web spider
Bộ thu thập thông tin là một chương trình tự động duyệt và thu thập dữliệu một cách đệ quy các website được ghé thăm để lập chỉ mục, đưa website vàodanh mục của nó Các bộ thu thập thông tin rất quan tâm đến các đường liên kết,
vì thông qua các liên kết này, nó có thể tiếp tục đến các website khác
Bản chất bộ thu thập thông tin chỉ là một chương trình duyệt và thu thậpthông tin từ các website theo đúng giao thức web Những trình duyệt thôngthường không được xem là bộ thu thập thông tin do thiếu tính chủ động, chúngchỉ duyệt website khi có sự tác động của con người
3.3 Bộ truy vấn – Query
Là giao diện người dùng khi sử dụng bộ máy tìm kiếm Nó gồm ô nhậpnhập từ khóa và ra lệnh tìm kiếm Bộ máy tìm kiếm sẽ đưa ra các website phùhợp, liên quan đến từ khóa tìm kiếm của người dùng Thực chất, bộ truy vấnkhông trực tiếp tìm kiếm các website, mà nó chỉ truy xuất ra các dữ liệu đã được
bộ lập chỉ mục lưu trữ, đánh giá và sắp xếp
4 Các hoạt động của bộ máy tìm kiếm
Chúng ta có thể tìm kiếm thông tin theo từ khoá, hình ảnh, địa điểm,…trên bộ máy tìm kiếm Khi nhận được câu lệnh yêu cầu tìm kiếm, bộ máy tìmkiếm sẽ phân tích yêu cầu đó, đánh giá, xếp hạng và trả về kết quả liên quan nhấttheo quy trình sau:
Trang 11Khảo sát – Crawl: Là một giai đoạn rất quan trọng Các bộ máy tìm kiếmtiến hành duyệt và thu thập thông tin các website trên internet Các bộ máy tìmkiếm sử dụng những con bọ được lập trình để có thể tự động theo các liên kết để
dò tìm, thu thập và đánh giá thông tin trên các website khác nhau
Lập chỉ mục - Index: Là giai đoạn các bộ máy tìm kiếm lưu lại thông tinsau khi đã khảo sát Với dung lượng lưu trữ vô hạn, các bộ máy tìm kiếm có thểchứa hàng tỷ kết quả liên quan Một website có thể được lập chỉ mục nhanh haychậm tuỳ thuộc vào tốc độ khảo sát, độ tin cậy và nhiều yếu tố khác
Phân tích – Analysis : Các bộ máy tìm kiếm sẽ tính toán độ liên quan của
dữ liệu thu thập được so với yêu cầu người dùng Các bộ máy tìm kiếm khácnhau có các thuật toán phân tích khác nhau, từ đây tạo ra sự khác biệt giữa các bộmáy tìm kiếm Giai đoạn phân tích sẽ tạo tiền đề cho giai đoạn trích xuất kết quả
Kết quả - Results : Giai đoạn này trả về các kết quả liên quan đến thôngtin tìm kiếm của người dùng Các kết quả có độ liên quan cao thường được sắp ởtrên Tuy nhiên, không phải lúc nào kết quả cũng thỏa mãn yêu cầu của ngườitìm kiếm Nhưng cho đến nay, người dùng khá hài lòng với những gì mà bộ máytìm kiếm trả về
5 Xếp hạng của bộ máy tìm kiếm
Các bộ máy tìm kiếm chỉ xếp hạng cho webpage chứ không phải xếp hạngcho cả website, do mỗi webpage trong website chứa đựng một nội dung cụ thểkhác nhau, mà mỗi nội dung sẽ có thứ hạng khác nhau trên SERPs
Bên cạnh, một webpage có rất nhiều nội dung như văn bản, hình ảnh,nhạc,… Do đó, các bộ máy tìm kiếm sẽ xử lý một webpage như sau:
Hình 11.2 Hoạt động của bộ máy tìm kiếm
Trang 12- Các bộ máy tìm kiếm xác định nội dung một webpage thông qua các mãHTML Bộ máy tìm kiếm sẽ duyệt nội dung từ trên xuống dưới qua HTML và sẽ
bỏ qua các nội dung vượt quá 100kB Nội dung một webpage sẽ được xác địnhhoàn toàn thông qua các quá trình xử lí các tiêu chí của bộ máy tìm kiếm
- Văn bản sẽ được các bộ máy tìm kiếm xử lý tốt nhất
- Bộ máy tìm kiếm xác định một hình ảnh thông qua thẻ ALT
- Lưu ý về Javascript và CSS
Từ các xử lý này, bộ máy tìm kiếm sẽ sử dụng các phương pháp, các bộlọc để tính toán và xếp hạng ưu tiên các kết quả dựa trên hơn 300 tham số khácnhau, như:
- Độ tin cậy, xác thực của tên miền
- Các liên kết được nhiều người truy cập và sưu tầm
- Các văn bản đặt liên kết trỏ ra các nội dung liên quan bên ngoài trang
- Các từ khóa dùng trong trang nội dung
- Lượng người truy cập vào website
- Tốc độ của website
- ……
Hình 12.3 Các tham số xếp hạng của Google
Trang 13II Tối ưu hóa tìm kiếm
1 Khái niệm về tối ưu hóa tìm kiếm
Tối ưu hóa tìm kiếm là tất cả cách phương pháp làm cho website có độtương thích cao nhất với các bộ máy tìm kiếm, sao cho khi người dùng thực hiệnmột truy vấn nào đó, thì kết quả trả về của website/webpage sẽ nằm ở thứ hạngmong muốn trong kết quả tìm kiếm
Tối ưu hóa tìm kiếm bao gồm Onsite/Onpage và Offsite/ Offpage:
- Onsite: Gồm các hoạt động trên website như chỉnh sửa tiêu đề, thêm thẻmeta, chỉnh màu sắc, font chữ, cập nhật nội dung, …
- Offsite: Gồm các hoạt động bên ngoài website Offsite sẽ gián tiếp tácđộng vào thứ hạng website như backlinks, chia sẻ trên các mạng xã hội, …
2 Phân loại các tối ưu hóa tìm kiếm
Black hat: Là lợi dụng các khe hở, điểm yếu của các bộ máy tìm kiếm đểtăng thứ hạng website của mình một cách nhanh chóng Tuy nhiên, thứ hạng nàythường không bền vững vì bị các nhà cung cấp bộ máy tìm kiếm phạt do vi phạmcác tiêu chí của họ đề ra nhằm mang lại lợi ích tốt nhất cho người dùng Mứcphạt nặng nhất là xóa vĩnh viễn website đó ra khỏi các kết quả tìm kiếm
White hat: Là hướng tới người dùng, đáp ứng tối ưu các tiêu chí của bộmáy tìm kiếm để mang lại thứ hạng cao của website trên các SERPs Thường thứhạng của các White hat không lên nhanh bằng Black Hat, nhưng một khi đã lênthì thứ hạng này mang tính bền vững và lâu dài
Gray hat: Áp dụng cả hai cách của Black và White, thường gió theo chiềunào ngả theo chiều đó, miễn là đem lại thứ hạng cao cho website Cách này cũng
có thể bị phạt vì vẫn vi phạm các tiêu chí của bộ máy tìm kiếm
Blue hat: Là các bậc thầy chuyên nghiệp của tối ưu hóa tìm kiếm về Black
và White Nhóm này thường nghiên cứu, thử nghiệm và đưa ra các phương pháptìm kiếm tối ưu, có khi đi trước cả các tiêu chí mà bộ máy tìm kiếm chưa đề ra
3 Từ khóa
Từ khóa (Keyword) là thành phần quan trọng nhất của tối ưu hóa tìm kiếmđối với từng bộ máy tìm kiếm Từ khóa là những chuỗi ký tự hiển thị trùng khớp
Trang 14với thông tin lưu trữ trong cơ sở dữ liệu Xác định và tối ưu hóa từ khóa là bướcquan trọng cần phải ưu tiên trong toàn bộ các phương pháp tối ưu hóa tìm kiếm.Ngược lại, nếu chúng ta không xác định tốt từ khóa thì các kết quả thu đượcthường không khả quan Để xác định và tối ưu hóa các từ khóa thì các từ khóanày thường phải hội tụ các yếu tố cần thiết như nhu cầu tìm kiếm, ít đối thủ cạnhtranh, phải tóm tắt được nội dung và ý chính của toàn bộ website.
3.1 Xác định và tối ưu hóa từ khóa
Hiện nay, Internet đã trở nên phổ biến thì việc cạnh tranh và phát triểnnhằm duy trì vị trí cao với chuỗi từ khóa tìm kiếm một từ không còn khả thi, màthay vào đó là chuỗi tìm kiếm gồm từ hai hoặc ba từ trở lên sẽ thực tế hơn
Ví dụ, ta xây dựng một website chuyên nghiên cứu về loài rắn – snake, thìkhông nên cố tìm kiếm và tối ưu hóa những từ khóa như snake hoặc snakes Thayvào đó, ta tập trung nhiều hơn vào các từ khóa như là “snake obedience training”
“small snake breeds”, “snake food”
Để tối ưu hóa các từ khóa tìm kiếm, ta có thể sử dụng các công cụ hỗ trợ
có sẵn như Website Keyword Suggestions Tool, Google keyword Suggestiontool với rất nhiều gợi ý về danh sách kết quả ban đầu của từ khóa
Khi chọn từ khóa để tối ưu hóa, bên cạnh sự liên quan giữa từ khóa trongwebsite, ta cần xem xét kỹ số lần từ khóa này đã được tìm kiếm trong khoảngthời gian nhất định như theo tuần, theo tháng, theo năm Qua đó, chúng ta sẽ rút
ra các kinh nghiệm về sự đồng nhất giữa từ khóa và nội dung trong website
3.2 Mật độ từ khóa
Sau khi xác định được từ khóa cho website, tiếp theo ta cần sắp xếp, bố trí mật
độ từ khóa trong từng phần nội dung trên website để tránh khỏi sự nhàm chán cũngnhư lặp đi lặp lại nhiều lần trong một văn bản Mật độ càng cao thì mức độ liên quankhi tìm kiếm các từ khóa giữa các website sẽ càng trở nên chặt chẽ Theo khuyến cáocủa các chuyên gia thì mật độ này nên giữ ở mức 3% – 7% đối với 2 – 3 từ khóachính, và 1% – 2% đối với từ khóa phụ Chúng ta có thể dùng công cụ KeywordDensity Checker để xác định mật độ từ khóa trên website
Trang 153.3 Sắp xếp từ khóa tại nhiều vị trí khác nhau
Bên cạnh số lượng, từ khóa cũng yêu cầu về chất lượng, chẳng hạn nhưcách bố trí và sắp nhiều nhiều từ khóa hơn ở tiêu đề và đoạn mô tả đầu tiên trongbài Các con số này còn được tính nhiều hơn nếu ta đặt nhiều từ khóa hơn ở phíacuối trang Nguyên nhân chủ yếu là do các URL, tên tập tin, thư mục và tiêu đềtương ứng của từng đoạn văn riêng biệt quan trọng hơn nhiều so với phần nộidung văn bản
Đặt từ khóa trong URL và tập tin: Dễ dàng xác định các nội dung liênquan đến website của từ khóa đặt trong URL
Tiếp theo, ta nên chọn tên miền sao cho dễ nhớ và có tính khả thi, ví dụnhư quantrimang.com sẽ dễ nhớ và mang lại hiệu quả hơn nhiều so vớitimhieuquantrimang.com hay nghiencuuquantrimang.com
Đặt từ khóa trong trang tiêu đề: Đây cũng là một trong những vị trí kháđặc biệt và quan trọng Bởi vì toàn bộ thông tin, nội dung trong thẻ <title>thường xuyên được các bộ máy tìm kiếm để ý tới, đặc biệt là Google Do đó, tanên đặt thông tin miêu tả hoặc nói về nội dung chính của website tại phần này
Trang 16CHƯƠNG II HỆ TÌM KIẾM THÔNG TIN GOOGLE, BING VÀ YANDEX
I Google
1 Sơ lược về Google
Năm 1996, Google được nghiên cứu bởi Larry Page và Sergey Brin, hainghiên cứu sinh tại trường Đại học Stanford Page và Brin tin rằng những trang
có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là những trang thích hợpnhất Và hai người đã quyết định thử nghiệm giả thuyết này trong nghiên cứu của
họ, tạo nền móng cho công cụ Google hiện giờ
Ngày 15/09/1997, tên miền www.google.com được đăng ký
Ngày 07/09/1998, công ty Google, Inc được thành lập tại một ga ra củanhà Esther Wojcicki ở Menlo Park, California
Từ 2003 đến nay, công ty có trụ sở được đặt tại địa chỉ 1600 AmphitheaterParkway, Mountain View, California
Công cụ tìm kiếm Google được nhiều người dùng ủng hộ và sử dụng vì nóđược trình bày một cách tiện lợi, đơn giản và đem lại kết quả thích hợp
Đầu năm 2004, thời kỳ đỉnh cao, Google đã xử lý trên 80% số lượng tìmkiếm trên Internet qua website của Google
Phương châm của Google là “Không làm ác” (Don't be evil) Biểu trưngcủa Google được sửa đổi một cách dí dỏm vào những ngày đặc biệt, ngày lễ haysinh nhật của một nhân vật quan trọng
Giao diện của Google có trên 100 ngôn ngữ khác nhau, kể cả tiếng Việt vàmột số ngôn ngữ dí dỏm như tiếng Klingon và tiếng Leet
2 Tìm kiếm, xếp hạng các website
Google là cỗ máy tìm kiếm phổ biến nhất thế giới hiện nay, thuật toán vàquy trình tìm kiếm dữ liệu website được Google phát triển rất tối ưu, quy trình đónhư sau:
- Khi người dùng tìm kiếm không phải tìm trực tiếp trên Internet mà đangtìm dữ liệu trong các máy chủ của Google
- Google sử dụng phần mềm tìm kiếm thông tin trên Internet gọi là Spider
- Spider di chuyển giữa các trang web thông qua các liên kết (link)
Trang 17- Google sử dụng thuật toán để sắp xếp và hiển thị các kết quả tốt nhất ở
10 vị trí đầu tiên
3 Các giai đoạn tìm kiếm thông tin của Google
3.1 Tìm kiếm thông tin
Trong giai đoạn này, Google Bot tìm kiếm thông tin mới và website mớitheo các nguồn:
Khám phá qua liên kết (Discovery Crawl): Các Google Bot sẽ duyệt, tìmkiếm và thu thập thông tin của các website trên Internet Các liên kết sẽ giúp bộmáy tìm kiếm đi từ webpage này sang webpage khác
Khám phá qua Sitemaps (Sitemap Crawl): Nếu website của ta không cóliên kết nào tới, thì Google dùng Google webmaster tool để phát hiện URL mớithông qua việc đưa ra các sitemap
Lọc liên kết với Spam Filter:
- Nhóm 1: Các Spider không chạy theo các liên kết một cách ngẫu nhiên
mà đi theo một thứ tự ưu tiên Google Bot sẽ quét dữ liệu trong các danh bạwebsite lớn như Yahoo!, CNN, … là nơi có nhiều website thường được cập nhậtmới
- Nhóm 2: Google Bot tiếp tục tìm các liên kết trong nhóm 1 để tìm liênkết ngoài Toàn bộ các URL này sẽ được công cụ Spam Filter thực hiện để lọc racác liên kết trùng lặp, hỏng Trong quá trình này, nếu các liên kết đến bị lỗi thì nó
sẽ được đưa lại quá trình khai phá liên kết (Discovery Crawl)
Hình 17.4 Google Bot tìm kiếm thông tin
Trang 183.2 Lập chỉ mục
Google thu thập nội dung trong website bằng công cụ web crawler WebCrawler tạo ra các HTTP request truy cập vào website để thực hiện quá trình rúttrích dữ liệu trên các trang đó Lúc này, nếu có URL mới được phát hiện thì nóđược đưa trở lại giai đoạn Discovery Crawl Sau khi có được dữ liệu, bước tiếptheo là phân tích cú pháp để xác định nội dung của webpage
Phân tích cú pháp (Parsing): Cho phép Google loại bỏ các từ phổ biến (và,thì, mà, là,…), loại bỏ các khoảng trống, con số để kết hợp các từ thành cụm từ
có ý nghĩa
Sau khi một webpage qua bước Parsing, nó sẽ được đánh dấu và cho vàomột nơi riêng được mã hóa theo một định danh Nó được phân loại theo nhiềucách khác nhau (khu vực, ngôn ngữ, chủ đề,…) để nhanh chóng truy xuất kết quảkhi có truy vấn tìm kiếm đến nó (từ khóa), thông thường thời gian dưới 1s
3.3 Xếp hạng
Sau khi website đã được lập chỉ mục và lưu trữ trong trung tâm dữ liệucủa Google Nó sẽ được đánh giá và xếp hạng để hiển thị ở trang kết quả tìmkiếm thông qua thuật toán của Google
Bảng 15.1 Các nhân tố OnPage
Trang 19Các nhân tố OnPage được ứng dụng để hỗ trợ trong quá trình phân tích cúpháp Các từ khóa được làm nổi bật, có tần suất, mật độ xuất hiện cao sẽ đượcGoogle dễ dàng nhận biết để sắp xếp và phân loại website.
4.1.2 Nhân tố OffPage
Cũng được đánh giá theo thang điểm 5, gồm các nhân tố cơ bản được mô
tả trong bảng sau
Mức độ phổ biến liên kết trong trang (Internal Link) 4/5
Các nhân tố OffPage liên quan nhiều đến việc xếp hạng website CácInternal Link, Link velocity giúp Google tìm ra những trang đích có chất lượng
và được đánh giá cao
4.2 Thuật toán PageRank
PageRank được phát triển tại đại học Stanford bởi Lary Page và SergeyBrin như một phần dự án của công cụ tìm kiếm mới Và được cấp bằng sáng chếngày 4 tháng 9 năm 2001 Đây là một thuật toán dựa trên đồ thị web, có tínhnăng xếp hạng trang web của các máy tìm kiếm nhằm sắp xếp thứ tự ưu tiên cácURL trong trang kết quả tìm kiếm
Bảng 16.2 Các nhân tố OffPage
Hình 19.5 Đồ thị duyệt web của thuật toán PageRank
Trang 20Theo Google, PageRank chỉ được đánh giá từ hệ thống liên kết URL.Website càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng càng tăng Tuynhiên, đây chỉ là những khái niệm sơ đẳng nhất mà Google hiếm khi thông báochính thức Thực tế, thuật toán PageRank phức tạp hơn nhiều, và còn là bí mật.
Để đánh giá và xếp hạng một website A, thuật toán PageRank tính theocông thức sau:
PR(A) = (1-d) + d * { PR(T1)/C(T1) + … + PR(Tn)/C(Tn) }Trong đó:
- PR(A) là PageRank của trang A
- d là hằng số, mặc định là 0.85 và có thể thay đổi
- PR(Tn) là PR của trang Tn cung cấp cho trang A một backlink
- C(Tn) : số liên kết ngoài từ trang Tn
Ví dụ, giả sử ở đây ta có 2 trang:
+ Trang 1 ký hiệu là “T1” có PR = 7 và 2 liên kết ngoài
+ Trang 2 ký hiệu là “T2” có PR = 4 và 5 liên kết ngoài
Khi đó Pagerank của trang A được tính như sau:
Trang 214.3 Thuật toán Google Panda
Thuật toán Google Panda là một thuật toán máy học, do kỹ sư NavneetPanda đề xuất, được dùng để thay thế cho thuật toán PageRank trước đây
Ngày 24/02/2011, Thuật toán Google Pand được chính thức áp dụng lêntrang tìm kiếm của Google
Thuật toán Google Panda được phát hành nhằm hạ thấp thứ hạng các trangweb có chất lượng thấp trong trang kết quả tìm kiếm Các website được Googlecho là mang chất lượng kém là sao chép nội dung, có nhiều backlink rác, lạmdụng từ khóa, chèn nội dung quảng cáo quá mức
Sau khi phát hành, thuật toán Google Panda đã ảnh hưởng đến bảng xếphạng của gần 12 % của tất cả các kết quả tìm kiếm Chưa dừng lại ở đó, sau lầncập nhật tiếp theo vào ngày 11/04/2011 thì con số này tiếp tục tăng thêm 2% Đểgiúp các nhà xuất bản bị ảnh hưởng, Google đưa ra 4 tiêu chí chính trong thuậttoán Google Panda để đánh giá chất lượng của một trang web
- Thời gian khách truy cập trên website: Nếu người dùng tìm thấy nhữngnội dung hữu ích và đáp ứng đúng nhu cầu của họ, khả năng họ ở lại trên website
để tìm những thông tin liên quan là rất cao Do đó các trang web mà người dùnggiành nhiều thời gian để đọc và tìm những bài viết trên website sẽ được Googleđánh giá cao
- Tỷ lệ Bounce Rate: Thuật toán Google đưa ra là khi một website đượcngười dùng thường xuyên truy cập sẽ là website có giá trị và không rơi vào bộlọc của Google Panda
- Tỷ lệ khách hàng quay trở lại: Google tin rằng chỉ có chất lượng websitemới khiến người dùng quay trở lại website thường xuyên hơn
- Mạng xã hội: Mục đích của Google Panda là để giúp chọn lọc ra cácwebsite hoạt động thực sự bởi con người chứ không phải máy móc Do đó nhữngmạng xã hội là tiêu chí đánh giá khá quan trọng khi tại đây những yếu tố tươngtác rất mạnh chỉ có con người mới có thể làm được như trên Facbook, Twister,…
Ngày 05/11/2012 Google Panda được cập nhật và có khoản 1,1% truy vấntiếng Anh tại Mỹ bị ảnh hưởng Như thường lệ, Google luôn cập nhật Panda
Trang 22trước khi công bố, các con số được đưa ra dựa trên tính toán và thông báo chínhthức của Google Để xác định mức độ ảnh hưởng của Google Panda đối vớiwebsite, chúng ta có thể sử dụng công cụ Google Analytics để phân tích và khắcphục các vấn đề.
4.4 Thuật toán Google Penguin
Ngày 24/04/2012 thuật toán Penguin được Google công bố lần đầu tiên.Mục tiêu của Google Penguin là đẩy các trang web chất lượng cao hơn xếp ởtrên trong kết quả tìm kiếm Thuật toán này tập trung xử lý các website rác, đồngthời loại bỏ những nội dung rác, nội dung sao chép, các trang vi phạm Google’sWebmaster Guidelines và sử dụng kỹ thuật Black Hat, trong đó 2 kỹ thuật phổbiến được đề cập là keyword stuffing và Link Schemes
- Keyword stuffing là thủ thuật bố trí nội dung sao cho lặp đi lặp lại từkhóa nhằm có lợi hơn trong kết quả xếp hạng từ khóa đó
- Link Schemes: Là một thuật ngữ bao gồm việc chế tác Pagerank, sao chowebsite của mình có thứ hạng cao
Tuy nhiên, theo Matt Cutt, phụ trách về mảng chất lượng tìm kiếm chobiết “Không có thuật toán nào là hoàn hảo cả Khi chúng tôi muốn sự hoàn hảo,phương pháp thử nghiệm của chúng tôi là “Làm những gì để có kết quả tốt hơntrước””
Trọng tâm chính của Penguin là chất lượng các backlinks và cách thức cácwebsite xây dựng các backlinks đó Penguin nhấn mạnh về uy tín và chất lượngcủa website có liên kết đến website của chúng ta hơn là số lượng liên kết màwebsite chúng ta có Phát hiện và xử lý các nguồn backlinks không tự nhiên
Kết quả tìm kiếm phải luôn mang lại lợi ích cho khách hàng nên dù thếnào thì nội dung vẫn là quan trọng nhất Website không mang lại nội dung đúngvới khách hàng yêu cầu thì không thể mong đợi họ sẽ ghé thăm và đọc nội dungnhiều Cách tốt nhất là nên tạo nội dung mới mẻ, duy nhất và chất lượng
Các thuật toán của Google thường xuyên cập nhật để mang lại kết quả phùhợp nhất cho người dùng
Trang 23Dưới đây là danh sách những phiên bản Google Penguin đã được Googlecập nhật kèm teh những tác động của nó
- Google Penguin 1: 24/04/2012 Mức độ ảnh hưởng 3,1%
- Google Penguin 2: 26/05/2012 Mức độ ảnh hưởng 0,1%
- Google Penguin 3: 05/10/2012 Mức độ ảnh hưởng 0,3%
Các thuật toán tìm kiếm và xếp hạng website của Google được đưa rakhông bao giờ tiết lộ chính xác những thông tin chi tiết
5 Tùy biến trong tìm kiếm
5.1 Lệnh tìm kiếm
Khi nhập một từ khóa dù dài hay ngắn và nhấn nút lệnh “tìm kiếm”,Google sẽ trả về cho người dùng kết quả phù hợp nhất theo thứ tự từ trên xuốngdưới, dù người dùng nhập vào một từ khóa không đúng chính tả
Bên cạnh, khả năng tùy biến nâng cao sẽ giúp cho người dùng tìm kiếmchính xác cụm từ, tìm kiếm trong một khoảng thời gian nhất định, trong mộtwebsite nhất định hay theo định dạng tập tin, ngôn ngữ, …
Ví dụ, người dùng có thể tìm kiếm cụm từ “Quảng cáo trên Google” chỉtrên trang quangcaogoogles.com với câu lệnh như sau:
“Quảng cáo trên Google” site:quangcaogoogles.com”
Câu lệnh này sẽ trả về cho người dùng theo thứ tự từ trên xuống dưới các trangphù hợp nhất với cụm từ tìm kiếm trên website http://quangcaogoogles.com
5.2 Từ khóa liên quan
Công cụ tìm kiếm Google không chỉ dựa trên từ khóa người dùng yêu cầu,
mà còn có thể tự động mở rộng phạm vi tìm kiếm đối với các từ đồng nghĩa, từgần nghĩa, hoặc khi người dùng gõ sai chính tả
Ví dụ, với các từ khóa “IBM laptop” hoặc “laptop IBM” đều có thể trả vềcho người dùng 10 kết quả giống hệt nhau, do 2 từ khóa này là đồng nghĩa
Khả năng mở rộng phạm vi tìm kiếm chính là yếu tố làm cho Google trởnên “thông minh” và thân thiện hơn với người dùng
Trang 245.3 Xem trang đầu tiên
Google cung cấp cho người dùng nút tìm kiếm “Xem Trang Đầu Tiên TìmĐược” (I’m Feeling Lucky) nhằm giúp cho người dùng không phải xem các kếtquả liệt kê mà vào thẳng kết quả đầu tiên trong kết quả của Google
Một nghiên cứu cho biết, tính năng này tiêu tốn của Google khoảng 110triệu USD mỗi năm, do 1% số người dùng tính năng này không tiếp cận được cácquảng cáo của Google
5.4 Cú pháp tìm kiếm nâng cao
Bằng việc sử dụng các cú pháp đơn giản, Google sẽ giúp người dùng cóthể tùy biến việc tìm kiếm một cách hiệu quả nhất, như sau:
Or A hoặc B Thời trang nam OR nữ: Tìm kiếm thời trang nam
hoặc thời trang nữ
- Lệnh loại trừ
quảng cáo –online: Tìm kiếm các website liênquan tới “quảng cáo” nhưng không chứa từ khóa
“online”
+ Lệnh bổ sung “quảng cáo +online”: Kết quả trả về với các từ
khóa “quảng cáo” phải có chứa từ khóa “online”
Allinurl Tìm từ khóa trong
URL các trang
“allinurl/quảng cáo” Tìm từ “quảng cáo” trong cácURL các trang web
Trang 25Inurl Tìm một phần từ
khóa trong URL
“inurl:quảng cáo”: Tìm một phần từ khóa “quảngcáo” có trong URL
website liên quan
tới website đang
6 Các tính năng tìm kiếm của Google
6.1 Tìm kiếm tức thời – Google Instant
6.1.1 Giới thiệu về Google Instan
Ngày 08/09/2010 Google công bố sản phẩm mới trong bộ máy tìm kiếmcủa mình, có tên là Google Instant Một tính năng mới cho phép từ khóa tìmkiếm xuất hiện ngay lập tức trong khi người dùng đang gõ câu truy vấn
Theo thông tin chính thức từ blog của Google thì: “Google Instant là tìmkiếm trước khi người dùng gõ chữ Google Instant sẽ phân tích các chữ mà ngườidùng gõ và dự đoán các chữ tiếp theo là một loạt kết quả theo dự đoán ngay khingười dùng gõ chữ, nó rất nhanh và thông minh trong việc dự đoán”
Trang 26Google Instant dựa vào kỹ thuật Auto-Complete để dự đoán câu truy vấncủa người dùng, có màu xám trên ô tìm kiếm Với Google Instant, người dùng cóthể “Cuộn để tìm kiếm”, nghĩa là nó cho phép người dùng sử dụng phím mũi tên,duyệt qua các từ gợi ý, trong khi duyệt qua thì kết quả cũng xuất hiện ngay lậptức.
6.1.2 Nền tảng công nghệ
Google ước tính với công nghệ mới này sẽ làm tăng từ 5 – 7 lần kết quảtìm kiếm Google Instant không chỉ làm tăng khả năng thích ứng của máy chủvới Instant Search, mà nó còn là một công nghệ thông minh Theo blog chínhthức của Google, Google Instant có những cải tiến công nghệ từ phía máy chủnhư sau:
- Tối ưu hóa JavaScript: Instant Search là một ứng dụng trên nền tảngcông nghệ Ajax Do đó, Google cần phải tối ưu hóa JavaScript để giữ cho cáctrình duyệt đang chạy có thể hoạt động hiệu quả
- Bộ nhớ đệm (Cache): Một chiến lược bộ nhớ đệm vững chắc có thể làmtăng hiệu quả và hiệu suất của dữ liệu thường xuyên được yêu cầu nạp vào bộnhớ máy chủ để truy cập siêu tốc
- Trạng thái dữ liệu người dùng: Google sẽ tiến hành lưu trữ trạng thái dữliệu người dùng trên máy chủ Google Đây là một nỗ lực lưu giữ những gì đãđược hiển thị cho người dùng Bằng cách này, Google không cần nạp lại dữ liệu
đã có trong trình duyệt của người dùng
Google không thực sự cung cấp bất kỳ một giải thích kỹ thuật nào từ phíamáy chủ Tuy nhiên, chúng ta có thể sử dụng công cụ Firebug để phân tích những
gì đang xảy ra với phía khách hàng Công cụ này chỉ ra rằng, Google đang làmmột Ajax GET yêu cầu trên tất cả các phím bấm Bên cạnh, Google thực hiệnlệnh GET cho mỗi ký tự được gõ Nếu chúng ta thêm, hay xóa các từ tìm kiếm,Google không thực hiện một GET mới, vì Google có những gì cần cho các truyvấn Điều này là rất hiệu quả
Ngoài ra, Google còn sử dụng nền tảng công nghệ JSON thay cho XML
để đem lại các nội dung cần thiết trong các kết quả phổ biến
Trang 27JSON, JavaScript Object Notation là một tiêu chuẩn mở tương đối nhẹ đểtrao đổi dữ liệu văn bản JSON là ngôn ngữ độc lập, mặc dù tên của nó bao gồm
Nhập ít hơn: Kết quả được tạo tự động cho phép người dùng dừng nhậpngay khi thấy thông tin cần tìm Theo Google ước tính thì điều này sẽ giúp giảm
đi khoảng 9 lần bấm phím so với số lần bấm phím trung bình cho mỗi tìm kiếm
Dự đoán thông minh hơn: Ngay cả khi người dùng không biết chính xácnội dung đang tìm kiếm, các dự đoán sẽ hướng dẫn tìm kiếm giúp người dùng
Tìm kiếm thông minh hơn: Giống như người dùng đang trò chuyện vớicông cụ tìm kiếm, và nhận phản hồi ngay lập tức về kết quả thông tin đang tìm cóhay không Nếu không, chỉ cần nhập thêm một hoặc hai từ khác để xem liệu kếtquả có gần hơn với thứ người dùng đang tìm kiếm hay không
Ví dụ, khi nhập vào nhóm từ tìm kiếm “trường đại học công nghệ” thìnhóm từ được dự đoán ở mức cao nhất là “ trường đại học công nghệ thông tin”,
và kết quả trả về liên quan đến nhóm từ dự đoán này chứ không phải kết quả tìm:
“trường đại học công nghệ”
Hình 28.7 Ví dụ về Google Instant
Trang 286.1.4 Hoạt động của Google Instant
Địa phương hóa: Phụ thuộc vào khu vực địa lý của người dùng, ngườidùng sẽ nhận được các dự đoán và kết quả tìm kiếm tương ứng Google Instantcũng sử dụng thông tin cá nhân, nếu một trang nào đó người dùng thường xuyênvào nó sẽ được xếp ở trên
Bộ lọc trong Google Instant: Google Instant sử dụng bộ lọc để lọc các nộidung nhạy cảm.Ví dụ, nếu tìm kiếm có một từ nào đó liên quan đến nội dungngười lớn như từ porn, nude… lập tức Google Instant bị tắt
Yêu cầu cấu hình máy: Do trang web luôn thực hiện thao tác request và
xử lý các response, Google Instant chỉ sử dụng trên các máy đủ mạnh
6.2 Xem trước trang kết quả
Google Instant Preview, chức năng tìm kiếm nhanh kèm khả năng xemtrước nội dung trang mà không cần mở
Google Instant Preview cho phép người dùng xem trước nội dung một số trangkết quả khi nhấp chuột lên hình kính lúp nhỏ ở bên cạnh và một khung mới sẽhiển thị ở bên phải
Instant Preview còn chỉ ra đâu là những từ khóa đáng xem nhất trên trang.Nếu như người dùng tìm kiếm với những cụm từ nhất định, Google có thể tìmkiếm nó và làm nổi bật để dễ tham khảo Đó là cách giúp nắm bắt nhanh về trangweb kết quả tìm kiếm để người dùng chắc chắn rằng đó là trang đang cần tìm
CH1001084 – Võ Sơn Trí 28
Trang 29Google Instant Preview chứa hai liên kết là bộ nhớ đệm (cache) và sựtương đồng các trang web (similar).
6.3 Kiểm tra lỗi chính tả
Phần mềm kiểm tra lỗi chính tả của Google sẽ tự động kiểm tra xem truyvấn của người dùng có sử dụng chính tả thông dụng nhất của từ cho sẵn không.Nếu người dùng nhập từ khóa sai chính tả thì có thể chọn phần chính tả được đềxuất bởi Google để bắt đầu tìm kiếm với nó
6.4 Tìm kiếm bằng giọng nói
Ngày 14/06/2011, Google đã tổ chức một sự kiện truyền thông tại SanFrancisco, Mỹ để giới thiệu 2 tính năng mới nhất trong mảng tìm kiếm của mình
là Voice Search (tìm kiếm bằng giọng nói) và Image Search (tìm kiếm bằng hìnhảnh)
Tính năng Voice Search trước đây đã được Google thử nghiệm trên bảnChrome 11 Beta, giờ đây đã được gã khổng lồ ngành tìm kiếm chính thức đưavào máy tính và các thiết bị di động trên trình duyệt Chrome
Người dùng thực hiện tìm kiếm với Voice Search rất đơn giản là chỉ việcchọn biểu tượng micro và nói những gì người dùng cần tìm kiếm, Google sẽ tựđộng hiển thị kết quả tìm kiếm cho người dùng Hiện nay, Voice Search chỉ mới
hỗ trợ tiếng Anh Sử dụng Voice Search có những lợi ích sau:
Hình 29.9 Kiểm tra lỗi chính tả của Google
Trang 30Các tìm kiếm khó đánh vần: Giúp tìm kiếm các từ mà người dùng khôngchắc chắn cách đánh vần nhanh và dễ dàng hơn
Các tìm kiếm dài hơn: Tìm kiếm các câu truy vấn dài, thậm chí là các truyvấn thực sự rất dài, chỉ bằng cách nói
Tìm kiếm thực sự thú vị hơn khi nói to: Giờ đây, người dùng có thể yêucầu máy tính thực hiện bất kỳ việc gì
Tìm kiếm mà không cần phải nhập: Sử dụng tìm kiếm bằng giọng nóitrong bếp, trong gara hoặc bất kỳ lúc nào hai tay người dùng có thể đang bận
6.5 Tìm kiếm bằng hình ảnh
Như đề cập ở trên, ngày 14/06/2011, tính năng Image Search cũng đượcgiới thiệu Để thực hiện việc tìm kiếm, người dùng cần kéo và thả ảnh vào khungtìm kiếm, Google sẽ làm nhiệm vụ chia bức ảnh đó ra thành nhiều phần nhỏ,phân tích, tìm kiếm những phần tương tự trên Internet và cho ra kết quả
Hình 30.10 Tìm kiếm bằng hình ảnh của Google
Trang 316.6 Hiển thị đa dạng kết quả
Google không chỉ thực hiện tìm kiếm trên các văn bản mà còn tìm kiếmtrên ảnh, video, bản đồ,
7 Các dịch vụ tìm kiếm của Google
Tìm kiếm hình ảnh: Với chức năng tìm kiếm bằng hình ảnh, người dùng
có thể nhập từ khóa hay kéo thả hình ảnh vào ô tìm kiếm, sau đó Google sẽ trả vềcác kết quả phù hợp nhất cho người dùng
Trang 32đang áp dụng phổ biến tại Mỹ, nhưng chưa được áp dụng với nhiều Google bảnđịa khác.
Chứng khoán: Biểu đồ của thị trường chứng khoán cũng được Googlehiển thị trên các kết quả của mình nếu khách hàng có nhu cầu tìm kiếm Các mã
cổ phiếu, đồ thị tăng giảm, giá cả… đều được thể hiện trên biểu đồ
Múi giờ: Tìm kiếm múi giờ tại một quốc gia nào đó trên thế giới trở nênquá đơn giản đối với Google Câu lệnh: time “địa điểm”
Kết quả thể thao: Có thể tìm thấy trên Google nhờ việc gõ tên đội hoặcgiải đấu trên ô tìm kiếm
Máy tính: Những phép tính cơ bản có thể được thực hiện trực tiếp trên ôtìm kiếm Ví dụ: 3*5 -pi + sqrt(2)
Chuyển đổi đơn vị đo lường: với một câu lệnh đơn giản, người dùng cóthể chuyển đổi đơn vị đo lường nhanh chóng (bằng tiếng Anh) Ví dụ: 90km inmiles
Chuyển đổi tiền tệ: Sử dụng mã tiền tệ và giá trị cần quy đổi sẽ trả lại chongười dùng kết quả chính xác với Google Ví dụ: 1234 Euro in USD
Tra cứu từ điển (Anh – Anh, Anh – Mỹ): với câu lệnh: define “từ khóa”,người dùng có thể tìm được định nghĩa của nó trong từ điển tiếng Anh một cáchnhanh chóng
Bản đồ: Google Maps đã quá nổi tiếng, chỉ cần với ZIP Code hoặc tên địadanh, Google Maps sẽ đưa người dùng tới vị trí phù hợp trên bản đồ
Lịch chiếu phim: Câu lệnh movies “tên phim” sẽ giúp người dùng dễ dàngtìm thấy thời gian chiếu phim phù hợp trong khu vực của người dùng Tuy nhiêntính năng này đôi khi không chính xác
Các dữ liệu cộng đồng: Thống kê về dân số, tỷ lệ thất nghiệp của từng khuvực (tại Mỹ) có thể dễ dàng được tìm thấy trên Google Search
Bất động sản: Các dữ liệu bất động sản từng bang ở Mỹ có thể được tìmthấy bằng các câu lệnh đơn giản: “home”, “housing”, “real estate” trên Google
Lịch bay, chuyến bay: Lịch bay và hạ cánh của các chuyến bay tại Mỹ cóthể tìm thấy nhanh chóng trên Google
Trang 33Dữ liệu vận chuyển hàng hóa: Sử dụng các mã số hàng, hãng vận tải cóthể giúp người dùng nắm được thông tin về hàng hóa đang được vận chuyển.
Sở hữu trí tuệ: Chỉ cần gõ mã số của đăng ký sở hữu trí tuệ, người dùng sẽ
có đủ thông tin về đăng ký này Câu lệnh: patent “số đăng ký”
Mã vùng: Mã điện thoại từng vùng tại Mỹ có thể được tìm thấy khi dùngGoogle để tìm mã vùng tương ứng với địa điểm
Từ đồng nghĩa: Chỉ với ký tự ~ trước từ khóa, người dùng có thể tìm thấycác từ đồng nghĩa một cách dễ dàng
Công cụ tìm kiếm cho chính phủ Mỹ: Tìm kiếm cụ thể các website củachính phủ có thể được thực hiện tại www.google.com/ig/usgov
II Bing
1 Sơ lược về Bing
Ngày 03/06/2009, bộ máy tìm kiếm Bing chính thức đi vào hoạt động tạiđịa chỉ http://www.bing.com Tiền thân của Bing trước đây là Live Search,Windows Live Search và MSN Search
Bên cạnh chức năng tìm kiếm, Bing còn là đối thủ cạnh tranh với ngườikhổng lồ Google trong lĩnh vực tìm kiếm Microsoft hiện là chủ quản của Bing
2 Thuật toán xếp hạng BrowseRank
2.1 Dữ liệu về hành vi người dùng
Khi nghiên cứu chỉ số BrowseRank, Microsoft cho rằng: “Càng nhiềungười truy cập trang và thời gian duyệt trang càng lâu thì chứng tỏ nội dung trangcàng hấp dẫn Chúng tôi có thể dựa vào thói quen sử dụng của hàng trăm triệungười dùng để xác định mức độ quan trọng của trang”
Hình 33.12 Đồ thị duyệt web dữ liệu người dùng
Trang 34Khi lướt web, người dùng sẽ có một số thông tin họ cần Để duyệt mộttrang mới, người dùng có thể nhấp chọn một liên kết đến nó, hoặc nhập địa chỉURL vào trình duyệt web Người dùng có thể lặp đi, lặp lại điều này cho tới khitìm thấy thông tin họ cần hoặc từ bỏ Dữ liệu hành vi người dùng có thể được ghilại và được mô tả bởi 3 tham số <URL, TIME, TYPE> Các dữ liệu được sắp xếptheo thứ tự thời gian Trong đó:
- URL: Là địa chỉ trang web truy cập của người sử dụng
- TIME: Là thời gian của chuyến thăm
- TYPE: Cho biết kiểu truy cập là URL (INPUT), hay là một siêu liên kết trêntrang trước đó (CLICK)
2.2 Ước lượng q ii
Một quá trình Q-Process có thời gian tạm trú Ti trên đỉnh thứ i được quản
lý bởi một phân phối tham số mũ qii có công thức như sau:
P(Ti > t) = exp(qii , t)Tuy nhiên, nhiệm vụ này không đơn giản như vậy, bởi vì các quan sáttrong hành vi dữ liệu người dùng thường chứa các thông tin nhiễu do tốc độ kếtnối Internet, kích thước trang, cấu trúc trang, và các yếu tố khác Nói cách khác,các giá trị quan sát không hoàn toàn đáp ứng theo cấp số nhân phân phối Để giảiquyết thách thức này, thuật toán sử dụng một mô hình tiếng ồn phụ (an additivenoise model) để mô tả các quan sát, thực hiện một ước lượng khách quan và nhấtquán cho tham số qii
Giả sử trang i, có quan sát mi về thời gian tạm trú trong các dữ liệu hành
vi người dùng, ký hiệu là Z1, Z2, , Zmi, và chúng có cùng một phân phối biến
Hình 34.13 Ví dụ về URL – TIME - TYPE
Trang 35ngẫu nhiên Z Để không mất tính tổng quát, chúng ta giả sử rằng Z là sự kết hợpcủa thời gian thực tạm trú Ti và độ nhiễu U, tức là: Z = U + Ti
Giả sử độ nhiễu U được quản lý bởi phân phối Chi-square Chi(k), thì giátrị trung bình và phương sai của nó lần lượt là k và 2k Tiếp tục giả sử giá trịtrung bình và phương sai của Z là , giả sử U và Ti độc lập, ta có:
Giá trị trung bình của Z là:
Và phương sai là:
qii sẽ được tính tối ưu như sau:
Phân phối Chi-square sử dụng rộng rãi mô hình tiếng ồn phụ có giá trịnằm trong khoảng [0, + ∞)
2.3 Ước lượng EMC
Ta sẽ bắt đầu với người dùng duyệt web có đồ thị G =< V, W, T , σ >, sau
đó ta sẽ thêm một đỉnh giả định là đỉnh thứ (N + 1) vào G và thêm hai loại cạnhnhư sau:
- Cạnh thứ nhất: Cạnh từ trang cuối cùng trong mỗi phiên đến đỉnh giảđỉnh, kết hợp với số lần nhấp chuột của trang cuối được xem như là trọng số củanó
- Cạnh thứ hai: Cạnh từ đỉnh giả đỉnh đến trang đầu tiên trong mỗi phiên,kết hợp với khả năng thiết lập lại xác suất Lúc này, ta sẽ có một đồ thị mới là:
Trong đó, , ,
2σ
µ và
Trang 36Sau đó, chúng ta giải thích mô hình EMC (embedded Markov chian) như
là duyệt ngẫu nhiên trên đồ thị , được tính như sau:
Khi chúng ta lướt trên đồ thị duyệt web, ta có thể đi tới trước dọc theocạnh có xác suất α, hoặc khởi động lại một trang mới có xác suất ( 1- α ) Việcchọn một trang mới sẽ thiết lập lại xác suất
2.4 Đánh giá mức độ quan trọng của trang
Giả sử X là một Q-Process, Y là một EMC xuất phát từ Q-matrix Cho
và biểu diễn một phân bố xác suất tĩnh củaquá trình X và Y, ta có:
2.5 Thuật toán
Input: Dữ liệu hành vi người dùng
Output: π: Mức độ quan trong của trang.
Mã giả:
B1 Xây dựng cấu trúc đồ thị duyệt web của người dùng
B2 Ước lượng qii cho tất cả các trang (theo 2.2)
B3 Ước lượng ma trận xác suất chuyển của EMC và nhận lại phân bố xác suấttĩnh của nó (theo 2.3)
B4 Tính phân bố xác suất tĩnh của Q-Process (theo 2.4)
2.6 So sánh
Các nhà nghiên cứu Microsoft đã trích ví dụ về Website Adobe như sau:Website này được Google đánh giá rất cao, với bằng chứng là chỉ số PageRankđạt điểm tối đa 10/10, bởi đường dẫn tới Adobe Flash hay Adobe Reader đượctrích dẫn rất nhiều trên Internet Đó là các ứng dụng để đọc tập tin có định dạng
*.flv hay các tập tin văn bản có định dạng *.pdf Và Microsoft đã chỉ trích rằng:
“Tuy vậy, người dùng Internet không viếng thăm thường xuyên trang này và nó
~
G